Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Карап чыгуу

Николаевский Ванёк

Карап чыгуу

Мир сегодня с "Юрий Подоляка"

Карап чыгуу

Труха⚡️Україна

Карап чыгуу

Николаевский Ванёк

Карап чыгуу

Neural Deep

Привет, меня зовут Валера и это записки Fullstack CEO рассказываю про решения сделанные на базе AI
Невнятный r&d моё хобби
Трансляция идей по умолчанию
Обожаю собирать сервера
Иногда увлекаюсь 3D печатью
Вопросы: https://t.me/neuraldeepchat
ndt b

TGlist рейтинг

ТипАчык

Текшерүү

Текшерилбеген

Ишенимдүүлүк

Ишенимсиз

ОрдуРосія

ТилиБашка

Канал түзүлгөн датаВер 22, 2023

TGlistке кошулган дата

Лют 11, 2025

Мен каналдын ээсимин

Өзгөрүүлөр тарыхы

Тиркелген топ

Чат Kovalskii Варианты?

270

Telegram каналы Neural Deep статистикасы

Толугураак

Катталгандар

4 048

24 саат

70.2%Жума

461.2%Ай

2286%

Цитация индекси

0

Эскерүүлөр0Каналдарда бөлүштү0Каналдарда эскерүүлөр0

1 посттун орточо көрүүлөрү

310

12 саат413

33.2%24 саат3100%48 саат4360%

Катышуу (ER)

5.81%

Кайра посттошту18Комментарийлер0Реакциялар13

Көрүүлөр боюнча катышуу (ERR)

0%

24 саат0%Жума0%Ай

1.82%

1 жарнама посттун орточо көрүүлөрү

310

1 саат10032.26%1 – 4 саат00%4 - 24 саат00%

Толугураак

Биздин ботту каналыңызга кошуп, анын аудиториясынын жынысын билүү.

Акыркы 24 саатта бардык посттор

1

Динамика

"Neural Deep" тобундагы акыркы жазуулар

Бардык посттор

06.04.202512:26

Structured Output = Stream?

Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинка

Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает

Есть решение использовать extra body и передать туда схему в метод client.chat.completions.create на vLLM можно наблюдать стриминг схемы в реальном времени

    # Extra body parameters with schema

На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону

Кайра бөлүшүлгөн:

LLM под капотом

05.04.202514:14

SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом

Так выходит, если судить по комментариям в моем прошлом опросе.

Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:

- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/

Ваш, @llm_under_hood 🤗

03.04.202517:47

Мы в red_mad_robot реализовали интересный кейс с применением workflow агентов на базе RAG(SO CoT)
Переходите читать на Хабр

Раскрыли некоторые технические детали

Кайра бөлүшүлгөн:

Pavel Zloi

01.04.202506:34

⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.

Главные изменения:

• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.

Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.

⚡️ Подробности — сегодня в 20:00 по МСК.

30.03.202510:15

2/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Решил для себя закрепить пройденный материал

Давайте за термины проговорим:
API облачных LLM сервисы, предоставляющие доступ к языковым моделям через API (OpenAI, Anthropic, Google и др.) где оплата происходит за каждый обработанный токен

Open-source модели открытые модели (Qwen, Llama, Mistral и др.), которые можно скачать c huggingface и использовать на собственной инфраструктуре

On-premise размещение моделей на собственном локальном оборудовании компании

Cloud аренда вычислительных ресурсов в облаке (RunPod, AWS, GCP(google platform)) для запуска моделей (возможны разные вариации защиты данных от confidential compute до Федеративного шифрования с DP)

Confidential Computing для компаний с критическими требованиями к безопасности, где затраты вторичны по отношению к защите данных

Сценарий_simple_text_chat_system: 100к текстовых диалогов в сутки
Исходные данные
100 000 диалогов ежедневно
3 сообщения от пользователя в каждом диалоге
900 токенов на вход, 1200 токенов на выход
Средняя нагрузка: 1.16 RPS
Пиковая нагрузка: 5.63 RPS (70% трафика в течение 6 часов)

Стоимость Cloud API (GPT-4o-mini)

----------------------------------
Парам | Расчет         | Сумма   |
------|----------------|----------
Вход  | 900×100K×$0.15 | $12.5/д |
Выход | 1.2M×100K×$0.6 | $72/д   |
------|----------------|----------
Итого |                | $2535/м |
----------------------------------
Итого |                | $2535/м |

Аренда RunPod

--------------------------------
Парам | Расчет       | Сумма   |
------|--------------|----------
A100  | $1.9×6×24×30 | $8165/м |
--------------------------------

Стоимость своего оборудования

------------------
Парам  | Сумма   |
-------|----------
Железо | $106K   |
Колок  | $240/м  |
Энерг  | $400/м  |
Аморт  | $2945/м |
DevOps | $3000/м |
-------|----------
Итого  | $6585/м |
------------------

Сравнение решений

|Решение | $/мес.| Преимущ.|Недос.|
|--------|-------|---------|------|
|CloudAPI| $2,5к | Low ent |APIdpn|
|RunPod  | $8,1к | flexi   |High $|
|Lcl     | $6,5к | fullctrl|High $|

Когда переходить на собственные модели?

1. Экономические факторы
- Высокий объем запросов- локальное решение становится выгоднее GPT-4o-mini при более 140,000 диалогов/день
- Длинные контексты- при обработке больших объемов данных (>100K токенов) на запрос
- Долгосрочные проекты - окупаемость собственного оборудования относительно RunPod: ~24 месяцев

2. Неэкономические факторы
- Конфиденциальность данных - отсутствие передачи информации внешним сервисам
- Соответствие регуляторным требованиям - GDPR, 152-ФЗ, ограничения трансграничной передачи
- Стабильность работы - отсутствие очередей, ограничений скорости, кредитных лимитов, прекращение поддерживание старых версий моделей

Альтернативные сценарии_agentic_system(реальный кейс)
Пример: SAST агент патчер на базе qwen32b-coder

Экономическое обоснование:
- 50 репозиториев с ежедневными сканированиями (это минимум что апдейтит средний tir1-2 корп в сутки)
- 20 уязвимостей/день требуют исправления (анализа и быстрой реакции на них)
- 160K токенов на вход, 25K на выход 1000 запусков в день

Просто сравним сколько бы в месяц даже на старте мы тратили бы на gpt-4o-mini
И так как это MAS мы насчитали около 40+ промптов для каждого агента (представьте после PoC переезжать на qwen и все переписывать
Но для чистоты сравню стоимость

|   Решение   | Стоимость/месяц |
|-------------|-----------------|
| GPT-4o-mini |      $990       |
| Local(A100) |      $868       |

Для стартапов и проектов с небольшим объемом запросов(и низкими требованиям к безопасности после PoC) оптимальным выбором остаются облачные API из-за низкого порога входа и отсутствия капитальных затрат

Гибридный подход может быть оптимальным: использование облачных API(на старте) для обычных задач и локальных моделей для конфиденциальных данных или при высоких объемах запросов.

29.03.202506:28

1/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более 3 сообщений от пользователя
Текущий стек gpt-4o-mini CoT + SO

И так, допустим, у нас есть 100 000 диалогов примерно по 100-300 токенов от пользователя и еще по 3 сообщения от ллм в сумме на инпут у нас 900 аутпут примем что чуть больше 1200

получаем вот такую картину пока исключил кеширование:
gpt-4o-mini

Входящие токены (900 × 100K): $11.48 (некеш) + $1.01 (кеш) = $12.49/день
Исходящие токены (1,200 × 100K): $72/день
Всего: ~$84.49/день или ~$2,535/месяц

Расчет RPS (запросов в секунду) возьмем очень идеальное условия:

100,000 диалогов в день = 100,000 ÷ 86,400 секунд ≈ 1.16 RPS
В пиковые часы (если 70% трафика приходится на 6 часов): ~5.63 RPS

Теперь представим, что мы хотим не повторить, но хотя бы быть на уровне результатов gpt-4o-mini
В моем честном бенчмарке это что-то около модели qwen2.5-32b-instruct
А теперь цифры, что вышли у меня
Одна А100 стоит на runpod $1.89 и такая штука будет иметь пропускную способность 2-3 запроса в секунду со стримингом

Необходимое количество серверов: 6 (для обеспечения пиковой нагрузки с запасом)

Расчет стоимости на RunPod:

Стоимость одной A100: $1.89/час
Стоимость 6 серверов A100: 6 × $1.89 = $11.34/час
Месячная стоимость (24/7): $11.34 × 24 × 30 = $8,164.80/месяц

Итого при текущих параметрах

gpt-4o-mini: ~$2,535/месяц
Локальное решение (qwen2.5-32b-instruct на 6 A100): ~$8,165/месяц

Локальное решение может становится выгодным?
Да когда мы четко выявляем для себя вот такие пункты:

1.Когда важна защита данных - нет отправки конфиденциальной информации в облако
2. Когда необходимо соответствие регуляторным требованиям - GDPR, 152-Ф3, запрет на трансграничную передачу (и то Amazon вроде GDPR соответствует если мы говорим про не РФ)
3. Стабильная работа без лимитов - нет ограничений API, кредитной системы или очередей
4. Независимость от вендора - нет риска, что АРІ поднимет цены или изменит условия

Когда еще выгодно? Update расчет для покупки железа https://t.me/neuraldeepchat/4288

Когда у нас не растет RPS но растет кол-во обрабатываемых токенов за одну сессию допустим мы начинаем сторить не 3 сообщения от пользователя а 10-20 и тогда нам начинает быть более интересно переходить на покупку/аренду железа

Забирайте как шпаргалку когда вам в голову приходит идея аренды железа под ллм

в комментариях еще кинул (написаный курсором калькулятор) есть вопросы к качеству но представление он показывает

Кайра бөлүшүлгөн:

BOGDANISSSIMO

21.03.202509:28

Пересесть с классической IDE на Cursor - как пересесть с лошади на автомобиль. Риск ДТП выше, если ты невнимателен и медленно обучаемый, но это не значит что до того как садиться на машину нужно для тренировки дальше для тренировки кататься на лошади. В конечном итоге бенефиты ускорения работы х10 переплёвывают все минусы

Кайра бөлүшүлгөн:

Daisy news

20.03.202514:22

🆕 Генерация изображений и новые AI-модели

Теперь в Daisy Web можно создавать изображения. Выбери «Генерация изображений» в списке моделей, опиши задумку — и получи результат. Чтобы картинка получилась качественнее, модель автоматически доработает и улучшит твой запрос.

⚠️ Функция в тестовом режиме — при высокой нагрузке возможны перебои, но команда уже работает над оптимизацией.

А ещё добавили новые AI-модели:

🔥 Claude 3.7 — лучшая нейросеть для написания кода;
🔥 Gemini 2.0 — теперь ещё эффективнее справляется с запросами.

Пробуй и делись впечатлениями в комментариях.

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

Кайра бөлүшүлгөн:

Korenev AI - GPT в тапочках🩴

19.03.202511:15

➡️Обучение LLM для бизнеса: практическое руководство с примерами и советами

Ловите новый вкусный видос!❤️

Там мы разбираем, как научить LLM новым навыкам, начиная с простых методов и заканчивая продвинутыми техниками. Парни делятся реальным опытом! Одна только история про автоматическое формирование отчетов с LLM только чего стоит!

В пасхалке – разбор проблем извлечения информации из сложных PDF-документов и таблиц.

В видео даются практические советы по подготовке данных, выбору методов обучения, оценке результатов и стоимости всего этого банкета.

Забивайте на все дела, отменяйте все поездки и походы по гостям, срочно смотреть!

Ютуб
Рутуб

➡️Подпишись на Korenev_AI👈

Кайра бөлүшүлгөн:

Daisy news

14.02.202509:40

🆕 Обновления в Daisy Web и мобильной версии

Рада сообщить о долгожданных улучшениях:

1. Ты сам выбираешь, как выглядит интерфейс: светлая, тёмная или автоматическая тема, которая меняется в зависимости от настроек твоего устройства.

2. Загруженные картинки теперь отображаются прямо в чате, а не как прикреплённые файлы. Удобно и наглядно — всё, что нужно для комфортной работы.

Скорее тестируй и делись впечатлениями 🔥

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

13.02.202512:35

@daisytranscribe_bot

Приятный фидбек по среди недели!

А ты все еще используешь платные сервисы для STT!
Учитесь как делать удобно себе

Кайра бөлүшүлгөн:

red_mad_robot

11.02.202509:11

AI-рынок на пороге перемен: что ждёт индустрию в 2025 году?

Прошлый год стал для AI точкой масштабных изменений: open source модели укрепили позиции, компании начали адаптировать стратегии под новые реалии, а регуляторы — пытаться успеть за технологиями. Но это только начало: рынок продолжает трансформироваться, и в 2025-м нас ждут новые прорывы и вызовы.

Чтобы понять, куда движется индустрия, собрали мнения экспертов из NDT by red_mad_robot, Битрикс24, MTS AI, е/асс, Вкусвилла и GigaChat. Листайте карточки, чтобы узнать:

• Как компании пересматривают подходы к внедрению и использованию нейросетей?

• Какие технологии и бизнес-модели будут определять развитие AI в 2025 году?

• И каким будет следующий этап в гонке генеративного интеллекта?

#AI_moment

08.02.202510:38

Построение сложного RAG для работы с технической документацией

Можно ли взять любой RAG засунуть туда документацию и получить крутой ответ?
Спойлер: НЕТ

На этой неделе я исследовал возможности построения RAG-системы
для работы со сложными многосоставными 2-3-4 задания в одном запросе к технической документации
Хочу поделиться интересными находками и подходом, который дал хорошие результаты

Тестовый кейс документация Manticore Search

Для тестирования подхода я взял документацию Manticore Search - высокопроизводительной базы данных для поиска и аналитики
Она отлично подходит для скачивания есть на GitHub в формате md
- Множество взаимосвязанных концепций
- Комбинация SQL и HTTP API
- Специфичные форматы данных (векторы, JSON)
- Различные режимы работы (RT, Plain)

А теперь к проблеме

Классический подход к RAG (просто разбить документацию на чанки и искать по ним) не работает для сложных технических запросов
Например, запрос

"Покажи как оформить json чтобы делать replace в knn колонках 
RT индекса поле называется embedding и пришли пример python запроса"

Кстати предлагаю вам попробовать самим проверить свой RAG сможете ли добиться такого же ответа как у меня (в комментариях)

Такой запрос требует
- Понимания контекста (что такое RT индекс, KNN колонки)
- Объединения информации из разных частей документации
- Генерации корректных примеров кода
- Проверки технической точности

Архитектура эксперимента

- Qwen 7B (16 FP) на RTX 4090
- Multilingual E5 Large для эмбеддингов
- Собственный механизм Chain of Thought

Структура данных в Milvus:

Collection: documentation
Fields:
  - id: primary key
  - filename: string (для формирования ссылок в ответе)
  - chunk_text: string (текст чанка)
  - embeddings: float_vector[1024] (векторы от e5-large)
  - category: string (раздел документации)
  - subcategory: string (подраздел)
  - full_text: string (полный текст документа)

После поиска, объединяем найденные чанки по иерархии документации, получая ~30K токенов контекста для LLM. Ответ в формате Markdown будет содержать
- Уровень анализа запроса
- Найденные документы с их URL
- Готовые примеры кода
- Полный текст документации

Процесс обработки запроса

Query Expansion
- Используем LLM для генерации 3-5 альтернативных запросов
- Учитываем технический контекст
- Переводим на язык документации (английский)

Векторный поиск
- Для каждого расширенного запроса ищем топ-3 результата
- Получаем ~9 релевантных чанков
- Используем иерархию документации для контекста

Объединение + ответ
- Делюсь с вами своей схемой SO + CoT + Outlines + vLLM (В комментариях) + ответ модели на такой запрос

Так и по классике выводы

Что особенного и можно ли повторит?
0) Да самое важное уделить время на разработку стратегии разметки и поиска
(ой маркетинг где RAG работает с любой докой не правда? Как так? =))
1) Статический Chain of Thought
2) Оптимизация контекста по иерархии
3) Локальное развертывание
4) Понимание работы Structured Output

P.S
Решение субъективно и основано на конкретном опыте
Требуется дальнейшее тестирование на разных типах документации
Возможны ошибки при очень специфических запросах
Считаю что нужен агент планировщик поиска по документации

P.S.S Все примеры и код основаны на реальном опыте работы с технической документацией Manticore Search

06.02.202511:43

@daisytranscribe_bot

Неожиданно для меня бот перевалил за 10к активаций и более 3к MAU в месяц приятная неожиданность что такой простой сервис как транскрибация больших файлов(до 2ГБ) и бесплатное саммари через гпт
Удивляет меня что бесплатный сервис может сам органически расти с 0 до 3к MAU без рекламы за 3 месяца (когда конкуренция точно красный океан)

Кстати бот обработал 50 000 файлов офигеть!

Stay Tuned пока думаю какую из фичей добавить следующую
Скачивание из ютуб
Или улучшать качество текущего функционала (например разделение по ролям)

Бардык посттор

Жарнамаланган2 саат

14.04.202507:56Korenev AI - GPT в тапочках🩴

5.9K

Толугураак

Рекорддор

14.04.202523:59

4KКатталгандар

11.02.202523:59

100Цитация индекси

20.03.202523:59

4361 посттун көрүүлөрү

06.04.202509:10

3101 жарнама посттун көрүүлөрү

07.03.202509:10

9.03%ER

20.02.202513:03

11.80%ERR

Өнүгүү

Толугураак

Катталуучулар

Citation индекси

Бир посттун көрүүсү

Жарнамалык посттун көрүүсү

ERR

Толугураак

Neural Deep популярдуу жазуулары

Бардык посттор

29.03.202506:28

06.04.202512:26

    # Extra body parameters with schema

Кайра бөлүшүлгөн:

LLM под капотом

05.04.202514:14

03.04.202517:47

30.03.202510:15

----------------------------------
Парам | Расчет         | Сумма   |
------|----------------|----------
Вход  | 900×100K×$0.15 | $12.5/д |
Выход | 1.2M×100K×$0.6 | $72/д   |
------|----------------|----------
Итого |                | $2535/м |
----------------------------------
Итого |                | $2535/м |

Аренда RunPod

--------------------------------
Парам | Расчет       | Сумма   |
------|--------------|----------
A100  | $1.9×6×24×30 | $8165/м |
--------------------------------

Стоимость своего оборудования

------------------
Парам  | Сумма   |
-------|----------
Железо | $106K   |
Колок  | $240/м  |
Энерг  | $400/м  |
Аморт  | $2945/м |
DevOps | $3000/м |
-------|----------
Итого  | $6585/м |
------------------

Сравнение решений

|Решение | $/мес.| Преимущ.|Недос.|
|--------|-------|---------|------|
|CloudAPI| $2,5к | Low ent |APIdpn|
|RunPod  | $8,1к | flexi   |High $|
|Lcl     | $6,5к | fullctrl|High $|

|   Решение   | Стоимость/месяц |
|-------------|-----------------|
| GPT-4o-mini |      $990       |
| Local(A100) |      $868       |

Кайра бөлүшүлгөн:

Pavel Zloi

01.04.202506:34

Көбүрөөк функцияларды ачуу үчүн кириңиз.