Neural Deep - टेलीग्राम चैनल पोस्ट

Neural Deep

23.04.202521:41

Получил доступ к gpt-image-1по АПИ

Сгенерировано по запросу: "Cобака бежит по дороге она смотрит на меня глазами красными и в костюме лебовского
На заднем плане стоят люди у обрыва и рассыпают прах как из фильма"

Антропоморфный накачанный кот породы экзот идёт по улице и на него влюбленным взглядом смотрят антропоморфные кошки в разных платьях

Это ок что она кадры из фильма подсовывает?

@gptimage1bot

Гоу тестить пока не вырубил бота дал всем 2 генерации

से पुनः पोस्ट किया:

Pavel Zloi

01.04.202506:34

⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.

Главные изменения:

• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.

Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.

⚡️ Подробности — сегодня в 20:00 по МСК.

से पुनः पोस्ट किया:

Daisy news

20.03.202514:22

🆕 Генерация изображений и новые AI-модели

Теперь в Daisy Web можно создавать изображения. Выбери «Генерация изображений» в списке моделей, опиши задумку — и получи результат. Чтобы картинка получилась качественнее, модель автоматически доработает и улучшит твой запрос.

⚠️ Функция в тестовом режиме — при высокой нагрузке возможны перебои, но команда уже работает над оптимизацией.

А ещё добавили новые AI-модели:

🔥 Claude 3.7 — лучшая нейросеть для написания кода;
🔥 Gemini 2.0 — теперь ещё эффективнее справляется с запросами.

Пробуй и делись впечатлениями в комментариях.

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

से पुनः पोस्ट किया:

red_mad_robot

11.02.202509:11

AI-рынок на пороге перемен: что ждёт индустрию в 2025 году?

Прошлый год стал для AI точкой масштабных изменений: open source модели укрепили позиции, компании начали адаптировать стратегии под новые реалии, а регуляторы — пытаться успеть за технологиями. Но это только начало: рынок продолжает трансформироваться, и в 2025-м нас ждут новые прорывы и вызовы.

Чтобы понять, куда движется индустрия, собрали мнения экспертов из NDT by red_mad_robot, Битрикс24, MTS AI, е/асс, Вкусвилла и GigaChat. Листайте карточки, чтобы узнать:

• Как компании пересматривают подходы к внедрению и использованию нейросетей?

• Какие технологии и бизнес-модели будут определять развитие AI в 2025 году?

• И каким будет следующий этап в гонке генеративного интеллекта?

#AI_moment

06.04.202512:26

Structured Output = Stream?

Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинка

Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает

Есть решение использовать extra body и передать туда схему в метод client.chat.completions.create на vLLM можно наблюдать стриминг схемы в реальном времени

    # Extra body parameters with schema

На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону

30.03.202510:15

2/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Решил для себя закрепить пройденный материал

Давайте за термины проговорим:
API облачных LLM сервисы, предоставляющие доступ к языковым моделям через API (OpenAI, Anthropic, Google и др.) где оплата происходит за каждый обработанный токен

Open-source модели открытые модели (Qwen, Llama, Mistral и др.), которые можно скачать c huggingface и использовать на собственной инфраструктуре

On-premise размещение моделей на собственном локальном оборудовании компании

Cloud аренда вычислительных ресурсов в облаке (RunPod, AWS, GCP(google platform)) для запуска моделей (возможны разные вариации защиты данных от confidential compute до Федеративного шифрования с DP)

Confidential Computing для компаний с критическими требованиями к безопасности, где затраты вторичны по отношению к защите данных

Сценарий_simple_text_chat_system: 100к текстовых диалогов в сутки
Исходные данные
100 000 диалогов ежедневно
3 сообщения от пользователя в каждом диалоге
900 токенов на вход, 1200 токенов на выход
Средняя нагрузка: 1.16 RPS
Пиковая нагрузка: 5.63 RPS (70% трафика в течение 6 часов)

Стоимость Cloud API (GPT-4o-mini)

----------------------------------
Парам | Расчет         | Сумма   |
------|----------------|----------
Вход  | 900×100K×$0.15 | $12.5/д |
Выход | 1.2M×100K×$0.6 | $72/д   |
------|----------------|----------
Итого |                | $2535/м |
----------------------------------
Итого |                | $2535/м |

Аренда RunPod

--------------------------------
Парам | Расчет       | Сумма   |
------|--------------|----------
A100  | $1.9×6×24×30 | $8165/м |
--------------------------------

Стоимость своего оборудования

------------------
Парам  | Сумма   |
-------|----------
Железо | $106K   |
Колок  | $240/м  |
Энерг  | $400/м  |
Аморт  | $2945/м |
DevOps | $3000/м |
-------|----------
Итого  | $6585/м |
------------------

Сравнение решений

|Решение | $/мес.| Преимущ.|Недос.|
|--------|-------|---------|------|
|CloudAPI| $2,5к | Low ent |APIdpn|
|RunPod  | $8,1к | flexi   |High $|
|Lcl     | $6,5к | fullctrl|High $|

Когда переходить на собственные модели?

1. Экономические факторы
- Высокий объем запросов- локальное решение становится выгоднее GPT-4o-mini при более 140,000 диалогов/день
- Длинные контексты- при обработке больших объемов данных (>100K токенов) на запрос
- Долгосрочные проекты - окупаемость собственного оборудования относительно RunPod: ~24 месяцев

2. Неэкономические факторы
- Конфиденциальность данных - отсутствие передачи информации внешним сервисам
- Соответствие регуляторным требованиям - GDPR, 152-ФЗ, ограничения трансграничной передачи
- Стабильность работы - отсутствие очередей, ограничений скорости, кредитных лимитов, прекращение поддерживание старых версий моделей

Альтернативные сценарии_agentic_system(реальный кейс)
Пример: SAST агент патчер на базе qwen32b-coder

Экономическое обоснование:
- 50 репозиториев с ежедневными сканированиями (это минимум что апдейтит средний tir1-2 корп в сутки)
- 20 уязвимостей/день требуют исправления (анализа и быстрой реакции на них)
- 160K токенов на вход, 25K на выход 1000 запусков в день

Просто сравним сколько бы в месяц даже на старте мы тратили бы на gpt-4o-mini
И так как это MAS мы насчитали около 40+ промптов для каждого агента (представьте после PoC переезжать на qwen и все переписывать
Но для чистоты сравню стоимость

|   Решение   | Стоимость/месяц |
|-------------|-----------------|
| GPT-4o-mini |      $990       |
| Local(A100) |      $868       |

Для стартапов и проектов с небольшим объемом запросов(и низкими требованиям к безопасности после PoC) оптимальным выбором остаются облачные API из-за низкого порога входа и отсутствия капитальных затрат

Гибридный подход может быть оптимальным: использование облачных API(на старте) для обычных задач и локальных моделей для конфиденциальных данных или при высоких объемах запросов.

से पुनः पोस्ट किया:

Korenev AI - GPT в тапочках🩴

19.03.202511:15

➡️Обучение LLM для бизнеса: практическое руководство с примерами и советами

Ловите новый вкусный видос!❤️

Там мы разбираем, как научить LLM новым навыкам, начиная с простых методов и заканчивая продвинутыми техниками. Парни делятся реальным опытом! Одна только история про автоматическое формирование отчетов с LLM только чего стоит!

В пасхалке – разбор проблем извлечения информации из сложных PDF-документов и таблиц.

В видео даются практические советы по подготовке данных, выбору методов обучения, оценке результатов и стоимости всего этого банкета.

Забивайте на все дела, отменяйте все поездки и походы по гостям, срочно смотреть!

Ютуб
Рутуб

➡️Подпишись на Korenev_AI👈

08.02.202510:38

Построение сложного RAG для работы с технической документацией

Можно ли взять любой RAG засунуть туда документацию и получить крутой ответ?
Спойлер: НЕТ

На этой неделе я исследовал возможности построения RAG-системы
для работы со сложными многосоставными 2-3-4 задания в одном запросе к технической документации
Хочу поделиться интересными находками и подходом, который дал хорошие результаты

Тестовый кейс документация Manticore Search

Для тестирования подхода я взял документацию Manticore Search - высокопроизводительной базы данных для поиска и аналитики
Она отлично подходит для скачивания есть на GitHub в формате md
- Множество взаимосвязанных концепций
- Комбинация SQL и HTTP API
- Специфичные форматы данных (векторы, JSON)
- Различные режимы работы (RT, Plain)

А теперь к проблеме

Классический подход к RAG (просто разбить документацию на чанки и искать по ним) не работает для сложных технических запросов
Например, запрос

"Покажи как оформить json чтобы делать replace в knn колонках 
RT индекса поле называется embedding и пришли пример python запроса"

Кстати предлагаю вам попробовать самим проверить свой RAG сможете ли добиться такого же ответа как у меня (в комментариях)

Такой запрос требует
- Понимания контекста (что такое RT индекс, KNN колонки)
- Объединения информации из разных частей документации
- Генерации корректных примеров кода
- Проверки технической точности

Архитектура эксперимента

- Qwen 7B (16 FP) на RTX 4090
- Multilingual E5 Large для эмбеддингов
- Собственный механизм Chain of Thought

Структура данных в Milvus:

Collection: documentation
Fields:
  - id: primary key
  - filename: string (для формирования ссылок в ответе)
  - chunk_text: string (текст чанка)
  - embeddings: float_vector[1024] (векторы от e5-large)
  - category: string (раздел документации)
  - subcategory: string (подраздел)
  - full_text: string (полный текст документа)

После поиска, объединяем найденные чанки по иерархии документации, получая ~30K токенов контекста для LLM. Ответ в формате Markdown будет содержать
- Уровень анализа запроса
- Найденные документы с их URL
- Готовые примеры кода
- Полный текст документации

Процесс обработки запроса

Query Expansion
- Используем LLM для генерации 3-5 альтернативных запросов
- Учитываем технический контекст
- Переводим на язык документации (английский)

Векторный поиск
- Для каждого расширенного запроса ищем топ-3 результата
- Получаем ~9 релевантных чанков
- Используем иерархию документации для контекста

Объединение + ответ
- Делюсь с вами своей схемой SO + CoT + Outlines + vLLM (В комментариях) + ответ модели на такой запрос

Так и по классике выводы

Что особенного и можно ли повторит?
0) Да самое важное уделить время на разработку стратегии разметки и поиска
(ой маркетинг где RAG работает с любой докой не правда? Как так? =))
1) Статический Chain of Thought
2) Оптимизация контекста по иерархии
3) Локальное развертывание
4) Понимание работы Structured Output

P.S
Решение субъективно и основано на конкретном опыте
Требуется дальнейшее тестирование на разных типах документации
Возможны ошибки при очень специфических запросах
Считаю что нужен агент планировщик поиска по документации

P.S.S Все примеры и код основаны на реальном опыте работы с технической документацией Manticore Search

से पुनः पोस्ट किया:

LLM под капотом

05.04.202514:14

SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом

Так выходит, если судить по комментариям в моем прошлом опросе.

Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:

- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/

Ваш, @llm_under_hood 🤗

29.03.202506:28

1/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более 3 сообщений от пользователя
Текущий стек gpt-4o-mini CoT + SO

И так, допустим, у нас есть 100 000 диалогов примерно по 100-300 токенов от пользователя и еще по 3 сообщения от ллм в сумме на инпут у нас 900 аутпут примем что чуть больше 1200

получаем вот такую картину пока исключил кеширование:
gpt-4o-mini

Входящие токены (900 × 100K): $11.48 (некеш) + $1.01 (кеш) = $12.49/день
Исходящие токены (1,200 × 100K): $72/день
Всего: ~$84.49/день или ~$2,535/месяц

Расчет RPS (запросов в секунду) возьмем очень идеальное условия:

100,000 диалогов в день = 100,000 ÷ 86,400 секунд ≈ 1.16 RPS
В пиковые часы (если 70% трафика приходится на 6 часов): ~5.63 RPS

Теперь представим, что мы хотим не повторить, но хотя бы быть на уровне результатов gpt-4o-mini
В моем честном бенчмарке это что-то около модели qwen2.5-32b-instruct
А теперь цифры, что вышли у меня
Одна А100 стоит на runpod $1.89 и такая штука будет иметь пропускную способность 2-3 запроса в секунду со стримингом

Необходимое количество серверов: 6 (для обеспечения пиковой нагрузки с запасом)

Расчет стоимости на RunPod:

Стоимость одной A100: $1.89/час
Стоимость 6 серверов A100: 6 × $1.89 = $11.34/час
Месячная стоимость (24/7): $11.34 × 24 × 30 = $8,164.80/месяц

Итого при текущих параметрах

gpt-4o-mini: ~$2,535/месяц
Локальное решение (qwen2.5-32b-instruct на 6 A100): ~$8,165/месяц

Локальное решение может становится выгодным?
Да когда мы четко выявляем для себя вот такие пункты:

1.Когда важна защита данных - нет отправки конфиденциальной информации в облако
2. Когда необходимо соответствие регуляторным требованиям - GDPR, 152-Ф3, запрет на трансграничную передачу (и то Amazon вроде GDPR соответствует если мы говорим про не РФ)
3. Стабильная работа без лимитов - нет ограничений API, кредитной системы или очередей
4. Независимость от вендора - нет риска, что АРІ поднимет цены или изменит условия

Когда еще выгодно? Update расчет для покупки железа https://t.me/neuraldeepchat/4288

Когда у нас не растет RPS но растет кол-во обрабатываемых токенов за одну сессию допустим мы начинаем сторить не 3 сообщения от пользователя а 10-20 и тогда нам начинает быть более интересно переходить на покупку/аренду железа

Забирайте как шпаргалку когда вам в голову приходит идея аренды железа под ллм

в комментариях еще кинул (написаный курсором калькулятор) есть вопросы к качеству но представление он показывает

से पुनः पोस्ट किया:

Daisy news

14.02.202509:40

🆕 Обновления в Daisy Web и мобильной версии

Рада сообщить о долгожданных улучшениях:

1. Ты сам выбираешь, как выглядит интерфейс: светлая, тёмная или автоматическая тема, которая меняется в зависимости от настроек твоего устройства.

2. Загруженные картинки теперь отображаются прямо в чате, а не как прикреплённые файлы. Удобно и наглядно — всё, что нужно для комфортной работы.

Скорее тестируй и делись впечатлениями 🔥

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

06.02.202511:43

@daisytranscribe_bot

Неожиданно для меня бот перевалил за 10к активаций и более 3к MAU в месяц приятная неожиданность что такой простой сервис как транскрибация больших файлов(до 2ГБ) и бесплатное саммари через гпт
Удивляет меня что бесплатный сервис может сам органически расти с 0 до 3к MAU без рекламы за 3 месяца (когда конкуренция точно красный океан)

Кстати бот обработал 50 000 файлов офигеть!

Stay Tuned пока думаю какую из фичей добавить следующую
Скачивание из ютуб
Или улучшать качество текущего функционала (например разделение по ролям)

03.04.202517:47

Мы в red_mad_robot реализовали интересный кейс с применением workflow агентов на базе RAG(SO CoT)
Переходите читать на Хабр

Раскрыли некоторые технические детали

से पुनः पोस्ट किया:

BOGDANISSSIMO

21.03.202509:28

Пересесть с классической IDE на Cursor - как пересесть с лошади на автомобиль. Риск ДТП выше, если ты невнимателен и медленно обучаемый, но это не значит что до того как садиться на машину нужно для тренировки дальше для тренировки кататься на лошади. В конечном итоге бенефиты ускорения работы х10 переплёвывают все минусы

13.02.202512:35

@daisytranscribe_bot

Приятный фидбек по среди недели!

А ты все еще используешь платные сервисы для STT!
Учитесь как делать удобно себе

दिखाया गया 1 - 15 का 15

अधिक कार्यक्षमता अनलॉक करने के लिए लॉगिन करें।

उद्धरण

उद्धरण