12.02.202508:11
На днях нашел классный кейс для визуализации с помощью llm и фреймворка manim.
Сам фреймворк сделал автор 3blue1brown, который в своих видео доступно объясняет сложные вещи. Я как то скидывал серию видео этого автора, о том как работают большие языковые модели. В этих же видео можно посмотреть какие крутые анимации можно создать.
В общем оказалось что сетки достаточно хорошо генерируют код для этого фреймворка.
Тут даже прогать не нужно - главное чтобы был python, установить библиотеку manim, попросить у модели визуализацию, запустить скрипт который отдаст нейронка и получить видос. Ну и конечно само происходящее в анимации можно придумать с llm (если нет четких идей), главное просить сделать как "3blue1brown", иначе может выйти "боком".
Нормальные результаты вышли только с o3-mini и DeepSeek, так что рекомендую начинать с них)
Для наглядности - пример анимации для объяснения того как работает контекстное окно, сделанная за 3 минуты.
Сам фреймворк сделал автор 3blue1brown, который в своих видео доступно объясняет сложные вещи. Я как то скидывал серию видео этого автора, о том как работают большие языковые модели. В этих же видео можно посмотреть какие крутые анимации можно создать.
В общем оказалось что сетки достаточно хорошо генерируют код для этого фреймворка.
Тут даже прогать не нужно - главное чтобы был python, установить библиотеку manim, попросить у модели визуализацию, запустить скрипт который отдаст нейронка и получить видос. Ну и конечно само происходящее в анимации можно придумать с llm (если нет четких идей), главное просить сделать как "3blue1brown", иначе может выйти "боком".
Нормальные результаты вышли только с o3-mini и DeepSeek, так что рекомендую начинать с них)
Для наглядности - пример анимации для объяснения того как работает контекстное окно, сделанная за 3 минуты.


20.01.202519:12
DeepSeek 3
Когда сегодня начинал писать этот пост он начинался с того что я практически не освещаю новости, кроме тех что кажутся мне значимыми… но примерно в обед интернет разразился шумом про эту компанию…
В декабре 2024 одним из значимых релизов был выпуск модели DeepSeek-v3 от одноименной китайской компании DeepSeek.ai
Что в нем такого?
1. Большая модель на 671B параметров
Ладно, это не так уж и хорошо. Много параметров -> больше ресурсов для запуска.
2. По качеству на текущий момент делит 7ое место с Claude 3.5 Sonnet
в рейтинге арены, что с учетом доступности весов модели - очень хорошо.
3. Способность рассуждать как o1 от OpenAI (о reasoning моделях еще чуть позже "порасуждаем")
3. Доступ в интернет (становится нормой)
4. Супер быстрая работа за счет архитектуры (опять этот MoE)
5. Пока бесплатный доступ для пользователей в веб-версии
6. Копеечное API для разработчиков
По сравнению с конкурентами в своей весовой категории: 0.14$/0.28$ стоимость входящих/исходящих токенов против 2.50/10$ у gpt4o!
А еще 14 января вышло мобильное приложение DeepSeek с теми же функциями.
Доступно и бесплатно в сторах.
Еще один вариант легко получать пользу от передовых AI - это круто.
П.с. А то о чем все пишут сегодня - DeepSeek выпустили в открытый доступ веса своей рассуждающей модели, те все у кого есть достаточно ресурсов могут развернуть ее у себя. Для тестирования достаточно отметить флажок "DeepThink" в веб-версии.
Когда сегодня начинал писать этот пост он начинался с того что я практически не освещаю новости, кроме тех что кажутся мне значимыми… но примерно в обед интернет разразился шумом про эту компанию…
В декабре 2024 одним из значимых релизов был выпуск модели DeepSeek-v3 от одноименной китайской компании DeepSeek.ai
Что в нем такого?
1. Большая модель на 671B параметров
Ладно, это не так уж и хорошо. Много параметров -> больше ресурсов для запуска.
2. По качеству на текущий момент делит 7ое место с Claude 3.5 Sonnet
в рейтинге арены, что с учетом доступности весов модели - очень хорошо.
3. Способность рассуждать как o1 от OpenAI (о reasoning моделях еще чуть позже "порасуждаем")
3. Доступ в интернет (становится нормой)
4. Супер быстрая работа за счет архитектуры (опять этот MoE)
5. Пока бесплатный доступ для пользователей в веб-версии
6. Копеечное API для разработчиков
По сравнению с конкурентами в своей весовой категории: 0.14$/0.28$ стоимость входящих/исходящих токенов против 2.50/10$ у gpt4o!
А еще 14 января вышло мобильное приложение DeepSeek с теми же функциями.
Доступно и бесплатно в сторах.
Еще один вариант легко получать пользу от передовых AI - это круто.
П.с. А то о чем все пишут сегодня - DeepSeek выпустили в открытый доступ веса своей рассуждающей модели, те все у кого есть достаточно ресурсов могут развернуть ее у себя. Для тестирования достаточно отметить флажок "DeepThink" в веб-версии.
14.01.202521:50
Ну, привет!
Пробуем войти в рабочий режим после праздников. :)
Посмотрел, что было на канале в начале прошлого года – там был топ-5 нейросетей на начало 2024. И подумал: есть ли смысл собирать аналог сейчас?
Вообще, жутко бесят эти сборники вроде: «100500 нейросетей для написания текстов», «20 сеток для маркетолога», «17 AI-моделей для генерации видео» и т. д.
Искренне верю, что 99% задач в этой области решают 1-2 AI-инструмента.
Поэтому вот мой личный топ сеток на начало 2025 года:
Пробуем войти в рабочий режим после праздников. :)
Посмотрел, что было на канале в начале прошлого года – там был топ-5 нейросетей на начало 2024. И подумал: есть ли смысл собирать аналог сейчас?
Вообще, жутко бесят эти сборники вроде: «100500 нейросетей для написания текстов», «20 сеток для маркетолога», «17 AI-моделей для генерации видео» и т. д.
Искренне верю, что 99% задач в этой области решают 1-2 AI-инструмента.
Поэтому вот мой личный топ сеток на начало 2025 года:


31.01.202519:51
О-о-о! (3)
Вечер пятницы, господа.
OpenAI выкатили новую рассуждающую модель o3-mini.
Есть даже доступ бесплатным пользователям (не надо тут про "как у DeepSeek", эти ребята заранее говорили что o3-mini будет и у бесплатников).
Что по характеристикам:
сравнима с o1 моделями, но значительно быстрее (это заметно сразу если работали с o1/o1-mini).
На первый взгляд выглядит как будто нам выкатили o1-turbo))
Кстати цена на API тоже снизили.
А еще 150 запросов в сутки - вот за это спасибо, как раз потратил все запросы о1 и о1-mini.
Будем посмотреть и хороших выходных)
П.с. Что приятно - теперь работает с поиском (Да, "как у DeepSeek").
Вечер пятницы, господа.
OpenAI выкатили новую рассуждающую модель o3-mini.
Есть даже доступ бесплатным пользователям (не надо тут про "как у DeepSeek", эти ребята заранее говорили что o3-mini будет и у бесплатников).
Что по характеристикам:
сравнима с o1 моделями, но значительно быстрее (это заметно сразу если работали с o1/o1-mini).
На первый взгляд выглядит как будто нам выкатили o1-turbo))
Кстати цена на API тоже снизили.
А еще 150 запросов в сутки - вот за это спасибо, как раз потратил все запросы о1 и о1-mini.
Будем посмотреть и хороших выходных)
П.с. Что приятно - теперь работает с поиском (Да, "как у DeepSeek").


19.01.202509:34
Кто ищет тот всегда найдет
Заметил за собой новый паттерн общения с LLM, которые умеют искать в интернете (у меня это ChatGPT, но подобное уже есть в Gemini, DeepSeek и других).
Классический Generated Knowledge Prompting (GKP):
Раньше я просто просил модель «сгенерировать» необходимый контекст. Например, «Сначала опиши основные факты и концепции, связанные с темой Х, а потом ответь на вопрос Y». Это помогает избежать ситуаций, когда модель «галлюцинирует» ответ или выдаёт неточную информацию при сложных или неочевидных запросах.
Новый паттерн с доступом в интернет:
Теперь я сначала прошу модель найти сведения (тезисы, исследования, мнения) в открытых источниках (еще часто как то их обработать), а уже после этого формулирую конечный вопрос.
Пример с новой функцией ChatGPT (См скрины)
1. Первый вариант - сразу запрос «», и как следствие - туфта (очень уверенно написанная) в ответе.
2. Второй вариант - поиск + запрос. Итого хороший результат, а вишенка на торте - учтены данные из памяти и персонализацией.
Итого, этот двухшаговый процесс — «собери нужные сведения, а затем дай ответ» — напоминает GKP, когда сперва формируется контекст, а потом решается задача. Только теперь значительная часть моих запросов начинается с подготовки данных из интернета. Это снижает риск получить неверный результат и нивелирует ограничение модели в виде «knowledge cutoff» на определённой дате.
П.с. А в случае с «новыми данными» - вариант вообще безальтернативный.
Заметил за собой новый паттерн общения с LLM, которые умеют искать в интернете (у меня это ChatGPT, но подобное уже есть в Gemini, DeepSeek и других).
Классический Generated Knowledge Prompting (GKP):
Раньше я просто просил модель «сгенерировать» необходимый контекст. Например, «Сначала опиши основные факты и концепции, связанные с темой Х, а потом ответь на вопрос Y». Это помогает избежать ситуаций, когда модель «галлюцинирует» ответ или выдаёт неточную информацию при сложных или неочевидных запросах.
Новый паттерн с доступом в интернет:
Теперь я сначала прошу модель найти сведения (тезисы, исследования, мнения) в открытых источниках (еще часто как то их обработать), а уже после этого формулирую конечный вопрос.
Пример с новой функцией ChatGPT (См скрины)
1. Первый вариант - сразу запрос «», и как следствие - туфта (очень уверенно написанная) в ответе.
2. Второй вариант - поиск + запрос. Итого хороший результат, а вишенка на торте - учтены данные из памяти и персонализацией.
Итого, этот двухшаговый процесс — «собери нужные сведения, а затем дай ответ» — напоминает GKP, когда сперва формируется контекст, а потом решается задача. Только теперь значительная часть моих запросов начинается с подготовки данных из интернета. Это снижает риск получить неверный результат и нивелирует ограничение модели в виде «knowledge cutoff» на определённой дате.
П.с. А в случае с «новыми данными» - вариант вообще безальтернативный.
27.01.202519:49
AI компании в Америке сегодня очень deep sick.
15.01.202511:55
Контекстное окно сына маминой подруги
Сегодня китайская компания MiniMax представила и открыла исходный код новой серии моделей MiniMax-01, включающей языковую модель MiniMax-Text-01 на 456b параметров и мультимодальную модель MiniMax-VL-01.
Особенности:
1. Контекстное окно 4!!! млн токенов (до этого самое большое - 2 млн у Gemini)
2. При этом утверждается 100% решение задачи «иголки в стоге сена», те модель не должна хуже отвечать из-за слишком большого контекста.
3. За счет архитектуры(MoE+Lightning Attention) скорость на уровне gpt4o и claude.
4. Открытый исходный код (лицензию правда не смотрел) + API
Потестить в чате
Новость
Статья на Arxiv
П.с. Как всегда - ждем реальных тестов, но выглядит интересно, с учетом того что это первая opensource модель llm с контекстом больше 200 тыс.токенов
Сегодня китайская компания MiniMax представила и открыла исходный код новой серии моделей MiniMax-01, включающей языковую модель MiniMax-Text-01 на 456b параметров и мультимодальную модель MiniMax-VL-01.
Особенности:
1. Контекстное окно 4!!! млн токенов (до этого самое большое - 2 млн у Gemini)
2. При этом утверждается 100% решение задачи «иголки в стоге сена», те модель не должна хуже отвечать из-за слишком большого контекста.
3. За счет архитектуры(MoE+Lightning Attention) скорость на уровне gpt4o и claude.
4. Открытый исходный код (лицензию правда не смотрел) + API
Потестить в чате
Новость
Статья на Arxiv
П.с. Как всегда - ждем реальных тестов, но выглядит интересно, с учетом того что это первая opensource модель llm с контекстом больше 200 тыс.токенов
23.01.202518:35
Алло? Оператор?
OpenAI только что зарелизили своего первого AI-агента - Operator.
Что умеет - управляет удаленным браузером чтобы выполнить задачу поставленную пользователем.
Как пример показали сценарии когда ChatGPT:
- бронирует столик в ресторане на указанное время через сервис OpenTable(почему то все демонстрирующие агенты так любят этот сценарий). В процессе например Оператор сам понял что сайт открылся с местоположением отличным от того что указано в профиле пользователя и исправил это.
- собрал корзину продуктов в Instacart по списку продуктов написанному на листочке
- бронь билетов через какой-то Stubhub, с указанием того что стоимость должна быть не более 500$
- поиск клинера с указанием времени
- заказ пиццы к определенному времени
Как это работает внутри?
1. Система считывает экран
2. Знает о том какие методы для управления браузером у него есть (спец. модель дообученная для этого)
3. Управляет браузером с помощью методов автоматизации (это не новинка - в ИТ-компаниях построены огромная системы контроля качества на схожих механизмах).
В чем плюс такой реализации агента?
Универсальный интерфейс для взаимодействия со средой - браузер.
Нет необходимости описывать внутренние методы для взаимодействия с разными сервисами через их API.
Просто даем задание и получаем результат, с любым (ну почти) сервисом в браузере.
В чем минус такой реализации агента?
Очень низкая скорость работы - клики, загрузки страниц, отработка анимации браузера и тд.
Кто уже делал похожий функционал?
Computer Use от Anthropic вышел еще осенью, но не получил особого успеха.
То ли дело в ошибках которые допускает их агент в процессе выполнения задач, то ли в том что для использования требуется доступ и оплата API (не доступно простым пользователям как это продемонстрировали OpenAI).
Когда это добро станет доступно(ха-ха-ха)?
Функционал доступен US пользователям Pro подписки (та что за 200$), и только в течении "few weeks" будет доступен простым смертным с Plus подпиской.
OpenAI только что зарелизили своего первого AI-агента - Operator.
Что умеет - управляет удаленным браузером чтобы выполнить задачу поставленную пользователем.
Как пример показали сценарии когда ChatGPT:
- бронирует столик в ресторане на указанное время через сервис OpenTable(почему то все демонстрирующие агенты так любят этот сценарий). В процессе например Оператор сам понял что сайт открылся с местоположением отличным от того что указано в профиле пользователя и исправил это.
- собрал корзину продуктов в Instacart по списку продуктов написанному на листочке
- бронь билетов через какой-то Stubhub, с указанием того что стоимость должна быть не более 500$
- поиск клинера с указанием времени
- заказ пиццы к определенному времени
Как это работает внутри?
1. Система считывает экран
2. Знает о том какие методы для управления браузером у него есть (спец. модель дообученная для этого)
3. Управляет браузером с помощью методов автоматизации (это не новинка - в ИТ-компаниях построены огромная системы контроля качества на схожих механизмах).
В чем плюс такой реализации агента?
Универсальный интерфейс для взаимодействия со средой - браузер.
Нет необходимости описывать внутренние методы для взаимодействия с разными сервисами через их API.
Просто даем задание и получаем результат, с любым (ну почти) сервисом в браузере.
В чем минус такой реализации агента?
Очень низкая скорость работы - клики, загрузки страниц, отработка анимации браузера и тд.
Кто уже делал похожий функционал?
Computer Use от Anthropic вышел еще осенью, но не получил особого успеха.
То ли дело в ошибках которые допускает их агент в процессе выполнения задач, то ли в том что для использования требуется доступ и оплата API (не доступно простым пользователям как это продемонстрировали OpenAI).
Когда это добро станет доступно(ха-ха-ха)?
Функционал доступен US пользователям Pro подписки (та что за 200$), и только в течении "few weeks" будет доступен простым смертным с Plus подпиской.
14.01.202521:51
Топовый топ нейросетей 2025
Тексты/чат
ChatGPT
- Топ-модели под капотом (o1/-pro, gpt4o)
- Поиск в интернет
- Работа с файлами
- Голосовой ассистент с возможностью показывать видео/скринкаст
- Проекты (с отдельными чатами, настройками и файлами памяти)
- Видит содержание открытых текстовых приложений (заметки, редакторы, IDE)
- Строит и модифицирует графики/таблицы
Альтернатива: Claude
Отличия
- Есть возможность быстро создать прототип сервиса/формы/игры и поделиться им
- Есть лучшая работа с длинным контекстом
- Видит pdf вместе с изображениями
- Нет голосового ввода, работы с приложениями(из коробки), поиска в интернет
Стоимость: 20$/месяц
Изображения
Ideogram
- Magic Prompt улучшает просто запрос перед генерацией
- Настройка стилей и палитры (прям по отдельным цветам)
- Отлично генерирует изображения с текстом
- Использование своего изображения как референс
- Расширение и upscale изображений
Стоимость: от 7$/месяц, но есть бесплатный режим чтобы потестить
Видео
RunwayML
- Топ модели внутри
- Изображения как первый/последний кадр видео
- Управление движением отдельных участков видео
- Расширение видео (напр. горизонтального в вертикальное)
- Act-One спец. сервис для переноса мимики на выбранного/загруженного персонажа
Стоимость: от 12$/месяц, но есть бесплатный баланс генераций каждый месяц
Озвучка (Text-to-speech)
Elevenlabs
- 32 языка для озвучки
- Перевод с сохранением голоса
- Клонирование голоса для последующих генераций из текста
Стоимость: от 5$/месяц
AI-аватары
Heygen
- Создание своих AI-аватаров из нескольких минут видео
- Общение с аватаром в реальном времени (Real-time)
Стоимость: от 29$/месяц, но есть бесплатный тариф
Генератор музыки
Suno
- Ремиксы/Covers существующих мелодий
- Редактирование определенных частей треков
Альтернатива: Udio
Стоимость: 10$, но есть бесплатный тариф
Поиск
Perplexity
- Выбор фокуса поиска (научные статьи, соц. Сети, только видео и тд)
Альтернатива: SearchGPT внутри ChatGPT
Стоимость: 20$, но есть бесплатная часть
@AI да парень!
Тексты/чат
ChatGPT
- Топ-модели под капотом (o1/-pro, gpt4o)
- Поиск в интернет
- Работа с файлами
- Голосовой ассистент с возможностью показывать видео/скринкаст
- Проекты (с отдельными чатами, настройками и файлами памяти)
- Видит содержание открытых текстовых приложений (заметки, редакторы, IDE)
- Строит и модифицирует графики/таблицы
Альтернатива: Claude
Отличия
- Есть возможность быстро создать прототип сервиса/формы/игры и поделиться им
- Есть лучшая работа с длинным контекстом
- Видит pdf вместе с изображениями
- Нет голосового ввода, работы с приложениями(из коробки), поиска в интернет
Стоимость: 20$/месяц
Изображения
Ideogram
- Magic Prompt улучшает просто запрос перед генерацией
- Настройка стилей и палитры (прям по отдельным цветам)
- Отлично генерирует изображения с текстом
- Использование своего изображения как референс
- Расширение и upscale изображений
Стоимость: от 7$/месяц, но есть бесплатный режим чтобы потестить
Видео
RunwayML
- Топ модели внутри
- Изображения как первый/последний кадр видео
- Управление движением отдельных участков видео
- Расширение видео (напр. горизонтального в вертикальное)
- Act-One спец. сервис для переноса мимики на выбранного/загруженного персонажа
Стоимость: от 12$/месяц, но есть бесплатный баланс генераций каждый месяц
Озвучка (Text-to-speech)
Elevenlabs
- 32 языка для озвучки
- Перевод с сохранением голоса
- Клонирование голоса для последующих генераций из текста
Стоимость: от 5$/месяц
AI-аватары
Heygen
- Создание своих AI-аватаров из нескольких минут видео
- Общение с аватаром в реальном времени (Real-time)
Стоимость: от 29$/месяц, но есть бесплатный тариф
Генератор музыки
Suno
- Ремиксы/Covers существующих мелодий
- Редактирование определенных частей треков
Альтернатива: Udio
Стоимость: 10$, но есть бесплатный тариф
Поиск
Perplexity
- Выбор фокуса поиска (научные статьи, соц. Сети, только видео и тд)
Альтернатива: SearchGPT внутри ChatGPT
Стоимость: 20$, но есть бесплатная часть
@AI да парень!
Shown 1 - 9 of 9
Log in to unlock more functionality.