

25.04.202511:43
OpenAI дали бесплатный доступ к облегчённому Deep Research
Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.
Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.
Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU
@ai_newz
Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.
Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.
Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU
@ai_newz
22.04.202517:46
Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень продуктивным и мы сильно попотели нашим статьям очень повезло. В итоге у нас 3/3 статей принято на топовые конференции, и все три получили дополнительные awards. Я работал в основном над генерацией картинок и видео, и немного над ускорением LLM.
1️⃣Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral
TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).
Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.
В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.
Мой интерн выложил даже код.
2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight
TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.
Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.
3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral
TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.
Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!
#резерч #personal #конфа
@ai_newz
1️⃣Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral
TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).
Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.
В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.
Мой интерн выложил даже код.
2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight
TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.
Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.
3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral
TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.
Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!
#резерч #personal #конфа
@ai_newz




17.04.202510:23
А вот и первые независимые бенчи o4-mini
Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.
В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
@ai_newz
Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.
В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
@ai_newz






16.04.202514:16
💥Итак, эта тёмная лошадка Mogao оказалась новой text2image моделью Seedream 3.0 от ByteDance
На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.
Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.
На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.
Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.
Тех репорт
Демо (на китайском)
@ai_newz
На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.
Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.
На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.
Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.
Тех репорт
Демо (на китайском)
@ai_newz
15.04.202515:28
Яндекс запускает бета-тест YandexGPT 5 с reasoning-режимом
Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.
В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.
Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.
В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!
@ai_newz
Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.
В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.
Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.
В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!
@ai_newz




11.04.202515:39
🔥🔥🔥 Бесплатно VEO 2 - бесплатно для всех!
Звучит как скам, но нет) Гугл внезапно расщедрился и дал доступ всем желающим. Правда, без подвоха не обошлось - бесплатный доступ к СОТА-видеомодельке можно получить только через Google Cloud, а для этого нужно подключить билинг к своему гугл-аккаунту, и не с российской карты. А потом еще и не потеряться на платформе, которая вообще предназначена для разработчиков, а не для бедных AI-художников. (Хотя после FreePik вам должно быть уже ничто не страшно).
Вот вам гайд:
1. Способ для тех, кому не терпится:
1) Переходим на console.cloud.google.com/freetrial/ в окошке Country ставим United States, т. к. туда раньше всех приходят обновления. Видим, что нам предлагают $300 на 90 дней (тем, кто имел дело с google cloud это уже известно). Учитывая, что 1 секунда VEO-2 стоит ~$0.5, этого хватит на 600 секунд генераций. Из приятного, то, что Гугл никого с этой подпиской скамить не собирается, на этой же странице написано:
2) Создаем Payment profile:
Вставляем любой адрес отсюда: bestrandoms.com/random-address Можно выбрать Аляску, чтобы потом при оплате (ну а вдруг понравится) не платить налог.
Остальное заполняем на свое усмотрение.
3) Payment method:
А вот здесь сложности. Я пробовал сгенерить таким же образом карту, но этот вариант здесь не прокатит. Нужна любая валидная карта, которую вы обычно используете для оплаты подписок. Опять же, Гугл обещает не чарджить токены автоматически без вашего разрешения, но цепляйте карты на свой страх и риск.
Переходим в Vertex AI Studio —> Media Studio и генерим!
Еще не у всех есть доступ к img2video, чтобы ускорить процесс и запросить дополнительные фичи, можно заполнить форму.
2-й способ для тех, кто готов подождать.
Для всех остальных есть aistudio, где сейчас тоже тихонько раскатывают доступ и сразу с img2video. У меня на одном из 5-ти аккаунтов он уже появился и без всяких форм для вейтлистов.
P.S. Оба способа сейчас очень ограничены в плане запросов. Гугл молодцы и хорошо расходуют компьют, дают каждому закинуть 1-2 запроса раза в пару минут, причем генерится довольно шустро - секунд 40-60, а не как в Kling 3 часа.
Подробнее про VEO и Google Cloud
@ai_newz
Звучит как скам, но нет) Гугл внезапно расщедрился и дал доступ всем желающим. Правда, без подвоха не обошлось - бесплатный доступ к СОТА-видеомодельке можно получить только через Google Cloud, а для этого нужно подключить билинг к своему гугл-аккаунту, и не с российской карты. А потом еще и не потеряться на платформе, которая вообще предназначена для разработчиков, а не для бедных AI-художников. (Хотя после FreePik вам должно быть уже ничто не страшно).
Вот вам гайд:
1. Способ для тех, кому не терпится:
1) Переходим на console.cloud.google.com/freetrial/ в окошке Country ставим United States, т. к. туда раньше всех приходят обновления. Видим, что нам предлагают $300 на 90 дней (тем, кто имел дело с google cloud это уже известно). Учитывая, что 1 секунда VEO-2 стоит ~$0.5, этого хватит на 600 секунд генераций. Из приятного, то, что Гугл никого с этой подпиской скамить не собирается, на этой же странице написано:
No automatic charges
You only start paying if you decide to activate a full, pay-as-you-go account or choose to prepay. You’ll keep any remaining free credit.
2) Создаем Payment profile:
Вставляем любой адрес отсюда: bestrandoms.com/random-address Можно выбрать Аляску, чтобы потом при оплате (ну а вдруг понравится) не платить налог.
Остальное заполняем на свое усмотрение.
3) Payment method:
А вот здесь сложности. Я пробовал сгенерить таким же образом карту, но этот вариант здесь не прокатит. Нужна любая валидная карта, которую вы обычно используете для оплаты подписок. Опять же, Гугл обещает не чарджить токены автоматически без вашего разрешения, но цепляйте карты на свой страх и риск.
Переходим в Vertex AI Studio —> Media Studio и генерим!
Еще не у всех есть доступ к img2video, чтобы ускорить процесс и запросить дополнительные фичи, можно заполнить форму.
2-й способ для тех, кто готов подождать.
Для всех остальных есть aistudio, где сейчас тоже тихонько раскатывают доступ и сразу с img2video. У меня на одном из 5-ти аккаунтов он уже появился и без всяких форм для вейтлистов.
P.S. Оба способа сейчас очень ограничены в плане запросов. Гугл молодцы и хорошо расходуют компьют, дают каждому закинуть 1-2 запроса раза в пару минут, причем генерится довольно шустро - секунд 40-60, а не как в Kling 3 часа.
Подробнее про VEO и Google Cloud
@ai_newz


25.04.202509:19
Learn your reference model for real good alignment
Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.
Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.
Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.
Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.
Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.
Пейпер
@ai_newz
Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.
Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.
Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.
Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.
Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.
Пейпер
@ai_newz
22.04.202504:01
🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨
Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где строят модели для image/video generation с фокусом на генерацию людей. Обучают Foundation-модели с нуля, включая весь стек: от сбора и разметки датасетов масштаба миллиардов изображений до pre-training, post-training, fine-tuning и distillation.
Как Principal AI Engineer Вы сможете возглавить небольшую команду и влиять на все: от архитектуры и пайплайна до финального продукта.
Что ожидаем от кандидата:
• 5+ лет опыта в deep learning (LLM/GenAI).
• Опыт в тренировке диффузионных или flow-based моделей — огромный плюс.
• Большим плюсом будет:
• опыт распределенной тренировки large-scale моделей (multi-node / 128+ GPUs),
• опыт дизайна архитектур моделей,
• опыт ведения небольшой команды.
Команда 🔥
У ребят очень мощный состав, в том числе выходцы из DeepMind, Meta и др. Команда работает удалённо, преимущественно в EU time zone, с выездами на оффсайты.
Условия:
• Вилка: $150k – $300k.
• Дают опционы — настоящие, не фантики.
• Много свободы, крутая миссия, настоящий шанс построить что-то фундаментальное.
• Возможна релокация в Европу.
—
Также ребята ищут
🛠 Python Backend Engineer (Kubernetes, Highload, ML APIs)
Что предстоит делать:
• Разрабатывать highload Python-сервисы для ML-инференса.
• Оборачивать ML-инференс в API и разворачивать в прод с использованием Kubernetes/Docker.
• Настраивать очереди задач, логирование, мониторинг.
Идеальный кандидат:
• 5+ лет опыта в backend/system engineering, глубокий опыт в системном дизайне.
• Уверенное владение Python (или другим OOP-языком: Go, Rust, Java).
• Строил масштабируемые системы с нагрузкой и сложной логикой (распределённые очереди, сложные API, кэширование, пайплайны).
• Работал с ML-инфраструктурой или API над ML-инференсом — большой плюс.
• Умеет разбираться в сложных задачах и брать на себя ответственность, без микроменеджмента.
Мы предлагаем:
• Свободу в архитектурных решениях.
• Участие в создании масштабного продукта с нуля.
• Вилка: $100k – $200k и опционы.
• Возможна релокация в Европу.
По обеим вакансиям, чтобы податься нужно заполнить гугл форму, а затем написать в ЛС 👉 @genai_max.
В сообщении прикрепляйте LinkedIn/резюме/портфолио – всё, что может показать, насколько вы круты.
Я лично рекомендую этих ребят. Знаю команду и знаю, над чем работают — это будет огонь!
@ai_newz
Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где строят модели для image/video generation с фокусом на генерацию людей. Обучают Foundation-модели с нуля, включая весь стек: от сбора и разметки датасетов масштаба миллиардов изображений до pre-training, post-training, fine-tuning и distillation.
Как Principal AI Engineer Вы сможете возглавить небольшую команду и влиять на все: от архитектуры и пайплайна до финального продукта.
Что ожидаем от кандидата:
• 5+ лет опыта в deep learning (LLM/GenAI).
• Опыт в тренировке диффузионных или flow-based моделей — огромный плюс.
• Большим плюсом будет:
• опыт распределенной тренировки large-scale моделей (multi-node / 128+ GPUs),
• опыт дизайна архитектур моделей,
• опыт ведения небольшой команды.
Команда 🔥
У ребят очень мощный состав, в том числе выходцы из DeepMind, Meta и др. Команда работает удалённо, преимущественно в EU time zone, с выездами на оффсайты.
Условия:
• Вилка: $150k – $300k.
• Дают опционы — настоящие, не фантики.
• Много свободы, крутая миссия, настоящий шанс построить что-то фундаментальное.
• Возможна релокация в Европу.
—
Также ребята ищут
🛠 Python Backend Engineer (Kubernetes, Highload, ML APIs)
Что предстоит делать:
• Разрабатывать highload Python-сервисы для ML-инференса.
• Оборачивать ML-инференс в API и разворачивать в прод с использованием Kubernetes/Docker.
• Настраивать очереди задач, логирование, мониторинг.
Идеальный кандидат:
• 5+ лет опыта в backend/system engineering, глубокий опыт в системном дизайне.
• Уверенное владение Python (или другим OOP-языком: Go, Rust, Java).
• Строил масштабируемые системы с нагрузкой и сложной логикой (распределённые очереди, сложные API, кэширование, пайплайны).
• Работал с ML-инфраструктурой или API над ML-инференсом — большой плюс.
• Умеет разбираться в сложных задачах и брать на себя ответственность, без микроменеджмента.
Мы предлагаем:
• Свободу в архитектурных решениях.
• Участие в создании масштабного продукта с нуля.
• Вилка: $100k – $200k и опционы.
• Возможна релокация в Европу.
По обеим вакансиям, чтобы податься нужно заполнить гугл форму, а затем написать в ЛС 👉 @genai_max.
В сообщении прикрепляйте LinkedIn/резюме/портфолио – всё, что может показать, насколько вы круты.
Я лично рекомендую этих ребят. Знаю команду и знаю, над чем работают — это будет огонь!
@ai_newz
Выдалена23.04.202521:27
17.04.202508:04
🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.
Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.
Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.
Посты про конвертер (ч.1, ч.2)
Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.
Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.
Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.
Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.
#промо
Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.
Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.
Посты про конвертер (ч.1, ч.2)
Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.
Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.
Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.
Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.
#промо
14.04.202517:35
OpenAI показали GPT-4.1
Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus.
По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.
Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.
Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.
@ai_newz
Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus.
По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.
Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.
Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.
@ai_newz
10.04.202513:34
Для Grok 3 вышло API
Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.
Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).
Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.
x.ai/api
@ai_newz
Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.
Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).
Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.
x.ai/api
@ai_newz
24.04.202520:55
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик
Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.
А насколько вы чувствуете эти лимиты?
@ai_newz
Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.
А насколько вы чувствуете эти лимиты?
@ai_newz
20.04.202518:51
Нейродайджест за неделю (#65)
Жаркая неделя для ЛЛМ
LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.
Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.
Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.
> Читать дайджест #64
#дайджест
@ai_newz
Жаркая неделя для ЛЛМ
LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.
Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.
Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.
> Читать дайджест #64
#дайджест
@ai_newz




16.04.202517:36
o3 и o4-mini от OpenAI релизятся
Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.
По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.
Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.
В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.
@ai_newz
Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.
По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.
Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.
В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.
@ai_newz


15.04.202519:06
Anthropic запустили бету своего Deep Research
В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.
А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана 😭.
@ai_newz
В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.
А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана 😭.
@ai_newz


13.04.202522:11
На Image Arena ещё одна загадочная t2i модель заняла первое место
Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.
Возможно, это очередная китайская модель, по слухам от Dreamina.
@ai_newz
Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.
Возможно, это очередная китайская модель, по слухам от Dreamina.
@ai_newz


10.04.202511:07
Mechanistic permutability: Match across layers
В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.
Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.
Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.
У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.
Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.
Пейпер
@ai_newz
В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.
Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.
Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.
У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.
Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.
Пейпер
@ai_newz


23.04.202519:17
OpenAI запустили API для генерации картинок через GPT
Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.
Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.
Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.
@ai_newz
Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.
Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.
Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.
@ai_newz


18.04.202510:51
Релиз Gemini 2.5 Flash
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
16.04.202516:57
Через o3 минуты стрим у OpenAI
Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.
https://www.youtube.com/watch?v=sq8GBPUb3rk
@ai_newz
Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.
https://www.youtube.com/watch?v=sq8GBPUb3rk
@ai_newz


15.04.202517:44
Microsoft выпустила веса BitNet модели (спустя год)
Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.
Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.
Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.
Веса
@ai_newz
Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.
Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.
Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.
Веса
@ai_newz
13.04.202517:05
Нейродайджест за неделю (#64)
LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.
Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.
Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.
> Читать дайджест #63
#дайджест
@ai_newz
LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.
Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.
Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.
> Читать дайджест #63
#дайджест
@ai_newz




09.04.202515:36
Почему опенсорс – это круто?
Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:
1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.
Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.
@ai_newz
Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:
1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.
Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.
@ai_newz
Паказана 1 - 24 з 267
Увайдзіце, каб разблакаваць больш функцый.