Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
эйай ньюз avatar

эйай ньюз

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.
В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.
Aвтор: @asanakoy
PR: @ssnowysnow
TGlist рейтинг
0
0
ТипАчык
Текшерүү
Текшерилбеген
Ишенимдүүлүк
Ишенимсиз
ОрдуРосія
ТилиБашка
Канал түзүлгөн датаЛип 23, 2020
TGlistке кошулган дата
Вер 16, 2023
Тиркелген топ

"эйай ньюз" тобундагы акыркы жазуулар

🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.

Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.

Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.

Посты про конвертер (ч.1, ч.2)

Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.

Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.

Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.

Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.

#промо
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
Через o3 минуты стрим у OpenAI

Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.

https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_newz
💥Итак, эта тёмная лошадка Mogao оказалась новой text2image моделью Seedream 3.0 от ByteDance

На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.

Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.

На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.

Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.

Тех репорт
Демо (на китайском)

@ai_newz
Трамп, конечно, рыночек хорошо колбасит. С такими тарифами американский проект Stargate может тоже под вопрос стать.

@ai_newz
Anthropic запустили бету своего Deep Research

В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.

А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана 😭.

@ai_newz
Microsoft выпустила веса BitNet модели (спустя год)

Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.

Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.

Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.

Веса

@ai_newz
Яндекс запускает бета-тест YandexGPT 5 с reasoning-режимом

Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.

В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.

Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.

В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!

@ai_newz
OpenAI показали GPT-4.1

Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus.

По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.

Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.

Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.

@ai_newz
На Image Arena ещё одна загадочная t2i модель заняла первое место

Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.

Возможно, это очередная китайская модель, по слухам от Dreamina.

@ai_newz
Нейродайджест за неделю (#64)

LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.

Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.

Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.

> Читать дайджест #63

#дайджест
@ai_newz
🔥🔥🔥 Бесплатно VEO 2 - бесплатно для всех!

Звучит как скам, но нет) Гугл внезапно расщедрился и дал доступ всем желающим. Правда, без подвоха не обошлось - бесплатный доступ к СОТА-видеомодельке можно получить только через Google Cloud, а для этого нужно подключить билинг к своему гугл-аккаунту, и не с российской карты. А потом еще и не потеряться на платформе, которая вообще предназначена для разработчиков, а не для бедных AI-художников. (Хотя после FreePik вам должно быть уже ничто не страшно).

Вот вам гайд:

1. Способ для тех, кому не терпится:

1) Переходим на console.cloud.google.com/freetrial/ в окошке Country ставим United States, т. к. туда раньше всех приходят обновления. Видим, что нам предлагают $300 на 90 дней (тем, кто имел дело с google cloud это уже известно). Учитывая, что 1 секунда VEO-2 стоит ~$0.5, этого хватит на 600 секунд генераций. Из приятного, то, что Гугл никого с этой подпиской скамить не собирается, на этой же странице написано:
No automatic charges
You only start paying if you decide to activate a full, pay-as-you-go account or choose to prepay. You’ll keep any remaining free credit.


2) Создаем Payment profile:

Вставляем любой адрес отсюда: bestrandoms.com/random-address Можно выбрать Аляску, чтобы потом при оплате (ну а вдруг понравится) не платить налог.
Остальное заполняем на свое усмотрение.

3) Payment method:
А вот здесь сложности. Я пробовал сгенерить таким же образом карту, но этот вариант здесь не прокатит. Нужна любая валидная карта, которую вы обычно используете для оплаты подписок. Опять же, Гугл обещает не чарджить токены автоматически без вашего разрешения, но цепляйте карты на свой страх и риск.

Переходим в Vertex AI Studio —> Media Studio и генерим!

Еще не у всех есть доступ к img2video, чтобы ускорить процесс и запросить дополнительные фичи, можно заполнить форму.

2-й способ для тех, кто готов подождать.

Для всех остальных есть aistudio, где сейчас тоже тихонько раскатывают доступ и сразу с img2video. У меня на одном из 5-ти аккаунтов он уже появился и без всяких форм для вейтлистов.

P.S. Оба способа сейчас очень ограничены в плане запросов. Гугл молодцы и хорошо расходуют компьют, дают каждому закинуть 1-2 запроса раза в пару минут, причем генерится довольно шустро - секунд 40-60, а не как в Kling 3 часа.

Подробнее про VEO и Google Cloud

@ai_newz
Для Grok 3 вышло API

Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.

Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).

Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.

x.ai/api

@ai_newz
Mechanistic permutability: Match across layers

В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.

Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.

Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.

У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.

Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.

Пейпер

@ai_newz
Почему опенсорс – это круто?

Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:

1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.

Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.

@ai_newz

Рекорддор

17.04.202523:59
72.9KКатталгандар
28.02.202523:59
2700Цитация индекси
12.02.202519:37
64.2K1 посттун көрүүлөрү
11.02.202523:59
64.2K1 жарнама посттун көрүүлөрү
13.02.202517:22
18.02%ER
11.02.202523:59
92.60%ERR
Катталуучулар
Citation индекси
Бир посттун көрүүсү
Жарнамалык посттун көрүүсү
ER
ERR
ЛИП '24ЖОВТ '24СІЧ '25КВІТ '25

эйай ньюз популярдуу жазуулары

Умная роборука за $110

Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.

Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.

Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).

Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).

Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.

Гитхаб
Обнимающее лицо
SO-100

@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.

Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.

Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.

@ai_newz
Ушел гений.

Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.

Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).

Безумно жаль, что больше не выйдет его новых треков. RIP.

@ai_newz
🔥В генерации изображений новый игрок

Reve только вышли на рынок, а их модель Halfmoon 🌗 уже ТОП-1 на Image Generation Arena, обогнав Recraft V3, Imagen 3 и FLUX 1.1.

Я тоже попробовал и качество генераций очень очень хорошее. А вот про саму компанию мало чего понятно — известно лишь то, что их основали выходцы из Adobe Research

Уже доступна демка, по функционалу всё довольно просто — всего-то позволяют выбрать соотношение сторон, задать сид и врубить/вырубить автоматическое переписывание промпта. Также позволяют допиливать конкретную генерацию дополнительными промптами (закидывать свои картинки тоже можно). Как превью неплохо, посмотрим как будут допиливать.

Бесплатно дают 100 кредитов, 1 кредит = одна картинка, дальше они покупаются по $5 за 500 кредитов. Вместе с этим каждый день дают 20 генераций бесплатно, а когда они истекают, вот тогда уже используются кредиты. Если попробуете, напишите как вам.

И ждём ответку от Flux.

preview.reve.art

@ai_newz
🔥🔥🔥 Бесплатно VEO 2 - бесплатно для всех!

Звучит как скам, но нет) Гугл внезапно расщедрился и дал доступ всем желающим. Правда, без подвоха не обошлось - бесплатный доступ к СОТА-видеомодельке можно получить только через Google Cloud, а для этого нужно подключить билинг к своему гугл-аккаунту, и не с российской карты. А потом еще и не потеряться на платформе, которая вообще предназначена для разработчиков, а не для бедных AI-художников. (Хотя после FreePik вам должно быть уже ничто не страшно).

Вот вам гайд:

1. Способ для тех, кому не терпится:

1) Переходим на console.cloud.google.com/freetrial/ в окошке Country ставим United States, т. к. туда раньше всех приходят обновления. Видим, что нам предлагают $300 на 90 дней (тем, кто имел дело с google cloud это уже известно). Учитывая, что 1 секунда VEO-2 стоит ~$0.5, этого хватит на 600 секунд генераций. Из приятного, то, что Гугл никого с этой подпиской скамить не собирается, на этой же странице написано:
No automatic charges
You only start paying if you decide to activate a full, pay-as-you-go account or choose to prepay. You’ll keep any remaining free credit.


2) Создаем Payment profile:

Вставляем любой адрес отсюда: bestrandoms.com/random-address Можно выбрать Аляску, чтобы потом при оплате (ну а вдруг понравится) не платить налог.
Остальное заполняем на свое усмотрение.

3) Payment method:
А вот здесь сложности. Я пробовал сгенерить таким же образом карту, но этот вариант здесь не прокатит. Нужна любая валидная карта, которую вы обычно используете для оплаты подписок. Опять же, Гугл обещает не чарджить токены автоматически без вашего разрешения, но цепляйте карты на свой страх и риск.

Переходим в Vertex AI Studio —> Media Studio и генерим!

Еще не у всех есть доступ к img2video, чтобы ускорить процесс и запросить дополнительные фичи, можно заполнить форму.

2-й способ для тех, кто готов подождать.

Для всех остальных есть aistudio, где сейчас тоже тихонько раскатывают доступ и сразу с img2video. У меня на одном из 5-ти аккаунтов он уже появился и без всяких форм для вейтлистов.

P.S. Оба способа сейчас очень ограничены в плане запросов. Гугл молодцы и хорошо расходуют компьют, дают каждому закинуть 1-2 запроса раза в пару минут, причем генерится довольно шустро - секунд 40-60, а не как в Kling 3 часа.

Подробнее про VEO и Google Cloud

@ai_newz
Трекинг-костюм больше не нужен

Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.

Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction

И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.

На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.

Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.

@ai_newz
Вышел DeepCoder 14B Preview

Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.

За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.

Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.

А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.

И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!

Веса

Код
Датасет

@ai_newz
Сколько энергии тратят LLM на юзера?

Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.

@ai_newz
🔥Llama 4 — Scout, Maverick и Behemoth

Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:

Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.

Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.

Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.

Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.

Веса

@ai_newz
Почему опенсорс – это круто?

Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:

1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.

Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.

@ai_newz
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
Cohere Command A - техрепорт

Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.

Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.

Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и без bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.

Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!

Тех Репорт

@ai_newz
Өчүрүлгөн18.03.202518:54
17.03.202512:55
Принес вам прикольного бота – DataKitsune. Это бесплатный TG бот, который собирает ссылки из групповых чатов за какое-то время и отправляет их краткое содержание в личку. Сделал его Алексей Моисеенков(@chillhousetech), вместе со своей командой. У него интересная история — за плечами два успешных экзита из стартапов (Prisma и LFG), когда даже один случается нечасто. Бот изначально был для внутреннего использования, но, попользовавшись, команда решила расшарить его со всеми.

Основная функция бота — сбор и суммаризацию контента по ссылкам, включая видео с YouTube. Киллерфича — возможность поиска по содержимому ссылок за много месяцев просто по ключевым словам, очень помогает если у вас (как у меня) в чатах за пару месяцев скапливается несколько сотен или тысяч ссылок. Работает без административных прав в чатах.

Команда принимает фидбек, еще можно развернуть бота у себя локально (пока что по запросу, но скоро код будет в опенсорсе). Подробнее — на канале у Алексея, он тоже про ИИ, но с упором на создание продуктов. Учитывая его бекграунд — он точно знает о чём говорит. Канал честно рекомендую, и сам его читаю.

Сам бот: https://t.me/datakitsune_bot

#промо
17.04.202508:04
🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.

Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.

Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.

Посты про конвертер (ч.1, ч.2)

Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.

Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.

Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.

Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.

#промо
LLM-ка A-Vibe, разработанная командой Авито, заняла первое место среди легких языковых моделей (до 10 млрд параметров) в независимом русскоязычном бенчмарке MERA. MERA — сборник 23 русскоязычных бенчмарков, с закрытым тест сетом у большей части (то есть никто не может тренировать на бенчах). A-Vibe обошла на таком бенче GPT-4o mini от OpenAI, Claude 3.5 Haiku от Anthropic, Gemma 3 27B от Google и другие популярные модели. На отдельных бенчах есть заметный отрыв и от моделей побольше.

Для обучения A-Vibe на начальном этапе взяли Qwen 2.5 7B и провели ее «русификацию», заменив стандартный токенизатор на собственный. Теперь модель способна обрабатывать русский язык в 2 раза быстрее и лучше понимает и генерирует текст — замена токенизатора и дополнительная тренировка позволила обогнать Qwen 2 72B на русском языке, что очень хорошо для 7B модели.

Технология уже интегрирована в сервисы Авито — помогает продавцам создавать продающие описания товаров и ускоряет процесс коммуникации в мессенджере платформы. Компания планирует до конца года внедрить 20 новых сценариев использования ИИ в своих сервисах. А в будущем планирует выпустить A-Vibe в опенсорс.

Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров. Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.

@ai_newz
Көбүрөөк функцияларды ачуу үчүн кириңиз.