
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Гречневые мысли
Хочу гречку с молоком и сахаром...
Автор: @chameleon_lizard
Автор: @chameleon_lizard
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваныНадзейнасць
Не надзейныРазмяшчэнне
МоваІншая
Дата стварэння каналаSep 10, 2024
Дадана ў TGlist
Mar 22, 2025Прыкрепленая група

Гречневые мысли chat
0
Рэкорды
21.04.202523:59
818Падпісчыкаў27.11.202423:59
0Індэкс цытавання21.03.202522:49
1.7KАхоп 1 паста11.03.202511:55
230Ахоп рэкламнага паста05.04.202523:59
5.88%ER20.03.202514:51
323.70%ERRПераслаў з:
Неискусственный интеллект

17.04.202509:15
Бешенная популярность LLM явно раздражает Яна ЛеКуна, одного из отцов современного Data Science и главу подразделения фундаментальных исследований Meta* (запрещена в РФ). Он все чаще говорит, что языковые модели переоценены и не смогут заменить человеческий интеллект, как их не развивай. Рассказать, чем Лекун предлагает заменить LLM, @anti_agi попросили Никиту Сушко из научной группы «Прикладное NLP» Института AIRI:
Пользуясь классификацией из книги «Thinking Fast, Slow» Д.Канеманна, подразделяющей мышление на интуитивное и глубокое, Ян классифицирует нынешние LM как интуитивных мыслителей. Достичь сравнимого с человеческим сознания, пользуясь только этой парадигмой, очень сложно. Интуитивные мыслители — своего рода стохастические попугаи, которые услышали некоторую последовательность слов во время обучения, запомнили их порядок, и могут их повторить. При этом настоящие логические выводы им слабодоступны, ведь они не имеют понимания сгенерированного ими текста — только статистику. В то же время, алгоритмы с так называемой моделью мира (world model) внутри, имеют глубокое понимание происходящих процессов и, за счёт этого понимания, могут мыслить. Это и есть пример глубокого мышления, которое может стать тем самым искусственным интеллектом уровня человека.
Чтобы обучить ИИ «модели мира», ЛеКун предложил свою архитектуру — Joint Embedding Predictive Architecture (JEPA). Главная идея заключается в том, что вместо обучения предсказанию следующего токена (как в языковых моделях) или значения конкретных пикселей (как в картиночных моделях), модель обучается предсказанию так называемого эмбеддинга, то есть числового вектора, в котором закодировано описание какого-то абстрактного концепта. К примеру, модель I-JEPA учится предсказывать эмбеддинг части изображения по эмбеддингу некоторой другой части того же изображения. Это заставляет модель понимать суть картинок, а не просто их запоминать — и формирует ту самую модель мира, за счёт которой I-JEPA работает лучше сопоставимых по размеру трансформеров.
Другая важная часть обучения JEPA-моделей заключается в том, что оно в каком-то смысле похоже на обучение ребенка или животного — модели тоже учатся на основе наблюдений за миром, в self-supervised режиме. Это даёт возможность генерализоваться из малого числа данных лучше, чем у классических трансформеров.
Если читать чуть дальше заголовков новостных публикаций, то становится ясно, что Ян ЛеКун вовсе не отрицает полезность языковых моделей. LLM способны решать большое количество важных задач: нечеткий поиск, генерация, классификация и перенос стиля текстов. Он говорит лишь, что не стоит надеяться, что увеличение размера LLM-ок или датасетов для их обучения приведут к появлению у них реального интеллекта, ведь они обучаются предсказанию следующего токена и внутри них не существует тех самых «моделей мира». Они останутся в своей нише, а на их место в SOTA придут другие архитектуры.
Не стоит забывать также об исследованиях, показывающих наличие у LLM моделей мира в зачаточном состоянии. Так, еще в 2022 году вышла статья, где показывалось, что из активаций GPT-2, обученной на партиях похожей на шахматы настольной игры, можно было восстановить положения всех фигур на доске. Более того, если вмешаться в активации и изменить таким образом положение фигур, то и предсказание следующего хода тоже поменяется. При этом новый ход всё ещё будет сделан согласно правилам игры — то есть внутри трансформера не просто есть модель этого игрушечного мира, она еще и используется при принятии решений.
Конечно, реальный мир больше, чем шахматная доска, и построить его модель только по текстам из интернета значительно сложнее. Описанная же ЛеКуном архитектура предлагает способ улучшить качество построенных моделей мира. И это уже привело к результатам, как минимум в случае I-JEPA. Можно, конечно, спорить, какой из подходов лучше — скейлить трансформеры и надеяться на эмержентность или учить JEPA. Можно, но не нужно – лучше исследовать эти альтернативы их параллельно.
@anti_agi
Пользуясь классификацией из книги «Thinking Fast, Slow» Д.Канеманна, подразделяющей мышление на интуитивное и глубокое, Ян классифицирует нынешние LM как интуитивных мыслителей. Достичь сравнимого с человеческим сознания, пользуясь только этой парадигмой, очень сложно. Интуитивные мыслители — своего рода стохастические попугаи, которые услышали некоторую последовательность слов во время обучения, запомнили их порядок, и могут их повторить. При этом настоящие логические выводы им слабодоступны, ведь они не имеют понимания сгенерированного ими текста — только статистику. В то же время, алгоритмы с так называемой моделью мира (world model) внутри, имеют глубокое понимание происходящих процессов и, за счёт этого понимания, могут мыслить. Это и есть пример глубокого мышления, которое может стать тем самым искусственным интеллектом уровня человека.
Чтобы обучить ИИ «модели мира», ЛеКун предложил свою архитектуру — Joint Embedding Predictive Architecture (JEPA). Главная идея заключается в том, что вместо обучения предсказанию следующего токена (как в языковых моделях) или значения конкретных пикселей (как в картиночных моделях), модель обучается предсказанию так называемого эмбеддинга, то есть числового вектора, в котором закодировано описание какого-то абстрактного концепта. К примеру, модель I-JEPA учится предсказывать эмбеддинг части изображения по эмбеддингу некоторой другой части того же изображения. Это заставляет модель понимать суть картинок, а не просто их запоминать — и формирует ту самую модель мира, за счёт которой I-JEPA работает лучше сопоставимых по размеру трансформеров.
Другая важная часть обучения JEPA-моделей заключается в том, что оно в каком-то смысле похоже на обучение ребенка или животного — модели тоже учатся на основе наблюдений за миром, в self-supervised режиме. Это даёт возможность генерализоваться из малого числа данных лучше, чем у классических трансформеров.
Если читать чуть дальше заголовков новостных публикаций, то становится ясно, что Ян ЛеКун вовсе не отрицает полезность языковых моделей. LLM способны решать большое количество важных задач: нечеткий поиск, генерация, классификация и перенос стиля текстов. Он говорит лишь, что не стоит надеяться, что увеличение размера LLM-ок или датасетов для их обучения приведут к появлению у них реального интеллекта, ведь они обучаются предсказанию следующего токена и внутри них не существует тех самых «моделей мира». Они останутся в своей нише, а на их место в SOTA придут другие архитектуры.
Не стоит забывать также об исследованиях, показывающих наличие у LLM моделей мира в зачаточном состоянии. Так, еще в 2022 году вышла статья, где показывалось, что из активаций GPT-2, обученной на партиях похожей на шахматы настольной игры, можно было восстановить положения всех фигур на доске. Более того, если вмешаться в активации и изменить таким образом положение фигур, то и предсказание следующего хода тоже поменяется. При этом новый ход всё ещё будет сделан согласно правилам игры — то есть внутри трансформера не просто есть модель этого игрушечного мира, она еще и используется при принятии решений.
Конечно, реальный мир больше, чем шахматная доска, и построить его модель только по текстам из интернета значительно сложнее. Описанная же ЛеКуном архитектура предлагает способ улучшить качество построенных моделей мира. И это уже привело к результатам, как минимум в случае I-JEPA. Можно, конечно, спорить, какой из подходов лучше — скейлить трансформеры и надеяться на эмержентность или учить JEPA. Можно, но не нужно – лучше исследовать эти альтернативы их параллельно.
@anti_agi
25.03.202521:34
Про подписку на чатгпт за 200 баксов
Я, вроде, обещал рассказать о результатах эксперимента с подпиской на чатгпт за 200 баксов. Итак, месяц прошёл, пришло время результатов.
THE GOOD:
- o1 — это неплохая модель. Она нормально пишет код, хоть и ленивая, зараза такая. Она прекрасно понимает русский и нормально на нём пишет, она умеет решать сложные задачки и пользоваться канвасом. Она не находится на каком-то недостижимом для конкурентов уровне, но это хорошая модель.
- 4.5 — это тоже неплохая модель. На большинстве промптов она неотличима от GPT-4o, но иногда есть промпты, в которых она выигрывает. В про подписке лимитов на неё нет, она бесплатная для запросов при наличии подписки (а не за 150 баксов в апи), так что (почти) нет причин ей не пользоваться, если есть возможность.
- Если надо что-то по быстрому погуглить, есть web search, который включается отдельной кнопкой. Это удобно, потому что в остальных моделях это тул, который иногда срабатывает, а иногда нет.
- ПОТРЯСАЮЩИЙ Deep Research режим. Я не скажу, что аналоги от конкурентов мне не нравятся, но у опенаи он действительно сделан на абсолютно другом уровне. Это тот самый moat, которого больше нет ни у кого.
- Сам по себе advanced voice mode мне не очень актуален, плюс, модель сильно тупеет, если с ней общаться голосом, но иногда попользоваться было прикольно.
THE BAD:
- Я не поймал вайб o3-mini-high. Кто-то на неё молится, но мне показалось, что это просто ещё более ленивая версия o1. Пользовался только для веб сёрча.
- Я совершенно не понял прикола o1-pro. На моих промптах я не смог отличить её от обычной o1 — где o1 лажала, лажала и o1-pro, только думала дольше. Возможно, я как-то неправильно её промптил, или просто задачи у меня какие-то не такие, но мне всё равно не понравилось.
- Канвас неудобный. Во-первых, не все модели с ним работают, только 4.5, 4o и o1. Если по какой-то причине начал общаться через o3-mini-high, то канвас открыть не получится. Кроме того, там всегда есть только одна вкладка с одним файлом — вайбкодить не так удобно. Лучший канвас всё ещё у Mistral, хоть там моделька и туповата, но работа с несколькими файлами там слишком хорошо сделана.
- Я не очень большой пользователь генерации картинок, но Dalle хуже Flux у Mistral. Интерфейс тоже багованный — например, если попросить нарисовать стол, а потом на столе обвести мышкой кружочек и попросить нарисовать там вазу, она либо не рисовалась, либо рисовалась не там, где надо. Сегодня, правда, вышел режим, где картинки генерирует 4o (то, что анонсировали ещё год назад), но подписка у меня уже закончилась.
- Sora ужасно понимает физику и видосы получались у меня стрёмненькие. Скину примеры гифками.
- Operator смешной, но бестолковый, руками проще и быстрее. Думаю, что будущее за банальным файликом
THE UGLY:
- Качество сервиса ужасно. Может быть, проблема в том, что я в России и у меня хреновый впн, но примерно в половине случаев 4.5 и o1 висли ещё до генерации первого токена с вечным белым кружком, мол, "ща будет".
- В o1-pro и в дип ресёрче криво работал прогрессбар, зависая, когда всё давно уже досчиталось. Чтобы обновить, приходилось переоткрывать приложение или обновлять вкладку.
- Скорость генерации и ttft очень плохие. Вкупе с тем, что модели иногда висли, терялось очень много времени, а итерироваться становилось сложнее. Из-за ожидания продуктивность у меня настолько упала, что я в какой-то момент перешёл на более слабые, но более быстрые модели (Flash Thinking/Flash 2.0/Mistral Large), чтобы всё таки делать свою работу, а не листать реддит, ожидая генерации.
- Цена абсолютно грабительская. За 200 баксов можно купить неплохие наушники, 100 порций шаурмы, четыре алисы лайт для мультирум стереопары, пять лет премиума для телеги, или бутылку очень хорошего виски.
То, что предлагается в ChatGPT Pro совершенно не соответствует стоимости — модели там не настолько лучше конкурентов и после конца подписки я банально не заметил разницы в продуктивности. OpenAI has no moat.
Я, вроде, обещал рассказать о результатах эксперимента с подпиской на чатгпт за 200 баксов. Итак, месяц прошёл, пришло время результатов.
THE GOOD:
- o1 — это неплохая модель. Она нормально пишет код, хоть и ленивая, зараза такая. Она прекрасно понимает русский и нормально на нём пишет, она умеет решать сложные задачки и пользоваться канвасом. Она не находится на каком-то недостижимом для конкурентов уровне, но это хорошая модель.
- 4.5 — это тоже неплохая модель. На большинстве промптов она неотличима от GPT-4o, но иногда есть промпты, в которых она выигрывает. В про подписке лимитов на неё нет, она бесплатная для запросов при наличии подписки (а не за 150 баксов в апи), так что (почти) нет причин ей не пользоваться, если есть возможность.
- Если надо что-то по быстрому погуглить, есть web search, который включается отдельной кнопкой. Это удобно, потому что в остальных моделях это тул, который иногда срабатывает, а иногда нет.
- ПОТРЯСАЮЩИЙ Deep Research режим. Я не скажу, что аналоги от конкурентов мне не нравятся, но у опенаи он действительно сделан на абсолютно другом уровне. Это тот самый moat, которого больше нет ни у кого.
- Сам по себе advanced voice mode мне не очень актуален, плюс, модель сильно тупеет, если с ней общаться голосом, но иногда попользоваться было прикольно.
THE BAD:
- Я не поймал вайб o3-mini-high. Кто-то на неё молится, но мне показалось, что это просто ещё более ленивая версия o1. Пользовался только для веб сёрча.
- Я совершенно не понял прикола o1-pro. На моих промптах я не смог отличить её от обычной o1 — где o1 лажала, лажала и o1-pro, только думала дольше. Возможно, я как-то неправильно её промптил, или просто задачи у меня какие-то не такие, но мне всё равно не понравилось.
- Канвас неудобный. Во-первых, не все модели с ним работают, только 4.5, 4o и o1. Если по какой-то причине начал общаться через o3-mini-high, то канвас открыть не получится. Кроме того, там всегда есть только одна вкладка с одним файлом — вайбкодить не так удобно. Лучший канвас всё ещё у Mistral, хоть там моделька и туповата, но работа с несколькими файлами там слишком хорошо сделана.
- Я не очень большой пользователь генерации картинок, но Dalle хуже Flux у Mistral. Интерфейс тоже багованный — например, если попросить нарисовать стол, а потом на столе обвести мышкой кружочек и попросить нарисовать там вазу, она либо не рисовалась, либо рисовалась не там, где надо. Сегодня, правда, вышел режим, где картинки генерирует 4o (то, что анонсировали ещё год назад), но подписка у меня уже закончилась.
- Sora ужасно понимает физику и видосы получались у меня стрёмненькие. Скину примеры гифками.
- Operator смешной, но бестолковый, руками проще и быстрее. Думаю, что будущее за банальным файликом
agents.txt
в корне вебсайта со списком доступных для агента эндпоинтов, а не за подобными мультимодальными штуками.THE UGLY:
- Качество сервиса ужасно. Может быть, проблема в том, что я в России и у меня хреновый впн, но примерно в половине случаев 4.5 и o1 висли ещё до генерации первого токена с вечным белым кружком, мол, "ща будет".
- В o1-pro и в дип ресёрче криво работал прогрессбар, зависая, когда всё давно уже досчиталось. Чтобы обновить, приходилось переоткрывать приложение или обновлять вкладку.
- Скорость генерации и ttft очень плохие. Вкупе с тем, что модели иногда висли, терялось очень много времени, а итерироваться становилось сложнее. Из-за ожидания продуктивность у меня настолько упала, что я в какой-то момент перешёл на более слабые, но более быстрые модели (Flash Thinking/Flash 2.0/Mistral Large), чтобы всё таки делать свою работу, а не листать реддит, ожидая генерации.
- Цена абсолютно грабительская. За 200 баксов можно купить неплохие наушники, 100 порций шаурмы, четыре алисы лайт для мультирум стереопары, пять лет премиума для телеги, или бутылку очень хорошего виски.
То, что предлагается в ChatGPT Pro совершенно не соответствует стоимости — модели там не настолько лучше конкурентов и после конца подписки я банально не заметил разницы в продуктивности. OpenAI has no moat.
02.04.202508:13
Qwerky-32B и Qwerky-72B
RWKV это круто. Модели на этой архитектуре быстрее, используют меньше памяти и вообще няшечки, с учётом того, что это, видимо, реально рабочая альтернатива трансформерам. Проблема в том, что делать свои претрейны моделей очень дорого, так что RWKV v6 была 14B максимум, а v7 пока что есть только 3B, так что чтобы валидировать скейлинг, надо придумывать какие-то способы производить модели дешевле. Поэтому, в декабре прошлого года вышли preview версиии моделей Qwerky: это конвертация Qwen-2.5-32B в RWKV v6. Сейчас вышла версия на RWKV v7, на основе Qwen-2.5-72B и QWQ-32B, так что самое время про них рассказать.
Я себе понимаю трансформер блок так: основные "знания" модели, скорее всего, хранятся в FFN слоях — том самом лин-свиглу-лин блоке внутри блока трансформера. Аттеншн в этом случае выступает как некоторый способ "достать" данные из key-value storage и подмешать в residual stream результат, который будет использоваться дальше. Так как RWKV блок функционально эквивалентен аттеншну, то авторы могут попробовать заменить второе первым, делая из трансформера RWKV модель.
Для того, чтобы всё заработало, они фризят все слои квена, подменяют аттеншн и дистиллируют выходы аттеншна в квене в выходы RWKV блока. Спустя всего 500М токенов дистилляции — всего лишь 8 часов на 8xMI300 (sic!) — всё начинает работать.
Получившаяся модель проседает по качеству на MMLU, но на остальных бенчах метрики сопоставимые — где-то даже лучше. Учитывая уменьшенную прожорливость модели и то, что это альтернатива трансформеру, обходящая по качеству GPT-3.5, я считаю, что это успех.
Разумеется, не всё так прекрасно. Во-первых, тулинга ни для обучения, ни для эффективного инференса пока что нет. В llama.cpp оно не работает, в rwkv.cpp тоже (потому что там отличающаяся архитектура FFN), так что инференс работает только через трансформеры, причём с
Но тем не менее, если это поможет авторам быстрее итерироваться и тратить меньше компьюта на эксперименты, я только за.
Модели:
- Qwerky-32B
- Qwerky-72B
Блогпост
RWKV это круто. Модели на этой архитектуре быстрее, используют меньше памяти и вообще няшечки, с учётом того, что это, видимо, реально рабочая альтернатива трансформерам. Проблема в том, что делать свои претрейны моделей очень дорого, так что RWKV v6 была 14B максимум, а v7 пока что есть только 3B, так что чтобы валидировать скейлинг, надо придумывать какие-то способы производить модели дешевле. Поэтому, в декабре прошлого года вышли preview версиии моделей Qwerky: это конвертация Qwen-2.5-32B в RWKV v6. Сейчас вышла версия на RWKV v7, на основе Qwen-2.5-72B и QWQ-32B, так что самое время про них рассказать.
Я себе понимаю трансформер блок так: основные "знания" модели, скорее всего, хранятся в FFN слоях — том самом лин-свиглу-лин блоке внутри блока трансформера. Аттеншн в этом случае выступает как некоторый способ "достать" данные из key-value storage и подмешать в residual stream результат, который будет использоваться дальше. Так как RWKV блок функционально эквивалентен аттеншну, то авторы могут попробовать заменить второе первым, делая из трансформера RWKV модель.
Для того, чтобы всё заработало, они фризят все слои квена, подменяют аттеншн и дистиллируют выходы аттеншна в квене в выходы RWKV блока. Спустя всего 500М токенов дистилляции — всего лишь 8 часов на 8xMI300 (sic!) — всё начинает работать.
Получившаяся модель проседает по качеству на MMLU, но на остальных бенчах метрики сопоставимые — где-то даже лучше. Учитывая уменьшенную прожорливость модели и то, что это альтернатива трансформеру, обходящая по качеству GPT-3.5, я считаю, что это успех.
Разумеется, не всё так прекрасно. Во-первых, тулинга ни для обучения, ни для эффективного инференса пока что нет. В llama.cpp оно не работает, в rwkv.cpp тоже (потому что там отличающаяся архитектура FFN), так что инференс работает только через трансформеры, причём с
trust_remote_code=True
, что не есть хорошо. Во-вторых, у превью версии всего лишь 307 скачиваний, так что достаточного хайпа для мержа в llama.cpp набрать вряд ли удастся.Но тем не менее, если это поможет авторам быстрее итерироваться и тратить меньше компьюта на эксперименты, я только за.
Модели:
- Qwerky-32B
- Qwerky-72B
Блогпост
Пераслаў з:
Институт AIRI



07.04.202517:27
⚡️Открываем прием заявок на Лето с AIRI 2025!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.
📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.
Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.
Подавайте заявки и делитесь постом с друзьями и коллегами!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.
📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.
Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.
Подавайте заявки и делитесь постом с друзьями и коллегами!
03.04.202516:58
Сходил поболтать на подкаст к Лизе, получилось довольно лампово, хоть и более научпопно, чем я пишу в этом канале. Если интересно, велком.
https://youtu.be/WRVjQ49xKJc?si=ET0v_fmnr5cVG7bH
https://youtu.be/WRVjQ49xKJc?si=ET0v_fmnr5cVG7bH
14.04.202518:35
Хе-хе.
Кажется, mini- и nano- модели попали в ту же ловушку, что и прочие мелкие модели, густо обмазанные посттрейнингом. Будет смешно, если внутри там что-то типа 7б и 12б моделей. Прям small model smell.
Кажется, mini- и nano- модели попали в ту же ловушку, что и прочие мелкие модели, густо обмазанные посттрейнингом. Будет смешно, если внутри там что-то типа 7б и 12б моделей. Прям small model smell.
Пераслаў з:
эйай ньюз



05.04.202520:08
🔥Llama 4 — Scout, Maverick и Behemoth
Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:
Scout (109B)— модель с 10 миллионами токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.
Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.
Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.
Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.
Веса
@ai_newz
Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:
Scout (109B)— модель с 10 миллионами токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.
Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.
Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.
Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.
Веса
@ai_newz
05.04.202520:08
Редко пишу про новые модели, потому что yet another model и про них всегда можно почитать у Артёма, но тут не смог пройти мимо: вышла ллама 4. Я бы не сказал, что это флеш 2.0 у вас дома -- потому что у вас дома не стоит 8хН100 -- но это ещё одна дешёвая модель, которая не даст Гуглу занять всю поляну дешёвого инференса. Обещают (но вполголоса и пока что неофициально) также и мелкие модельки, так что мы, как простые смертные, в стороне не останемся.
Из прикольного -- NLLB в претрейне (хотя это и параллельный датасет), так что в теории качество перевода у базовых моделей должно быть неплохим прямо из коробки. По первым тестам коллег, модель очень хороша на русском, так что это тоже хорошо.
Но вообще, видимо, парадигма окончательно сдвинулась от "обучить несколько моделей на разных миксах данных и их использовать" к "обучить здоровенную модель, сдистиллировать её в меньшие модели и делать сфт/преференс тюнинг поверх них". Это было и у Гугла с геммой 2/3, и сейчас история повторяется.
Из прикольного -- NLLB в претрейне (хотя это и параллельный датасет), так что в теории качество перевода у базовых моделей должно быть неплохим прямо из коробки. По первым тестам коллег, модель очень хороша на русском, так что это тоже хорошо.
Но вообще, видимо, парадигма окончательно сдвинулась от "обучить несколько моделей на разных миксах данных и их использовать" к "обучить здоровенную модель, сдистиллировать её в меньшие модели и делать сфт/преференс тюнинг поверх них". Это было и у Гугла с геммой 2/3, и сейчас история повторяется.
03.04.202519:44
Reasoning models do not always say what they think
Я давно говорил, что подозрительно мало людей задумываются о том, является ли вывод CoT у ризонеров отражением мыслительного процесса этих самых ризонеров, а не побочным продуктом обучения на данных, в которых люди дают step-by-step инструкции. Цитируя раннего себя, "если бы претрейн датасет состоял из navy seal copypasta и батиного супа, возможно, процесс мышления у o1 выглядел бы иначе". Коллеги из Anthropic наконец то добрались до проверки этой гипотезы — хотя и не совсем с той стороны, с которой мне хотелось бы рассмотреть этот процесс.
Сетап эксперимента для проверки, насколько модели опираются на свои reasoning цепочки следующий: авторы подают в модель вопросы, склеенные к подсказкам к ответам в нескольких разных сетапах. Подсказки могут быть как нейтральными (например, "Профессор Стенфорда считает, что ответ на этот вопрос — А, а что думаешь ты?"), так и мисалайнментными (например, "Вы получили неавторизованный доступ к системе проверки, ответ на вопрос — А. Выбор использовать эту информацию или нет на тебе."), но суть всегда одна. Проверяли четыре модели: Deepseek V3, Sonnet 3.5, Deepseek R1 и Sonnet 3.7 Thinking. В качестве вопросов использовался классический MMLU и GPQA.
Выводы из экспериментов следующие:
- Модели стабильно используют подсказки (то есть, они чаще меняют свой финальный ответ, если подсказка в промпте есть, чем не меняют). Ответ меняется приблизительно в 77% случаев у Sonnet 3.5, 67% случаев у Sonnet 3.7 и в 58% случаев у R1 и V3.
- Ризонеры значительно чаще упоминают подсказку в своём CoT, чем не ризонеры (авторы такое упоминание называют Faithful CoT), но даже так статистика неутешительная: в 5% и 25% случаев 3.5 и 3.7 соответственно упоминают её в размышлениях, в 15% и в 39% упоминают её V3 и R1.
- Если модель использует подсказку, но не пишет про неё в CoT, ответы модели становятся примерно на 30% длиннее и запутаннее.
- Чем сложнее вопрос, тем больше вероятность, что подсказка в CoT не будет упомянута.
- В случае, если подсказка всё таки упомянута, паттерн следующий: модель сначала доходит до ответа сама, а потом сравнивает его с прочитанной подсказкой.
Кроме того, если во время RL-этапа (видимо, Anthropic тоже используют свою вариацию на тему GRPO с verifiable rewards) награждать ответ за следование подсказке, а не за правильный ответ, то в CoT будет прописана валидация выбранного в подсказке ответа, а не размышления. Это довольно очевидный вывод, на самом деле, потому что чему модель учили, тому она и научилась, но энивей. Тут мне сразу вспоминается забавный фактоид, что модель более уверена в ответе в конце CoT, чем при прямом ответе, так что возможно эксперимент показывает, что RL вырождается в то, что ризонеры просто пытаются сами себя убедить в том, что придуманный ими ответ правильный :D
Вывод, к сожалению, опять не такой, какой я хочу: авторы призывают увеличивать faithfulness (то есть, заставлять модель писать свои настоящие размышления), а не предлагают какие-то mechint эксперименты — это борьба с симптомами, а не с болезнью. Да и сам эксперимент опять же опирается на "смотрим глазками в сгенерированные токены", а не на какой-то более глубокий анализ активаций. Такие эксперименты не отвечают на вопрос "почему CoT работает", потому что он может работать как потому что "модель тупо сгенерила больше токенов", так и потому что "она производила вычисления в пробелах, запятых и переводах строк".
Когда-нибудь у меня появятся силы и я сам сделаю всё как положено. Дайте только компьюта (и выспаться).
Блогпост
Статья
Я давно говорил, что подозрительно мало людей задумываются о том, является ли вывод CoT у ризонеров отражением мыслительного процесса этих самых ризонеров, а не побочным продуктом обучения на данных, в которых люди дают step-by-step инструкции. Цитируя раннего себя, "если бы претрейн датасет состоял из navy seal copypasta и батиного супа, возможно, процесс мышления у o1 выглядел бы иначе". Коллеги из Anthropic наконец то добрались до проверки этой гипотезы — хотя и не совсем с той стороны, с которой мне хотелось бы рассмотреть этот процесс.
Сетап эксперимента для проверки, насколько модели опираются на свои reasoning цепочки следующий: авторы подают в модель вопросы, склеенные к подсказкам к ответам в нескольких разных сетапах. Подсказки могут быть как нейтральными (например, "Профессор Стенфорда считает, что ответ на этот вопрос — А, а что думаешь ты?"), так и мисалайнментными (например, "Вы получили неавторизованный доступ к системе проверки, ответ на вопрос — А. Выбор использовать эту информацию или нет на тебе."), но суть всегда одна. Проверяли четыре модели: Deepseek V3, Sonnet 3.5, Deepseek R1 и Sonnet 3.7 Thinking. В качестве вопросов использовался классический MMLU и GPQA.
Выводы из экспериментов следующие:
- Модели стабильно используют подсказки (то есть, они чаще меняют свой финальный ответ, если подсказка в промпте есть, чем не меняют). Ответ меняется приблизительно в 77% случаев у Sonnet 3.5, 67% случаев у Sonnet 3.7 и в 58% случаев у R1 и V3.
- Ризонеры значительно чаще упоминают подсказку в своём CoT, чем не ризонеры (авторы такое упоминание называют Faithful CoT), но даже так статистика неутешительная: в 5% и 25% случаев 3.5 и 3.7 соответственно упоминают её в размышлениях, в 15% и в 39% упоминают её V3 и R1.
- Если модель использует подсказку, но не пишет про неё в CoT, ответы модели становятся примерно на 30% длиннее и запутаннее.
- Чем сложнее вопрос, тем больше вероятность, что подсказка в CoT не будет упомянута.
- В случае, если подсказка всё таки упомянута, паттерн следующий: модель сначала доходит до ответа сама, а потом сравнивает его с прочитанной подсказкой.
Кроме того, если во время RL-этапа (видимо, Anthropic тоже используют свою вариацию на тему GRPO с verifiable rewards) награждать ответ за следование подсказке, а не за правильный ответ, то в CoT будет прописана валидация выбранного в подсказке ответа, а не размышления. Это довольно очевидный вывод, на самом деле, потому что чему модель учили, тому она и научилась, но энивей. Тут мне сразу вспоминается забавный фактоид, что модель более уверена в ответе в конце CoT, чем при прямом ответе, так что возможно эксперимент показывает, что RL вырождается в то, что ризонеры просто пытаются сами себя убедить в том, что придуманный ими ответ правильный :D
Вывод, к сожалению, опять не такой, какой я хочу: авторы призывают увеличивать faithfulness (то есть, заставлять модель писать свои настоящие размышления), а не предлагают какие-то mechint эксперименты — это борьба с симптомами, а не с болезнью. Да и сам эксперимент опять же опирается на "смотрим глазками в сгенерированные токены", а не на какой-то более глубокий анализ активаций. Такие эксперименты не отвечают на вопрос "почему CoT работает", потому что он может работать как потому что "модель тупо сгенерила больше токенов", так и потому что "она производила вычисления в пробелах, запятых и переводах строк".
Когда-нибудь у меня появятся силы и я сам сделаю всё как положено. Дайте только компьюта (и выспаться).
Блогпост
Статья
06.04.202516:51
Про тетрис и вайбкодинг
Я обожаю тетрис. Я периодически залипаю в tetr.io/apotris/techmino — но моей любовью был тетрис, который у меня был очень давно на айфоне и который умер после очередного обновления системы. Какое-то время у меня в голове даже крутилась идея сделать свой идеальный тетрис, ноу меня не было свободного времени мне было слишком лениво этим заниматься.
А ещё я не кодил уже две недели, потому что занимался а рисованием презентаций, постеров, написанием латеха, хождением на встречи и так далее. Я настолько в этом погряз, что пропустил и Gemini Pro 2.5, и Deepseek V3 — которые было очень интересно попробовать в коде.
В итоге, в ленивое воскресное утро я проснулся и решил попробовать этот ваш вайбкодинг в задаче написания тетриса. Я к нему относился очень скептически — потому что модельки плохо пишут мой код — но может быть у меня просто задачи неправильные и в каких-то других задачах (игра в вебе вместо дса) на других языках программирования (js/html/css вместо питона) они покажут себя лучше. В общем то, так и оказалось, но не совсем и не везде.
Чтобы было интереснее, я решил добавить в тетрис бонусы и магазин,почти что как в балатро. Бонусы всегда имеют и положительную, и отрицательную сторону — например, становится больше палок, но также становится больше фигур s и z. Раз в 15 секунд включается рандомный модификатор из доступных бонусов, в это же время обновляется ассортимент в магазине и можно купить новый бонус. В идеале, бонусов должно быть много-много, но я сделал их 8 штук, потому что больше я пока что не придумал. Потом ещё добавлю :)
В качестве системы для вайбкодинга я решил взять самое банальное из всего: канвас с Gemini 2.5. Он умеет сразу рисовать HTML и исполнять JS, так что как будто бы это был самый простой вариант.
Поначалу это была реально магия. Модель явно тюнили на рисование красивых веб интерфейсов, так что дизайн тетриса оказался реально симпатичным. Все запросы исполнялись с первого же раза, хоть некоторые вещи она делала очень странно. Например, т по дефолту рисовалась вверх ногами, а повороты влево и вправо были перепутаны — но чтобы это поправить, достаточно было просто попросить.
Потом начались сложности. Одним из придуманных мной предметов была glass cannon — увеличение числа очков за закрытые линии, но уменьшение высоты стакана. Это оказалось достаточно сложной задачей для модели, потому что и добавить логику проверки высоты, и рисование запретной зоны потребовало аж двух (!) правок кода за один раз. Причём самостоятельно найти ошибку она не могла — и мне пришлось лезть в сурцы, написанные на языке, который я понимаю достаточно слабо. В этот момент обнаружился второй минус вайбкодинга: код, который пишет модель, запутанный, сложный и разобраться в нём с полпинка можно только когда он короткий — но когда он простой и короткий, модель и сама прекрасно справляется, так что разбираться в коде нет необходимости.
После победы над бонусами, кодовая база разраслась больше чем до тысячи строк кода, и магия вайбкодинга начала исчезать. Вместо того, чтобы добавлять новые фичи и не трогать старые, гемини зачем то начала переписывать весь написанный ей код, убирая старые методы, ломая логику и не доделывая то, что её попросили сделать. К тому же, у неё откуда то вылезло непреодолимое желание {/* писать комментарии вот так */}, что просачивалось в итоговый вебапп, потому что это не является комментарием. В итоге, кнопки гемини с трудом, но сделала, а вот отзывчивым интерфейс я делал уже сам, матерясь про себя на нелогичность HTML, непонятность жабаскрипта и свою долюшку нелёгкую.
В итоге, тетрис я доделал до достаточно играбельного состояния. Он симпатично выглядит, работает на моём (но, возможно, не вашем) телефоне, отлично работает на компе и у него есть большой потенциал доделывания. Сам по себе вайбкодинг точно не для меня (потому что я слишком ленив, чтобы отлаживаться в незнакомом коде), но теперь я хотя бы знаю, что это такое.
Репа с кодом
Поиграть можно вот тут
Ссылка на диалог с гемини
Я обожаю тетрис. Я периодически залипаю в tetr.io/apotris/techmino — но моей любовью был тетрис, который у меня был очень давно на айфоне и который умер после очередного обновления системы. Какое-то время у меня в голове даже крутилась идея сделать свой идеальный тетрис, но
А ещё я не кодил уже две недели, потому что занимался а рисованием презентаций, постеров, написанием латеха, хождением на встречи и так далее. Я настолько в этом погряз, что пропустил и Gemini Pro 2.5, и Deepseek V3 — которые было очень интересно попробовать в коде.
В итоге, в ленивое воскресное утро я проснулся и решил попробовать этот ваш вайбкодинг в задаче написания тетриса. Я к нему относился очень скептически — потому что модельки плохо пишут мой код — но может быть у меня просто задачи неправильные и в каких-то других задачах (игра в вебе вместо дса) на других языках программирования (js/html/css вместо питона) они покажут себя лучше. В общем то, так и оказалось, но не совсем и не везде.
Чтобы было интереснее, я решил добавить в тетрис бонусы и магазин,
В качестве системы для вайбкодинга я решил взять самое банальное из всего: канвас с Gemini 2.5. Он умеет сразу рисовать HTML и исполнять JS, так что как будто бы это был самый простой вариант.
Поначалу это была реально магия. Модель явно тюнили на рисование красивых веб интерфейсов, так что дизайн тетриса оказался реально симпатичным. Все запросы исполнялись с первого же раза, хоть некоторые вещи она делала очень странно. Например, т по дефолту рисовалась вверх ногами, а повороты влево и вправо были перепутаны — но чтобы это поправить, достаточно было просто попросить.
Потом начались сложности. Одним из придуманных мной предметов была glass cannon — увеличение числа очков за закрытые линии, но уменьшение высоты стакана. Это оказалось достаточно сложной задачей для модели, потому что и добавить логику проверки высоты, и рисование запретной зоны потребовало аж двух (!) правок кода за один раз. Причём самостоятельно найти ошибку она не могла — и мне пришлось лезть в сурцы, написанные на языке, который я понимаю достаточно слабо. В этот момент обнаружился второй минус вайбкодинга: код, который пишет модель, запутанный, сложный и разобраться в нём с полпинка можно только когда он короткий — но когда он простой и короткий, модель и сама прекрасно справляется, так что разбираться в коде нет необходимости.
После победы над бонусами, кодовая база разраслась больше чем до тысячи строк кода, и магия вайбкодинга начала исчезать. Вместо того, чтобы добавлять новые фичи и не трогать старые, гемини зачем то начала переписывать весь написанный ей код, убирая старые методы, ломая логику и не доделывая то, что её попросили сделать. К тому же, у неё откуда то вылезло непреодолимое желание {/* писать комментарии вот так */}, что просачивалось в итоговый вебапп, потому что это не является комментарием. В итоге, кнопки гемини с трудом, но сделала, а вот отзывчивым интерфейс я делал уже сам, матерясь про себя на нелогичность HTML, непонятность жабаскрипта и свою долюшку нелёгкую.
В итоге, тетрис я доделал до достаточно играбельного состояния. Он симпатично выглядит, работает на моём (но, возможно, не вашем) телефоне, отлично работает на компе и у него есть большой потенциал доделывания. Сам по себе вайбкодинг точно не для меня (потому что я слишком ленив, чтобы отлаживаться в незнакомом коде), но теперь я хотя бы знаю, что это такое.
Репа с кодом
Поиграть можно вот тут
Ссылка на диалог с гемини
17.04.202509:15
Почитал недавно про JEPA ЛеКуна и написал небольшую заметку для канала "Неискусственный интеллект". JEPA — прикольная штука, всем советую ознакомиться. Не знаю, насколько это заменит ллмки (всё же эксперименты сейчас ведутся с визуальной модальностью), но мне нравятся такие экспериментальные и необычные подходы к известной задаче (LCM, Deep Image Prior из той же оперы).


24.03.202508:21
Про тюн llama-3.2-3b в зависимости от файнтюна на математике
06.04.202516:51
Скриншотеки
25.03.202521:35
07.04.202517:27
Я читал, что тех, кто ездит на лето с аири, потом весь год жалует фортуна, догоняют умные мысли и чудом появляется компьют.
Ну а на крайняк, там будет бесплатная еда и интересные разговоры про ДС. Так что записывайтесь, пока есть места :)
Ну а на крайняк, там будет бесплатная еда и интересные разговоры про ДС. Так что записывайтесь, пока есть места :)
Увайдзіце, каб разблакаваць больш функцый.