Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data Secrets avatar

Data Secrets

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks
По вопросам сотрудничества: @veron_28
https://telega.in/c/data_secrets
Реестр РКН: clck.ru/3FY3GN
TGlist rating
0
0
TypePublic
Verification
Verified
Trust
Not trusted
LocationРосія
LanguageOther
Channel creation dateMay 08, 2025
Added to TGlist
May 28, 2024
Linked chat

Latest posts in group "Data Secrets"

Пу-пу-пу, тот самый понедельник после майских. Чтобы немного поднять всем настроение, несем с утра приятную новость

Пока все отдыхали на шашлыках, мы с командой торопились поскорее закончить для вас кое-что особенное. И это – большой конспект по большим языковым моделям.

Внутри – все, что нужно, чтобы от А до Я понять, как работают современные LLM:

– необходимая математика
– механизм внимания и трансформеры со схемами и интуитивными примерами
– все про предобучение
– основы и алгоритмы RL + ризонинг
– ... и даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

По секрету: работа над конспектом заняла у нас больше месяца.

500 🔥 и завтра мы выложим сюда полную pdf-версию
Наткнулись тут на YouTube на речь Дженсена Хуанга в честь получения премии Эдисона

Оказывается, предприниматель выиграл ее еще в апреле, но вручение произошло только на днях. Премия Эдисона – это очень престижная награда за самые важные и влиятельные коммерческие изобретения и проекты в мире.

Ранее премию получали Стив Джобс, Илон Маск, Тед Тернер (основатель канала CNN) и другие.

Кстати, в этом году Nvidia исполняется 32 года. Но Хуанг говорит, что ключевым моментом для компании стала «ставка на ИИ, сделанная 15 лет назад».

youtu.be/j5jL5OM1hyk
Fun fact: ИИ сыграл немалую роль в выборе имени нового Папы Римского

Как вы знаете, на днях в Ватикане выбрали нового Папу. Им стал 69-летний американец Роберт Фрэнсис Превост. В качестве папского псевдонима он выбрал имя Лео XIV, и неспроста.

В обращении к Коллегии Кардиналов Папа объяснил, что имя Лео отсылает к Папе Льву XIII, который управлял церковью во время начала промышленной революции. Сейчас, по его мнению, нас ждет еще одна революция, и поэтому есть некоторая аналогия между ним и Львом XIII.

«В наши дни Церковь должна предлагать свое учение в ответ на еще одну промышленную революцию – появление искусственного интеллекта. Последние разработки в этой области ставят перед Церковью новые задачи по защите человеческого достоинства, справедливости и труда»


Кстати, новый Папа – математик. У него степень бакалавра по математике университета Вилланова и даже несколько опубликованных статей по статистике.
ByteDance выпустили Seed-Coder-8B – мини-модель для кодинга, по качеству превосходящую Sonnet 3.7 и o1-mini

Модель вышла в трех версиях: Base, Instruct и Reasoning. Инстракт обходит почти все опенсорс аналоги в своем весе, а ризонинг бьет R1, o1-mini и Claude Sonnet 3.7 на IOI 2024. Контекст – 32к токенов.

В реализации хочется отметить сбор данных. Пайплайн похож на подход DeepSeek на максималках. Для чистки сырых данных (репозитории, коммиты, код из общедоступного веба) почти все ручные фильтры заменили на единый LLM-фильтр.

Для этого специально обучали небольшую модель оценивать читабельность, модульность, ясность, переиспользуемость и тд кода, а затем ее пропускали по датасету и она отбрасывала все самые "плохие" файлы. Так получилось выбросить примерно 10% датасета, то есть буквально кучу мусора.

Датасет, к сожалению, не выложили. Зато все модели в опенсорсе.

Тех.отчет | Репозиторий | Блогпост | Веса
«Сложно сказать, насколько мы еще опережаем Китай. Я думаю, ненамного»

В сенате США вчера проводили слушание по вопросу укрепления позиций Америки в ИИ-гонке. В качестве свидетелей приглашали несколько представителей индустрии, в том числе Альтмана. Собрали интересные цитаты:

➖Мы убеждены, что OpenAI обладает лучшими моделями в мире. Тем не менее, очень сложно сказать, насколько мы опережаем Китай, но я бы сказал… ненамного.

➖ DeepSeek добился двух впечатляющих результатов: сильная опенсорс модель и приложение, которое в какой-то момент стало более скачиваемым, чем ChatGPT. Пока что DeepSeek не обогнал ChatGPT в качестве потребительского ИИ по умолчанию, но если бы это случилось, это было бы… плохо.

➖ В конечном итоге стоимость ИИ сравняется со стоимостью энергии. Роботы могут создавать чипы, оптимизировать сети, но электрон есть электрон. В конечном итоге интеллект будет масштабироваться настолько, насколько это позволит сеть.

➖ Скоро в истории человечества произойдут большие перемены. Эти системы способны на вещи, которые мы даже не можем себе представить. (Да, куда же без высказываний в стиле «да не маркетинг это»)


Если вдруг захотите посмотреть все 3 часа слушания, вот запись 😶
В Deep Research в ChatGPT добавили возможность интеграции GitHub

То есть теперь можно присоединить к боту определенный репозиторий и задать по нему любой вопрос. Модель уйдет на несколько минут искать ответ, а после вернется с большим отчетом.

Репорт, который будет отдавать модель, выглядит примерно так, то есть развернутое объяснение со ссылками на конкретные места в коде. Здорово, кстати, что ссылки – это значит именно переадрессация на определенные строки кода на гитхабе, а не просто скопированный в чат кусок файла. Так намного удобнее ориентироваться.

Фичу раскатят на всех платных пользователей в ближайшие дни 🍯
Разбираем новую громкую статью «Absolute Zero Reasoner» про то, как дообучить модель вообще без данных

Сейчас в рисерче наблюдается яркий тренд на максимальное сокращение количества данных для дообучения. Совсем недавно хайповала работа, в которой проводили RL для ризонинга всего на одном примере.

А сейчас ученые вообще предложили способ полностью перейти на самогенерируемое обучение. То есть модель сама разрабатывает для себя учебную программу и задачи, решает их, проверяет и учится. Подробнее:

➖ У нас есть LLM, которую мы хотим дообучить. Но теперь она будет играть сразу две роли: Proposer и Solver. Proposer генерирует новые задачи, а Solver их решает.

➖ Так как роли две, обучается модель тоже "с двух сторон", то есть мы даем ревард как за решения, так и за сами задачи. r_solve – обычная бинарная награда за правильный ответ (решил - 1, не решил - 0). А вот r_propose – обучаемая награда, то есть она динамически зависит от того, насколько у солвера хорошо или плохо получается решать сгенерированные задачи. Цель тут – генерировать задачи средней сложности, не сильно простые, и не слишком хардовые.

➖ Обучается все с помощью Task-Relative REINFORCE++. Это авторская модификация PPO для учёта разных «задача + роль» конфигураций. Схемы обучения обеих ролей остаются полностью симметричными, но зато можно отдельно контролировать лернинг рейты или бейзлайны.

В статье подход реализовывали только на задачах по программированию, чтобы ответы можно было проверять просто в интерпретаторе, без человеческой разметки. За основу брали Qwen2.5, и полученный AZR-Coder-7B показывает относительно базовой модели и других подходов очень неплохие приросты.

От ванильного RL почти не отстает, а участие человека сведено к минимуму. При этом и другие приятные плюшки RL сохраняются. Например, видны кросс-доменные приросты метрик по математике (хотя, повторимся, обучали все только на кодинге).

Почитать полностью советуем здесь
Сэм Альтман и Грег Брокман поделились первыми фото с масштабной стройки одного из датацентров проекта Stargate.

Альтман пишет, что это будет самый мощный вычислительный ИИ-кластер в мире 🔵
Вышла новая модель от Mistral – Mistral Medium 3. Что надо знать:

➖ Не опенсорс 😞
➖ Зато отличное соотношение цена/качество. Цены: $0,4/M и $2/М. Это в разы дешевле многих передовых моделей. Например, в 8 раз дешевле Sonnet.
➖ По бенчмаркам соответствует Sonnet 3.7 и GPT-4o. На математике даже круче.
➖ Мультимодальность есть
➖ Контекст 128к токенов

В целом, отличный уровень. Кстати, одновременно стартап показал новую версию своего чат-бота Le Chat для бизнеса. Туда добавили больше фичей с инструментами, веб-поиск, агента программиста и возможность интеграции любых источников данных компании.
Так-так: кажется, OpenAI больше не хочет делиться деньгами с Microsoft 💸

The Information пишет, что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft.

Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас OpenAI говорит потенциальным инвесторам о том, что дальше они планируют делиться не более чем 10 процентами.

Microsoft пока ситуацию не комментируют (ну еще бы)
Cognition Lab (разработчики Devin) выпустили модель для написания эффективных ядер CUDA

Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.

Разбираемся:

⚪️ В качестве базовой LM взяли QwQ-32B, это ризонинг модель. Ее дообучали всего на 180 задачах из датасета KernelBench. Это задачи на PyTorch, в которых надо заменить базовые операции (например, матричные операции или свертки) оптимизированными CUDA-ядрами.

⚪️ Для дообучения использовали только RL с GRPO (наш разбор метода). Но GRPO не обычный, а многоэтапный. Модель получает фидбэк не один раз за всю генерацию, а генерирует ядро -> получает ревард -> исправляет -> получает ревард -> ….

⚪️ Чтобы не было проблем с перегрузкой контекста, вместо полного CoT на следующие итерации передают только резюме. Плюс для стабилизации всего этого каждый шаг получает не обычное вознаграждение, а дисконтирование, то есть равное дисконтированной сумме скорингов всех последующих ядер.

По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.

Блогпост | Модель на HF
О, там прямо сейчас на Kaggle идет отбор подмосковных школьников на международную олимпиаду по AI IOAI

Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.

Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.

Вот вам и занятие на праздники 👓

www.kaggle.com/competitions/neoai-2025/overview
Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:

➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2

➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»

➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:

"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"


Игра престолов, не иначе 😐
Открытая модель от OpenAI будет отставать от передовых моделей стартапа на целое поколение

Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:

«Мы выпускаем эту модель, потому что хотим, чтобы лучший в мире открытый ИИ был производства США, а не Китая, и отвечал именно демократическим ценностям.

По этим же соображениям эта модель будет отставать примерно на поколение от наших лучших моделей. Выпустить открытую модель лучше – значит тоже помочь Китаю»
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
JUL '24OCT '24JAN '25APR '25

Popular posts Data Secrets

12.05.202507:37
Пу-пу-пу, тот самый понедельник после майских. Чтобы немного поднять всем настроение, несем с утра приятную новость

Пока все отдыхали на шашлыках, мы с командой торопились поскорее закончить для вас кое-что особенное. И это – большой конспект по большим языковым моделям.

Внутри – все, что нужно, чтобы от А до Я понять, как работают современные LLM:

– необходимая математика
– механизм внимания и трансформеры со схемами и интуитивными примерами
– все про предобучение
– основы и алгоритмы RL + ризонинг
– ... и даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

По секрету: работа над конспектом заняла у нас больше месяца.

500 🔥 и завтра мы выложим сюда полную pdf-версию
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
Anthropic выкатили гайд по вайб-кодингу 😎

23 страницы посвящены тому, как программировать с агентами (в частности, с Claude Code). Собраны советы, best practices, примеры, антипримеры и даже готовые промпты.

Отдельное внимание уделяется безопасности данных и мульти-агентным процессам.

Полезно, если пользуетесь каким-нибудь подобным инструментом каждый день

PDF
OpenAI выкатили 32-страничный практический гайд по разработке агентов

Его создавали сами инженеры из продуктовых команд стартапа.

Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.

Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
Мотивации пост: сейчас в топ-1 по популярности на Hugging Face висит модель, которую разработала команда… из двух человек

Лаборатория называется Nari Labs, и она действительно состоит всего из двух исследователей. Несмотря на это, на этой неделе они со своей text2speech моделью DIA оставили позади Microsoft, Anthropic, Nvidia и другие корпорации.

Моделька у них правда крутая. В ней всего 1.6B параметров, но она генерирует из текста очень качественные диалоги. Сохраняет даже смех, кашель и вздохи. Плюс, пользователь может управлять эмоциями.

При этом у ребят действительно понятная и красивая карточка модели и хорошо оформленный код на гитхаб. Респект?
29.04.202518:43
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯

Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?

Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.

Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
Исследователи из Университета Карнеги-Меллон создали IT-компанию, полностью состоящую из ИИ-агентов. Вот что из этого вышло

Команда исследователей из CMU запустила необычный эксперимент: они создали автономную виртуальную среду, имитирующую небольшую software компанию, и поместили на "реальные" рабочие места современных LLM-агентов. Все оформили в виде бенчмарка и назвали TheAgentCompany.

По сути агенту необходимо делать все то же, что делает типичный работчик IT (картинка 1): писать код, использовать терминал, рыться в браузере и Google Drive, взамодействовать с коллегами в мессенджере, пользоваться GitLab и Jira. Выполнение всех задач, кстати, оценивалось по чекпоинтам, а не просто "выполнил/не выполнил" (картинка 2) + учитывали итоговую стоимость по токенам.

В компании успели поработать Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие. Задачи покрывали SWE, PM, HR и еще несколько классических сфер. Всего 175 тасок, рассчитанных на 3000 часов труда 20 живых людей.

Результаты в таблицах на картинке 3. Как видите, даже лучший Claude 3.5 Sonnet справляется только с четвертью базовых обязанностей. Следующум идет Gemini 2.0 Flash, но уже с большим отрывом: 11.4%. Все остальные – меньше 9%.

Забавно, что GitLab и кодинг давались агентам довольно легко, а вот самым сложным оказались банальные заполнения форм, браузинг, планирование встреч и общение в мессенджере (им просто не объяснили, что надо мемы отправлять).

Хороший бенч, побольше бы таких

Статья | Код | Сайт (лидерборд внутри) | Результаты экспериментов
❤️ – говорю спасибо, верю в карму
👍 – не говорю спасибо, <strike>я бессмертный</strike> берегу лимиты
Paper2Code: исследователи из корейского технологического института сделали мульти-агентный фрейморк для автоматической генерации кода по статьям

Боль каждого рисерчера – это статьи, к которым нет кода. Чтобы воспроизвести результат, нужно потратить пол жизни, и то – успех не гарантирован. А код авторы публикуют не так уж и часто. На примере NeurIPS, ICML и ICLR 2024: только 21.2% принятых работ имеют открытые репы.

Здесь авторы предлагают PaperCoder. Это мульти-агентная система, в которой процесс генерации репозитория разбит на три этапа:

1. Планирование. Составляется конспект статьи, UML-диаграммы классов + список файлов. Тут же создается config.yaml с гиперпараметрами и выстраивается план последовательности генерации.

2. Анализ. Здесь для каждого файла из составленного списка формируется file-level analysis — подробное описание целей, входов/выходов, взаимодействий и каких-то специфичных требований, если есть.

3. Ну и сама генерация на основании статьи, фазы планирования и анализа. Бонусом из первых двух пунктов получаем супер-подробную доку.

На каждом шаге работает отдельный агент. Это, по идее, могут быть разные LLM, но здесь по умолчанию на всех шагах стоит o3-mini-high (кроме валидации, там GPT-4o).

Тестировали на работах с тех же ICML/NeurIPS/ICLR 2024. Процент полностью успешной репликации – около 44% против 10-15 у базовых агентов. Если анализировать вручную, то в среднем для успешного запуска нужно менять всего 0.48 % строк. А еще PaperCoder давали потрогать исследователям, и в 85% случаев те сказали, что это лучше, чем писать с нуля, даже если нужно что-то дебажить.

Ирония только в том, что к статье Paper2Code... не выложили код. Но, вроде, обещают "скоро"
А вы тоже заметили, что после последних обновлений 4o превратился в ванильный раф с сиропом?

Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами 😛
06.05.202516:20
Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:

➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2

➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»

➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:

"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"


Игра престолов, не иначе 😐
Google предложили новую обобщенную архитектуру нейросетей, устроенную так, что трансформеры и RNN являются ее частными случаями

Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.

Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или скалярной памяти с матричной, ну и тд и тп.

В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:

1. Выбор архитектуры памяти. Память может быть вектором, как в RNN, матрицей, как в трансформерах, отдельной маленькой нейросетью, как в test-time-training подходах, ну или чем-то другим.

2. Выбор attentional bias. Это функция потерь, которую память будет оптимизировать при обновлении. Цель, по сути, всегда одна: точно сопоставлять ключи со значениями, то есть верно восстаналивать связи между словами. В трансформерах, например, attention bias – это непараметрический ℓ₂‑MSE.

3. Retention Gate. Это регуляризация, которая контролирует, как и когда мы избавляемся от ненужной информации. Другими словами, мера консервативности или забывания.

4. Выбор метода оптимизации. Это конкретный рецепт того, как перейти из прошлого состояния памяти в новое, учитывая все компоненты выше. Например, в трансформерах это просто вычисление softmax‑attention, но также это может быть градиентный спуск или его модификации.


Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).

И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.

Красивая и стройная работа. Читаем полностью тут
OpenAI выкатили новый гайд для промпт-инженеринга GPT-4.1 и раскрыли главную загадку длинного контекста

Если у вас длинный контекст + инструкции, то лучше помещать инструкции И в начало, И в конец. Но если вы очень экономите токены, то – в начало. Теперь вы знаете.

Наверное, так специально предобрабатывали трейн, потому что по умолчанию у LLM обычно все наоборот (инструкции перед контекстом воспринимаются хуже).

P.S. В сам гайд тоже советуем заглянуть. Там много примеров и готовых удобных заготовок.
Ян Лекун: "Я больше не заинтересован в LLM, они в прошлом"

На своем свежем интервью на конференции Nvidia GTC ученый сказал, что сейчас LLMs уже принадлежат не академии, а индустрии, где из них пытаются выжать все соки. С точки зрения науки они в прошлом, и сейчас наиболее интересны другие направления:

1. Системы которые понимают физический мир
2. Системы у которых есть постоянная память
3. Системы, которые умеют рассуждать и планировать (в LLM, по мнению Лекуна, есть только отдаленное подобие настоящего ризонинга)

Полная запись
ByteDance выпустили Seed-Coder-8B – мини-модель для кодинга, по качеству превосходящую Sonnet 3.7 и o1-mini

Модель вышла в трех версиях: Base, Instruct и Reasoning. Инстракт обходит почти все опенсорс аналоги в своем весе, а ризонинг бьет R1, o1-mini и Claude Sonnet 3.7 на IOI 2024. Контекст – 32к токенов.

В реализации хочется отметить сбор данных. Пайплайн похож на подход DeepSeek на максималках. Для чистки сырых данных (репозитории, коммиты, код из общедоступного веба) почти все ручные фильтры заменили на единый LLM-фильтр.

Для этого специально обучали небольшую модель оценивать читабельность, модульность, ясность, переиспользуемость и тд кода, а затем ее пропускали по датасету и она отбрасывала все самые "плохие" файлы. Так получилось выбросить примерно 10% датасета, то есть буквально кучу мусора.

Датасет, к сожалению, не выложили. Зато все модели в опенсорсе.

Тех.отчет | Репозиторий | Блогпост | Веса
Log in to unlock more functionality.