Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Қарау

Николаевский Ванёк

Қарау

Мир сегодня с "Юрий Подоляка"

Қарау

Труха⚡️Україна

Қарау

Николаевский Ванёк

Қарау

Егорка думает, что

Мой взгляд на многие вещи. Не на все. На многие.

TGlist рейтингі

ТүріҚоғамдық

Растау

Расталмаған

Сенімділік

Сенімсіз

Орналасқан жеріРосія

ТілБасқа

Канал құрылған күніJul 05, 2022

TGlist-ке қосылған күні

Mar 24, 2025

Мен каналдың иесімін

Өзгерістер тарихы

Қосылған топ

ЕД

Обсуждариум

Telegram арнасы Егорка думает, что статистикасы

Толығырақ

Жазылушылар

29

24 сағат00%Апта00%Ай

311.5%

Дәйексөз индексі

0

Ескертулер0Каналдарда қайта жазылу0Каналдарда ескерту0

1 жазбаның орташа қамтуы

18

12 сағат920%24 сағат180%48 сағат00%

Қатысу деңгейі (ER)

27.78%

Қайта жазылды2Пікірлер0Реакциялар3

Қамту бойынша қатысу деңгейі (ERR)

0%

24 сағат0%Апта0%Ай

15.38%

1 жарнамалық жазбаның қамтуы

0

1 сағат00%1 – 4 сағат00%4 - 24 сағат00%

Толығырақ

Каналға біздің ботымызды қосып, осы каналдың аудиториясын біліңіз.

24 сағаттағы жазбалар саны

0

Динамика

"Егорка думает, что" тобындағы соңғы жазбалар

Барлық жазбалар

18.04.202505:53

Қайта жіберілді:

Krist/Blog

24.03.202518:03

А ещё Qwen выложили новую Qwen2.5-VL-32B со зрением.

Блогпост

Қайта жіберілді:

Krist/Blog

24.03.202517:46

Deepseek выложили обновленный V3. Я честно ждал, пока они дадут хоть какую-нибудь инфу по бенчмаркам или что-то в этом роде, но прошло 5 часов, а README.md все ещё пустой.

По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

24.03.202508:49

Супер интересная статья, которая меня несколько расстраивает :(

Қайта жіберілді:

Гречневые мысли

24.03.202508:47

Дамы и господа, выдыхаем: RL всё таки не работает.

Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.

Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.

Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.

Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.

А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.

Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.

Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.

Қайта жіберілді:

Гречневые мысли

23.03.202519:08

Курс молодого ресёрчера

Меня в последнее время уж слишком часто спрашивают, чё почитать, чтобы вкатиться в нлп, а я каждый раз пересылаю целую батарею из ссылок, которую я создал год назад. Пришло время их организовать в один аккуратненький пост и потом кидать уже его.

Ссылки для обучения базе:

- HF NLP Course — Платиновая база. Это надо прочитать, чтобы научиться делать свои минимальные штуки на уровне инженера. Курс больше прикладной, не теоретический, учит взаимодействию с transformers. Он постоянно обновляется и там появляются туториалы по next big thing — например, там уже есть глава про reasoning models.
- Плейлист с лекциями Карпатого и его же гитхаб — Ещё более платиновая и ещё более база. Я очень плохо воспринимаю лекции и обычно смотрю их на х2, но тут и очень понятные объяснения, и иллюстрации в виде питоновского кода в тетрадках, и скорость изложения ровно такая, какая надо. В описаниях к видео есть домашки, если чувствуете, что надо получше разобраться, делайте их :)
- Зоопарк трансформеров — Чуть устаревшая статья на хабре, где описываются разные модификации трансформеров. Для каждой архитектуры и модели кратко описаны ключевые изменения. Новых моделей за последние пару лет тут, к сожалению, нет, но чтобы понять как всё развивалось, этого будет достаточно.
- Attention is all you need — Самая главная статья из современного NLP. Стоит прочитать, осознать и запомнить, потому что по сути с тех пор языковые модели практически не менялись.
- NLP Course For You — Классический курс по базе NLP, есть много про дотрансформерные методы. Мне кажется, что он уже не так актуален, но ознакомиться всё равно стоит.
- NLP чат — Уютненький чятик, где обсуждают новости и задают вопросы. Ваш покорный слуга выступает там в роли бесплатной добровольной техподдержки.

Ссылки для "уже смешариков", чтобы читать новости и развиваться дальше

- LocalLLaMA — Самый популярный сабреддит про локальный инференс ллмок. Все новости обычно появляются там.
- HF Daily Papers — Рассылка свежих статей по DL. Очень советую подписаться по почте, чтобы утром просматривать заголовки и читать интересующее. Помогает очень сильно расширить кругозор.
- lmarena.ai — Тут можно потыкать разные модельки руками, сравнить их и посмотреть, как они отвечают. Удобно, если надо быстро сделать сбс или проверить какую-то гипотезу.
- openrouter.ai — Сайт, где можно использовать модели через апи. Очень дёшево (по сравнению с аналогами), очень удобно. Оплачивается криптой, иностранной картой или через платиру/ggsel.
- 5 Levels of Text Splitting и RAG Techniques — Всё, что вы хотели знать про RAG, других ссылок, по сути, не нужно. В первой разбираются, как правильно сплитить текст для базы знаний, во второй рассматривают все типичные архитектуры и трюки, связанные с рагом.
- MTEB — Рейтинг эмбеддеров. Чем выше, тем лучше. Не спрашивайте в нлп чате, что выбрать, если предварительно не посмотрели сюда!
- HF Cookbook — Список готовых советов и рецептов для решения прикладных задач. Есть и код, и описание задачи, оформлено в виде блогпостов.
- vLLM, llama.cpp, TGI, sglang, Infinity Embeddings, CTranslate2 — Движки для инференса. vLLM, TGI и sglang для быстрого инференса декодеров на гпу, llama.cpp на цпу. Infinity Embeddings это движок для энкодеров во всех проявлениях, CTranslate2 для энкодер-декодеров.

Ссылки для совсем опытных Кар-Карычей

- Quantization Deep Dive — офигенный хабрапост от Яндекса, где расписывают математическую базу квантизации и про типы данных
- Ускорение LLM: универсальные методы для популярных архитектур — тоже офигенный хабрапост и тоже от Яндекса, где расписывают варианты ускорения инференса
- Статьи от Давида Дале на Хабре — все очень увлекательны и прекрасны. Мои любимые — про декодирование из эмбеддингов LaBSE, про прунинг токенизатора у mt5 и про дистилляцию берта.
- 100 questions about NLP — универсальный список вопросов для подготовки к собесам. Не на все вопросы есть ответы, но все вопросы хорошие.

Этот список, конечно же, неполный, но как база для вката работает на ура. Если есть что-то ещё полезного — кидайте в комменты.

Қайта жіберілді:

gonzo-обзоры ML статей

21.03.202519:38

Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.

Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965

Пользуясь случаем, я зарядил эту статью в обновлённую систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.

* English TL;DR
* Русский обзор

Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!

21.03.202516:22

https://github.com/vllm-project/vllm/pull/15289

Все готовы к Qwen3?

Қайта жіберілді:

Krist/Blog

21.03.202514:34

WritingPrompts-ru и Ideya-preview-8k

Продолжаю вносить вклад в русскоязычное LLM-комьюнити. Перевёл euclaise/writingprompts на русский через новую Gemma-3-27b-it.
Оригинальный датасет это набор подсказок для написания художественных текстов из r/writingprompts + самый залайканый комментарий с, собственно, текстом, написанным по подсказке. Пока я перевел только подсказки, хотя планирую и сами истории тоже.
Датасеты с подсказками, типа этого, полезны для генерации синтетических данных и обучения русскоязычных creative writing / roleplay моделей, с которыми, честно говоря, пока не очень.

Ideya-preview-8k - как раз такой датасет, истории писала та же Gemma-3-27b-it. Превью он из-за того, что там только 8 тысяч подсказок+текстов, а планирую я сгенерировать все 270 тысяч. В большей части средняя длина сгенерированной истории - 500 слов, но ближе к концу я поменял промты.

WritingPrompts-ru, Ideya-preview-8k

Қайта жіберілді:

LLM под капотом

19.03.202516:10

Все архитектуры Enterprise RAG Challenge

Вот вам обновленный и интерактивный leaderboard по результатам второго раунда Enterprise RAG Challenge: https://abdullin.com/erc/. Можно кликать на команды и читать про их решения на основе заполненных опросников. Если у команды было несколько экспериментов, то в карточке они тоже будут упомянуты.

В итоге у нашего коммьюнити получилось очень мощное исследование разных RAG архитектур на практической бизнес-задаче!

Причем, leaderboard с деталями решений - это далеко не последний результат. Я попозже дополню эту таблицу ссылками на посты и исходники, которые мне присылают.

А еще мы потихоньку начинаем планировать третий round. Его в итоге обсуждений решили сделать более организованным, чтобы выхлоп от R&D был интереснее и полезнее для всех в нашем комьюнити.

Идея простая - учимся на своих ошибках и двигаемся дальше.

В первом раунде мы обнаружили, что решения на базе SO / CoT легко занимают первое место. Вывод - сделаем генератор вопросов менее предсказуемым, чтобы SO/CoT жизнь маслом не казалась.

Второй раунд - многие использовали SO/CoT без векторов, но в итоге победило решение Ильи. Он заранее собрал инфраструктуру для оценки своего пайплайна и перебрал варианты его настройки на основе тестового набора данных.

Вывод - заранее соберем нормальную инфраструктуру для оценки пайплайнов и опубликуем ее вместе с тестовыми данными для всех желающих. Чтобы каждый мог быстро ставить разные эксперименты и оценивать их результаты.

И посмотрим, что получится в третьем раунде. Ведь интересно же, правда?)

Ваш, @llm_under_hood 🤗

Қайта жіберілді:

black_samorez

18.03.202508:03

Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.

Қайта жіберілді:

Гречневые мысли

17.03.202511:27

Немного запоздало похвастаюсь: у меня приняли ещё одну статью, на этот раз, на NAACL SRW. Трек называется воркшопом, но на деле им не является, это отдельный трек конфы, публикующийся в том же просидингс, с постерной сессией рядом с main track, с ревью периодом и ненулевым процентом реджектов.

Мне эта статья не нравится, потому что я не успел её нормально доделать. Я думал, мол, реджектнут, я доделаю и переподам -- но мне повезло и, видимо, капитальные доделки будут уже в follow up. Сейчас надо доделать камера реди, потом залью препринт на архив и, может быть, распишу, что я там сделал, концептуально идея там интересная.

Ну и, как следствие этого акцепта, я закрыл все формальные требования по публикациям в аспирантуре за первые полгода — я опубликовал две статьи на Core A конференциях первым автором и одну статью в журнале, который индексируется скопусом. Расслабляться, разумеется, рановато, но ачивка прикольная.