Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Егорка думает, что avatar

Егорка думает, что

Мой взгляд на многие вещи. Не на все. На многие.
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жеріРосія
ТілБасқа
Канал құрылған күніJul 05, 2022
TGlist-ке қосылған күні
Mar 24, 2025
Қосылған топ

"Егорка думает, что" тобындағы соңғы жазбалар

Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
А ещё Qwen выложили новую Qwen2.5-VL-32B со зрением.

Блогпост
Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
Deepseek выложили обновленный V3. Я честно ждал, пока они дадут хоть какую-нибудь инфу по бенчмаркам или что-то в этом роде, но прошло 5 часов, а README.md все ещё пустой.

По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
Супер интересная статья, которая меня несколько расстраивает :(
Қайта жіберілді:
Гречневые мысли avatar
Гречневые мысли
Дамы и господа, выдыхаем: RL всё таки не работает.

Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.

Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.

Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.

Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.

А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.

Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.

Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Қайта жіберілді:
Гречневые мысли avatar
Гречневые мысли
Курс молодого ресёрчера

Меня в последнее время уж слишком часто спрашивают, чё почитать, чтобы вкатиться в нлп, а я каждый раз пересылаю целую батарею из ссылок, которую я создал год назад. Пришло время их организовать в один аккуратненький пост и потом кидать уже его.

Ссылки для обучения базе:

- HF NLP Course — Платиновая база. Это надо прочитать, чтобы научиться делать свои минимальные штуки на уровне инженера. Курс больше прикладной, не теоретический, учит взаимодействию с transformers. Он постоянно обновляется и там появляются туториалы по next big thing — например, там уже есть глава про reasoning models.
- Плейлист с лекциями Карпатого и его же гитхаб — Ещё более платиновая и ещё более база. Я очень плохо воспринимаю лекции и обычно смотрю их на х2, но тут и очень понятные объяснения, и иллюстрации в виде питоновского кода в тетрадках, и скорость изложения ровно такая, какая надо. В описаниях к видео есть домашки, если чувствуете, что надо получше разобраться, делайте их :)
- Зоопарк трансформеров — Чуть устаревшая статья на хабре, где описываются разные модификации трансформеров. Для каждой архитектуры и модели кратко описаны ключевые изменения. Новых моделей за последние пару лет тут, к сожалению, нет, но чтобы понять как всё развивалось, этого будет достаточно.
- Attention is all you need — Самая главная статья из современного NLP. Стоит прочитать, осознать и запомнить, потому что по сути с тех пор языковые модели практически не менялись.
- NLP Course For You — Классический курс по базе NLP, есть много про дотрансформерные методы. Мне кажется, что он уже не так актуален, но ознакомиться всё равно стоит.
- NLP чат — Уютненький чятик, где обсуждают новости и задают вопросы. Ваш покорный слуга выступает там в роли бесплатной добровольной техподдержки.

Ссылки для "уже смешариков", чтобы читать новости и развиваться дальше

- LocalLLaMA — Самый популярный сабреддит про локальный инференс ллмок. Все новости обычно появляются там.
- HF Daily Papers — Рассылка свежих статей по DL. Очень советую подписаться по почте, чтобы утром просматривать заголовки и читать интересующее. Помогает очень сильно расширить кругозор.
- lmarena.ai — Тут можно потыкать разные модельки руками, сравнить их и посмотреть, как они отвечают. Удобно, если надо быстро сделать сбс или проверить какую-то гипотезу.
- openrouter.ai — Сайт, где можно использовать модели через апи. Очень дёшево (по сравнению с аналогами), очень удобно. Оплачивается криптой, иностранной картой или через платиру/ggsel.
- 5 Levels of Text Splitting и RAG Techniques — Всё, что вы хотели знать про RAG, других ссылок, по сути, не нужно. В первой разбираются, как правильно сплитить текст для базы знаний, во второй рассматривают все типичные архитектуры и трюки, связанные с рагом.
- MTEB — Рейтинг эмбеддеров. Чем выше, тем лучше. Не спрашивайте в нлп чате, что выбрать, если предварительно не посмотрели сюда!
- HF Cookbook — Список готовых советов и рецептов для решения прикладных задач. Есть и код, и описание задачи, оформлено в виде блогпостов.
- vLLM, llama.cpp, TGI, sglang, Infinity Embeddings, CTranslate2 — Движки для инференса. vLLM, TGI и sglang для быстрого инференса декодеров на гпу, llama.cpp на цпу. Infinity Embeddings это движок для энкодеров во всех проявлениях, CTranslate2 для энкодер-декодеров.

Ссылки для совсем опытных Кар-Карычей

- Quantization Deep Dive — офигенный хабрапост от Яндекса, где расписывают математическую базу квантизации и про типы данных
- Ускорение LLM: универсальные методы для популярных архитектур — тоже офигенный хабрапост и тоже от Яндекса, где расписывают варианты ускорения инференса
- Статьи от Давида Дале на Хабре — все очень увлекательны и прекрасны. Мои любимые — про декодирование из эмбеддингов LaBSE, про прунинг токенизатора у mt5 и про дистилляцию берта.
- 100 questions about NLP — универсальный список вопросов для подготовки к собесам. Не на все вопросы есть ответы, но все вопросы хорошие.

Этот список, конечно же, неполный, но как база для вката работает на ура. Если есть что-то ещё полезного — кидайте в комменты.
Қайта жіберілді:
gonzo-обзоры ML статей avatar
gonzo-обзоры ML статей
Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.

Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965

Пользуясь случаем, я зарядил эту статью в обновлённую систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.

* English TL;DR
* Русский обзор

Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
https://github.com/vllm-project/vllm/pull/15289

Все готовы к Qwen3?
Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
WritingPrompts-ru и Ideya-preview-8k

Продолжаю вносить вклад в русскоязычное LLM-комьюнити. Перевёл euclaise/writingprompts на русский через новую Gemma-3-27b-it.
Оригинальный датасет это набор подсказок для написания художественных текстов из r/writingprompts + самый залайканый комментарий с, собственно, текстом, написанным по подсказке. Пока я перевел только подсказки, хотя планирую и сами истории тоже.
Датасеты с подсказками, типа этого, полезны для генерации синтетических данных и обучения русскоязычных creative writing / roleplay моделей, с которыми, честно говоря, пока не очень.

Ideya-preview-8k - как раз такой датасет, истории писала та же Gemma-3-27b-it. Превью он из-за того, что там только 8 тысяч подсказок+текстов, а планирую я сгенерировать все 270 тысяч. В большей части средняя длина сгенерированной истории - 500 слов, но ближе к концу я поменял промты.

WritingPrompts-ru, Ideya-preview-8k
Қайта жіберілді:
LLM под капотом avatar
LLM под капотом
Все архитектуры Enterprise RAG Challenge

Вот вам обновленный и интерактивный leaderboard по результатам второго раунда Enterprise RAG Challenge: https://abdullin.com/erc/. Можно кликать на команды и читать про их решения на основе заполненных опросников. Если у команды было несколько экспериментов, то в карточке они тоже будут упомянуты.

В итоге у нашего коммьюнити получилось очень мощное исследование разных RAG архитектур на практической бизнес-задаче!

Причем, leaderboard с деталями решений - это далеко не последний результат. Я попозже дополню эту таблицу ссылками на посты и исходники, которые мне присылают.

А еще мы потихоньку начинаем планировать третий round. Его в итоге обсуждений решили сделать более организованным, чтобы выхлоп от R&D был интереснее и полезнее для всех в нашем комьюнити.

Идея простая - учимся на своих ошибках и двигаемся дальше.

В первом раунде мы обнаружили, что решения на базе SO / CoT легко занимают первое место. Вывод - сделаем генератор вопросов менее предсказуемым, чтобы SO/CoT жизнь маслом не казалась.

Второй раунд - многие использовали SO/CoT без векторов, но в итоге победило решение Ильи. Он заранее собрал инфраструктуру для оценки своего пайплайна и перебрал варианты его настройки на основе тестового набора данных.

Вывод - заранее соберем нормальную инфраструктуру для оценки пайплайнов и опубликуем ее вместе с тестовыми данными для всех желающих. Чтобы каждый мог быстро ставить разные эксперименты и оценивать их результаты.

И посмотрим, что получится в третьем раунде. Ведь интересно же, правда?)

Ваш, @llm_under_hood 🤗
Қайта жіберілді:
black_samorez avatar
black_samorez
Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.
Қайта жіберілді:
Гречневые мысли avatar
Гречневые мысли
Немного запоздало похвастаюсь: у меня приняли ещё одну статью, на этот раз, на NAACL SRW. Трек называется воркшопом, но на деле им не является, это отдельный трек конфы, публикующийся в том же просидингс, с постерной сессией рядом с main track, с ревью периодом и ненулевым процентом реджектов.

Мне эта статья не нравится, потому что я не успел её нормально доделать. Я думал, мол, реджектнут, я доделаю и переподам -- но мне повезло и, видимо, капитальные доделки будут уже в follow up. Сейчас надо доделать камера реди, потом залью препринт на архив и, может быть, распишу, что я там сделал, концептуально идея там интересная.

Ну и, как следствие этого акцепта, я закрыл все формальные требования по публикациям в аспирантуре за первые полгода — я опубликовал две статьи на Core A конференциях первым автором и одну статью в журнале, который индексируется скопусом. Расслабляться, разумеется, рановато, но ачивка прикольная.
Қайта жіберілді:
The Church of St. Beobanka avatar
The Church of St. Beobanka
Қайта жіберілді:
Data Secrets avatar
Data Secrets
Желаем продуктивной пятницы

Рекордтар

14.04.202523:59
29Жазылушылар
14.03.202523:59
0Дәйексөз индексі
30.04.202523:59
921 жазбаның қамтуы
29.03.202523:59
9Жарнамалық жазбаның қамтуы
25.03.202523:59
28.57%ER
19.04.202523:59
317.24%ERR
Жазылушылар
Цитата индексі
1 хабарламаның қаралымы
Жарнамалық хабарлама қаралымы
ER
ERR
MAR '25MAR '25MAR '25APR '25APR '25

Егорка думает, что танымал жазбалары

Қайта жіберілді:
Гречневые мысли avatar
Гречневые мысли
24.03.202508:47
Дамы и господа, выдыхаем: RL всё таки не работает.

Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.

Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.

Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.

Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.

А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.

Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.

Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Қайта жіберілді:
Гречневые мысли avatar
Гречневые мысли
23.03.202519:08
Курс молодого ресёрчера

Меня в последнее время уж слишком часто спрашивают, чё почитать, чтобы вкатиться в нлп, а я каждый раз пересылаю целую батарею из ссылок, которую я создал год назад. Пришло время их организовать в один аккуратненький пост и потом кидать уже его.

Ссылки для обучения базе:

- HF NLP Course — Платиновая база. Это надо прочитать, чтобы научиться делать свои минимальные штуки на уровне инженера. Курс больше прикладной, не теоретический, учит взаимодействию с transformers. Он постоянно обновляется и там появляются туториалы по next big thing — например, там уже есть глава про reasoning models.
- Плейлист с лекциями Карпатого и его же гитхаб — Ещё более платиновая и ещё более база. Я очень плохо воспринимаю лекции и обычно смотрю их на х2, но тут и очень понятные объяснения, и иллюстрации в виде питоновского кода в тетрадках, и скорость изложения ровно такая, какая надо. В описаниях к видео есть домашки, если чувствуете, что надо получше разобраться, делайте их :)
- Зоопарк трансформеров — Чуть устаревшая статья на хабре, где описываются разные модификации трансформеров. Для каждой архитектуры и модели кратко описаны ключевые изменения. Новых моделей за последние пару лет тут, к сожалению, нет, но чтобы понять как всё развивалось, этого будет достаточно.
- Attention is all you need — Самая главная статья из современного NLP. Стоит прочитать, осознать и запомнить, потому что по сути с тех пор языковые модели практически не менялись.
- NLP Course For You — Классический курс по базе NLP, есть много про дотрансформерные методы. Мне кажется, что он уже не так актуален, но ознакомиться всё равно стоит.
- NLP чат — Уютненький чятик, где обсуждают новости и задают вопросы. Ваш покорный слуга выступает там в роли бесплатной добровольной техподдержки.

Ссылки для "уже смешариков", чтобы читать новости и развиваться дальше

- LocalLLaMA — Самый популярный сабреддит про локальный инференс ллмок. Все новости обычно появляются там.
- HF Daily Papers — Рассылка свежих статей по DL. Очень советую подписаться по почте, чтобы утром просматривать заголовки и читать интересующее. Помогает очень сильно расширить кругозор.
- lmarena.ai — Тут можно потыкать разные модельки руками, сравнить их и посмотреть, как они отвечают. Удобно, если надо быстро сделать сбс или проверить какую-то гипотезу.
- openrouter.ai — Сайт, где можно использовать модели через апи. Очень дёшево (по сравнению с аналогами), очень удобно. Оплачивается криптой, иностранной картой или через платиру/ggsel.
- 5 Levels of Text Splitting и RAG Techniques — Всё, что вы хотели знать про RAG, других ссылок, по сути, не нужно. В первой разбираются, как правильно сплитить текст для базы знаний, во второй рассматривают все типичные архитектуры и трюки, связанные с рагом.
- MTEB — Рейтинг эмбеддеров. Чем выше, тем лучше. Не спрашивайте в нлп чате, что выбрать, если предварительно не посмотрели сюда!
- HF Cookbook — Список готовых советов и рецептов для решения прикладных задач. Есть и код, и описание задачи, оформлено в виде блогпостов.
- vLLM, llama.cpp, TGI, sglang, Infinity Embeddings, CTranslate2 — Движки для инференса. vLLM, TGI и sglang для быстрого инференса декодеров на гпу, llama.cpp на цпу. Infinity Embeddings это движок для энкодеров во всех проявлениях, CTranslate2 для энкодер-декодеров.

Ссылки для совсем опытных Кар-Карычей

- Quantization Deep Dive — офигенный хабрапост от Яндекса, где расписывают математическую базу квантизации и про типы данных
- Ускорение LLM: универсальные методы для популярных архитектур — тоже офигенный хабрапост и тоже от Яндекса, где расписывают варианты ускорения инференса
- Статьи от Давида Дале на Хабре — все очень увлекательны и прекрасны. Мои любимые — про декодирование из эмбеддингов LaBSE, про прунинг токенизатора у mt5 и про дистилляцию берта.
- 100 questions about NLP — универсальный список вопросов для подготовки к собесам. Не на все вопросы есть ответы, но все вопросы хорошие.

Этот список, конечно же, неполный, но как база для вката работает на ура. Если есть что-то ещё полезного — кидайте в комменты.
Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
21.03.202514:34
WritingPrompts-ru и Ideya-preview-8k

Продолжаю вносить вклад в русскоязычное LLM-комьюнити. Перевёл euclaise/writingprompts на русский через новую Gemma-3-27b-it.
Оригинальный датасет это набор подсказок для написания художественных текстов из r/writingprompts + самый залайканый комментарий с, собственно, текстом, написанным по подсказке. Пока я перевел только подсказки, хотя планирую и сами истории тоже.
Датасеты с подсказками, типа этого, полезны для генерации синтетических данных и обучения русскоязычных creative writing / roleplay моделей, с которыми, честно говоря, пока не очень.

Ideya-preview-8k - как раз такой датасет, истории писала та же Gemma-3-27b-it. Превью он из-за того, что там только 8 тысяч подсказок+текстов, а планирую я сгенерировать все 270 тысяч. В большей части средняя длина сгенерированной истории - 500 слов, но ближе к концу я поменял промты.

WritingPrompts-ru, Ideya-preview-8k
21.03.202516:22
Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
А ещё Qwen выложили новую Qwen2.5-VL-32B со зрением.

Блогпост
Қайта жіберілді:
Krist/Blog avatar
Krist/Blog
24.03.202517:46
Deepseek выложили обновленный V3. Я честно ждал, пока они дадут хоть какую-нибудь инфу по бенчмаркам или что-то в этом роде, но прошло 5 часов, а README.md все ещё пустой.

По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
24.03.202508:49
Супер интересная статья, которая меня несколько расстраивает :(
Қайта жіберілді:
gonzo-обзоры ML статей avatar
gonzo-обзоры ML статей
21.03.202519:38
Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.

Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965

Пользуясь случаем, я зарядил эту статью в обновлённую систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.

* English TL;DR
* Русский обзор

Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Көбірек мүмкіндіктерді ашу үшін кіріңіз.