
Krist/Blog
Веду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно.
Вступайте в чатик @kristchat
Писать сюда - @kristaller
Вступайте в чатик @kristchat
Писать сюда - @kristaller
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваныНадзейнасць
Не надзейныРазмяшчэнне
МоваІншая
Дата стварэння каналаMar 31, 2018
Дадана ў TGlist
Nov 12, 2024Прыкрепленая група
Падпісчыкаў
185
24 гадз.00.2%Тыдзень
31.5%Месяц
127%
Індэкс цытавання
0
Згадкі0Рэпостаў на каналах0Згадкі на каналах0
Сярэдняе ахоп 1 паста
0
12 гадз.470%24 гадз.00%48 гадз.00%
Узаемадзеянне (ER)
0%
Рэпостаў0Каментары0Рэакцыі0
Узаемадзеянне па ахопу (ERR)
0%
24 гадз.0%Тыдзень0%Месяц0%
Ахоп 1 рэкламнага паста
0
1 гадз.00%1 – 4 гадз.00%4 - 24 гадз.00%
Усяго пастоў за 24 гадзіны
2
Дынаміка
2
Апошнія публікацыі ў групе "Krist/Blog"
14.02.202514:26
DeepScaleR: продолжаем обучение дистиллированных моделей рассуждения через RL
Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.
Интересные моменты:
- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.
- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.
- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.
- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.
- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).
- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.
Статья, модель, код
Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.
Интересные моменты:
- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.
- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.
- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.
- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.
- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).
- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.
Статья, модель, код
Рэкорды
13.02.202523:59
185
Падпісчыкаў14.02.202523:59
0
Індэкс цытавання15.02.202523:59
47
Ахоп 1 паста04.03.202506:46
0
Ахоп рэкламнага паста04.03.202506:46
0.00%
ER04.03.202506:46
0.00%
ERRРазвіццё
Падпісчыкаў
Індэкс цытавання
Ахоп 1 паста
Ахоп рэкламнага паста
ER
ERR
Увайдзіце, каб разблакаваць больш функцый.