Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Лёха в Short’ах Long’ует
Лёха в Short’ах Long’ует
Krist/Blog avatar

Krist/Blog

Веду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно.
Вступайте в чатик @kristchat
Писать сюда - @kristaller
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваны
Надзейнасць
Не надзейны
Размяшчэнне
МоваІншая
Дата стварэння каналаMar 31, 2018
Дадана ў TGlist
Nov 12, 2024
Прыкрепленая група

Статыстыка Тэлеграм-канала Krist/Blog

Падпісчыкаў

185

24 гадз.00.2%Тыдзень
3
1.5%Месяц
12
7%

Індэкс цытавання

0

Згадкі0Рэпостаў на каналах0Згадкі на каналах0

Сярэдняе ахоп 1 паста

0

12 гадз.470%24 гадз.00%48 гадз.00%

Узаемадзеянне (ER)

0%

Рэпостаў0Каментары0Рэакцыі0

Узаемадзеянне па ахопу (ERR)

0%

24 гадз.0%Тыдзень0%Месяц0%

Ахоп 1 рэкламнага паста

0

1 гадз.00%1 – 4 гадз.00%4 - 24 гадз.00%
Падключыце нашага бота да канала і даведайцеся пол аўдыторыі гэтага канала.
Усяго пастоў за 24 гадзіны
2
Дынаміка
2

Апошнія публікацыі ў групе "Krist/Blog"

DeepScaleR: продолжаем обучение дистиллированных моделей рассуждения через RL

Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.


Интересные моменты:

- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.

- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.

- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.

- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.

- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).

- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.

Статья, модель, код

Рэкорды

13.02.202523:59
185
Падпісчыкаў
14.02.202523:59
0
Індэкс цытавання
15.02.202523:59
47
Ахоп 1 паста
04.03.202506:46
0
Ахоп рэкламнага паста
04.03.202506:46
0.00%
ER
04.03.202506:46
0.00%
ERR

Развіццё

Падпісчыкаў
Індэкс цытавання
Ахоп 1 паста
Ахоп рэкламнага паста
ER
ERR
DEC '24JAN '25FEB '25MAR '25

Папулярныя публікацыі Krist/Blog

14.02.202514:26
DeepScaleR: продолжаем обучение дистиллированных моделей рассуждения через RL

Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.


Интересные моменты:

- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.

- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.

- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.

- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.

- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).

- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.

Статья, модель, код
Увайдзіце, каб разблакаваць больш функцый.