Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Krist/Blog avatar

Krist/Blog

Веду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно.
Вступайте в чатик @kristchat
Писать сюда - @kristaller
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жері
ТілБасқа
Канал құрылған күніMar 31, 2018
TGlist-ке қосылған күні
Nov 12, 2024
Қосылған топ

"Krist/Blog" тобындағы соңғы жазбалар

А ещё Qwen выложили новую Qwen2.5-VL-32B со зрением.

Блогпост
Deepseek выложили обновленный V3. Я честно ждал, пока они дадут хоть какую-нибудь инфу по бенчмаркам или что-то в этом роде, но прошло 5 часов, а README.md все ещё пустой.

По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
QwQ-32B вышла!

Основные моменты:
- Обучали через RL с верифицируемыми вознаграждениями + в конце добавили RL с моделью вознаграждения. Такая схема не особо снижает производительность на математике и коде, зато добавляет модели человечности и общих навыков.
- По некоторым метрикам на уровне Deepseek-R1-671B. Это, конечно, скорее всего некоторое лукавство. Тем не менее, QwQ-32B значительно лучше своей "preview" версии.
- Пишут про хорошую агентнтую производительность, умение использовать инструменты.

Статьи пока нет (возможно выложат с релизом QwQ-Max).

Блогпост, модель, демо
DeepScaleR: продолжаем обучение дистиллированных моделей рассуждения через RL

Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.


Интересные моменты:

- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.

- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.

- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.

- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.

- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).

- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.

Статья, модель, код

Рекордтар

24.03.202523:59
216Жазылушылар
14.02.202523:59
0Дәйексөз индексі
08.03.202523:59
7351 жазбаның қамтуы
31.03.202523:59
75Жарнамалық жазбаның қамтуы
31.03.202523:59
5.50%ER
25.02.202511:16
378.87%ERR
Жазылушылар
Цитата индексі
1 хабарламаның қаралымы
Жарнамалық хабарлама қаралымы
ER
ERR
DEC '24JAN '25FEB '25MAR '25APR '25

Krist/Blog танымал жазбалары

Көбірек мүмкіндіктерді ашу үшін кіріңіз.