
Krist/Blog
Веду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно.
Вступайте в чатик @kristchat
Писать сюда - @kristaller
Вступайте в чатик @kristchat
Писать сюда - @kristaller
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
РасталмағанСенімділік
СенімсізОрналасқан жері
ТілБасқа
Канал құрылған күніMar 31, 2018
TGlist-ке қосылған күні
Nov 12, 2024Қосылған топ
"Krist/Blog" тобындағы соңғы жазбалар
24.03.202518:03
А ещё Qwen выложили новую Qwen2.5-VL-32B со зрением.
Блогпост
Блогпост


24.03.202517:44
Deepseek выложили обновленный V3. Я честно ждал, пока они дадут хоть какую-нибудь инфу по бенчмаркам или что-то в этом роде, но прошло 5 часов, а README.md все ещё пустой.
По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
По ощущениям, модель сильно улучшилась в качестве по коду, математике и creative writing. А ещё стала более живой на русском, чем-то напоминает Sonnet.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
05.03.202519:09
QwQ-32B вышла!
Основные моменты:
- Обучали через RL с верифицируемыми вознаграждениями + в конце добавили RL с моделью вознаграждения. Такая схема не особо снижает производительность на математике и коде, зато добавляет модели человечности и общих навыков.
- По некоторым метрикам на уровне Deepseek-R1-671B. Это, конечно, скорее всего некоторое лукавство. Тем не менее, QwQ-32B значительно лучше своей "preview" версии.
- Пишут про хорошую агентнтую производительность, умение использовать инструменты.
Статьи пока нет (возможно выложат с релизом QwQ-Max).
Блогпост, модель, демо
Основные моменты:
- Обучали через RL с верифицируемыми вознаграждениями + в конце добавили RL с моделью вознаграждения. Такая схема не особо снижает производительность на математике и коде, зато добавляет модели человечности и общих навыков.
- По некоторым метрикам на уровне Deepseek-R1-671B. Это, конечно, скорее всего некоторое лукавство. Тем не менее, QwQ-32B значительно лучше своей "preview" версии.
- Пишут про хорошую агентнтую производительность, умение использовать инструменты.
Статьи пока нет (возможно выложат с релизом QwQ-Max).
Блогпост, модель, демо


14.02.202514:26
DeepScaleR: продолжаем обучение дистиллированных моделей рассуждения через RL
Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.
Интересные моменты:
- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.
- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.
- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.
- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.
- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).
- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.
Статья, модель, код
Ещё в статье DeepSeek-R1 указывалось, что после "дистилляции" модели рассуждения, дополнительный этап с Reinforcement Learning повышает качество (собственно, R1 так и сделан, это дистилляция из R1-Zero + дополнительное RL). К сожалению, этот, судя по всему, довольно важный шаг был пропущен в официальных distill моделях от DeepSeek. Авторы этой статьи исправляют этот недочет и дообучают DeepSeek-R1-distill-Qwen-1.5B через GRPO с верифицируемыми вознаграждениями на нескольких математических датасетах.
Интересные моменты:
- Обучали в несколько этапов, итеративно увеличивая контекст: 8K -> 16K -> 24K. Благодаря этому удалось сэкономить компьют, сократили время обучения с 70 000 часов A100 до 3800.
- По итогу: улучшение на AIME2024 28.8% -> 41.3% (+15). Для сравнения, у o1-preview - 81.4.
- На ранних этапах обучения слишком длинные цепочки мыслей приводят к зацикленным генерациям. Авторы дополнительно указывают, что итеративное расширение контекста помогает с этим бороться.
- Датасет: 40 000 примеров из разных версий AIME (кроме 24), AMC и прочих сложных математических задач. Ответы из текстов решений выделяли с помощью gemini-1.5-pro-002, а потом дополнительно дедуплицировали данные через эмбедер.
- Авторы оценили оригинальный R1-distill-Qwen-1.5B и подтвердили теорию о том, что правильные ответы в среднем короче неправильных (6000 против 20000 токенов).
- Авторы выложили в отрытый доступ буквально всё, что можно: модель, код для обучения и сбора данных, датасет, логи обучения и оценки.
Статья, модель, код
Рекордтар
24.03.202523:59
216Жазылушылар14.02.202523:59
0Дәйексөз индексі08.03.202523:59
7351 жазбаның қамтуы31.03.202523:59
75Жарнамалық жазбаның қамтуы31.03.202523:59
5.50%ER25.02.202511:16
378.87%ERRКанал өзгерістері тарихы
Көбірек мүмкіндіктерді ашу үшін кіріңіз.