
Агенты ИИ | AGI_and_RL
Про ии, RL и в целом @tokarev_i_v
https://t.me/researchim
https://t.me/researchim
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваныНадзейнасць
Не надзейныРазмяшчэнне
МоваІншая
Дата стварэння каналаJan 31, 2020
Дадана ў TGlist
Feb 14, 2025Прыкрепленая група
Апошнія публікацыі ў групе "Агенты ИИ | AGI_and_RL"
19.02.202512:42
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.
Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду


13.02.202506:53
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
07.02.202504:12
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
25.01.202516:55
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)
Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B
Пишут что 3B base норм учится
https://github.com/Jiayi-Pan/TinyZero
Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B
Пишут что 3B base норм учится
https://github.com/Jiayi-Pan/TinyZero
Рэкорды
20.02.202523:59
4.5K
Падпісчыкаў25.01.202523:59
0
Індэкс цытавання15.02.202523:59
5K
Ахоп 1 паста12.02.202513:18
5K
Ахоп рэкламнага паста14.02.202523:59
1.33%
ER12.02.202513:18
113.41%
ERRУвайдзіце, каб разблакаваць больш функцый.