Notcoin Community
Notcoin Community
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
iRo Proxy | پروکسی
iRo Proxy | پروکسی
Агенты ИИ | AGI_and_RL avatar

Агенты ИИ | AGI_and_RL

Про ии, RL и в целом @tokarev_i_v
https://t.me/researchim
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваны
Надзейнасць
Не надзейны
Размяшчэнне
МоваІншая
Дата стварэння каналаJan 31, 2020
Дадана ў TGlist
Feb 14, 2025
Прыкрепленая група

Апошнія публікацыі ў групе "Агенты ИИ | AGI_and_RL"

Пераслаў з:
Vikhr models avatar
Vikhr models
Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1

Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.

Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.

В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.

Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)

Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B

Пишут что 3B base норм учится

https://github.com/Jiayi-Pan/TinyZero

Рэкорды

20.02.202523:59
4.5K
Падпісчыкаў
25.01.202523:59
0
Індэкс цытавання
15.02.202523:59
5K
Ахоп 1 паста
12.02.202513:18
5K
Ахоп рэкламнага паста
14.02.202523:59
1.33%
ER
12.02.202513:18
113.41%
ERR
Увайдзіце, каб разблакаваць больш функцый.