Notcoin Community

Whale Chanel

Паглядзець

Proxy MTProto | پروکسی

Паглядзець

Агенты ИИ | AGI_and_RL

Про ии, RL и в целом @tokarev_i_v
https://t.me/researchim

Рэйтынг TGlist

ТыпПублічны

Вертыфікацыя

Не вертыфікаваны

Надзейнасць

Не надзейны

Размяшчэнне

МоваІншая

Дата стварэння каналаJan 31, 2020

Дадана ў TGlist

Feb 14, 2025

Я ўладальнік канала

Гісторыя змяненняў

Прыкрепленая група

АИ

Агентство ИИ

Статыстыка Тэлеграм-канала Агенты ИИ | AGI_and_RL

Падрабязней

Падпісчыкаў

4 479

24 гадз.

641.4%Тыдзень

882%Месяц

882%

Індэкс цытавання

0

Згадкі0Рэпостаў на каналах0Згадкі на каналах0

Сярэдняе ахоп 1 паста

0

12 гадз.5 1850%24 гадз.00%48 гадз.00%

Узаемадзеянне (ER)

0%

Рэпостаў0Каментары0Рэакцыі0

Узаемадзеянне па ахопу (ERR)

0%

24 гадз.0%Тыдзень0%Месяц0%

Ахоп 1 рэкламнага паста

0

1 гадз.00%1 – 4 гадз.00%4 - 24 гадз.00%

Падрабязней

Падключыце нашага бота да канала і даведайцеся пол аўдыторыі гэтага канала.

Усяго пастоў за 24 гадзіны

2

Дынаміка

Апошнія публікацыі ў групе "Агенты ИИ | AGI_and_RL"

Усе пасты

Пераслаў з:

Vikhr models

19.02.202517:18

Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

19.02.202512:42

Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду

13.02.202506:53

Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim

07.02.202504:12

Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1

Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.

Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.

В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.

Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF

25.01.202516:55

А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)

Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B

Пишут что 3B base норм учится

https://github.com/Jiayi-Pan/TinyZero

Усе пасты