Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Агенты ИИ | AGI_and_RL avatar

Агенты ИИ | AGI_and_RL

Про ии, RL и в целом @tokarev_i_v
https://t.me/researchim
TGlist reytingi
0
0
TuriOmmaviy
Tekshirish
Tekshirilmagan
Ishonchnoma
Shubhali
Joylashuv
TilBoshqa
Kanal yaratilgan sanaСіч 31, 2020
TGlist-ga qo'shildi
Лют 14, 2025
Muxrlangan guruh

"Агенты ИИ | AGI_and_RL" guruhidagi so'nggi postlar

Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите
Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его

https://github.com/InexperiencedMe/NaturalDreamer
В nature решили вспомнить про Dreamer, прикольно
https://www.nature.com/articles/d41586-025-01019-w

https://danijar.com/project/dreamerv3/

Кстати увидел, что автор пушит в репозиторий частенько и что-то обновляет даже
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo
типа минималистичный имплемент грпо. уже давний получается, ему 3 месяца.
Но единственный пример с лламой 1б не запускался хотя бы на 24гб карте. (точнее запускается, но быстро ловит ООМ - нехватка памяти)
В нем моделька учится отрабатывать за калькулятор.

Вообще цель проекта - это проделывать свои эксперименты с грпо. Поэтому сделал форк с квантизацией и лорой + подставляю модельку от анслота (теперь она должна просто загружаться, без разрешений), чтобы хотя бы запускалось локально.

https://github.com/researchim-ai/re-tiny-grpo

мб кто-то сам хочет параметры поперебирать, улучшить (но нужна карточка на 24гб)

Кстати разные штуки делаем и собираем крутые статьи тут: https://t.me/researchim
Еще обзорок по тест-тайм скейлингам и мультиагентам ?

Ни слова больше

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
https://arxiv.org/abs/2503.24235

A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives
https://arxiv.org/abs/2503.13415
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://t.me/researchim
Тут кстати есть довольно свежии лекции по квантовым алгоритмам

https://www.cs.umd.edu/~amchilds/qa/
Здесь автор пилит UI-шку для экспериментов с обычным рлем

https://github.com/dvalenciar/ReinforceUI-Studio

дока тут https://docs.reinforceui-studio.com/welcome

Мне показалось прикольным, хз почему раньше уишку никто не сделал, это может быть реально удобным для ознакомления
Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr. GRPO
https://lancelqf.github.io/note/llm_post_training/
Кстати листик с MCP серверами, думаю пригодятся
https://github.com/punkpeye/awesome-mcp-servers
чатгпт сделал нам отличную шпору по рлю. изучаем
На английском конечно же намного лучше получается
Агрея, стодание, полеход - каждый должен знать, это база
Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки

https://hrishbh.com/ai-as-algorithm-designer-teaching-llms-to-improve-sorting-through-trial-and-error-in-grpo/

PS подобные штуки мы собираем в https://t.me/researchim
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144)

Reinforcement Learning: A Comprehensive Overview
https://arxiv.org/abs/2412.05265v2

Rekordlar

14.04.202523:59
4.9KObunachilar
04.03.202513:30
100Iqtiboslar indeksi
13.03.202503:50
6KBitta post qamrovi
11.03.202517:47
6KReklama posti qamrovi
26.03.202523:59
11.57%ER
12.03.202516:34
128.89%ERR

Rivojlanish

Obunachilar
Iqtibos indeksi
1 ta post qamrovi
Reklama posti qamrovi
ER
ERR
ЛЮТ '25БЕР '25КВІТ '25

Агенты ИИ | AGI_and_RL mashhur postlari

06.04.202513:16
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents
03.04.202519:59
Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr. GRPO
https://lancelqf.github.io/note/llm_post_training/
04.04.202519:41
25.03.202517:59
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144)

Reinforcement Learning: A Comprehensive Overview
https://arxiv.org/abs/2412.05265v2
04.04.202519:41
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://t.me/researchim
31.03.202510:25
Кстати листик с MCP серверами, думаю пригодятся
https://github.com/punkpeye/awesome-mcp-servers
Тут кстати есть довольно свежии лекции по квантовым алгоритмам

https://www.cs.umd.edu/~amchilds/qa/
Здесь автор пилит UI-шку для экспериментов с обычным рлем

https://github.com/dvalenciar/ReinforceUI-Studio

дока тут https://docs.reinforceui-studio.com/welcome

Мне показалось прикольным, хз почему раньше уишку никто не сделал, это может быть реально удобным для ознакомления
05.04.202512:52
Еще обзорок по тест-тайм скейлингам и мультиагентам ?

Ни слова больше

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
https://arxiv.org/abs/2503.24235

A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives
https://arxiv.org/abs/2503.13415
чатгпт сделал нам отличную шпору по рлю. изучаем
На английском конечно же намного лучше получается
Агрея, стодание, полеход - каждый должен знать, это база
07.04.202517:30
Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его

https://github.com/InexperiencedMe/NaturalDreamer
05.04.202517:22
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo
типа минималистичный имплемент грпо. уже давний получается, ему 3 месяца.
Но единственный пример с лламой 1б не запускался хотя бы на 24гб карте. (точнее запускается, но быстро ловит ООМ - нехватка памяти)
В нем моделька учится отрабатывать за калькулятор.

Вообще цель проекта - это проделывать свои эксперименты с грпо. Поэтому сделал форк с квантизацией и лорой + подставляю модельку от анслота (теперь она должна просто загружаться, без разрешений), чтобы хотя бы запускалось локально.

https://github.com/researchim-ai/re-tiny-grpo

мб кто-то сам хочет параметры поперебирать, улучшить (но нужна карточка на 24гб)

Кстати разные штуки делаем и собираем крутые статьи тут: https://t.me/researchim
27.03.202516:02
Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки

https://hrishbh.com/ai-as-algorithm-designer-teaching-llms-to-improve-sorting-through-trial-and-error-in-grpo/

PS подобные штуки мы собираем в https://t.me/researchim
14.04.202517:09
Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите
07.04.202517:20
В nature решили вспомнить про Dreamer, прикольно
https://www.nature.com/articles/d41586-025-01019-w

https://danijar.com/project/dreamerv3/

Кстати увидел, что автор пушит в репозиторий частенько и что-то обновляет даже
Ko'proq funksiyalarni ochish uchun tizimga kiring.