Pavel Zloi - Публікацыі Тэлеграм-канала

Мир сегодня с "Юрий Подоляка"

Паглядзець

Труха⚡️Україна

Паглядзець

Николаевский Ванёк

Паглядзець

Труха⚡️Україна

Паглядзець

Николаевский Ванёк

Паглядзець

Лёха в Short’ах Long’ует

Паглядзець

Pavel Zloi

08.03.202511:55

Кстати, чуть не забыл, поздравляю ~~немногочисленных~~ подписчиц канала с 8 марта!

05.03.202513:28

И так, продолжаем разговор, ссылок набралось порядочно, так вот вторая пачка публикаций, их краткое саммари и мой небольшой комментарий.

Curated collection of papers and resources on how to unlock the reasoning ability of LLMs and MLLMs (ссылка)

Кратенько: По ссылке коллекция из 130+ ссылок на статьи про датасеты и техники обучения ризонингу вышедшие начиная с 2022 года, так что всё достаточно свежее, есть обзорные статьи, есть разные околотехнические статьи с анализом работы тех или иных моделей, есть статьи про техники обучения и тестирования ризонинга и так далее.

От себя: В проекте собрана великолепная подборка различных публикаций и проектов, однако, отдельно хочу отметить заинтересовавший меня проект google-research/cascades, который позволяет формировать "каскадные" CoT цепочки вызывая внешние тулы и используя механизмы обратной связи.

Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917)

Кратенько: Эта публикация про метод Self-Correct via Reinforcement Learning (SCoRe), использующий RL для улучшения способности языковых моделей к самокоррекции через генерацию собственных данных, что по тестам позволило достичь хороших результатов на бенчмарках MATH и HumanEval.

От себя: Очень любопытная статья,. по тексту сложилось мнение что SCoRe это что-то среднее между RL и RLHF (только вместо хумана обучаемая модель). Как я понял модель в процессе обучения делает две генерации, после первой проверяет себя и генерируют инструкцию самокоррекции, после второй рассчитывается то насколько ответы похожи на правильный из датасета (при этом не показывая модели какой правильный) и из этого формируется RL-награда, финальная цель которой обучить модель либо с первого раза отвечать "как надо" либо с одной подсказкой.

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (arXiv:2411.14405)

Кратенько: Эта публикация представляет модель Marco-o1 и методы её RL обучения используя Chain-of-Thought, MCTS и механизмы рефлексии.

От себя: В данной публикации очень подробно описан весь процесс, который сводится к SFT обучению на CoT инструкциях, после чего RL обучению который предполагает, что модель сама будет генерировать возможные варианты ответа (дерево решений), после через MCTS (Monte Carlo Tree Search) выбирать наиболее эффективный (через оценку top-k и softmax). Процесс "рассуждения" продолжается до тех пока не будет достигнут приемлемый результат.

Puzzle Solving using Reasoning of Large Language Models: A Survey (arXiv:2402.11291)

Кратенько: Любопытный обзор исследований, оценивающих способности LLM в решении головоломок.

От себя: Из интересного классификация видов загадок и обзор датасетов под каждый из примеров, но отдельно хочу отметить упоминаемую работу "Graph of Thoughts: Solving Elaborate Problems with Large Language Models" (arxiv:2308.09687) о фреймворке, который позволяет построить не просто цепочку, а граф размышлений.

Продолжение продолжит продолжаться...

02.03.202512:46

YandexGPT R1 на Huging Face

Выпустил адаптер на Hugging Face который я дообучил при помощи impruver поверх YandexGPT-5-Lite-8B-pretrain вышедшей на днях, используя датасеты оптимизированные под reasoning.

Ссылки:
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_lora
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_gguf
- https://ollama.com/evilfreelancer/r1_yandexgpt5-lite

Конфигурация: YandexGPT/8B_lora_r1
Отчёт W&B: https://api.wandb.ai/links/evilfreelancer/zj6s02v4

Запустить через Ollama:

ollama run evilfreelancer/r1_yandexgpt5-lite

Паказана 1 - 3 з 3

Увайдзіце, каб разблакаваць больш функцый.

Цытаванні

Цытаванні