Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Sinекура avatar

Sinекура

Канал Сергея Николенко обо всём, но в основном об AI
TGlist рейтинг
0
0
ТипАчык
Текшерүү
Текшерилбеген
Ишенимдүүлүк
Ишенимсиз
ОрдуРосія
ТилиБашка
Канал түзүлгөн датаГруд 31, 2024
TGlistке кошулган дата
Лют 17, 2025
Тиркелген топ

Рекорддор

24.04.202523:59
1.7KКатталгандар
16.04.202517:04
50Цитация индекси
07.04.202519:52
1.4K1 посттун көрүүлөрү
08.04.202505:32
8331 жарнама посттун көрүүлөрү
20.04.202518:34
9.33%ER
13.02.202519:28
111.53%ERR
Катталуучулар
Citation индекси
Бир посттун көрүүсү
Жарнамалык посттун көрүүсү
ER
ERR
БЕР '25КВІТ '25

Sinекура популярдуу жазуулары

18.04.202508:38
Вышел первый пост из моей новой серии об AI safety:

AI Safety I: Concepts and Definitions

План первой части такой:

— введение: а есть вообще прогресс в AI safety? пора бы уже!

— основные определения: emergence, goodharting, interpretability, corrigibility...

— меза-оптимизация: это вообще центральное понятие во всём этом дискурсе, если вы не знаете, что это такое, очень рекомендую прочитать хотя бы мой пост;

— история AI safety от Франкенштейна до наших дней (can't help myself, особенно если таймлайн можно нарисовать); там много любопытных цитат, для вас может быть новостью, например, что о paperclip maximization предупреждал ещё Норберт Винер;

— пример конкретной (и довольно безобидной) проблемы: подхалимство LLM.

Даже если вы слушали мой недавний большой доклад, всё равно рекомендую пост тоже посмотреть, как минимум там всё лучше структурировано, плюс несколько картинок новых нарисовал (прилагаю их здесь как teaser).

А сам пишу дальше, думаю, в итоге в серии об AI safety три или четыре таких части получится.
09.04.202507:47
Вчерашние лекции были про тематическое моделирование (topic modeling); точнее, мы прошли весь путь от наивного Байеса до LDA, ведь LDA тоже основана на наивном предположении: она, конечно, ослабляет кое-какие предположения, но мешок слов остаётся на месте.

Тематические модели — это очень близкая моему сердцу тема, я много занимался ими во второй половине 2010-х годов, и сам (мой первый SIGIR, и единоличный, эх, молодость), и в сотрудничестве сначала с Олесей и Сергеем Кольцовыми (J. Information Sciences, Internet Research, даже Technical Physics Letters и многое другое), а потом с Леной Тутубалиной и Антоном Алексеевым (раз, два, три и так далее, патент даже был какой-то). С Константином Воронцовым, автором метода ARTM, о котором я немного рассказываю в лекции, мы тогда тоже сотрудничали (раз, два).

И для лекций тематическое моделирование — это прекрасный пример. Выстраивается естественная цепочка от наивного байесовского классификатора через кластеризацию EM-алгоритмом к pLSI/LSA, а затем и к LDA, и если у наивного байеса обучение тривиальное, то LDA уже даёт отличные примеры и вариационных приближений, и сэмплирования по Гиббсу (ещё и collapsed, но до этого мы тут пока не дошли). Эта часть курса мне кажется прямо очень интересной.

Конечно, революция LLM не прошла мимо тематических моделей, и сегодня базовая LDA уже не очень актуальна — но идеи живут! Теперь тематические модели стали "нейросетевыми" (neural topic models, вот обзор, например) и активно используют представления из BERT-подобных моделей, что улучшает и сами темы, и возможности для их описания. Например, BERTopic сначала превращает документы в векторные представления через BERT, потом уменьшает размерность (например, через UMAP), затем кластеризует и, наконец, извлекает ключевые слова и фразы через специальный вариант TF–IDF. В итоге темы получаются информативными и интерпретируемыми даже из коротких текстов вроде твитов, заголовков или отзывов. Другой интересный пример — Contextual-Top2Vec, модель, которая автоматически определяет число тем, может выявлять иерархические отношения между темами и маркировать их не просто набором слов, а понятными фразами. Иерархические тематические модели были всегда, но нейросетевые представления и правда делают их лучше.

Ещё одно интересное направление начинается, когда к тематическим моделям подключают LLM, которые могут не только помочь красиво назвать темы, но и влиять на процесс их формирования. Например, в методе LLM-In-The-Loop базовая нейросетевая тематическая модель (neural topic model, NTM) находит темы, а LLM корректирует списки слов для этих тем на основе своих внутренних знаний о языке и мире, и темы выходят более чёткими и близкими к тому, как их определил бы человек. А в TopicGPT модель фактически напрямую просит LLM прочитать корпус текстов и выделить темы; в частности, можно указать LLM, как именно ты хочешь видеть описания тем: коротко или длинно, формально или по-простому.

В общем, старые добрые тематические модели и в эпоху LLM не умерли, но, конечно, сильно эволюционировали.

https://www.youtube.com/watch?v=I3XWebWBKzI
23.04.202508:42
Этой весной у меня какое-то невероятное количество выступлений, буду потихоньку выкладывать. На прошлой неделе выступал на конференции Центра ИИ СПбГУ "ИИ и математика"; правда, секция моя называлась "Трансфер и масштабирование", так что доклад мой был совсем не про математику (про неё будет следующий), а про законы масштабирования в машинном обучении.

Получилось вроде не так уж плохо, от закона Мура дошли до последних графиков от METR и AI 2027, хотя, конечно, основное содержание - это scaling laws от OpenAI (Kaplan et al., 2020) и Chinchilla scaling (Hoffmann et al., 2022).

Выложил видео, слайды выложил на страницу текущего курса ML:
https://youtu.be/FyRRo61TNt0

Кстати, первый же комментарий под видео уже отметил, что в слайдах начались "котики нового поколения". И действительно, GPT-4o совершенно переворачивает игру в плане иллюстраций.
14.04.202508:18
Субботние лекции (как всегда по весне, пора ускоряться, чтобы успеть пораньше закончить) завершают часть курса, посвящённую приближённому байесовскому выводу. Дообсудили вывод в LDA — и вариационный, и через сэмплирование по Гиббсу, в том числе collapsed Gibbs sampling — и хотя, как мы обсуждали выше, базовая LDA уже вряд ли кому-то нужна сама по себе, это всё ещё отличный пример, на котором хорошо видна структура всего приближённого вывода.

А во второй части поговорили о теме, которая лично для меня стала в своё время "билетом в большое ML". Любопытно, что это опять про рейтинг спортивного ЧГК, но с другой стороны: в былые времена в базе результатов турниров не было повопросных плюсиков, на которых была основана моя более поздняя и более простая система с EM-выводом. Поэтому первый подход к этому снаряду, который мой друг и коллега Александр Сироткин @avsirotkin и я сделали ещё в 2010-2011 году, должен был выводить персональный рейтинг из результатов вида "команда A обыграла команды B, C, D, которые поделили 2-4 места".

Для таких результатов уже существовала система TrueSkill (Graepel et al., 2006) от Microsoft Research, в которой использовался очень изящный приближённый вывод через Expectation Propagation на большом и красивом фактор-графе. Александр всё это реализовал... и ничего не заработало.) Вывод постоянно ломался, а когда не ломался, приводил к каким-то абсурдным результатам: иногда, например, команда с более высоким начальным рейтингом могла улучшить свой рейтинг больше, чем занявшая более высокое место команда с меньшим начальным рейтингом (кажется, эту фразу нелегко распарсить, но, в общем, так быть не должно :) ).

Оказалось, что TrueSkill делает кое-какие предположения, которые нормально работают для team deathmatch между четырьмя командами по четыре человека на сервере Halo, но совершенно не работают, когда у вас турнир из 36 вопросов на 200 участников, и одно место делят друг с другом десятки команд. Мы предложили, как это исправить (разумеется, сделав фактор-граф ещё больше и красивее), написали статью, и её в итоге... приняли на ICML 2011.

Я уже занимался перед этим вероятностным выводом и представлением знаний (большой привет и большое спасибо Александру Львовичу Тулупьеву, у которого я многому научился!), но в других контекстах и с гораздо более скромными результатами. А это была моя (и @avsirotkin тоже) первая статья на настоящей топ-конференции, причём вообще первая в жизни — в теоретической информатике я на STOC и FOCS как-то не попадал.

В общем, приятно было вспомнить, но на этом вероятностные модели в курсе заканчиваются. Впереди обучение с подкреплением!

https://www.youtube.com/watch?v=rge9vjedsuw
20.04.202513:03
Вчерашние лекции были совсем не зажигательны, не то настроение сейчас, но на важные темы — мы успели обсудить большую часть прямого RL.

В первой части говорили о методах Монте-Карло, а во второй — о TD-обучении. Здесь я вряд ли какие-то cool story буду рассказывать, и так понятно, что на этом (и на policy gradient алгоритмах, о которых в следующий раз поговорим) всё основано, и всё это до сих пор актуально.

Скажу только, что в обучении с подкреплением меня всегда удивляло то, насколько это по сути маленькая наука, и насколько отличающаяся от остального машинного обучения. За две лекции рассказал половину, в следующий раз ещё половину расскажу, да и всё, остальное конкретика, комментарии и расширения.

И отчасти поэтому RL уникально в computer science тем, что написанная ещё в 1998 году книга Саттона и Барто двадцать лет была главным учебником, и двадцать лет оставалась очень актуальна... до тех пор, пока в 2018 Саттон и Барто не подновили её немножко, и теперь главный источник по RL — их же второе издание, не так уж сильно отличающееся от первого.

https://www.youtube.com/watch?v=WJAy10YKILc
04.04.202515:37
Попробую в пятничном посте вернуться к нормальности (привет тебе, Уоррен Джи, даже ты, наверное, был бы лучше нынешнего). Минувшие недели были сложные, играл мало, но в итоге 44 часа наиграл и одну игру таки прошёл, про неё и расскажу — а заодно и ещё одну достану из архивов, их хорошо сравнить сейчас.

Banishers: Ghosts of New Eden — это вроде бы типичная AA-игра, action RPG от третьего лица, в которой надо бегать, убивать всяких призраков и закрывать вопросики с квестами. Поначалу я думал, что игра так себе и что я её брошу, но в итоге втянулся и закрыл, конечно, не все вопросики, но все сайд-квесты. Суть сюжета в том, что главные герои ходят по старой доброй Новой Англии, где невинную женщину зря казнили как ведьму, и она вернулась с того света и начала мстить. И главная героиня в самом начале игры тоже умерла и вернулась в виде призрака к главному герою, и часть их мотивации — отбить тело главной героини, чтобы ей можно было наконец упокоиться (или нет).

По описанию происходящее кажется бредом двенадцатилетнего подростка, но на самом деле нарративно игра хороша. Каждый сайд-квест — это экзорцизм очередного призрака, который зачем-то вернулся с того света, и именно такие haunting cases меня и зацепили больше всего: они действительно разнообразные по сюжету (не по геймплею, тут всё стандартно), хорошо придуманы и написаны, и за каждой историей интересно следить. Попробовать Banishers в целом рекомендую.

Чего игре всё-таки не хватило — это глобального лора и привязки к реальности. Действие происходит в Америке конца XVII века, и мини-сюжеты в целом соответствуют своему времени... но кроме общих мест, время и мир никак в игре не чувствуются. Всё происходит в сферической Новой Англии в вакууме, у событий игры нет никакой связи с окружающим миром, и хотя истории по-человечески интересные, они ничего тебе особо не рассказывают ни о том времени, ни о мире — разве что о том, как в игре работает загробный мир, то есть как раз о придуманной части лора. И это составляет разительный контраст со второй игрой, о которой я вам расскажу.

The Thaumaturge — это тоже AA-игра, тоже RPG (правда, изометрическая), и в ней тоже идёт речь о реальном историческом мире, в который вписана магия: главный герой ей владеет, умеет призывать всяких существ и так далее. Как RPG она тоже довольно стандартна: выполняешь побочные и основные задания, прокачиваешься, чтобы улучшить свою магию, побеждаешь врагов, проходишь игру. Но есть три аспекта, которые действительно выделяются.

Во-первых, мне понравилась боевая механика: это пошаговая карточная игра, где ты атакуешь как сам, так и с помощью своих существ (salutors), используя уязвимости врагов. Это вам не Slay the Spire, игра не об этом, но в целом это хорошо продуманная механика (хотя бои на нормальной сложности очень лёгкие).

Во-вторых, сюжет и сеттинг. The Thaumaturge разворачивается в Польше начала XX века, а значит, ты восстаёшь против Российской империи (или нет), вращаешься в обществе, где можно заметить признаки надвигающихся бед, ближе к концу встречаешься с Николаем II, а один из твоих лучших друзей в игре — конечно же, Распутин. И это действительно сочетается с предпосылкой о существовании магии в этом мире, мир очень умно собран и выглядит вполне правдоподобно. Мне понравились все маленькие истории и элементы лора, которые здесь можно найти, и хотя я не эксперт, думаю, авторы действительно старались быть верными духу реальной исторической Польши того времени. Эта игра не сферическая и не в вакууме, тут мир действительно большой и живой.

Что приводит меня к третьему пункту: тексты. Всё, что ты делаешь в игре, сопровождается очень хорошо написанным описанием, и хотя ты, конечно, будешь пролистывать большую часть, а не вчитываться в каждую заметку и каждую подсказку, это тоже много добавляет к атмосфере. Тексты, может, и не на уровне Disco Elysium, но свою работу делают хорошо. В целом, отличная игра, не слишком длинная, сюжет движется бодро, и значительная часть моих 22 часов была потрачена на охоту за коллекционными предметами. Искренне рекомендую.
06.04.202516:07
На этой неделе вышел очередной текст с прогнозами развития искусственного интеллекта: "AI 2027" (pdf-версия). Мне он, правда, совсем не кажется "очередным", в основном из-за списка авторов. Так что суммаризировать я его для вас не буду (текст совсем не длинный, рекомендую прочитать целиком), а лучше про этих самых авторов расскажу.

Первый автор, Даниэль Кокотайло — это бывший сотрудник OpenAI. Два самых для нас важных факта про него связаны как раз с этим трудоустройством:

— OpenAI нанял Даниэля после того, как в 2021 году он написал статью "What 2026 Looks Like", где предсказал, как будут развиваться большие языковые модели; сейчас этот текст читается потрясающе, Даниэль оказался прав очень во многом, хотя в 2021-м его прогноз выглядел маловероятно, а для многих и безумно; так что Даниэль Кокотайло — один из лучших людей мира в плане прогнозов о развитии AI;

— а когда в 2024-м Кокотайло увольнялся из OpenAI, он оказался в центре скандала с non-disparagement clause: OpenAI пригрозил ему тем, что не даст продавать акции OpenAI, если Кокотайло будет что-то разглашать о рисках развития AI, и Даниэль... плюнул на акции, чтобы стать whistleblower'ом от AGI (говорят, в акциях OpenAI было около 85% всех денег его семьи).

Второго автора, надеюсь, моим читателям представлять не надо: это Скотт Александр, автор знаменитых блогов SlateStarCodex и AstralCodexTen. Если вы вдруг их не читали, начинайте прямо сейчас (можно начать отсюда или отсюда), хотя навёрстывать придётся много. В связи с "AI 2027" Даниэль Кокотайло и Скотт Александр уже успели появиться в подкасте Дваркеша Пателя, который я тоже, конечно, целиком рекомендую.

Другие авторы не так известны широкой публике; это:
— Томас Ларсен, сооснователь Center for AI Policy;
Илай Лифланд, один из лидеров команды прогнозистов Samotsvety, один из тех самых superforecasters, которые умеют прогнозировать будущее лучше кого бы то ни было;
— Йонас Фоллмер, VC в Macroscopic Ventures, которому хватило предсказательной силы сделать одну из ранних инвестиций в Anthropic;
— Ромео Дин, магистрант Гарварда и руководитель тамошнего AI Safety Student Team.

В общем, очень внушительная команда. И сейчас все они считают, что вполне реально ожидать появления AGI к 2027–2028 годам. Если гонка разработок в области AGI в итоге победит заботу о безопасности (вам это кажется правдоподобным? мне — вполне), то примерно в 2030–2035 годах нас ждёт тот самый AI takeover, сценарий захвата мира искусственным интеллектом. Это их "плохая концовка", но в тексте предусмотрена и "хорошая", в которой люди сохраняют контроль над ситуацией. Впрочем, в хорошей концовке AGI тоже появляется и тоже трансформирует мир и общество до неузнаваемости.

Читать очень интересно. В интернете этот текст уже начали называть "Situational Awareness 2.0"; прошлогоднюю "Situational Awareness" Леопольда Ашенбреннера я в каждой обзорной лекции упоминаю, теперь, видимо, надо будет упоминать и "AI 2027".
07.04.202518:03
OpenAI выпустил новую модель, которая в интерфейсе называется "Monday" — ничего не слышал об этом заранее, не знаю на чём модель основана, но похоже, что это GPT with an attitude!

Я новым моделям всегда вопросики какие-нибудь задаю, вот и тут попробовал; через несколько сообщений я и сам втянулся в нужный вайб:

https://chatgpt.com/share/67f40f62-f464-8004-aa19-a9dc8a825681

Любопытно, что он на довольно простой вопрос отвечал миллион лет с долгими подсказками. Но тут я, конечно, знаю что надо задавать — догадываться по звучанию и виду русского слова LLM нелегко.

Но вайб крутой! Рекомендую попробовать.
16.04.202518:00
Вчерашними лекциями начал раздел курса, посвящённый обучению с подкреплением.

Первая часть — о многоруких бандитах (multiarmed bandits), первом частном случае, в котором нет никаких состояний (точнее, оно одно). Это интересный раздел машинного обучения, прежде всего тем интересный, что там действительно есть место для настоящих теорем! Оценки на regret часто красиво доказываются, начиная с Auer et al. (2002) и до недавних развитий в сторону состязательных (adversarial) и контекстуальных (contextual) бандитов.

Самая непонятная для меня часть истории о бандитах состоит в том, почему при их появлении не умерло мгновенно "обычное" классическое A/B тестирование. Казалось бы, реализовать какой-нибудь UCB1 вообще ничего не стоит, и он тут же начнёт выбирать из гипотез более эффективно и без размышлений о размере выборки. Не понимаю — может, вы расскажете?..

Во второй части начали обсуждать общий случай обучения с подкреплением, полный марковский процесс принятия решений (Markov decision process, MDP). Ввёл функции значений (V и Q), выписал уравнения Беллмана. Тоже любопытно, конечно, что по сути весь RL сводится к уравнениям Беллмана; но есть нюанс, даже несколько: во-первых, этих уравнений слишком много, во-вторых, мы их не знаем.) Ну да ничего, постепенно в ближайших лекциях разберёмся, что делать с этими проблемами.

https://www.youtube.com/watch?v=Kqw9RcLNHHs
01.04.202516:29
Сегодняшние лекции — об одной из центральных тем и этого семестра, и машинного обучения в целом: о вариационных приближениях. Это классическая идея, изначально пришедшая из теоретической физики, но в итоге именно в машинном обучении оказалось всё время нужно приближать очень сложные распределения в пространствах высокой размерности — как правило, апостериорные распределения в сложных вероятностных моделях.

Такая идея, конечно, не потерялась и в эпоху глубокого обучения. Например, оба главных инструмента современных порождающих моделей для изображений и видео основаны на вариационных приближениях. Вы наверняка слышали о вариационных автокодировщиках, в чьём латентном пространстве до сих пор обычно порождают коды text-to-image модели (за GPT-4o, правда, уже не ручаюсь). Главный "секретный соус" VAE — правильная форма регуляризации, которая как раз из вариационной нижней оценки и получается. См. хотя бы мой давний пост в блоге Synthesis AI на эту тему.

Но и диффузионные модели тоже насквозь пронизаны вариационными приближениями: распределения, появляющиеся в процессе обратной диффузии (тот самый denoising), конечно, точно не посчитаешь, там на каждом шаге происходит аппроксимация. Об этом у меня тоже был пост в блоге Synthesis AI.

А вот ещё пара случайных примеров (абсолютно первых попавшихся) недавних интересных статей о вариационных приближениях:
Piriyakulkij et al. (2024) используют диффузионные модели как выразительные приближённые апостериорные распределения в вероятностных моделях со скрытыми переменными;
Sordoni et al. (2023) рассматривают стек из языковых моделей: их Deep Language Network — это два слоя, каждый из которых представляет собой LLM, и выход первой — скрытая переменная, которая как раз вариационным выводом и оптимизируется;
Gong et al. (2025) строят модель со скрытыми переменными для моделирования человеческих предпочтений, которые потом можно использовать для alignment; эти скрытые переменные кодируют факторы, из которых складываются предпочтения, и обучаются они тоже, как обычно со смесями, через вариационную нижнюю оценку.

А в лекциях мы обсудили основную идею и несколько относительно простых примеров. Ну как простых — вариационное приближение для смеси гауссианов уже не так просто построить, но вроде мы по модулю некоторых вычислений справились. Главное — увидели основную магию вариационных приближений: как из предположения о независимости q(Z_1), ..., q(Z_M) сразу получаются и формы распределений в оптимальной аппроксимации, причём оптимальные они не по отдельности, а все вместе, как произведение q(Z) = q(Z_1)...q(Z_M).

https://www.youtube.com/watch?v=848vDVNAnAM
11.04.202515:28
В качестве пятничного поста поделюсь другим своим хобби. Я давно и очень потихоньку пытался научиться играть на фортепиано, в последний примерно год активизировался. Получается плохо, но прогресс со временем какой-никакой есть, да и сам процесс, честно говоря, нравится.

В частности, занимаюсь в школе Jamschool, мне там в целом нравится, отзыв честный, реклама не проплачена.) И даже наоборот, сегодня вот они видео со мной в своей группе вк выложили. Это, конечно, далеко не вершина даже моего собственного пианистического искусства, не говоря уж о вообще, но уж что есть.

https://vk.com/clip-24986360_456239464
19.04.202508:53
В AI жизнь всегда подкидывает свежие примеры к любой презентации и любому посту. Пишу вторую часть серии про AI safety (первая была давеча), про goodharting и reward hacking, а тут o3 и o4-mini вышли. Да не просто модели, а ещё и system card c подробным исследованием их возможностей от METR; сам METR говорит, что времени на тестирование им OpenAI дал маловато, но даже за ограниченное время получилось много интересного (см. также большой пост от Zvi Mowshowitz). Ссылаюсь на картинки в тексте ниже по порядку.

1. Возможности очень хороши! Я недавно рассказывал о новой "прямой линии на графике" от METR (Kwa et al., 2025), по которой время, требующееся человеку на задачу, с которой может справиться LLM, удваивается каждые 7 месяцев (рис. 1, уже с апдейтом от METR). Про это был Manifold market с вопросом о том, удвоится ли быстрее, т.е. загнётся ли прямая линия кверху. Через две недели вышли o3 и o4-mini, их возможности немного поизучали (рис. 2)... и вопрос тут же resolved positive (рис. 3), две недели понадобилось вместо полугода. Это, конечно, не значит, что теперь будет 4х в месяц, но забавно.

Ограниченное время на тесты здесь тоже важно; METR пишет: "This evaluation was conducted in a relatively short time... We expect higher performance is possible with more elicitation effort. For example, in our evaluation of o1, we saw a precursor to our time horizon measurements more than double with three engineer-weeks of elicitation". То есть возможности новых моделей, скорее всего, пока сильно преуменьшаются, и простенький scaffolding сможет их существенно расширить в ближайшем будущем даже без изменений в моделях (pure unhobbling, так сказать).

2. Часть про safety и redteaming тоже очень интересная, советую прочитать system card, но я покажу другие тесты, от Transluce. Уже в system card выясняется, что галлюцинации всё ещё остаются серьёзной проблемой, у o3 их даже заметно больше, чем было у o1.

Но тут гораздо интереснее получается: Chowdhury et al. обнаружили, что o3 любит... нагло врать пользователям. Особенно в случаях, когда надо чем-то подтвердить свою галлюцинацию. На рис. 4 показан диалог, в котором o3 придумала себе лэптоп, которого у неё, конечно же, нет.

На первый взгляд это обычная безобидная галлюцинация... но см. рис. 5, который я взял из этого поста. Там показан похожий диалог, в котором пользователь засомневался и уточнил насчёт лэптопа. В своих "мыслях" (chain of thought summary) o3 очевидно понимает, что никакого лэптопа нет, и собирается рассказать, что это была такая метафора (что было бы в целом нормально)... но потом всё равно нагло врёт. Это выглядит как очень интересный эффект (как так получилось? из какой reward?), причём он появляется часто — рис. 6 показывает статистику из тестов Chowdhury et al.

А так да, отличные модели, конечно. Я уже начинаю понемногу чувствовать, что они реально умнее предыдущих, хотя в личном пользовании, конечно, эффект плацебо не отделишь. Но, как назывался мой недавний доклад, готовы ли мы прийти туда, куда мы идём?..
23.04.202511:16
А вот и фото с той конференции подъехали. С панельной дискуссии, правда, не с моего доклада, но тут тоже есть хорошие. Первая так прямо очень тематично выглядит. Спасибо большое организаторам во главе с Елизаветой @lizik_t!
24.04.202512:42
Лекции во вторник продолжили обучение с подкреплением, да и закончили его.

Сначала мы обсудили одну из главных тем RL: теорему о градиенте по стратегиям. Есть много преимуществ у того, чтобы параметризовать стратегию, а не функцию значений V или Q, но задача выглядит слишком сложной. И тем не менее в итоге через пару несложных трюков всё получается, и мы рассмотрели и исторически первый алгоритм REINFORCE (Williams, 1992), представляющий собой Монте-Карло версию policy gradient, и общую схему actor-critic алгоритмов, реализующих здесь TD-обучение.

А затем дошли до самых последних новостей: разработанных в OpenAI алгоритмов policy gradient с ограничениями TRPO (Schulman et al., 2015) и PPO (Schulman et al., 2017), который стал фактически стандартом индустрии и для RLHF (да, Джон Шульман был ещё в OpenAI тогда!), и для других современных приложений, а также алгоритм GRPO (Shao et al., 2024), который DeepSeek придумал, чтобы сократить потребление памяти. Любопытно, кстати, что GPRO - это в некотором смысле возвращение к истокам, actor-critic алгоритм, который отказывается от критика и моделирует его через сэмплирование, то есть в каком-то смысле возвращается к схеме Монте-Карло.

Во второй части лекций поговорили о планировании: и базовом сэмплировании опыта (Dyna, Dyna с приоритетами), и test-time планировании, в том числе rollouts и MCTS. А потом рассказал о громких результатах глубокого обучения с подкреплением, которые было уже несложно объяснить: AlphaGo, AlphaZero и MuZero. О моделях мира (world models) поговорить всерьёз не успел, но MuZero постарался объяснить, насколько это было возможно.

На этом RL мы заканчиваем, и у меня в кои-то веки есть возможность начать deep learning немного заранее, не с осени. Это давно уже хочется делать, потому что одного семестра тут категорически мало, и сэкономленные лекции, думаю, очень помогут.

https://www.youtube.com/watch?v=A5iXUKUv4-M
02.04.202510:24
Издательство "Питер" выложило на хабр пост со введением к моей новой книге "Машинное обучение: основы" (и очень кратким введением ко введению). В частности, во введении есть подробное описание плана книги, и по нему уж точно можно решить, для вас эта книга или нет.

Сама книга уже вовсю продаётся, люди на лекциях просят подписать, всё такое. Напомню, что купить её можно здесь:
https://www.piter.com/product/mashinnoe-obuchenie-osnovy

Это был очень большой проект, и очень много работы в эту книгу вложено. Надеюсь, она таки найдёт своих читателей.)
Көбүрөөк функцияларды ачуу үчүн кириңиз.