Старший Авгур

Инсайдер UA

Труха⚡️Україна

Николаевский Ванёк

Инсайдер UA

Старший Авгур

Тэхналогіі

Сохраненки и шитпост про ML от @YallenGusev
Чат канала: @augur_chat

Рэйтынг TGlist

ТыпПублічны

Вертыфікацыя

Не вертыфікаваны

Надзейнасць

Не надзейны

РазмяшчэннеРосія

МоваІншая

Дата стварэння каналаFeb 03, 2024

Дадана ў TGlist

May 31, 2024

Я ўладальнік канала

Гісторыя змяненняў

Прыкрепленая група

СА

Чат с авгурами

Статыстыка Тэлеграм-канала Старший Авгур

Падпісчыкаў

5 573

24 гадз.

30.1%Тыдзень

290.5%Месяц

1382.5%

Індэкс цытавання

0

Згадкі1Рэпостаў на каналах0Згадкі на каналах1

Сярэдняе ахоп 1 паста

1 442

12 гадз.9390%24 гадз.1 4420%48 гадз.1 4480%

Узаемадзеянне (ER)

3.4%

Рэпостаў21Каментары33Рэакцыі28

Узаемадзеянне па ахопу (ERR)

25.89%

24 гадз.0%Тыдзень

0.36%Месяц

6.49%

Ахоп 1 рэкламнага паста

1 455

1 гадз.45231.07%1 – 4 гадз.39527.15%4 - 24 гадз.63443.57%

Падключыце нашага бота да канала і даведайцеся пол аўдыторыі гэтага канала.

Усяго пастоў за 24 гадзіны

0

Дынаміка

Апошнія публікацыі ў групе "Старший Авгур"

Усе пасты

Пераслаў з:

16.05.202520:43

Всё целиком оформлено как асинхронный пайплайн (спасибо питонячьему asyncio), где множество задач работают параллельно и дожидаются результата от предыдущих шагов, когда требуется. В пайплайне есть контроллер, LLM сэмплеры и узлы оценки. Всё оптимизировано под throughput, а не время выполнения одного конкретного вычисления. Максимизируют количество проверяемых идей за фиксированный вычислительный бюджет.

Это в целом всё, система не выглядит суперсложной. По сравнению с прерыдущими AlphaTensor, AlphaDev, FunSearch и т.п. всё больше “интеллекта” выносится на сторону LLM.

С FunSearch есть отдельное сравнение в таблице, если кратко, то три ключевых момента. FunSearch работал на уровне одной питоновской функции, здесь работа на уровне всей кодовой базы, сколько имеется, и не обязательно на питоне. У FunSearch была одна objective function, здесь же многокритериальная оптимизация. Наконец, внутри FunSearch были довольно маленькие LLM, обученные на коде, а здесь одна из лучших фронтирных моделей.

Итак, применили AlphaEvolve к различным задачам.

Например, поиск декомпозиции тензора для нахождения способа перемножения матриц, та же самая задача, которую решал узкоспециализированный AlphaTensor, подробнее про саму задачу рекомендую прочитать в оригинальном посте. Стартовали со стандартного градиентного алгоритма, включающего инициализатор, лосс функцию для реконструкции тензора, и оптимизатор Adam. С этой стартовой точки AlphaEvolve вывел новый алгоритм и улучшил SoTA результаты для матричных умножений 14 разных размеров ⟨𝑚, 𝑛, 𝑝⟩. Интересно, что в таблице заявлено улучшение для размера ⟨4, 4, 4⟩, где получили 48 скалярных умножений вместо 49. AlphaTensor правда получал 47, но там была модульная арифметика, а здесь это число для комплексной.

Другое направление включало 50 математических задач из анализа, комбинаторики, теории чисел и геометрии, где надо было находить объекты или делать построения с определёнными свойствами, оптимальными или около-оптимальными по некоторой мере. В 75% случаев AlphaEvolve переоткрыл известное лучшее решение, в 20% улучшил его. Во всех случаях стартовали со случайного или простого решения. По сравнению с классическими подходами AlphaEvolve более универсален и не требует какого-то особого затачивания на конкретную задачу, он сам способен обнаружить эффективные паттерны для поиска решения, что открывает дорогу к широкомасштабному исследованию разных задач. Здесь мы имеем сильно улучшенный FunSearch.

Главная методологическая инновация здесь -- это способность выводить (в смысле эволюционировать) эвристические алгоритмы поиска, вместо того чтобы сразу выводить сами построения. В частности использовалась стратегия итеративного улучшения, когда на каждом шаге алгоритму давали лучшее решение предыдущего шага и фиксированный бюджет (1000 секунд), и модель должна была найти более хорошее построение. Так отбирались эвристики, способные улучшать уже найденные хорошие решения, и финальное построение являлось результатом цепочки различных специализированных эвристик -- ранние специализировались на улучшении простых или случайных начальных состояний, поздние на файнтюнинге околооптимальных решений.

Найденные математические результаты и результаты тензорных декомпозиций собраны в колабе.

Применили AlphaEvolve и к инфраструктурным задачам Гугла -- шедулингу задач на кластере, управляемом Borg. Там надо было раскидывать задачи по машинам с учётом доступности и требований по CPU/memory. Функция должна была выдавать priority score для каждой машины под текущую задачу. AlphaEvolve нашёл эвристику, улучшившую текущую эвристику Гугла в продакшне, что привело к экономии 0.7% ресурсов. В отличие от результатов DRL это ещё и проще и понятнее.

Пераслаў з:

16.05.202520:43

[DeepMind] AlphaEvolve: A coding agent for scientific and algorithmic discovery
Alexander Novikov, Ngân Vu, Marvin Eisenberger, Emilien Dupont, Po-Sen Huang, Adam Zsolt Wagner, Sergey Shirobokov, Borislav Kozlovskii, Francisco J. R. Ruiz, Abbas Mehrabian, M. Pawan Kumar, Abigail See, Swarat Chaudhuri, George Holland, Alex Davies, Sebastian Nowozin, Pushmeet Kohli and Matej Balog
Статья
Пост

AlphaEvolve -- это coding agent агент, оркестрирующий пайплайн с вызовами LLM и выдающий алгоритм, решающий заданную пользователем задачу. Внутри процедуры оркестрации работает эволюционный алгоритм, постепенно создающий программы, улучшающие скор на автоматических метриках для заданной задачи.

Пользователь должен предоставить механизм автоматической оценки генерируемых решений -- это Python функция evaluate(), мапящая решение в набор скалярных метрик для оценки, которые надо максимизировать. Она может быть как простой и лёгкой, отрабатывающей за доли секунды, так и очень тяжёлой, включающей, например, распределённое обучение сети. Соответственно, задачи требующие ручного экспериментирования, остаются здесь за бортом, текущая версия работает для того, что может быть автоматически оценено.

AlphaEvolve предоставляет API, куда можно отправить код, где часть требующая улучшения помечена комментариями # EVOLVE-BLOCK-START и # EVOLVE-BLOCK-END. Где-то там же в коде находится и функция evaluate(), как и всё остальное, необходимое для связывания всех частей программы воедино.

Эволюционируемая программа не обязана быть финальным результатом, она может быть средством его достижения. Например, найденное решение может быть просто строкой (как часто бывает в эволюционных алгоритмах); функцией определённого вида, определяющей как должно быть создано решение; уникальным поисковым алгоритмом, могущим найти решение при заданном ограниченном бюджете; или ещё чем-то более сложным. Специфика задачи может влиять на выбор подхода, например, для проблем с очень симметричными решениями авторы советуют выводить функции-конструкторы, они получаются более краткими.

Внутри AlphaEvolve и его эволюционного цикла работают несколько компонентов.

Prompt sampler отвечает за шаблоны промптов, включая системные инструкции, а также вставляет в промпт предыдущие найденные решения, засэмпленные из базы программ. Здесь можно многое произвольно расширять: добавлять явные инструкции от пользователя, стохастическое форматирование с заданными извне распределениями, рендеринг результатов оценки, эволюционировать мета-промпт.

Ансамбль LLM, в статье комбинация Gemini 2.0 Flash и Gemini 2.0 Pro, используется для креативной генерации. Такой микс даёт возможность быстрой генерации множества гипотез через Flash и более качественные рекомендации от более медленной Pro. В целом система model-agnostic, можно использовать разное. LLM просят генерить изменения в коде в виде серии диффов, какой блок кода заменять на какой. Но можно и просить заменять код целиком, если так удобнее.

Evaluation содержит в себе набор оценщиков. В простом случае надо вызывать переданную пользователем функцию evaluate(). В реальности есть также различные опциональные добавки: каскады от более простых примеров к более сложным; фибдек от LLM, когда проще описать желаемые свойства решения, нежели оценивать; параллелизация оценки. Может считаться сразу множество метрик (функция evaluate() может возвращать несколько) и авторы утверждают, что даже если важна только единственная метрика, оптимизация по множеству метрик даёт лучше результат. Что мне немного удивительно, потому что в многокритриальной оптимизации вроде как не всё так просто, и редко когда получается увеличивать сразе все метрики, или хотя бы не ухудшать остальные при увеличении одной.

База программ или evolutionary database, хранящая найденные решения и оценки их качества. Здесь важно балансировать exploration и exploitation, так что база реализует алгоритм вдохновлённый комбинацией MAP elites и island-based population models.

16.05.202516:05

Еду на ACL 2025 с внезапно аж 2 статьями по работе. В обеих я не первый автор (но и не последний). Одна на основной части, одна на индустриальном треке. Как будут тексты в открытом доступе, подробно про них расскажу. Если коротко:
- Первая статья про семантический поиск по отелям от нашего PhD стажёра. В ней мы строим поисковую модель, которая умеет использовать информацию сразу из фоток/рецензий/описания, и у которой хитрый мультизадачный лосс с self-supervised компонентами. В итоге получается эмбеддинг, в котором лежит вся информация об отеле, а также маленькая моделька, которая умеет отображать поисковые запросы в то же пространство, где лежат эмбеддинги отелей.
- Вторая статья (на индустриальном треке) про совмещение Медузы и SeqKD (дистилляции) в применении к нескольким существующим задачам Букинга. Это совместная работа с очень толковыми ребятами из Амазона.

12.05.202509:07

Например, документация к боту Сайги: https://deepwiki.com/IlyaGusev/saiga_bot

Пераслаў з:

Daniilak — Канал

12.05.202509:06

DeepWiki — нейросетевой инструмент, который генерирует подробную документацию на основе GitHub-репозиториев. Для доступа достаточно заменить github.com в адресной строке на deepwiki.com

#сервисы@daniilak

09.05.202511:54

τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
Статья: ссылка
Код: ссылка

Вообще-то Тау-бенч — штука известная. Каким-то странным стечением обстоятельств он прошёл мимо меня, хоть и пару раз мелькал в инфополе. На днях коллега рассказал про этот бенч на кружке чтения статей, и наконец-то моё внимание сфокусировалось на нём 😳

К тому же, от первого автора недавно был популярный пост: The Second Half.

Если коротко — это ПингПонг для агентов, динамический многоходовый бенчмарк. То есть есть разыгрывается какая-то разговорная ситуация, в которой реплики пользователя симулирует языковая модель. Только в ПингПонге ситуации крутятся вокруг отыгрывания разных персонажей, а тут — вокруг агентов и серьёзных корпоративных систем в области розничной торговли (ритейла) и бронирования перелётов

Доступные агентам инструменты включают в себя API для релевантных баз данных. Каждая из предметных областей описывается промптом, в котором объясняется устройство базы данных, как надо надо общаться с пользователями, и какие есть ограничения при взаимодействии с ними.

Пользователи симулируются через системный промт с описанием личности и сценария. При симуляции возможно два типа действий: написать что-то в чат или закончить переписку специальным сообщением "###STOP###". Естественно, симуляция не должна ничего знать о промпте агента или политиках предметной области, то есть не должна подглядывать в промпт агента.

Каждый сценарий предполагает только один правильный исход на базе описания предметной области, которое подаётся агенту, то есть для каждого сценария есть своя эталонная транзакция. Наример, отмена бронирования, оформление возврата посылки, замена товара, и так далее. Чаще всего это какая-то запись в базу данных. Соответственно, переписка считается "успешной" тогда, когда эталонная транзакция была совершена, и об этом корректно сообщили пользователю. При этом в качестве метрики предлагается не стандартный pass@K (=среди K испытаний существует хотя бы одно успешное), а pass^K (=среди K испытаний любое было успешным). Это позволяет оценивать ещё и стабильность моделей и политик.

Сами базы данных с разными продуктами и заказами, а также пользователей и их ситуации авторы делали в полуручном режиме, местами используя gpt-4 для генерации синты.

На полученных данных сравнивали разные модели (сейчас уже все из них древние) и разные парадигмы (function-calling > ReAct > Act). Сами числа уже не очень релевантны, но вот подход до сих пор классный. Единственная серьёзная проблема — это сбор данных: создание базы, написание профилей и сценариев. Но, как несложно догадаться, это тоже можно автоматизировать.

Пераслаў з:

Борис опять

07.05.202513:47

AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.

Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.

В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.

В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.

Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.

Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.

- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)

07.05.202509:13

Открытая версия Suno (генератора музыки и песен): https://ace-step.github.io/
Модель: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Код: https://github.com/ace-step/ACE-Step

Поддерживает русский до какой-то степени, на сайте есть пример на нём. По качеству как ранние версии Suno, в принципе довольно хорошо, но косяки всё равно слышны, особенно в вокале.

04.05.202508:48

А теперь снова развлекательная часть: в интернете опять кто-то не прав 🍿
Осуждаемый пост: We Have Made No Progress Toward AGI

Если упростить, вся статья сводится к 2 утверждениям. Утверждения аналогичны вот этому посту: (Maybe) A Bag of Heuristics is All There Is & A Bag of Heuristics is All You Need, только позиция по ним несколько другая 😳

🔹Утверждение 1: языковые модели — это только мешок эвристик
Цитаты:
> These models are nothing more than statistical models. They can’t determine what is right and what is wrong. They can only heuristically determine what is probably right and what is probably wrong.
> Emergent model behavior is simply patterns. You build bigger models that can find more patterns and you get more patterns. It is patterns all the way down.

Перефразируя, в языковых моделях нет ничего, кроме статистических шаблонов. Посты про механистическую интерпретацию как будто бы это подтверждают: в них в моделях находятся именно эвристики и шаблоны. Для сложения, например, нашлась своя эвристическая схема.

Какова же реальная ситуация? Мы знаем, что статистические шаблоны в языковых моделях есть, но есть ли что-то ещё? Предположим, мешок эвристик на самом деле является параллельным алгоритмом сложения (пример из этого комментария). Смогли бы мы это понять с текущими инструментами интерпретации? А ведь разные алгоритмы даже вполне находятся: раз, два, три.

В целом, конструктивные вопросы звучали бы так: какие алгоритмы представимы и выучиваемы на базе трансформеров? Какие из них выучиваются языковыми моделями? Автор же говорит: только шаблоны, только эвристики 🤦‍♂️

🔹Утверждение 2: мешок эвристик — это не интеллект
Цитаты:
> A statistical model can not perform the full set of capabilities as intelligence and for the ones where there appears to be overlap, it is seemingly so at the cost of extraordinary inefficiency and unreliability.
> LLMs are statistical models that can arrive at the correct answers, but by means that look nothing like intelligent reasoning and therefore this meaningful difference in process has significant implications for what LLMs will ultimately be capable of achieving.
> Therefore, they (language models) are incapable of constructing hard rules of the world by reasoning.

Перефразируя, языковые модели работают неправильно. Хоть они и достигают целей, но делают это способами, непохожими на нормальные разумные рассуждения. Вот если бы они приводили логичные человекочитаемые рассуждения, тогда было бы другое дело! Но вот сейчас они галлюцинируют, и будут галлюцинировать, и текстовые рассуждения не соответствуют реальным процессам внутри модели.

С моей точки зрения тут в полный рост и проявляется антропоцентричность, и на протяжении всей статьи мы не раз ещё это увидим 👎
> On the quest for human-like reasoning machines
> Human reasoning is something far more sophisticated than a statistical model
Доведенное до конца рассуждение звучит так: если ты не человек, ты не разумен.

Означают ли плохие вербальные рассуждения отсутствие интеллекта? Если бы это было правдой, то можно было бы говорить, что все животные в принципе не обладают интеллектом. Рассуждения людей тоже могут быть неправильными или не соответствовать действиям.

Если отбросить эти компоненты, то останется неприятие статистических паттернов. Почему статистические паттерны — это не интеллект? А чёрт его знает. Хорошо бы определить, что такое интеллект. Автор, естественно, не соизволил этого сделать.

🔹Остальное
Автор предлагает избавиться от всех бенчмарков и вводит 2 новых сигнала интеллекта: эффективность и отсутствие коллапса при обучении в цикле на сгенерированных данных. И если эффективность — ок, то второй сигнал абсурден, потому что даже люди так не умеют.

Что касается определения интеллекта, мне нравится RL определение:
Интеллект — это способность агента достигать целей в широком спектре окружающих сред
По нему что эвристики, что рассуждения — не важно, лишь бы работало и обобщалось.

И личное: использование мема из Звёздного Пути считаю особенно греховным, учитывая репрезентацию синтетиков в сериалах.

03.05.202521:02

Circuit Tracing: Revealing Computational Graphs in Language Models
Статья: ссылка

Часть 2

🔹Графы атрибуции (те самые схемы из нулевого поста)
В прошлой части мы остановились на локальных заменяющих моделях, в которых шаблоны внимания зафиксированы, добавлены корректирующие константы, и единственная нелинейность есть только в самих CLT. На эту модель можно смотреть как на большую полносвязную сетку.

Из этой полносвязной сетки делается граф атрибуции. Вершины графа: входные и выходные токены, включенные признаки транскодера (не-нули в разреженном векторе), константы ошибок реконструкции. Веса на рёбрах графа определяются как произведение входных активаций и "виртуальных" весов и отражают степень влияния одних вершин на другие. Однако, так размер графа получается слишком большим, даже учитывая высокую степень разреженности активаций CLT.

Поэтому после этого в этом графе удаляются вершины и рёбра, которые не влияют на выходные токены. Количество вершин уменьшается на порядок, но объясняющая сила падает не очень сильно. Итоговый граф отражает то, как информация движется между вершинами.

🔹Интерпретация признаков
Граф-то мы построили, но что означают вершины мы пока не знаем. Для этого для каждого признака мы собираем набор примеров из какого-нибудь корпуса, на которых этот признак активируется (с указанием конкретного токена), а также статистику по предсказаниям токенов после активации этого признака.

Входные признаки обычно можно интерпретировать на основе токенов промпта. Например, есть признак, который активируется на всём, что связано с цифрой 6. Выходные признаки — на основе предсказанных логитов и тех токенов, которые они заставляют генерировать. Например, есть выходной признак, который продвигает генерацию названий разных видов спорта: футбола, крикета, лякросса.

С признаками промежуточных слоёв сложнее. В их случае надо смотреть на всё-всё, в том числе на признаки с предыдущих слоёв. Например, есть промежуточный признак, который активируется на 3 букве любого акронима в скобках. Иногда разные признаки делают одно и то же, и в таком случае они объединяются авторами в "сверхвершины".

🔹Патчинг
Граф атрибуций позволяет рассуждать о том, как признаки связаны друг с другом и как они влияют на выход модели. Подобные рассуждения можно проверять различными вмешательствами в оригинальную модель, напрямую умножая активации или переставляя их в разреженных векторах внутри CLT и складывая их с выходами оригинальных MLP.

Из-за межслойности CLT по-хорошему это надо делать во всех слоях, которые выше заданного. Авторы так не делают, и применяют вмешательства только на ограниченных диапазонах слоёв.

🔹Оценка качества
Что именно авторы оценивают:
- Замену MLP на CLT: считаем долю верных предсказаний, ошибку реконструкции, разреженность и интерпретируемость через анализ примеров языковой моделькой.
- Графы атрибуции: считаем среднюю длину путей, долю входящих рёбер из "хороших" вершин (а не из вершин констант реконструкции), долю путей через "хорошие" вершины.
- Механистическую верность: убираем или добавляем признаки и считаем эффект на выходы модели. Если реконструированные эффекты совпадают с реальными — наша реконструкция модели хороша.

🔹Заключение
Там ещё осталась секции про глобальные веса и ограничения подхода (только OV-контур без QK, "тёмная материя", фокус на включенных фичах, размер графов), но по-моему они не так принципиальны для понимания 😡

Что нам даёт эта статья с практической точки зрения?
- Эта статья сильно продвигает SAE-подобные подходы в противовес результатам DeepMind.
- Это описание фреймворка, с которым было получено большинство результатов из нулевого поста. Хоть результаты оттуда и не особо новые, но до этого они собирались совершенно разными подходами, а тут всё сделано единым методом. Это даёт надежду, что этим же методом можно получить и новые результаты.
- Хоть код и веса не выложены (только код визуализации), этот фреймворк выглядит принципиально воспроизводимым. А значит в какой-то момент у нас появится прикольный инструмент для картирования языковых моделей 🍫

30.04.202511:05

Circuit Tracing: Revealing Computational Graphs in Language Models
Статья: ссылка

Часть 1

Первая из набора антропиковских статей. Она безумно большая сама по себе 😳, кроме того содержит интерактивные визуализации.
В этом посте покрыто два перехода: SAE -> CLT -> локальная заменяющая модель.
Теоретические предпосылки SAE (гипотеза суперпозиции) опустим.

🔹SAE

SAE (sparse autoencoders, разреженные автокодировщики) — довольно популярная техника механистической интерпретации. Мы берём активации модели (например, выход MLP). Эти активации мы хотим отобразить в разреженный вектор высокой размерности. Для этого мы учим двухслойную нелинейную сетку с одним промежуточным вектором с размерностью выше оригинальных активаций. Реконструируем активации с MSE лоссом. Разреженность можно обеспечить по-разному, например через L1 штраф (как в Lasso) или через TopK, то есть прямой отбор k наибольших значений. Или через JumpReLU.

Для больших моделей учить SAE сложно и долго, поэтому есть уже обученные наборы, такие как Gemma Scope. Есть и Нейронпедия, платформа для визуализации разных наборов SAE. Там можно подставить свой текст и посмотреть, какие фичи на каких токенах активировались для разных моделей и разных наборов.

Исследования SAE-подобных инструментов долгое время были мейнстримом механистической интерпретации. Однако, недавно DeepMind снизил приоритет вокруг них. Они попытались применить SAE для чего-то реально полезного, но оказалось, что простые линейные зонды справляются лучше. Кроме того, есть и другие работы, которые показывают серьёзные ограничения SAE. Это не означает, что DeepMind полностью откажется от SAE, но теперь они гораздо более скептично к ним настроены.

🔹CLT

Транскодеры — это SAE-подобный инструмент, только в качестве входа выступают входные активации MLP, а в качестве выхода — выходные. То есть мы полностью заменяем MLP на разреженную версию. Это позволяет нам создавать альтернативные версии модели, в которых какие-то фичи изменены. Антропики же используют не просто отдельные послойные транскодеры, но межслойные транскодеры (cross-layer transcoders, CLT). Это означает, что при реконструкции выходных активаций на слое L используются все разреженные векторы с более нижних слоёв.

Так вот, они как-то обучают эти самые CLT и при замене оригинальных MLP на разреженные аналоги проверяют, насколько сильно ломается модель. Для 18-слойной модели самые жирные их CLT дают тот же топ-1 токен в ~50% случаев. Ещё раз, полученная таким образом заменяющая модель — это аппроксимация оригинальной модели, что несколько обесценивает любые результаты, полученные через её анализ 😫

🔹Локальная заменяющая модель

Поэтому эту модель "исправляют" через добавление "тёмной материи" (термин из статьи, это не я придумал) — констант ошибок реконструкции для заданного промпта. Так вводится понятие локальной заменяющей модели, в которой для заданного промпта все ошибки реконструкции исправляются добавлением констант, а все паттерны внимания заморожены (=веса внимания не вычисляются, а зафиксированы для каждого слоя и токена). Таким образом, для этого конкретного промпта локальная заменяющая модель ведёт себя в точности как оригинал. При этом получившаяся модель — это практически линейная полносвязная сетка (с вычисляемыми "виртуальными" весами), где единственные нелинейности есть внутри CLT. Это позволяет производить принципиальную атрибуцию фичей.

Но даже при идеальном воспроизведении активаций и выходов для заданного промпта, локальная заменяющая модель может использовать механизмы, отличные от исходной модели. Степень сходства механизмов называется авторами "механистической верностью" (mechanistic faithfulness), и измеряют её через пертурбационные эксперименты.

🔹Промежуточный вывод

CLT действительно выглядят прикольнее стандартных SAE. Но вот насколько можно верить объяснениям, полученным таким образом — вопрос открытый. Да, ребята пытаются это численно оценить, но где граница, на которой можно сказать "да, верим"? 🤨

28.04.202522:22

Qwen3-14B доступен в боте (@saiga_igusev_bot). Выставляется через /setmodel. Прикольно, что оно позволяет в промпте отключать размышления.

28.04.202510:33

О новых статьях про механистическую интерпретируемость от Anthropic

- Короткий обзорный пост: Tracing the thoughts of a large language model
- Первая основная статья: Circuit Tracing: Revealing Computational Graphs in Language Models
- Вторая основная статья: On the Biology of a Large Language Model
- Пессимистичный пост (не от Антропиков) по мотивам второй статьи, с которым я жёстко не согласен: We Have Made No Progress Toward AGI

🍿 Начнём с развлекательной части — с выводов, полученных через механистическую интерпретацию. Эксперименты проводились на основе Claude 3.5 Haiku. Об обобщении на все-все языковые модели говорить не приходится, но, к счастью, у большинства выводов есть и внешние подтверждения.

🔹В многоязычных языковых моделях существует общее пространство концептов для всех языков. Это проверяли, спрашивая антоним к слову "маленький" и проверяя, активировался ли один и тот же набор схем.
См. также:
- ACL 2024 день 2
- Do Llamas Work in English? On the Latent Language of Multilingual Transformers
- Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages

🔹При сочинении стихов модель планирует наперёд, на какое слово должна закончиться следующая строка для сохранения рифмы. И потом раскручивает строку назад. Это проверили, найдя концепт, отвечающий за запланированное слово, и заменяя его на другие слова.
См. также:
- Как научить свою нейросеть генерировать стихи (справа налево)
- Physics of Language Models, part 2.1 (результат 5)

🔹При сложении двузначных чисел модель использует мешок эвристик. В стиле ("складываем что-то около 36 к чему-то около 60" => "сумма близка к 92"). Тут, мне кажется, это вопрос обучения. Трансформеры точно могут выучить нормальную схему для сложения, что показывалось неоднократно (см. "сложение в трансформерах" ниже). Это не означает, что языковые модели всегда её выучивают, но они пытаются (см. "сложение в LLM" ниже).
См. также:
- OthelloGPT learned a bag of heuristics (мешок эвристик)
- A Mechanistic Interpretability Analysis of Grokking (сложение в трансформерах)
- Language Models Use Trigonometry to Do Addition (сложение в LLM)

🔹В CoT модель галлюцинирует объяснения, например в случае того же сложения. То есть объяснение модели никак не связано с её настоящим мыслительным процессом.
См. также:
- Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning
- Think before you speak: Training Language Models With Pause Tokens

🔹В рассуждениях, которые требуют несколько шагов, можно отловить промежуточные концепты. Например, есть вопрос “Какой город является столицей региона, в котором находится Нижнекамск?”. Для этого модели нужно 2 факта: “Нижнекамск в Татарстане" и "Казань — столица Татарстана". И действительно, показывается, что оба этих факта используются, чтобы получить правильный финальный ответ.
См. также:
- Testing which LLM architectures can do hidden serial reasoning

🔹В моделях есть схема, которая отвечает за отказы, и она включена по умолчанию. Но если модель спрашивают что-то, о чём она знает, включается конкурирующая схема "знакомых сущностей", которая побеждает схему отказов. Иногда включение схемы "знакомых сущностей" происходит не вовремя, и тогда получаются галлюцинации. Влияя на любую из этих схем, можно заставить модель производить галлюцинации.
См. также:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
- Uncensor any LLM with abliteration

🔹Почему работают джейлбрейки? Есть схемы, отвечающие за безопасность, и есть схемы, отвечающие за собственно составление текста. В случаях джейлбрейков они конфликтуют друг с другом, и если вторые побеждают, то модель выдаёт небезопасные выходы.
См. также:
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep

Узнали ли мы что-то новое? Авторы думают, что да. Для них факт про стихи был удивительным. Я скорее склоняюсь к "нет", но прикольно, что все эти утверждения собрали в одном месте. Следующие посты будут про собственно сам метод интерпретации и про критику пессимистичного поста ⚰️

26.04.202516:02

https://senioraugur.substack.com/p/how-i-taught-ai-to-make-memes

Мини-заметка про мемогенератор на английском по мотивам этого поста.
Там же перевыложил древний пост о новостном агрегаторе для контеста Телеграма.

25.04.202521:59

Пару слов о нескончаемой борьбе художников/писателей с открытыми датасетами (по мотивам AO3 войны, реддит).

И если fair use и конкретные юридические штуки можно толковать по-разному, то вот насчёт целесообразности такой борьбы всё по-моему очевидно.

Товарищи, уничтожая открытые датасеты вы только играете на руку корпорациям. Корпорации уже давно всё спарсили и обучили модели на публичном контенте. Им плевать на ToS, DMCA, ГК, копирайт и справедливость. Корпоративные модели УЖЕ ОБУЧИЛИСЬ на всём, что было опубликовано до начала 2025 года. Корпорации продают вам модели, обученные на ваших же данных. Нет способа это запретить или остановить, это уже произошло. Нет способа даже определить, действительно ли конкретно ваша работа была использована (хотя есть пара прикольных статей на эту тему).

Открытые датасеты — единственный способ как-то сравняться с корпорациями, получить бесплатные открытые модели над которыми у вас будет полный контроль. Не убивайте их, пожалуйста.

Усе пасты

Рэкламаваўся0 секунда

07.05.202509:16Pavel Zloi

1.4K

Тэхналогіі

Рэкламаваўся0 секунда

27.04.202513:36Neural Shit

47.6K

Тэхналогіі

Рэкорды

20.05.202523:59

5.6KПадпісчыкаў

20.02.202523:59

100Індэкс цытавання

01.11.202423:59

16KАхоп 1 паста

30.11.202423:59

16KАхоп рэкламнага паста

03.05.202512:17

13.16%ER

01.11.202423:59

392.52%ERR

Развіццё

Падпісчыкаў

Індэкс цытавання

Ахоп 1 паста

Ахоп рэкламнага паста

ERR

Папулярныя публікацыі Старший Авгур

Усе пасты

Пераслаў з:

Daniilak — Канал

12.05.202509:06

28.04.202510:33

16.05.202516:05

07.05.202509:13

Пераслаў з:

Борис опять

07.05.202513:47

25.04.202521:59

22.04.202512:53

Продолжая тему дообучения Геммы 3 (которая на самом деле Джемма, но раз уж начал...)

Первые SFT и SMPO черновики готовы, но получилось хуже оригинальной модели, так что они в любом случае отправляются в мусорку. Оригинальная модель при этом генерирует ответы в среднем в 2.5 раза длиннее gpt-4o (см. скриншот), что заставляет меня использовать контроль длины в арене.

Из интересного — unsloth принудительно и без предупреждения выбирает SDPA вместо FA2. См. код тут. Отсюда все проблемы с повышенным потреблением памяти и OOM. Зачем они это сделали — загадка.

Сейчас я раскомментировал FA2 и учу SFT версию с 32к контекстом, потом переучу и SMPO.

30.04.202511:05

Пераслаў з:

16.05.202520:43

09.05.202511:54

Пераслаў з: