Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Қарау

Николаевский Ванёк

Қарау

Мир сегодня с "Юрий Подоляка"

Қарау

Труха⚡️Україна

Қарау

Николаевский Ванёк

Қарау

BRAIn Lab: Optimization and Beyond

Канал лабораторий фундаментальных исследований ИИ в МФТИ и ИСП РАН о передовых научных результатах
В фокусе:
— оптимизация в ML
— федеративное и распределенное обучение
— теория выпуклой и стохастической оптимизации
— приватность и доверенное обучение

TGlist рейтингі

ТүріҚоғамдық

Растау

Расталмаған

Сенімділік

Сенімсіз

Орналасқан жері

ТілБасқа

Канал құрылған күніFeb 21, 2025

TGlist-ке қосылған күні

Apr 14, 2025

Мен каналдың иесімін

Өзгерістер тарихы

Қосылған топ

BRAIn Lab: Optimization and Beyond Chat

Telegram арнасы BRAIn Lab: Optimization and Beyond статистикасы

Толығырақ

Жазылушылар

337

24 сағат00%Апта

309.9%Ай

6624.4%

Дәйексөз индексі

0

Ескертулер0Каналдарда қайта жазылу0Каналдарда ескерту0

1 жазбаның орташа қамтуы

0

12 сағат1620%24 сағат00%48 сағат5 9820%

Қатысу деңгейі (ER)

0%

Қайта жазылды0Пікірлер0Реакциялар0

Қамту бойынша қатысу деңгейі (ERR)

0%

24 сағат0%Апта0%Ай0%

1 жарнамалық жазбаның қамтуы

0

1 сағат00%1 – 4 сағат00%4 - 24 сағат00%

Толығырақ

Каналға біздің ботымызды қосып, осы каналдың аудиториясын біліңіз.

24 сағаттағы жазбалар саны

0

Динамика

"BRAIn Lab: Optimization and Beyond" тобындағы соңғы жазбалар

Барлық жазбалар

16.04.202512:50

Можно ли обучить языковую модель, используя signSGD?
Оказывается, да — но с небольшой оговоркой.

Сегодня расскажем о совместной с MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, ОАЭ) статье FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training (Ф. Змушко, А. Безносиков, М. Такач, С. Хорват)

[статья]

Введение

Современные языковые модели показывают невероятные результаты в самых разных задачах. Но этот прогресс достигается за счёт роста размера моделей, что приводит к резкому увеличению требований к памяти.

Например, для обучения модели на 8B параметров с использованием стандартного AdamW, нужно хранить:

- веса: 8B
- градиенты: 8B
- статистики оптимизатора: 8B для m (моментум) и 8B для v (предобработчик)

Итого: (8 + 8 + 8 + 😍 × 4 байта = 128 GB (в формате float32)
А это значительно больше, чем доступные 80 GB на A100/H100 — и это ещё без учёта активаций!

Поэтому возникает естественное желание — сократить память, особенно на хранение статистик оптимизатора. Именно этого мы и пытается добиться через FRUGAL.

Предыдущие подходы

Наиболее популярные методы — это PEFT-подходы (например, LoRA), которые добавляют к матрице весов линейного слоя обучаемые низкоранговые матрицы: W + AB

Но:
- это работает только для fine-tuning'а (и то не всегда)
- совершенно не годится для обучения с нуля

ReLoRA решает это, вмердживая произведение Aᵢ ⋅ Bᵢ в W раз в T шагов и инициализируя новые Aᵢ₊₁, Bᵢ₊₁.

GaLore идёт дальше: она факторизует градиент G, а не веса W, и обновление идёт через proj(G).

FRUGAL — гибрид с экономией памяти

Хотя итоговое изменение весов в ReLoRA и GaLore — высокоранговое, каждое отдельное обновление — низкоранговое.
Это кажется расточительным, ведь используется лишь часть информации из градиента G.

В работе мы предлагаем через FRUGAL не выбрасывать остаток `G - proj(G),` а использовать его для обновлений.
Но так как цель — экономия памяти, эти обновления должны быть state-free, например signSGD или SGD.

Итоговый гибридный подход представлен в Алгоритме 1 (см. в комментариях):

1. На каждом шаге градиент G разбивается на две части: G = proj(G) + (G - proj(G))
2. proj(G) — используется для state-full обновления (например, AdamW)
3. G - proj(G) — идёт на state-free обновление (например, signSGD)

Менять можно:
- оптимизаторы для обеих частей
- тип проекции: RandK, поблочная проекция и др.

Смотри продолжение (эксперименты и выводы) в комментариях ⬇️

14.04.202510:12

Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

08.04.202517:19

Семинар: Состязательная устойчивость методов обработки и сжатия видео

🗓 Когда: Четверг, 10 апреля, 18:35
🎙 Докладчик: Анастасия Анциферова — к.ф.-м.н., старший научный сотрудник Института ИИ МГУ, научный сотрудник ИСП РАН

О чём пойдёт речь?
Современные методы обработки видео сталкиваются с двумя серьёзными вызовами:
1. Уязвимость к состязательным атакам — даже едва заметные искажения могут полностью сбить работу нейросетевых моделей.
2. Нагрузки на сетевую инфраструктуру — классические облачные решения не справляются с требованиями по задержкам и объёму передаваемых данных.

На семинаре обсудим:
🔵 Как устроены состязательные атаки на видео и какие есть методы защиты
🔵 Какие прикладные задачи стоят перед индустрией и наукой
🔵 Как можно применять федеративное обучение для оптимизации потоковой передачи видео

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

31.03.202517:05

Семинар: Гомогенность локальных данных в распределённом и федеративном обучении

🗓 Когда: Четверг, 3 апреля, 18:35
🎙 Докладчик: Дмитрий Былинкин — студент 5 курса ФПМИ, сотрудник лабораторий BRAIn и Федеративного обучения ИСП РАН

О чем поговорим?
Гомогенность (похожесть) локальных данных — ключевой фактор, влияющий на эффективность распределённого и федеративного обучения. Она позволяет сокращать коммуникационные затраты и ускорять обучение моделей, что особенно важно в сценариях, где данные распределены между устройствами, а их передача ограничена.

На семинаре обсудим:
🔵 Как стохастические методы учитывают гомогенность локальных данных в распределённом обучении
🔵 Как можно комбинировать подходы для оптимизации передачи данных
🔵 Новые результаты лаборатории: применение метода к вариационным неравенствам
🔵 Какие проблемы возникают при анализе федеративного обучения и как их решать
🔵 Перспективы развития: гомогенность как основа для персонализированного федеративного обучения

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

28.03.202512:06

Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫

Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed
(С. Чежегов, Я. Клюкин, А. Семенов, А. Безносиков, А. Гасников, С. Хорват, М. Такач, Э. Горбунов)

[статья]

Введение

Как мы уже рассказывали в посте от 21 марта про Sign-SGD, Sign-SGD позволяет в каком-то виде бороться с шумами с тяжелыми хвостами. Этот вопрос действительно имеет место быть в силу этой работы — показано, что нормы стохастических градиентов при дообучении модели BERT имеют тяжелые хвосты (не стоит пугаться — более формальное определение будет дано позже). Возникает естественный вопрос: как можно еще бороться с этим эффектом? Ведь при обучении или дообучении модели хочется, чтобы метод оптимизации был робастным, то есть устойчивым к различным видам шумов, и, помимо этого, хочется иметь вариативность в выборе метода оптимизации.

Считается, что для борьбы с распределениями с тяжелыми хвостами хорошим инструментом являются адаптивные схемы, в которых используется нормировка стохастического градиента. К таким схемам можно отнести AdaGrad, RMSProp, Adam и другие. Однако, как ни странно, несмотря на высокую эффективность этих методов, они не справляются с тяжелой стохастикой. Почему так происходит? Об этом мы расскажем далее.

Формализация

Для полноты картины введем несколько формальных определений.

Обозначим стохастический градиент как
∇f(w^k, ξ^k),
где w^k — веса модели на итерации k, а ξ^k — стохастика.

Клиппированный, или же обрезанный, стохастический градиент определяется следующим образом:
min (1, λ / ||∇f(w^k, ξ^k)||) ∇f(w^k, ξ^k).
Эта структура позволяет сделать направление, используемое в апдейтах оптимайзера, ограниченным по норме.

Шум с тяжелыми хвостами можно формализовать как
E[||∇f(w, ξ) - ∇f(w) ||^α] <= σ^α,
где α принимает значения в диапазоне (1, 2]. Это означает, что даже существование дисперсии не гарантировано.

Правила обновления весов для адаптивных схем можно найти в самой статье.

Основная идея

Главный вывод работы можно сформулировать просто: клиппинг делает адаптивные методы устойчивыми к тяжелым шумам, тогда как без него они такой робастности не обеспечивают.

Что означает устойчивость к шуму? Если метод оптимизации сходится с высокой вероятностью, то количество итераций, необходимых для достижения заданной точности, должно зависеть от уровня уверенности логарифмическим образом.

Иными словами, если мы хотим, чтобы метод сходился с вероятностью 1 - δ, то число итераций должно зависеть только от log(1/δ).
Это интуитивно понятно: например, при δ = 10^{-6} разница между 1/δ и log(1/δ) составляет несколько порядков.

Исходя из этого, ключевые результаты работы можно разбить на три части:

1. Нижние оценки
2. Верхние оценки
3. Эксперименты

Смотри продолжение (нижние и верхние оценки, эксперименты и выводы) в комментариях ⬇️

25.03.202506:03

Семинар: Natural Gradient Descent — геометрия оптимизации и аппроксимации второго порядка

🗓 Когда: Четверг, 27 марта, 18:35
🎙 Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn

О чем поговорим?
Natural Gradient Descent (NGD) — это метод оптимизации, учитывающий геометрическую структуру пространства параметров. Он тесно связан с методами второго порядка, такими как метод Ньютона, но при этом не требует вычисления полного гессиана, что делает его более эффективным на практике. NGD помогает точнее находить оптимальные параметры модели, особенно в вероятностных подходах.

На семинаре обсудим:
🔵Как NGD аппроксимирует метод Ньютона и какие у него оценки сходимости
🔵Как точность аппроксимации градиента влияет на эффективность метода
🔵Применение NGD для обучения трансформера RoBERTa на датасете CoLA — что показывают эксперименты?

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂

21.03.202512:06

Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫

Sign Operator for Coping with Heavy-Tailed Noise: High Probability Convergence Bounds with Extensions to Distributed Optimization and Comparison Oracle (Н. Корнилов, Ф. Змушко, А. Семенов, А. Гасников, А. Безносиков)

[статья]

Введение

В современном мире нейронные сети стали основным инструментом для решения всевозможных задач, и тренд на их развитие только набирает обороты. Модели становятся все больше и сложнее, их обучение может занимать месяцы реального времени, а данные накапливаются с такой скоростью, что их качество неизбежно ухудшается.

Для алгоритмов оптимизации функций потерь этих моделей возникают следующие требования:

1) Устойчивость к сильно зашумленным данным. На рисунке в комментариях представлены нормы стохастических градиентов при дообучении языковой модели BERT, а также синтетическое распределение Леви с тяжелыми хвостами [1].

2) Гарантии достижения хорошей точности при каждом отдельном запуске.

3) Эффективность по памяти и времени работы. В больших моделях хранение даже одного дополнительного вектора параметров влияет на потребление памяти и скорость вычислений.

Клиппинг и нормализация

Далее мы будем обозначать параметры модели на итерации k через w^k, а стохастический градиент функции потерь f по батчу ξ^k — через ∇f(w^k, ξ^k).

Широко используемый в оптимизации нейронных сетей Stochastic Gradient Descent (SGD) вычисляет стохастический градиент функции и выполняет шаг в противоположном направлении, предварительно умножив его на величину шага aₖ:

w^(k+1) = w^k - aₖ ∇f(w^k, ξ^k)

Несмотря на популярность, эффективность и простоту, SGD не гарантирует быстрой сходимости с высокой вероятностью даже при небольших шумах. Поэтому к нему применяются различные модификации для повышения устойчивости и скорости сходимости.

Одна из самых успешных модификаций — градиентный клиппинг (ClippedSGD), в котором стохастический градиент сохраняет направление, но его норма обрезается так, чтобы не превышать заранее заданного значения λₖ, называемого уровнем клиппинга:

w^(k+1) = w^k - aₖ min (1, λₖ / ||∇f(w^k, ξ^k)||) ∇f(w^k, ξ^k).

ClippedSGD уже удовлетворяет всем вышеуказанным требованиям, однако и в теории, и на практике требует аккуратного подбора уровня клиппинга, размера батча и величины шага на каждой итерации.

Чтобы избежать подбора уровня клиппинга, можно не обрезать стохастический градиент, а просто нормировать его. Такой метод называется Normalized SGD (NSGD). В NSGD нужно настраивать только размер батча и величину шага, как и в SGD, но при этом NSGD гарантирует сходимость с высокой вероятностью даже при тяжелых шумах [2]. Кроме того, NSGD может сходиться при произвольных гиперпараметрах, а тонкая настройка помогает улучшить сходимость.

Смотри продолжение (знаковые методы и сравнительный оракул) в комментариях ⬇️

19.03.202509:18

Семинар: Как сделать Sign-SGD parameter-free и упростить обучение моделей

🗓 Когда: Четверг, 20 марта, 18:35
🎙 Докладчики: Даниил Медяков и Глеб Молодцов — сотрудники лаборатории BRAIn и лаборатории Федеративного обучения ИСП РАН

О чем поговорим?
Современные нейросетевые модели, такие как LLaMA и GPT, требуют огромных вычислительных ресурсов. Методы оптимизации, например Adam, усложняют ситуацию, занимая дополнительную память для хранения статистик. Sign-SGD предлагает более легковесное решение — он использует только знак градиента, снижая затраты на вычисления и ускоряя обучение. Однако проблема ручной настройки гиперпараметров остается.

На семинаре обсудим:
🔵Как Sign-SGD позволяет сократить потребление памяти и ускорить сходимость по сравнению с SGD и Adam
🔵Что такое parameter-free стратегии и как они избавляют от тонкой настройки шага обучения
🔵Как этот подход применялся для предобучения LLaMA и какие результаты удалось получить

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Ждём всех желающих на семинаре!

P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂

14.03.202512:02

Сегодня разберем статью из лаборатории проблем федеративного обучения ИСП РАН 👨‍💻

Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning (А. Семенов, Ф. Змушко, А. Пичугин, А. Безносиков)

[статья] [код]

Введение

Split Learning — стандартный подход к распределенному обучению больших моделей, при котором участники хранят лишь части модели из-за её значительного размера.

Нас интересует федеративная версия этого метода, а именно (Two-Party) Split Learning, где клиент владеет всеми признаками и объектами датасета, а сервер — только метками. Такая постановка возникает, если клиент обладает уникальными данными, но ограничен в вычислительных ресурсах.

На каждом шаге обучения клиент выполняет форвард своей части модели, отправляет активации последнего слоя (Cut Layer) и ждет, пока сервер завершит свой форвард, вычислит итоговый лосс и передаст клиенту градиент по активациям.

Даже в такой простой схеме возникают вопросы о приватности данных, модели и меток. Наша статья посвящена защите приватности данных, а именно методам противодействия атакам на восстановление исходных признаков (feature reconstruction attacks), когда злоумышленник пытается реконструировать входные данные клиента по передаваемым активациям.

Мы рассматриваем особенно сложный сценарий, где атакующая сторона (сервер) обладает следующими преимуществами:
(i) знает архитектуру модели клиента;
(ii) знает архитектуру и имеет имеет некий prior на данные (например, знает домен и/или рейндж пикселей изображений).

Наблюдение

Сделаем важное замечание: state-of-the-art атаки на восстановление признаков, такие как UnSplit и FSHA:
(i) применяются к задачам компьютерного зрения (условная классификация изображений);
(ii) ориентированы исключительно на CNN-подобные модели, не учитывая MLP и трансформерные бейзлайны.

Возникает вопрос: «Если изменить архитектуру модели, заменив сверточные слои на MLP или Transformer — перестанут ли атаки работать?»

Как оказалось, ни UnSplit, ни FSHA не справляются с моделями, где в начале стоят линейные (!!) слои. Почему?

Ортогональный поворот данных и весов не меняет выход линейного слоя на каждом шаге обучения при использовании SGD (с моментумом), а при Adam такие ортогональные преобразования не влияют на сходимость и оптимум лосса. Рассмотрим простой пример с SGD и однослойной линейной моделью W на стороне клиента.

Пусть батч данных представлен в виде матрицы X. Применим к данным и начальным весам W₁ (полу-)ортогональное преобразование:
X → XU, W₁ → UᵀW₁

Тогда активации на первом шаге:
H₁ = X₁W₁ = (X₁U)(UᵀW₁)

Видно, что это преобразование не меняет значение активаций H₁, передаваемых клиентом серверу. Это также верно для всех последующих шагов оптимизации.

Предположим, что на шаге k передаваемые серверу активации одинаковы для случаев с преобразованием и без него, и пусть сервер возвращает градиент лосса по этим активациям Gₖ. Тогда градиент по параметрам модели клиента вычисляется как Xₖᵀ Gₖ.

Подставляя этот градиент в апдейт SGD и учитывая, что мы одновременно повернули веса и активации, получаем:
Wₖ₊₁ = UᵀWₖ - step_size * Uᵀ Xₖᵀ Gₖ

Активации, которые клиент передаст серверу на шаге k + 1:
Hₖ₊₁ = (Xₖ₊₁ Uᵀ) Wₖ₊₁ = Xₖ₊₁ Wₖ - step_size Xₖ₊₁ Xₖᵀ Gₖ

Так как активации и градиенты не изменяются при введенных преобразованиях, процесс обучения в Split Learning остается неизменным.

Ортогональное преобразование весов и активаций можно интерпретировать как поворот данных, сопровождающийся изменением инициализации нейронной сети (что незначительно влияет на итоговую производительность модели). В итоге, даже если сервер может извлечь информацию о матрице "объект-признаки" клиента, восстановление исходных данных возможно лишь с точностью до некоторого ортогонального преобразования.

Конечно, восстановить нужную матрицу, зная её с точностью до поворота и имея некий prior, — задача известная. Однако если модель клиента достаточно глубокая и включает нелинейные функции активации, то такая атака становится нерешаемой на практике.

Смотри продолжение (эксперименты и выводы) в комментариях ⬇️

12.03.202509:42

Семинар: Масштабная инвариантность в обучении нейросетей

🗓 Когда: Четверг, 13 марта, 18:35
🎙 Докладчик: Максим Кодрян — к. ф.-м. н., постдок в лаборатории MLBio Lab (EPFL), лауреат премии Яндекса им. И. Сегаловича (2022)

О чем поговорим?
Масштабная инвариантность — это свойство нейросетей, при котором изменение масштаба параметров не влияет на предсказания модели. Это ключевой феномен, возникающий при использовании нормализации (Batch Norm и др.), который сильно влияет на процесс обучения и структуру функции потерь.

На семинаре Максим расскажет:
🔵Как масштабная инвариантность меняет динамику обучения
🔵Какие режимы обучения на сфере позволяют глубже понять структуру ландшафта потерь
🔵Как это знание можно применять на практике для поиска лучших минимумов

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этого семинара появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, можете посмотреть другие наши семинары 🙂

11.03.202507:43

Это канал лабораторий фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫 и проблем федеративного обучения ИСП РАН 👨‍💻

Здесь мы будем рассказывать о передовых результатах в области искусственного интеллекта, в первую очередь связанных с численными методами оптимизации, которые играют ключевую роль в развитии современного машинного обучения

📌В фокусе внимания следующие тематики:

🔵Передовые оптимизационные техники
🔵Федеративное и распределенное обучение
🔵Теория выпуклой и стохастической оптимизации
🔵 Приватность и доверенный искусственный интеллект

Мы будем понятно и доступно рассказывать о наших исследованиях, обозревать работы других научных групп, анонсировать совместные семинары, конференции и другие мероприятия, а также делиться важными новостями из жизни наших лабораторий

💻 Ждем всех в нашем коммьюнити, кому интересны state-of-the-art исследования в области оптимизации и ИИ!

Барлық жазбалар