Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
BRAIn Lab: Optimization and Beyond avatar

BRAIn Lab: Optimization and Beyond

Канал лабораторий фундаментальных исследований ИИ в МФТИ и ИСП РАН о передовых научных результатах
В фокусе:
— оптимизация в ML
— федеративное и распределенное обучение
— теория выпуклой и стохастической оптимизации
— приватность и доверенное обучение
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваны
Надзейнасць
Не надзейны
Размяшчэнне
МоваІншая
Дата стварэння каналаFeb 21, 2025
Дадана ў TGlist
Apr 14, 2025
Прыкрепленая група

Рэкорды

20.04.202523:59
337Падпісчыкаў
11.03.202523:59
0Індэкс цытавання
30.04.202523:59
162Ахоп 1 паста
19.04.202523:59
4.6KАхоп рэкламнага паста
19.04.202523:59
8.02%ER
19.04.202523:59
48.21%ERR

Развіццё

Падпісчыкаў
Індэкс цытавання
Ахоп 1 паста
Ахоп рэкламнага паста
ER
ERR
MAR '25MAR '25MAR '25APR '25APR '25APR '25

Папулярныя публікацыі BRAIn Lab: Optimization and Beyond

16.04.202512:50
Можно ли обучить языковую модель, используя signSGD?
Оказывается, да — но с небольшой оговоркой.

Сегодня расскажем о совместной с MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, ОАЭ) статье FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training (Ф. Змушко, А. Безносиков, М. Такач, С. Хорват)

[статья]

Введение

Современные языковые модели показывают невероятные результаты в самых разных задачах. Но этот прогресс достигается за счёт роста размера моделей, что приводит к резкому увеличению требований к памяти.

Например, для обучения модели на 8B параметров с использованием стандартного AdamW, нужно хранить:

- веса: 8B
- градиенты: 8B
- статистики оптимизатора: 8B для m (моментум) и 8B для v (предобработчик)

Итого: (8 + 8 + 8 + 😍 × 4 байта = 128 GB (в формате float32)
А это значительно больше, чем доступные 80 GB на A100/H100 — и это ещё без учёта активаций!

Поэтому возникает естественное желание — сократить память, особенно на хранение статистик оптимизатора. Именно этого мы и пытается добиться через FRUGAL.

Предыдущие подходы

Наиболее популярные методы — это PEFT-подходы (например, LoRA), которые добавляют к матрице весов линейного слоя обучаемые низкоранговые матрицы: W + AB

Но:
- это работает только для fine-tuning'а (и то не всегда)
- совершенно не годится для обучения с нуля

ReLoRA
решает это, вмердживая произведение Aᵢ ⋅ Bᵢ в W раз в T шагов и инициализируя новые Aᵢ₊₁, Bᵢ₊₁.

GaLore
идёт дальше: она факторизует градиент G, а не веса W, и обновление идёт через proj(G).

FRUGAL — гибрид с экономией памяти

Хотя итоговое изменение весов в ReLoRA и GaLore — высокоранговое, каждое отдельное обновление — низкоранговое.
Это кажется расточительным, ведь используется лишь часть информации из градиента G.

В работе мы предлагаем через FRUGAL не выбрасывать остаток `G - proj(G),` а использовать его для обновлений.
Но так как цель — экономия памяти, эти обновления должны быть state-free, например signSGD или SGD.

Итоговый гибридный подход представлен в Алгоритме 1 (см. в комментариях):

1. На каждом шаге градиент G разбивается на две части: G = proj(G) + (G - proj(G))
2. proj(G) — используется для state-full обновления (например, AdamW)
3. G - proj(G) — идёт на state-free обновление (например, signSGD)

Менять можно:
- оптимизаторы для обеих частей
- тип проекции: RandK, поблочная проекция и др.

Смотри продолжение (эксперименты и выводы) в комментариях ⬇️
Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
Семинар: Natural Gradient Descent — геометрия оптимизации и аппроксимации второго порядка

🗓 Когда: Четверг, 27 марта, 18:35
🎙 Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn

О чем поговорим?
Natural Gradient Descent (NGD) — это метод оптимизации, учитывающий геометрическую структуру пространства параметров. Он тесно связан с методами второго порядка, такими как метод Ньютона, но при этом не требует вычисления полного гессиана, что делает его более эффективным на практике. NGD помогает точнее находить оптимальные параметры модели, особенно в вероятностных подходах.

На семинаре обсудим:
🔵Как NGD аппроксимирует метод Ньютона и какие у него оценки сходимости
🔵Как точность аппроксимации градиента влияет на эффективность метода
🔵Применение NGD для обучения трансформера RoBERTa на датасете CoLA — что показывают эксперименты?

Ссылка для подключения:
https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂
Семинар: Гомогенность локальных данных в распределённом и федеративном обучении

🗓 Когда: Четверг, 3 апреля, 18:35
🎙 Докладчик: Дмитрий Былинкин — студент 5 курса ФПМИ, сотрудник лабораторий BRAIn и Федеративного обучения ИСП РАН

О чем поговорим?
Гомогенность (похожесть) локальных данных — ключевой фактор, влияющий на эффективность распределённого и федеративного обучения. Она позволяет сокращать коммуникационные затраты и ускорять обучение моделей, что особенно важно в сценариях, где данные распределены между устройствами, а их передача ограничена.

На семинаре обсудим:
🔵 Как стохастические методы учитывают гомогенность локальных данных в распределённом обучении
🔵 Как можно комбинировать подходы для оптимизации передачи данных
🔵 Новые результаты лаборатории: применение метода к вариационным неравенствам
🔵 Какие проблемы возникают при анализе федеративного обучения и как их решать
🔵 Перспективы развития: гомогенность как основа для персонализированного федеративного обучения

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
28.03.202512:06
Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫

Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed
(С. Чежегов, Я. Клюкин, А. Семенов, А. Безносиков, А. Гасников, С. Хорват, М. Такач, Э. Горбунов)

[статья]

Введение

Как мы уже рассказывали в посте от 21 марта про Sign-SGD, Sign-SGD позволяет в каком-то виде бороться с шумами с тяжелыми хвостами. Этот вопрос действительно имеет место быть в силу этой работы — показано, что нормы стохастических градиентов при дообучении модели BERT имеют тяжелые хвосты (не стоит пугаться — более формальное определение будет дано позже). Возникает естественный вопрос: как можно еще бороться с этим эффектом? Ведь при обучении или дообучении модели хочется, чтобы метод оптимизации был робастным, то есть устойчивым к различным видам шумов, и, помимо этого, хочется иметь вариативность в выборе метода оптимизации.

Считается, что для борьбы с распределениями с тяжелыми хвостами хорошим инструментом являются адаптивные схемы, в которых используется нормировка стохастического градиента. К таким схемам можно отнести AdaGrad, RMSProp, Adam и другие. Однако, как ни странно, несмотря на высокую эффективность этих методов, они не справляются с тяжелой стохастикой. Почему так происходит? Об этом мы расскажем далее.

Формализация

Для полноты картины введем несколько формальных определений.

Обозначим стохастический градиент как
f(w^k, ξ^k),
где w^k — веса модели на итерации k, а ξ^k — стохастика.

Клиппированный
, или же обрезанный, стохастический градиент определяется следующим образом:
min (1, λ / ||f(w^k, ξ^k)||) f(w^k, ξ^k).
Эта структура позволяет сделать направление, используемое в апдейтах оптимайзера, ограниченным по норме.

Шум с тяжелыми хвостами
можно формализовать как
E[||f(w, ξ) - f(w) ||^α] <= σ^α,
где α принимает значения в диапазоне (1, 2]. Это означает, что даже существование дисперсии не гарантировано.

Правила обновления весов для адаптивных схем можно найти в самой статье.

Основная идея

Главный вывод работы можно сформулировать просто: клиппинг делает адаптивные методы устойчивыми к тяжелым шумам, тогда как без него они такой робастности не обеспечивают.

Что означает устойчивость к шуму? Если метод оптимизации сходится с высокой вероятностью, то количество итераций, необходимых для достижения заданной точности, должно зависеть от уровня уверенности логарифмическим образом.

Иными словами, если мы хотим, чтобы метод сходился с вероятностью 1 - δ, то число итераций должно зависеть только от log(1/δ).
Это интуитивно понятно: например, при δ = 10^{-6} разница между 1/δ и log(1/δ) составляет несколько порядков.

Исходя из этого, ключевые результаты работы можно разбить на три части:

1. Нижние оценки
2. Верхние оценки
3. Эксперименты

Смотри продолжение (нижние и верхние оценки, эксперименты и выводы) в комментариях
⬇️
Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫

Sign Operator for Coping with Heavy-Tailed Noise: High Probability Convergence Bounds with Extensions to Distributed Optimization and Comparison Oracle
(Н. Корнилов, Ф. Змушко, А. Семенов, А. Гасников, А. Безносиков)

[статья]

Введение

В современном мире нейронные сети стали основным инструментом для решения всевозможных задач, и тренд на их развитие только набирает обороты. Модели становятся все больше и сложнее, их обучение может занимать месяцы реального времени, а данные накапливаются с такой скоростью, что их качество неизбежно ухудшается.

Для алгоритмов оптимизации функций потерь этих моделей возникают следующие требования:

1) Устойчивость к сильно зашумленным данным. На рисунке в комментариях представлены нормы стохастических градиентов при дообучении языковой модели BERT, а также синтетическое распределение Леви с тяжелыми хвостами [1].

2) Гарантии достижения хорошей точности при каждом отдельном запуске.

3) Эффективность по памяти и времени работы. В больших моделях хранение даже одного дополнительного вектора параметров влияет на потребление памяти и скорость вычислений.

Клиппинг и нормализация

Далее мы будем обозначать параметры модели на итерации k через w^k, а стохастический градиент функции потерь f по батчу ξ^k — через ∇f(w^k, ξ^k).

Широко используемый в оптимизации нейронных сетей Stochastic Gradient Descent (SGD) вычисляет стохастический градиент функции и выполняет шаг в противоположном направлении, предварительно умножив его на величину шага aₖ:

w^(k+1) = w^k - aₖ ∇f(w^k, ξ^k)

Несмотря на популярность, эффективность и простоту, SGD не гарантирует быстрой сходимости с высокой вероятностью даже при небольших шумах. Поэтому к нему применяются различные модификации для повышения устойчивости и скорости сходимости.

Одна из самых успешных модификаций — градиентный клиппинг (ClippedSGD), в котором стохастический градиент сохраняет направление, но его норма обрезается так, чтобы не превышать заранее заданного значения λₖ, называемого уровнем клиппинга:

w^(k+1) = w^k - aₖ min (1, λₖ / ||f(w^k, ξ^k)||) f(w^k, ξ^k).

ClippedSGD уже удовлетворяет всем вышеуказанным требованиям, однако и в теории, и на практике требует аккуратного подбора уровня клиппинга, размера батча и величины шага на каждой итерации.

Чтобы избежать подбора уровня клиппинга, можно не обрезать стохастический градиент, а просто нормировать его. Такой метод называется Normalized SGD (NSGD). В NSGD нужно настраивать только размер батча и величину шага, как и в SGD, но при этом NSGD гарантирует сходимость с высокой вероятностью даже при тяжелых шумах [2]. Кроме того, NSGD может сходиться при произвольных гиперпараметрах, а тонкая настройка помогает улучшить сходимость.

Смотри продолжение (знаковые методы и сравнительный оракул) в комментариях ⬇️
Семинар: Состязательная устойчивость методов обработки и сжатия видео

🗓 Когда: Четверг, 10 апреля, 18:35
🎙 Докладчик: Анастасия Анциферова — к.ф.-м.н., старший научный сотрудник Института ИИ МГУ, научный сотрудник ИСП РАН

О чём пойдёт речь?
Современные методы обработки видео сталкиваются с двумя серьёзными вызовами:
1. Уязвимость к состязательным атакам — даже едва заметные искажения могут полностью сбить работу нейросетевых моделей.
2. Нагрузки на сетевую инфраструктуру — классические облачные решения не справляются с требованиями по задержкам и объёму передаваемых данных.

На семинаре обсудим:
🔵 Как устроены состязательные атаки на видео и какие есть методы защиты
🔵 Какие прикладные задачи стоят перед индустрией и наукой
🔵 Как можно применять федеративное обучение для оптимизации потоковой передачи видео

Ссылка для подключения:
https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
Увайдзіце, каб разблакаваць больш функцый.