Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
BRAIn Lab: Optimization and Beyond avatar

BRAIn Lab: Optimization and Beyond

Канал лабораторий фундаментальных исследований ИИ в МФТИ и ИСП РАН о передовых научных результатах
В фокусе:
— оптимизация в ML
— федеративное и распределенное обучение
— теория выпуклой и стохастической оптимизации
— приватность и доверенное обучение
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
Расталмаған
Сенімділік
Сенімсіз
Орналасқан жері
ТілБасқа
Канал құрылған күніFeb 21, 2025
TGlist-ке қосылған күні
Apr 14, 2025
Қосылған топ

Рекордтар

20.04.202523:59
337Жазылушылар
11.03.202523:59
0Дәйексөз индексі
30.04.202523:59
1621 жазбаның қамтуы
19.04.202523:59
4.6KЖарнамалық жазбаның қамтуы
19.04.202523:59
8.02%ER
19.04.202523:59
48.21%ERR

BRAIn Lab: Optimization and Beyond танымал жазбалары

16.04.202512:50
Можно ли обучить языковую модель, используя signSGD?
Оказывается, да — но с небольшой оговоркой.

Сегодня расскажем о совместной с MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, ОАЭ) статье FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training (Ф. Змушко, А. Безносиков, М. Такач, С. Хорват)

[статья]

Введение

Современные языковые модели показывают невероятные результаты в самых разных задачах. Но этот прогресс достигается за счёт роста размера моделей, что приводит к резкому увеличению требований к памяти.

Например, для обучения модели на 8B параметров с использованием стандартного AdamW, нужно хранить:

- веса: 8B
- градиенты: 8B
- статистики оптимизатора: 8B для m (моментум) и 8B для v (предобработчик)

Итого: (8 + 8 + 8 + 😍 × 4 байта = 128 GB (в формате float32)
А это значительно больше, чем доступные 80 GB на A100/H100 — и это ещё без учёта активаций!

Поэтому возникает естественное желание — сократить память, особенно на хранение статистик оптимизатора. Именно этого мы и пытается добиться через FRUGAL.

Предыдущие подходы

Наиболее популярные методы — это PEFT-подходы (например, LoRA), которые добавляют к матрице весов линейного слоя обучаемые низкоранговые матрицы: W + AB

Но:
- это работает только для fine-tuning'а (и то не всегда)
- совершенно не годится для обучения с нуля

ReLoRA
решает это, вмердживая произведение Aᵢ ⋅ Bᵢ в W раз в T шагов и инициализируя новые Aᵢ₊₁, Bᵢ₊₁.

GaLore
идёт дальше: она факторизует градиент G, а не веса W, и обновление идёт через proj(G).

FRUGAL — гибрид с экономией памяти

Хотя итоговое изменение весов в ReLoRA и GaLore — высокоранговое, каждое отдельное обновление — низкоранговое.
Это кажется расточительным, ведь используется лишь часть информации из градиента G.

В работе мы предлагаем через FRUGAL не выбрасывать остаток `G - proj(G),` а использовать его для обновлений.
Но так как цель — экономия памяти, эти обновления должны быть state-free, например signSGD или SGD.

Итоговый гибридный подход представлен в Алгоритме 1 (см. в комментариях):

1. На каждом шаге градиент G разбивается на две части: G = proj(G) + (G - proj(G))
2. proj(G) — используется для state-full обновления (например, AdamW)
3. G - proj(G) — идёт на state-free обновление (например, signSGD)

Менять можно:
- оптимизаторы для обеих частей
- тип проекции: RandK, поблочная проекция и др.

Смотри продолжение (эксперименты и выводы) в комментариях ⬇️
Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
Семинар: Natural Gradient Descent — геометрия оптимизации и аппроксимации второго порядка

🗓 Когда: Четверг, 27 марта, 18:35
🎙 Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn

О чем поговорим?
Natural Gradient Descent (NGD) — это метод оптимизации, учитывающий геометрическую структуру пространства параметров. Он тесно связан с методами второго порядка, такими как метод Ньютона, но при этом не требует вычисления полного гессиана, что делает его более эффективным на практике. NGD помогает точнее находить оптимальные параметры модели, особенно в вероятностных подходах.

На семинаре обсудим:
🔵Как NGD аппроксимирует метод Ньютона и какие у него оценки сходимости
🔵Как точность аппроксимации градиента влияет на эффективность метода
🔵Применение NGD для обучения трансформера RoBERTa на датасете CoLA — что показывают эксперименты?

Ссылка для подключения:
https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂
Семинар: Гомогенность локальных данных в распределённом и федеративном обучении

🗓 Когда: Четверг, 3 апреля, 18:35
🎙 Докладчик: Дмитрий Былинкин — студент 5 курса ФПМИ, сотрудник лабораторий BRAIn и Федеративного обучения ИСП РАН

О чем поговорим?
Гомогенность (похожесть) локальных данных — ключевой фактор, влияющий на эффективность распределённого и федеративного обучения. Она позволяет сокращать коммуникационные затраты и ускорять обучение моделей, что особенно важно в сценариях, где данные распределены между устройствами, а их передача ограничена.

На семинаре обсудим:
🔵 Как стохастические методы учитывают гомогенность локальных данных в распределённом обучении
🔵 Как можно комбинировать подходы для оптимизации передачи данных
🔵 Новые результаты лаборатории: применение метода к вариационным неравенствам
🔵 Какие проблемы возникают при анализе федеративного обучения и как их решать
🔵 Перспективы развития: гомогенность как основа для персонализированного федеративного обучения

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
28.03.202512:06
Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫

Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed
(С. Чежегов, Я. Клюкин, А. Семенов, А. Безносиков, А. Гасников, С. Хорват, М. Такач, Э. Горбунов)

[статья]

Введение

Как мы уже рассказывали в посте от 21 марта про Sign-SGD, Sign-SGD позволяет в каком-то виде бороться с шумами с тяжелыми хвостами. Этот вопрос действительно имеет место быть в силу этой работы — показано, что нормы стохастических градиентов при дообучении модели BERT имеют тяжелые хвосты (не стоит пугаться — более формальное определение будет дано позже). Возникает естественный вопрос: как можно еще бороться с этим эффектом? Ведь при обучении или дообучении модели хочется, чтобы метод оптимизации был робастным, то есть устойчивым к различным видам шумов, и, помимо этого, хочется иметь вариативность в выборе метода оптимизации.

Считается, что для борьбы с распределениями с тяжелыми хвостами хорошим инструментом являются адаптивные схемы, в которых используется нормировка стохастического градиента. К таким схемам можно отнести AdaGrad, RMSProp, Adam и другие. Однако, как ни странно, несмотря на высокую эффективность этих методов, они не справляются с тяжелой стохастикой. Почему так происходит? Об этом мы расскажем далее.

Формализация

Для полноты картины введем несколько формальных определений.

Обозначим стохастический градиент как
f(w^k, ξ^k),
где w^k — веса модели на итерации k, а ξ^k — стохастика.

Клиппированный
, или же обрезанный, стохастический градиент определяется следующим образом:
min (1, λ / ||f(w^k, ξ^k)||) f(w^k, ξ^k).
Эта структура позволяет сделать направление, используемое в апдейтах оптимайзера, ограниченным по норме.

Шум с тяжелыми хвостами
можно формализовать как
E[||f(w, ξ) - f(w) ||^α] <= σ^α,
где α принимает значения в диапазоне (1, 2]. Это означает, что даже существование дисперсии не гарантировано.

Правила обновления весов для адаптивных схем можно найти в самой статье.

Основная идея

Главный вывод работы можно сформулировать просто: клиппинг делает адаптивные методы устойчивыми к тяжелым шумам, тогда как без него они такой робастности не обеспечивают.

Что означает устойчивость к шуму? Если метод оптимизации сходится с высокой вероятностью, то количество итераций, необходимых для достижения заданной точности, должно зависеть от уровня уверенности логарифмическим образом.

Иными словами, если мы хотим, чтобы метод сходился с вероятностью 1 - δ, то число итераций должно зависеть только от log(1/δ).
Это интуитивно понятно: например, при δ = 10^{-6} разница между 1/δ и log(1/δ) составляет несколько порядков.

Исходя из этого, ключевые результаты работы можно разбить на три части:

1. Нижние оценки
2. Верхние оценки
3. Эксперименты

Смотри продолжение (нижние и верхние оценки, эксперименты и выводы) в комментариях
⬇️
Семинар: Состязательная устойчивость методов обработки и сжатия видео

🗓 Когда: Четверг, 10 апреля, 18:35
🎙 Докладчик: Анастасия Анциферова — к.ф.-м.н., старший научный сотрудник Института ИИ МГУ, научный сотрудник ИСП РАН

О чём пойдёт речь?
Современные методы обработки видео сталкиваются с двумя серьёзными вызовами:
1. Уязвимость к состязательным атакам — даже едва заметные искажения могут полностью сбить работу нейросетевых моделей.
2. Нагрузки на сетевую инфраструктуру — классические облачные решения не справляются с требованиями по задержкам и объёму передаваемых данных.

На семинаре обсудим:
🔵 Как устроены состязательные атаки на видео и какие есть методы защиты
🔵 Какие прикладные задачи стоят перед индустрией и наукой
🔵 Как можно применять федеративное обучение для оптимизации потоковой передачи видео

Ссылка для подключения:
https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
Көбірек мүмкіндіктерді ашу үшін кіріңіз.