
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

BRAIn Lab: Optimization and Beyond
Канал лабораторий фундаментальных исследований ИИ в МФТИ и ИСП РАН о передовых научных результатах
В фокусе:
— оптимизация в ML
— федеративное и распределенное обучение
— теория выпуклой и стохастической оптимизации
— приватность и доверенное обучение
В фокусе:
— оптимизация в ML
— федеративное и распределенное обучение
— теория выпуклой и стохастической оптимизации
— приватность и доверенное обучение
TGlist рейтингі
0
0
ТүріҚоғамдық
Растау
РасталмағанСенімділік
СенімсізОрналасқан жері
ТілБасқа
Канал құрылған күніFeb 21, 2025
TGlist-ке қосылған күні
Apr 14, 2025Қосылған топ
BL
BRAIn Lab: Optimization and Beyond Chat
0
Рекордтар
20.04.202523:59
337Жазылушылар11.03.202523:59
0Дәйексөз индексі30.04.202523:59
1621 жазбаның қамтуы19.04.202523:59
4.6KЖарнамалық жазбаның қамтуы19.04.202523:59
8.02%ER19.04.202523:59
48.21%ERR16.04.202512:50
Можно ли обучить языковую модель, используя signSGD?
Оказывается, да — но с небольшой оговоркой.
Сегодня расскажем о совместной с MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, ОАЭ) статье FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training (Ф. Змушко, А. Безносиков, М. Такач, С. Хорват)
[статья]
Введение
Современные языковые модели показывают невероятные результаты в самых разных задачах. Но этот прогресс достигается за счёт роста размера моделей, что приводит к резкому увеличению требований к памяти.
Например, для обучения модели на 8B параметров с использованием стандартного AdamW, нужно хранить:
- веса:
- градиенты:
- статистики оптимизатора:
Итого:
А это значительно больше, чем доступные 80 GB на A100/H100 — и это ещё без учёта активаций!
Поэтому возникает естественное желание — сократить память, особенно на хранение статистик оптимизатора. Именно этого мы и пытается добиться через FRUGAL.
Предыдущие подходы
Наиболее популярные методы — это PEFT-подходы (например, LoRA), которые добавляют к матрице весов линейного слоя обучаемые низкоранговые матрицы:
Но:
- это работает только для fine-tuning'а (и то не всегда)
- совершенно не годится для обучения с нуля
ReLoRA решает это, вмердживая произведение
GaLore идёт дальше: она факторизует градиент G, а не веса W, и обновление идёт через proj(G).
FRUGAL — гибрид с экономией памяти
Хотя итоговое изменение весов в ReLoRA и GaLore — высокоранговое, каждое отдельное обновление — низкоранговое.
Это кажется расточительным, ведь используется лишь часть информации из градиента
В работе мы предлагаем через FRUGAL не выбрасывать остаток `G - proj(G),` а использовать его для обновлений.
Но так как цель — экономия памяти, эти обновления должны быть state-free, например signSGD или SGD.
Итоговый гибридный подход представлен в Алгоритме 1 (см. в комментариях):
1. На каждом шаге градиент G разбивается на две части:
2.
3.
Менять можно:
- оптимизаторы для обеих частей
- тип проекции: RandK, поблочная проекция и др.
Смотри продолжение (эксперименты и выводы) в комментариях ⬇️
Оказывается, да — но с небольшой оговоркой.
Сегодня расскажем о совместной с MBZUAI (Mohamed bin Zayed University of Artificial Intelligence, ОАЭ) статье FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training (Ф. Змушко, А. Безносиков, М. Такач, С. Хорват)
[статья]
Введение
Современные языковые модели показывают невероятные результаты в самых разных задачах. Но этот прогресс достигается за счёт роста размера моделей, что приводит к резкому увеличению требований к памяти.
Например, для обучения модели на 8B параметров с использованием стандартного AdamW, нужно хранить:
- веса:
8B
- градиенты:
8B
- статистики оптимизатора:
8B
для m
(моментум) и 8B
для v
(предобработчик)Итого:
(8 + 8 + 8 + 😍 × 4 байта = 128 GB
(в формате float32) А это значительно больше, чем доступные 80 GB на A100/H100 — и это ещё без учёта активаций!
Поэтому возникает естественное желание — сократить память, особенно на хранение статистик оптимизатора. Именно этого мы и пытается добиться через FRUGAL.
Предыдущие подходы
Наиболее популярные методы — это PEFT-подходы (например, LoRA), которые добавляют к матрице весов линейного слоя обучаемые низкоранговые матрицы:
W + AB
Но:
- это работает только для fine-tuning'а (и то не всегда)
- совершенно не годится для обучения с нуля
ReLoRA решает это, вмердживая произведение
Aᵢ ⋅ Bᵢ
в W
раз в T
шагов и инициализируя новые Aᵢ₊₁, Bᵢ₊₁.
GaLore идёт дальше: она факторизует градиент G, а не веса W, и обновление идёт через proj(G).
FRUGAL — гибрид с экономией памяти
Хотя итоговое изменение весов в ReLoRA и GaLore — высокоранговое, каждое отдельное обновление — низкоранговое.
Это кажется расточительным, ведь используется лишь часть информации из градиента
G.
В работе мы предлагаем через FRUGAL не выбрасывать остаток `G - proj(G),` а использовать его для обновлений.
Но так как цель — экономия памяти, эти обновления должны быть state-free, например signSGD или SGD.
Итоговый гибридный подход представлен в Алгоритме 1 (см. в комментариях):
1. На каждом шаге градиент G разбивается на две части:
G = proj(G) + (G - proj(G))
2.
proj(G)
— используется для state-full обновления (например, AdamW)3.
G - proj(G)
— идёт на state-free обновление (например, signSGD)Менять можно:
- оптимизаторы для обеих частей
- тип проекции: RandK, поблочная проекция и др.
Смотри продолжение (эксперименты и выводы) в комментариях ⬇️


14.04.202510:12
Семинар: Методы оптимизации круглых тензоров
🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn
О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.
На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.
Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn
О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.
На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.
Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!


25.03.202506:03
Семинар: Natural Gradient Descent — геометрия оптимизации и аппроксимации второго порядка
🗓 Когда: Четверг, 27 марта, 18:35
🎙 Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn
О чем поговорим?
Natural Gradient Descent (NGD) — это метод оптимизации, учитывающий геометрическую структуру пространства параметров. Он тесно связан с методами второго порядка, такими как метод Ньютона, но при этом не требует вычисления полного гессиана, что делает его более эффективным на практике. NGD помогает точнее находить оптимальные параметры модели, особенно в вероятностных подходах.
На семинаре обсудим:
🔵Как NGD аппроксимирует метод Ньютона и какие у него оценки сходимости
🔵Как точность аппроксимации градиента влияет на эффективность метода
🔵Применение NGD для обучения трансформера RoBERTa на датасете CoLA — что показывают эксперименты?
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂
🗓 Когда: Четверг, 27 марта, 18:35
🎙 Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn
О чем поговорим?
Natural Gradient Descent (NGD) — это метод оптимизации, учитывающий геометрическую структуру пространства параметров. Он тесно связан с методами второго порядка, такими как метод Ньютона, но при этом не требует вычисления полного гессиана, что делает его более эффективным на практике. NGD помогает точнее находить оптимальные параметры модели, особенно в вероятностных подходах.
На семинаре обсудим:
🔵Как NGD аппроксимирует метод Ньютона и какие у него оценки сходимости
🔵Как точность аппроксимации градиента влияет на эффективность метода
🔵Применение NGD для обучения трансформера RoBERTa на датасете CoLA — что показывают эксперименты?
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если вы не сможете присутствовать — не волнуйтесь, запись этой встречи появится на нашем Rutube-канале примерно через неделю. А пока вы ее ждете, то смотрите другие наши семинары 🙂


31.03.202517:05
Семинар: Гомогенность локальных данных в распределённом и федеративном обучении
🗓 Когда: Четверг, 3 апреля, 18:35
🎙 Докладчик: Дмитрий Былинкин — студент 5 курса ФПМИ, сотрудник лабораторий BRAIn и Федеративного обучения ИСП РАН
О чем поговорим?
Гомогенность (похожесть) локальных данных — ключевой фактор, влияющий на эффективность распределённого и федеративного обучения. Она позволяет сокращать коммуникационные затраты и ускорять обучение моделей, что особенно важно в сценариях, где данные распределены между устройствами, а их передача ограничена.
На семинаре обсудим:
🔵 Как стохастические методы учитывают гомогенность локальных данных в распределённом обучении
🔵 Как можно комбинировать подходы для оптимизации передачи данных
🔵 Новые результаты лаборатории: применение метода к вариационным неравенствам
🔵 Какие проблемы возникают при анализе федеративного обучения и как их решать
🔵 Перспективы развития: гомогенность как основа для персонализированного федеративного обучения
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
🗓 Когда: Четверг, 3 апреля, 18:35
🎙 Докладчик: Дмитрий Былинкин — студент 5 курса ФПМИ, сотрудник лабораторий BRAIn и Федеративного обучения ИСП РАН
О чем поговорим?
Гомогенность (похожесть) локальных данных — ключевой фактор, влияющий на эффективность распределённого и федеративного обучения. Она позволяет сокращать коммуникационные затраты и ускорять обучение моделей, что особенно важно в сценариях, где данные распределены между устройствами, а их передача ограничена.
На семинаре обсудим:
🔵 Как стохастические методы учитывают гомогенность локальных данных в распределённом обучении
🔵 Как можно комбинировать подходы для оптимизации передачи данных
🔵 Новые результаты лаборатории: применение метода к вариационным неравенствам
🔵 Какие проблемы возникают при анализе федеративного обучения и как их решать
🔵 Перспективы развития: гомогенность как основа для персонализированного федеративного обучения
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
28.03.202512:06
Сегодня мы рассмотрим статью лаборатории фундаментальных исследований искусственного интеллекта МФТИ (Basic Research of Artificial Intelligence) 🏫
Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed
(С. Чежегов, Я. Клюкин, А. Семенов, А. Безносиков, А. Гасников, С. Хорват, М. Такач, Э. Горбунов)
[статья]
Введение
Как мы уже рассказывали в посте от 21 марта про Sign-SGD, Sign-SGD позволяет в каком-то виде бороться с шумами с тяжелыми хвостами. Этот вопрос действительно имеет место быть в силу этой работы — показано, что нормы стохастических градиентов при дообучении модели BERT имеют тяжелые хвосты (не стоит пугаться — более формальное определение будет дано позже). Возникает естественный вопрос: как можно еще бороться с этим эффектом? Ведь при обучении или дообучении модели хочется, чтобы метод оптимизации был робастным, то есть устойчивым к различным видам шумов, и, помимо этого, хочется иметь вариативность в выборе метода оптимизации.
Считается, что для борьбы с распределениями с тяжелыми хвостами хорошим инструментом являются адаптивные схемы, в которых используется нормировка стохастического градиента. К таким схемам можно отнести AdaGrad, RMSProp, Adam и другие. Однако, как ни странно, несмотря на высокую эффективность этих методов, они не справляются с тяжелой стохастикой. Почему так происходит? Об этом мы расскажем далее.
Формализация
Для полноты картины введем несколько формальных определений.
Обозначим стохастический градиент как
∇f(w^k, ξ^k),
где w^k — веса модели на итерации k, а ξ^k — стохастика.
Клиппированный, или же обрезанный, стохастический градиент определяется следующим образом:
min (1, λ / ||∇f(w^k, ξ^k)||) ∇f(w^k, ξ^k).
Эта структура позволяет сделать направление, используемое в апдейтах оптимайзера, ограниченным по норме.
Шум с тяжелыми хвостами можно формализовать как
E[||∇f(w, ξ) - ∇f(w) ||^α] <= σ^α,
где α принимает значения в диапазоне (1, 2]. Это означает, что даже существование дисперсии не гарантировано.
Правила обновления весов для адаптивных схем можно найти в самой статье.
Основная идея
Главный вывод работы можно сформулировать просто: клиппинг делает адаптивные методы устойчивыми к тяжелым шумам, тогда как без него они такой робастности не обеспечивают.
Что означает устойчивость к шуму? Если метод оптимизации сходится с высокой вероятностью, то количество итераций, необходимых для достижения заданной точности, должно зависеть от уровня уверенности логарифмическим образом.
Иными словами, если мы хотим, чтобы метод сходился с вероятностью 1 - δ, то число итераций должно зависеть только от log(1/δ).
Это интуитивно понятно: например, при δ = 10^{-6} разница между 1/δ и log(1/δ) составляет несколько порядков.
Исходя из этого, ключевые результаты работы можно разбить на три части:
1. Нижние оценки
2. Верхние оценки
3. Эксперименты
Смотри продолжение (нижние и верхние оценки, эксперименты и выводы) в комментариях ⬇️
Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed
(С. Чежегов, Я. Клюкин, А. Семенов, А. Безносиков, А. Гасников, С. Хорват, М. Такач, Э. Горбунов)
[статья]
Введение
Как мы уже рассказывали в посте от 21 марта про Sign-SGD, Sign-SGD позволяет в каком-то виде бороться с шумами с тяжелыми хвостами. Этот вопрос действительно имеет место быть в силу этой работы — показано, что нормы стохастических градиентов при дообучении модели BERT имеют тяжелые хвосты (не стоит пугаться — более формальное определение будет дано позже). Возникает естественный вопрос: как можно еще бороться с этим эффектом? Ведь при обучении или дообучении модели хочется, чтобы метод оптимизации был робастным, то есть устойчивым к различным видам шумов, и, помимо этого, хочется иметь вариативность в выборе метода оптимизации.
Считается, что для борьбы с распределениями с тяжелыми хвостами хорошим инструментом являются адаптивные схемы, в которых используется нормировка стохастического градиента. К таким схемам можно отнести AdaGrad, RMSProp, Adam и другие. Однако, как ни странно, несмотря на высокую эффективность этих методов, они не справляются с тяжелой стохастикой. Почему так происходит? Об этом мы расскажем далее.
Формализация
Для полноты картины введем несколько формальных определений.
Обозначим стохастический градиент как
∇f(w^k, ξ^k),
где w^k — веса модели на итерации k, а ξ^k — стохастика.
Клиппированный, или же обрезанный, стохастический градиент определяется следующим образом:
min (1, λ / ||∇f(w^k, ξ^k)||) ∇f(w^k, ξ^k).
Эта структура позволяет сделать направление, используемое в апдейтах оптимайзера, ограниченным по норме.
Шум с тяжелыми хвостами можно формализовать как
E[||∇f(w, ξ) - ∇f(w) ||^α] <= σ^α,
где α принимает значения в диапазоне (1, 2]. Это означает, что даже существование дисперсии не гарантировано.
Правила обновления весов для адаптивных схем можно найти в самой статье.
Основная идея
Главный вывод работы можно сформулировать просто: клиппинг делает адаптивные методы устойчивыми к тяжелым шумам, тогда как без него они такой робастности не обеспечивают.
Что означает устойчивость к шуму? Если метод оптимизации сходится с высокой вероятностью, то количество итераций, необходимых для достижения заданной точности, должно зависеть от уровня уверенности логарифмическим образом.
Иными словами, если мы хотим, чтобы метод сходился с вероятностью 1 - δ, то число итераций должно зависеть только от log(1/δ).
Это интуитивно понятно: например, при δ = 10^{-6} разница между 1/δ и log(1/δ) составляет несколько порядков.
Исходя из этого, ключевые результаты работы можно разбить на три части:
1. Нижние оценки
2. Верхние оценки
3. Эксперименты
Смотри продолжение (нижние и верхние оценки, эксперименты и выводы) в комментариях ⬇️


08.04.202517:19
Семинар: Состязательная устойчивость методов обработки и сжатия видео
🗓 Когда: Четверг, 10 апреля, 18:35
🎙 Докладчик: Анастасия Анциферова — к.ф.-м.н., старший научный сотрудник Института ИИ МГУ, научный сотрудник ИСП РАН
О чём пойдёт речь?
Современные методы обработки видео сталкиваются с двумя серьёзными вызовами:
1. Уязвимость к состязательным атакам — даже едва заметные искажения могут полностью сбить работу нейросетевых моделей.
2. Нагрузки на сетевую инфраструктуру — классические облачные решения не справляются с требованиями по задержкам и объёму передаваемых данных.
На семинаре обсудим:
🔵 Как устроены состязательные атаки на видео и какие есть методы защиты
🔵 Какие прикладные задачи стоят перед индустрией и наукой
🔵 Как можно применять федеративное обучение для оптимизации потоковой передачи видео
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
🗓 Когда: Четверг, 10 апреля, 18:35
🎙 Докладчик: Анастасия Анциферова — к.ф.-м.н., старший научный сотрудник Института ИИ МГУ, научный сотрудник ИСП РАН
О чём пойдёт речь?
Современные методы обработки видео сталкиваются с двумя серьёзными вызовами:
1. Уязвимость к состязательным атакам — даже едва заметные искажения могут полностью сбить работу нейросетевых моделей.
2. Нагрузки на сетевую инфраструктуру — классические облачные решения не справляются с требованиями по задержкам и объёму передаваемых данных.
На семинаре обсудим:
🔵 Как устроены состязательные атаки на видео и какие есть методы защиты
🔵 Какие прикладные задачи стоят перед индустрией и наукой
🔵 Как можно применять федеративное обучение для оптимизации потоковой передачи видео
Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1
Приходите, будет интересно!
P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
Көбірек мүмкіндіктерді ашу үшін кіріңіз.