Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
black_samorez avatar

black_samorez

@black_samorez
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置
语言其他
频道创建日期Oct 02, 2022
添加到 TGlist 的日期
Jan 14, 2025
关联群组

"black_samorez" 群组最新帖子

NAACL в этом году в Stardew Valley проходит
Статью взяли на ICML.
Надо будет только название обновить...
Доклад ровно через час в Hall 4 #7.
Кто тут с физтеха, можете заказать, попробовать и сказать норм ли (в шестерку доставляют бесплатно)?
Особенно про борщ интересно.
Культура дискуссий в AI Safety
Статью, кстати, взяли как oral на SLLM воркшоп на ICLR в Сингапуре.

https://x.com/black_samorez/status/1909238314432917966
Подглядывание в соседних воркеров улучшает параллельный test-time compute для LLMок.

https://arxiv.org/abs/2504.06261

Коллеги из Yandex Research и ISTA выложили статью где с помощью хитрых махинаций с attention они позволяют параллельным LLM воркерам, решающим одну задачу, видеть драфты ответов друг друга. Подход вычислительно не сложнее параллельного семплинга, не требует дообучения, но дает ощутимый прирост на метриках. Статья сыровата, метрик и моделей мало, но я бы ожидал что через месяц-полтора выложат апдейт с более обширными эвалами.
Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.
Админу пришла термальная камера
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.

记录

16.05.202523:59
799订阅者
13.01.202523:59
0引用指数
18.01.202523:59
3.5K每帖平均覆盖率
23.05.202507:27
0广告帖子的平均覆盖率
11.02.202523:59
10.03%ER
10.01.202520:14
527.59%ERR
订阅者
引用指数
每篇帖子的浏览量
每个广告帖子的浏览量
ER
ERR
FEB '25MAR '25APR '25MAY '25

black_samorez 热门帖子

NAACL в этом году в Stardew Valley проходит
01.05.202518:37
Статью взяли на ICML.
Надо будет только название обновить...
27.04.202501:53
Доклад ровно через час в Hall 4 #7.
登录以解锁更多功能。