Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
black_samorez avatar
black_samorez
black_samorez avatar
black_samorez
NAACL в этом году в Stardew Valley проходит
18.04.202515:47
Кто тут с физтеха, можете заказать, попробовать и сказать норм ли (в шестерку доставляют бесплатно)?
Особенно про борщ интересно.
09.04.202511:39
Подглядывание в соседних воркеров улучшает параллельный test-time compute для LLMок.

https://arxiv.org/abs/2504.06261

Коллеги из Yandex Research и ISTA выложили статью где с помощью хитрых махинаций с attention они позволяют параллельным LLM воркерам, решающим одну задачу, видеть драфты ответов друг друга. Подход вычислительно не сложнее параллельного семплинга, не требует дообучения, но дает ощутимый прирост на метриках. Статья сыровата, метрик и моделей мало, но я бы ожидал что через месяц-полтора выложат апдейт с более обширными эвалами.
13.01.202516:38
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.
01.05.202518:37
Статью взяли на ICML.
Надо будет только название обновить...
17.04.202514:19
06.03.202515:45
Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.
27.04.202501:53
Доклад ровно через час в Hall 4 #7.
16.04.202511:34
Культура дискуссий в AI Safety
Админу пришла термальная камера
12.04.202513:33
Статью, кстати, взяли как oral на SLLM воркшоп на ICLR в Сингапуре.

https://x.com/black_samorez/status/1909238314432917966
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Көрсөтүлдү 1 - 13 ичинде 13
Көбүрөөк функцияларды ачуу үчүн кириңиз.