
black_samorez
@black_samorez
关联群组
"black_samorez" 群组最新帖子
06.05.202515:16
NAACL в этом году в Stardew Valley проходит


01.05.202518:37
Статью взяли на ICML.
Надо будет только название обновить...
Надо будет только название обновить...
27.04.202501:53
Доклад ровно через час в Hall 4 #7.
18.04.202515:47
Кто тут с физтеха, можете заказать, попробовать и сказать норм ли (в шестерку доставляют бесплатно)?
Особенно про борщ интересно.
Особенно про борщ интересно.
17.04.202514:19
16.04.202511:34
Культура дискуссий в AI Safety
12.04.202513:33
Статью, кстати, взяли как oral на SLLM воркшоп на ICLR в Сингапуре.
https://x.com/black_samorez/status/1909238314432917966
https://x.com/black_samorez/status/1909238314432917966
09.04.202511:39
Подглядывание в соседних воркеров улучшает параллельный test-time compute для LLMок.
https://arxiv.org/abs/2504.06261
Коллеги из Yandex Research и ISTA выложили статью где с помощью хитрых махинаций с attention они позволяют параллельным LLM воркерам, решающим одну задачу, видеть драфты ответов друг друга. Подход вычислительно не сложнее параллельного семплинга, не требует дообучения, но дает ощутимый прирост на метриках. Статья сыровата, метрик и моделей мало, но я бы ожидал что через месяц-полтора выложат апдейт с более обширными эвалами.
https://arxiv.org/abs/2504.06261
Коллеги из Yandex Research и ISTA выложили статью где с помощью хитрых махинаций с attention они позволяют параллельным LLM воркерам, решающим одну задачу, видеть драфты ответов друг друга. Подход вычислительно не сложнее параллельного семплинга, не требует дообучения, но дает ощутимый прирост на метриках. Статья сыровата, метрик и моделей мало, но я бы ожидал что через месяц-полтора выложат апдейт с более обширными эвалами.
06.03.202515:45
Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.
11.02.202508:18
Админу пришла термальная камера


11.02.202507:46
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.


13.01.202516:38
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.
Если кратко, в статье мы:
Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.
Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.
Запись семинара (длиной 56 минут) можно найти на ютубе.
Если кратко, в статье мы:
Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.
Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.
Запись семинара (длиной 56 минут) можно найти на ютубе.
记录
16.05.202523:59
799订阅者13.01.202523:59
0引用指数18.01.202523:59
3.5K每帖平均覆盖率23.05.202507:27
0广告帖子的平均覆盖率11.02.202523:59
10.03%ER10.01.202520:14
527.59%ERR登录以解锁更多功能。