Труха⚡️Україна

Николаевский Ванёк

查看

Инсайдер UA

查看

black_samorez

@black_samorez

TGlist 评分

类型公开

验证

未验证

可信度

不可靠

位置

语言其他

频道创建日期Oct 02, 2022

添加到 TGlist 的日期

Jan 14, 2025

我是频道所有者

变更历史

关联群组

black_samorez Chat

Telegram频道 black_samorez 统计数据

详细信息

订阅者

799

24 小时00%一周

60.8%一个月

334.3%

引用指数

0

提及0频道上的转发0频道上的提及0

每帖平均覆盖率

0

12 小时00%24 小时00%48 小时00%

参与率 (ER)

0%

转发0评论0反应0

覆盖率参与率 (ERR)

0%

24 小时0%一周0%一个月0%

每则广告帖子的平均覆盖率

0

1 小时00%1 – 4 小时00%4 - 24 小时00%

详细信息

将我们的机器人连接到频道以了解该频道的受众性别。

过去 24 小时内的帖子数

0

动态

"black_samorez" 群组最新帖子

所有帖子

06.05.202515:16

NAACL в этом году в Stardew Valley проходит

01.05.202518:37

Статью взяли на ICML.
Надо будет только название обновить...

27.04.202501:53

Доклад ровно через час в Hall 4 #7.

26.04.202512:43

Верим?
https://www.forbes.ru/tekhnologii/534780-modeli-v-tiskah-dla-raboty-s-ii-bol-se-ne-nuzny-mosnye-servery

18.04.202515:47

Кто тут с физтеха, можете заказать, попробовать и сказать норм ли (в шестерку доставляют бесплатно)?
Особенно про борщ интересно.

17.04.202514:19

16.04.202511:34

Культура дискуссий в AI Safety

12.04.202513:33

Статью, кстати, взяли как oral на SLLM воркшоп на ICLR в Сингапуре.

https://x.com/black_samorez/status/1909238314432917966

09.04.202511:39

Подглядывание в соседних воркеров улучшает параллельный test-time compute для LLMок.

https://arxiv.org/abs/2504.06261

Коллеги из Yandex Research и ISTA выложили статью где с помощью хитрых махинаций с attention они позволяют параллельным LLM воркерам, решающим одну задачу, видеть драфты ответов друг друга. Подход вычислительно не сложнее параллельного семплинга, не требует дообучения, но дает ощутимый прирост на метриках. Статья сыровата, метрик и моделей мало, но я бы ожидал что через месяц-полтора выложат апдейт с более обширными эвалами.

06.03.202515:45

Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.

11.02.202508:18

Админу пришла термальная камера

11.02.202507:46

Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.

13.01.202516:38

В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.

所有帖子

未找到任何内容 😢

详细信息