Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

View

Николаевский Ванёк

View

Мир сегодня с "Юрий Подоляка"

View

Труха⚡️Україна

View

Николаевский Ванёк

View

black_samorez

@black_samorez

TGlist rating

TypePublic

Verification

Not verified

Trust

Not trusted

Location

LanguageOther

Channel creation dateOct 02, 2022

Added to TGlist

Jan 14, 2025

I own this channel

History of changes

Linked chat

black_samorez Chat

Statistic of Telegram Channel black_samorez

More details

Subscribers

748

24 hours

1-0.1%Week

10.1%Month

233.2%

Citation index

0

Mentions0Shares on channels0Mentions on channels0

Average views per post

0

12 hours00%24 hours00%48 hours00%

Engagement rate (ER)

0%

Reposts0Comments0Reactions0

Engagement rate by reach (ERR)

0%

24 hours0%Week0%Month

11.14%

Average views per ad post

0

1 hour00%1 – 4 hours00%4 - 24 hours00%

More details

Connect our bot to the channel to find out the gender distribution of this channel's audience.

Total posts in 24 hours

0

Dynamic

Latest posts in group "black_samorez"

All posts

06.03.202515:45

Выложили запись моего семинара про оптимальнось квантизованного претрена с помощью QuEST.

11.02.202508:18

Админу пришла термальная камера

11.02.202507:46

Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.

13.01.202516:38

В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.

All posts

Nothing found 😢

More details

Records

23.03.202523:59

749Subscribers

13.01.202523:59

0Citation index

18.01.202523:59

3.5KAverage views per post

22.04.202501:54

0Average views per ad post

11.02.202523:59

10.03%ER

10.01.202520:14

527.59%ERR

Growth

More details

Subscribers

Citation index

Avg views per post

Avg views per ad post

ERR

More details

black_samorez