Notcoin Community
Notcoin Community
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
iRo Proxy | پروکسی
iRo Proxy | پروکسی
black_samorez avatar
black_samorez
black_samorez avatar
black_samorez
Перыяд
Колькасць праглядаў

Цытаванні

Пасты
Схаваць рэпосты
Админу пришла термальная камера
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Паказана 1 - 2 з 2
Увайдзіце, каб разблакаваць больш функцый.