Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Лёха в Short’ах Long’ует
Лёха в Short’ах Long’ует
Love. Death. Transformers. avatar
Love. Death. Transformers.
Love. Death. Transformers. avatar
Love. Death. Transformers.
Какой agi? Какой gpt4.5? Берем сетап на 8.3 и поехали
Vibe coding in nutshell
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, а документация есть только на китайских двачах


Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.

И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)

Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.

nvidia blog
转发自:
MU
ML Underhood
Как в Яндексе заменили сложную разметку на LLM

В конце прошлой осени Команда качества поиска одной из первых в Яндексе смогла существенно удешевить сложную асессорскую разметку за счёт генеративной модели. Татьяна Климук, руководитель Службы исследований и качества ранжирования, рассказала, как работали над технологией.

Яндекс использует услуги тысяч асессоров, которые каждый день выполняют десятки тысяч заданий по оценке выдачи с точки зрения качества и релевантности. Это дорогой, долгий и сложный процесс.

Идея проекта в том, чтобы отдать рутинную работу по разметке сильной нейронке. При этом мы не отказываемся от асессоров, а переключаем их на разметку более важных и сложных кейсов, а также поручаем контролировать корректность работы модели.

Архитектура

Мы начали с экспериментов с базовым претрейном от YandexGPT. На вход подавали сжатую инструкцию, запрос и контент документа, на выходе получали решение о принадлежности к одной из категорий релевантности.

Однако промптинг даже SoTA-моделей пока не даёт нужного качества на нестандартных кейсах. Инструкция оказывается для них настолько сложной, что без дообучения ни одна модель не справляется с ней. Поэтому на старте получилось выжать только 55% качества асессоров.

Тогда мы сделали ряд улучшений:

— Взяли претрейн от Нейро, который лучше понимает поисковый домен и легче обучается решать поисковые задачи.
— Обучались не просто на метку класса, но и на подготовленные Chain-of-Thoughts, чтобы научить модель больше думать перед тем, как она даёт ответ.
— Добавили внешние данные — знания, необходимые для понимания контекста, которые нельзя извлечь из текста. Пример таких знаний — то, какие страницы в сети официальные, а какие — нет.
— Подавали данные для обучения в нужном порядке — от более мусорных к более качественным.

Так мы добились качества 102% относительно разметки асессоров, что уже было неплохо. Но оставался риск «сломать» Поиск — поэтому нужно было проверить модель на разных классах запросов, исключить риск деградации со временем и учесть другие нюансы.

Решение

В итоге мы придумали решение, которое использует оценку как от людей, так и от нейросети. Мы стали извлекать из неё не только ответ по инструкции, но ещё и уверенность в этом предсказании. В зависимости от степени уверенности мы принимали решение, использовать ли в задаче человеческий ресурс.

— Если модель уверена в ответе, скорее всего, задача простая и не требует помощи асессоров. С этими кейсами она нередко справляется даже лучше людей. Таких задач оказалось около половины от общей массы.
— Если модель не до конца уверена в ответе, привлекаем её вместо одного из трёх асессоров. Размер этой зоны — около 30%.
— Когда модель говорит, что совсем не уверена в решении, отдаём задачу трём сильным асессорам — как это происходит в стандартном процессе. Таких задач порядка 20%.

Результаты и планы

С помощью этого решения мы получили 105% качества и 60% экономии денег.

Мы уже используем его экспериментально в разметке обучающих и валидационных пулов для моделей ранжирования, но конечный мониторинг интегрального качества поиска пока остаётся на людях.

Планируем продолжать наращивать качество и запускаться на новых разметках. Также в долгосрочных планах — свести процесс к промптингу, когда ты не обучаешь модель, а описываешь задачу текстом. Так мы сможем более гибко менять инструкции разметок без переобучения модели.

Мы рассчитываем, что решение поможет нам перекинуть рутину на нейронки, а людям давать более интересные и сложные задачи.

ML Underhood
转发自:
black_samorez avatar
black_samorez
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model
18.02.202511:53
#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9
POV человека который знает что хочет от жизни сегодня вечером:
转发自:
max.sh avatar
max.sh
✨Интересный релиз сегодня в мире Text To Speech. Некоторая компания Zyphra (первый раз о них слышу, но судя по описанию занимаются мультимодальными моделями) выпустили в опен соурс модель Zonos-v0.1: гитхаб, блогпост c сэмплами.

Самое главное
- модель всего на 1.6B (есть трансформерный и SSM варианты)
- 2 RT на 4090
- лицензия Apache 2.0 😮
- $ 0.02 за минуту речи через API Zyphra.
- поддерживает пока English, Japanese, Chinese, French,German
- рекламируют сильный Zero-shot режим, достаточно 10-30 секундного сэмпла.
- хвастаются, что on par или местами даже лучше проприетарных моделей. На странице много сэмплов сравнения с ElevenLabs.

По поводу последнего пункта, что они лучше кого-либо - пока оставим под вопросом. Сравнительные метрики по какой-либо из осей (экспрессивность, робастность, speaker similarity) авторы не прикладывают. Но честно пишут
During testing we observed a higher concentration of audio artifacts at the beginning and end of generations compared to proprietary models. Common artifacts include coughing, clicking, laughing, squeaks, and heavy breathing. Additionally, due to our unstructured autoregression approach, our model can sometimes make mistakes in text alignment and either skip over or repeat certain words, especially in out-of-distribution sentences.


Так что вопросов с качеством аудио, галлюцинациями и консистентностью синтеза у этой модели, думаю, пока еще много. Потому и метрики отсутствуют. Релиз все равно заметный - в первую очередь именно из-за лицензии - Apache 2.0, позволяющая коммерческое использование в своих целях, что конечно большой-большой плюс для создания конкуренции ElevenLabs (которые ну оч дорогие).

Архитектура
На входе текст; нормализуется и переводится в фонемы. Они идут на вход в трансформер вместе с эмбеддингами эмоций (можно явно контролировать набор эмоций типа sadness, fear, anger, happiness, and surprise), отдельными эмбеддингами для speaking rate, pitch, sample rate, audio quality. Далее авторегрессионо предсказываюстя аудио токены. Аудио токены берутся из предобученного кодека DAC (descript audio codec, гитхаб, позволяет сжать 44.1 KHz аудио в дискретные коды в 8 kbps bitrate). Каждый аудио токен - это на самом деле композиция эмбеддингов из 9 codebooks. Поэтому чтобы предсказать 1 аудио токен, в реальности нужно сделать 9 авторегрессионных шагов. Чтобы сделать инференс адекватным используется Delay Pattern (часто возникающий концепт в авторегрессионном TTS, вот оригинальная статья, но когда-нибудь дойдут руки написть friendly guide) в связке с multi-token prediction (одной головой предсказываются сразу несколько токенов из соответствующих codebooks). Картинка 1 иллюстрирует саму архитектуру.

Обучение
200K данных в обучении, в основном английский. В данных и экспрессивная речь, и аудиокниги. Учили в два шага: 1) 70% обучения только текст и эмбеддинг спикера, 2) 30% оставшегося обучения добавили эмбеддинги эмоций, и прочих и обучали на данных чуть лучшего качества. Говорят, что так получается повысить робастность.

Интересное
Вместе с трансформерной версией доступна еще и аналогичная SSM модель (на основе Mamba 2). Авторы прикладывают график, что чем длинее синтез, тем эффективнее SSM (на 20 % быстрее трансформерного аналоги). Так же у SSM варианта чуть лучше time to first token показатели. Отличается ли SSM вариант от трансформера по качеству - остается за кадром.

В заключение
Статьи нет, только много сэмплов и чутка графиков. Скорее всего у модели на практике будут ощутимые сложности с аудио артефактками и галлюцинациями (Скоро сам потестирую руками на большом наборе данных в робастности и ZS Voice Cloning-е). Будем ждать новых релизов, авторы обещают новую версию в скором времени.

#статья #новости
10.02.202510:27
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
07.02.202517:32
Ща будем прочищать всех кто не в курсе что все модели с гпт3.5 и выше с этим справляются по причине: отсутствие элементарной экспертизы в области
16.02.202511:42
щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.

Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
Две опции будущего
13.02.202512:36
https://getmentor.dev/#list

могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
转发自:
КПД avatar
КПД
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
[Статья][Код]

Введение

Уважаемые коллеги из IST, в частности, @black_samorez выпустили статью про стабильное обучение моделей с квантизованными весами и активациями.

Статей с той же аббревиатурой пруд пруди на архиве:
- Вот
- Вот
- Вот
- И вот

Но эта - особенная!

Ранее уже неоднократно поднимался (в том числе и на этом канале) вопрос о том, в какой точности оптимально учить модель (веса и активации), дабы получить наилучшее качество при заданном размере (через PTQ или QAT). Ранее утверждали, что 6-7 бит оптимально при квантизации весов и активаций в INTx/FPx. Но сама процедура была незамысловата, и нет гарантий, что нельзя пробить существенно Парето-фронт. Свежие результаты (смотри краткий обзор на gonzo-ml) показывают, что в fp4 тоже можно эффективно обучать.

В данной же статье авторам удается достичь Парето-оптимальности в W3A3/W4A4 и стабильного обучения в W1A1 😮 (уже не оптимального, но на одном уровне с fp16).
10.02.202509:13
мы еще увидим создание брендов вокруг gpt_like моделей, когда будут и экономичные практичные модели для всех, и вариации на тему: а вот вам премиум, который универсальный комбайн в кучей интеграций и стоит как реальный человек, а то и больше. В конце концов иметь консьерж сервис который не тупой и умеет смотреть в gmail и ставить встречи нормально - действительно big thing.

Ну и да, судя по тому что AI продукты тепер рекламируют мы ближе к вершине сигмоиды, люди которым не надо было обьяснять зачем им LLM в кармане не бесконечны.

И подписки на премиум гпт от какой нибудь balanciaga с отдельным эпом и озвучкой от звезд.

Будушее из blade runner/2077 ближе чем вы думаете.


ну и жду хорошего аналитического текста где сравнят будущую рекламную компанию chatgpt и последующих с рекламными компаниями apple, hp и прочих
Контекста не будет

Книга не моя, поддержите авторов, они молодцы
Загадка от подписчика
转发自:
Labrats avatar
Labrats
13.02.202509:18
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
ризонинг, больше токенов нужно, нуну
О, ещё одну экспоненту нашли
04.02.202509:34
Выводы по DeepResearch:
1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы.

2) Полагаю что сырость связана с тем что Operator и DeepSearch это две приниципиально разные концепции взаимодейсвтия с интернетом. Да, Operator перспективнее потому что может управлять вообще любым UI(хоть фотошоп, хоть в доте персонажа качать). Но текущие модели ограниченные, поэтому DeepSearch ощущается сильно полезнее - какого то гениального ресерча он не напишет, но накидать по теме статей по теме он способен, и извелечь хоть сколько то информации из них. Тул скорее полезный, чем нет.

Мой пример чата, написал бы я сам лучше и быстрее? Да.
Стоит ли промптить на русском? Нет.
Написала ли модель ерунду? Скорее нет, но полезнее среднего человека не в контексте.
显示 1 - 24 171
登录以解锁更多功能。