
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Speech Info
Инженеры из Яндекса разбирают и комментируют горячие статьи об ML и аудио.
Вопросы и предложения > @yandex_ml_brand
Вопросы и предложения > @yandex_ml_brand
TGlist reytingi
0
0
TuriOmmaviy
Tekshirish
TekshirilmaganIshonchnoma
ShubhaliJoylashuv
TilBoshqa
Kanal yaratilgan sanaБер 19, 2025
TGlist-ga qo'shildi
Квіт 15, 2025Muxrlangan guruh
SI
Speech Info [Chat]
1
Rekordlar
21.04.202523:59
386Obunachilar15.04.202523:59
100Iqtiboslar indeksi14.04.202522:52
1.5KBitta post qamrovi22.04.202513:28
0Reklama posti qamrovi19.04.202523:59
3.23%ER20.03.202523:58
577.38%ERR21.04.202508:34
WavChat: A Survey of Spoken Dialogue Models. Часть 2/4
Попробуем пошагово проследить классификацию, которую предлагают в большом обзоре разговорных ИИ.
Классификация моделей по архитектуре: каскадность или сквозная реализация (end2end). С каскадными моделями всё стандартно. ASR конвертирует пользовательский запрос в текст и передаёт в LLM, а LLM отправляет ответ в TTS. Так работает большинство голосовых помощников прошлого поколения: они очень слабы в выражении эмоций, потому что, переводя входящий запрос в текст, теряют информацию о тоне голоса, эмоциях и интонациях. В итоге ответные реплики нейросети выглядят неестественно. Кроме того, при передаче данных из системы в систему добавляются паузы, что приводит к дополнительным задержками.
End2end-модели должны победить эту проблему: вместо того чтобы пошагово преобразовывать каждую фразу пользователя в текст, они работают сразу с аудио и учитывают невербальный контекст беседы.
Авторы выделяют модели вроде SALMONN или Qwen-Audio, которые объединяют не весь стек, а лишь его части: ASR+LLM и отдельная модель для TTS.
Классификация по способу представления звука: токенизация или энкодер. Перед созданием ALM нужно ответить на вопрос, каким образом модель будет обрабатывать звук. Есть два основных подхода. Энкодеры превращают аудио в непрерывное представление эмбеддов, а токенизаторы, наоборот, в дискретную последовательность — набор токенов, с которыми можно работать аналогично текстовым.
В случае с токенайзерами есть ещё одна точка ветвления — они могут быть семантическими или акустическими. Семантические (например, wav2vec, BEST-RQ, HuBERT и WavLM) восстанавливают участки аудио по контексту. А акустические (EnCodec, Mimi, SpeechTokenizer и т.д.) сжимают и разжимают аудио до ограниченного набора токенов.
Авторы отмечают, что токенайзеры, особенно акустические, сегодня доминируют в публикациях и позволяют реализовать next-token prediction — ключевой механизм для ALM. Но в итоге склоняются к тому, что будущее — за более сложными токейнайзерами, которые объединят в себе плюсы работы с семантическими и акустическими токенами.
Продолжение следует.
Никита Рыжиков ❣ Специально для Speech Info
Попробуем пошагово проследить классификацию, которую предлагают в большом обзоре разговорных ИИ.
Классификация моделей по архитектуре: каскадность или сквозная реализация (end2end). С каскадными моделями всё стандартно. ASR конвертирует пользовательский запрос в текст и передаёт в LLM, а LLM отправляет ответ в TTS. Так работает большинство голосовых помощников прошлого поколения: они очень слабы в выражении эмоций, потому что, переводя входящий запрос в текст, теряют информацию о тоне голоса, эмоциях и интонациях. В итоге ответные реплики нейросети выглядят неестественно. Кроме того, при передаче данных из системы в систему добавляются паузы, что приводит к дополнительным задержками.
End2end-модели должны победить эту проблему: вместо того чтобы пошагово преобразовывать каждую фразу пользователя в текст, они работают сразу с аудио и учитывают невербальный контекст беседы.
Авторы выделяют модели вроде SALMONN или Qwen-Audio, которые объединяют не весь стек, а лишь его части: ASR+LLM и отдельная модель для TTS.
Классификация по способу представления звука: токенизация или энкодер. Перед созданием ALM нужно ответить на вопрос, каким образом модель будет обрабатывать звук. Есть два основных подхода. Энкодеры превращают аудио в непрерывное представление эмбеддов, а токенизаторы, наоборот, в дискретную последовательность — набор токенов, с которыми можно работать аналогично текстовым.
В случае с токенайзерами есть ещё одна точка ветвления — они могут быть семантическими или акустическими. Семантические (например, wav2vec, BEST-RQ, HuBERT и WavLM) восстанавливают участки аудио по контексту. А акустические (EnCodec, Mimi, SpeechTokenizer и т.д.) сжимают и разжимают аудио до ограниченного набора токенов.
Авторы отмечают, что токенайзеры, особенно акустические, сегодня доминируют в публикациях и позволяют реализовать next-token prediction — ключевой механизм для ALM. Но в итоге склоняются к тому, что будущее — за более сложными токейнайзерами, которые объединят в себе плюсы работы с семантическими и акустическими токенами.
Продолжение следует.
Никита Рыжиков ❣ Специально для Speech Info


24.03.202508:07
Mamba-like архитектуры. Часть 1/2: Mamba и Jamba
Сегодня разберём четыре архитектуры, которые основаны на идее State Space Models (SSM). Одна их них используется в задаче ASR.
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
В этой статье авторы развивают идею SSM, дополняя классическую архитектуру «механизмом выбора» (selection mechanism). Анализируя предыдущие работы с SSM-like-архитектурами, авторы приходят к выводу, что именно возможность Mamba отбирать наиболее важные входы (selection in an input-dependent manner) позволяет ей достигать уровня трансформера на задачах моделирования, при этом сохраняя свою линейную сложность.
При анализе современных моделей, работающих с длинным контекстом, авторы делят их на efficient и effective. Первые — быстрые благодаря небольшому state, вторые — с крупным state, способные хранить больше информации. Авторы стремятся найти баланс — сделать обработку быстрой, но при этом сохранить важные детали. Именно для этого и используется selection mechanism.
В базовых SSM матрицы состояний (B и C) имели размер D × N, где D — размерность эмбеддингов, а N — размерность скрытого состояния. Теперь их «развернули во времени» — в новые матрицы состояний добавили новую временную размерность, следовательно, их новый размер — B × L × N. Это дало модели некоторое понимание временного контекста.
В стандартном SSM-подходе свёрточная и рекуррентная модели эквивалентны. Здесь же — свёрточное представление теряется из-за появления input dependency, и возникает сканирование (scan) — матрицы состояния теперь меняются в зависимости от времени.
Mamba-блок получается в результате микса старых и новых идей. Берётся H3-блок — это первый блок в SSM-моделях старого (не input-dependent) подхода, в него добавляется selection mechanism; модифицированный H3-блок миксуют с Gated MLP. Полученные Mamba-блоки впоследствии либо совмещают друг с другом (классическая Mamba), либо смешивают с attention’ом в разных пропорциях. Эти эксперименты описаны в следующих статьях.
Jamba: A Hybrid Transformer-Mamba Language Model
Jamba — попытка смешать Mamba-блоки с attention, получить хорошее качество и большое количество токенов в секунду на гигантском контексте.
В основе — комбинация слоёв: трансформерного, Mamba-слоя и смеси экспертов (MoE). Их стакают в разных пропорциях, лучшим оказывается соотношение 1:7 (на каждый блок трансформера приходится 7 Mamba-блоков); при этом каждый второй из Mamba-блоков — это Mamba-MoE с 16 экспертами.
У Mamba без attention возникали сложности с задачами, где важен жёсткий формат ответа, а также с in-context learning. Jamba решает эти проблемы:
— Mamba-слои и эксперты позволяют работать с длинным контекстом;
— Attention-слой помогает справляться с in-context learning и строгими форматами ответов.
По бенчмаркам, связанным с качеством, Jamba оказывается на уровне Mistral 8x7B, при этом побеждая Llama 2 13B и Llama 2 70B; при этом по пропускной способности Jamba побеждает всех конкурентов с большим перевесом, обеспечивая пропускную способность в 1500 токенов в секунду на контексте 128k.
Даёт Jamba-подход и прирост на бенчмарках на следование формату. В IMDB модель должна отвечать одной из двух категорий: positive или negative. Классическая Mamba не всегда следовала формату и периодически давала случайные ответы, например, «3 из 10». Но при смешивании Mamba с attention эта проблема исчезала — оценка на этих бенчмарках выравнивалась.
Екатерина Козлова ❣ Специально для Speech Info
Сегодня разберём четыре архитектуры, которые основаны на идее State Space Models (SSM). Одна их них используется в задаче ASR.
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
В этой статье авторы развивают идею SSM, дополняя классическую архитектуру «механизмом выбора» (selection mechanism). Анализируя предыдущие работы с SSM-like-архитектурами, авторы приходят к выводу, что именно возможность Mamba отбирать наиболее важные входы (selection in an input-dependent manner) позволяет ей достигать уровня трансформера на задачах моделирования, при этом сохраняя свою линейную сложность.
При анализе современных моделей, работающих с длинным контекстом, авторы делят их на efficient и effective. Первые — быстрые благодаря небольшому state, вторые — с крупным state, способные хранить больше информации. Авторы стремятся найти баланс — сделать обработку быстрой, но при этом сохранить важные детали. Именно для этого и используется selection mechanism.
В базовых SSM матрицы состояний (B и C) имели размер D × N, где D — размерность эмбеддингов, а N — размерность скрытого состояния. Теперь их «развернули во времени» — в новые матрицы состояний добавили новую временную размерность, следовательно, их новый размер — B × L × N. Это дало модели некоторое понимание временного контекста.
В стандартном SSM-подходе свёрточная и рекуррентная модели эквивалентны. Здесь же — свёрточное представление теряется из-за появления input dependency, и возникает сканирование (scan) — матрицы состояния теперь меняются в зависимости от времени.
Mamba-блок получается в результате микса старых и новых идей. Берётся H3-блок — это первый блок в SSM-моделях старого (не input-dependent) подхода, в него добавляется selection mechanism; модифицированный H3-блок миксуют с Gated MLP. Полученные Mamba-блоки впоследствии либо совмещают друг с другом (классическая Mamba), либо смешивают с attention’ом в разных пропорциях. Эти эксперименты описаны в следующих статьях.
Jamba: A Hybrid Transformer-Mamba Language Model
Jamba — попытка смешать Mamba-блоки с attention, получить хорошее качество и большое количество токенов в секунду на гигантском контексте.
В основе — комбинация слоёв: трансформерного, Mamba-слоя и смеси экспертов (MoE). Их стакают в разных пропорциях, лучшим оказывается соотношение 1:7 (на каждый блок трансформера приходится 7 Mamba-блоков); при этом каждый второй из Mamba-блоков — это Mamba-MoE с 16 экспертами.
У Mamba без attention возникали сложности с задачами, где важен жёсткий формат ответа, а также с in-context learning. Jamba решает эти проблемы:
— Mamba-слои и эксперты позволяют работать с длинным контекстом;
— Attention-слой помогает справляться с in-context learning и строгими форматами ответов.
По бенчмаркам, связанным с качеством, Jamba оказывается на уровне Mistral 8x7B, при этом побеждая Llama 2 13B и Llama 2 70B; при этом по пропускной способности Jamba побеждает всех конкурентов с большим перевесом, обеспечивая пропускную способность в 1500 токенов в секунду на контексте 128k.
Даёт Jamba-подход и прирост на бенчмарках на следование формату. В IMDB модель должна отвечать одной из двух категорий: positive или negative. Классическая Mamba не всегда следовала формату и периодически давала случайные ответы, например, «3 из 10». Но при смешивании Mamba с attention эта проблема исчезала — оценка на этих бенчмарках выравнивалась.
Екатерина Козлова ❣ Специально для Speech Info


15.04.202512:19
Билингвальный ASR — уже в станциях и чате с Алисой
Мы с хорошими новостями — теперь Алиса знает два языка: русский и английский! При этом распознавание русского не пострадало, а стало даже лучше. Обновлённая Алиса и поддержит диалог с носителем, и поможет улучшить навыки новичка. Мы ликуем, пользователи в восторге, а вот репетиторы и всем известная сова немного грустят.
Евгений Ганкович, руководитель группы ASR, рассказал, с какими вызовами столкнулась команда:
— Необходимо было обучить модель, которая способна работать с новым языком, при этом критически важно было не просадить качество на русском.
— Домен английского для русскоговорящих пользователей специфичен и не решается с помощью открытых данных.
— End-of-utterance (EOU) по многим причинам работает у англоговорящих пользователей иначе.
Разберём, почему нужно было создавать билингвальную модель, а не обучать две отдельные.
Сложность решения в том, что заранее неизвестно, на каком языке поступит запрос: пользователь может начать на русском, а продолжить на английском или наоборот.
В теории можно использовать классификатор: задан запрос, система определяет язык и направляет его в соответствующую модель. Но чтобы точно определить язык, придётся подождать несколько секунд. К тому же такая система сложнее в поддержке и плохо справляется со смешанными языками (см. «смотря какой fabric, смотря сколько details»).
Выходит, что разумный путь — развивать текущий русскоязычный стек до двуязычного и использовать одну модель, которая инкапсулирует логику выбора языка.
Однако и здесь есть подводные камни. Даже незначительное ухудшение распознавания на русском негативно скажется на пользовательском опыте. Поэтому новую логику в модель нужно добавлять осторожно. Причём улучшения вносятся в две ключевые части голосового стека:
- End-of-utterance (EOU) — модель на основе аудио и паршального распознавания, которая определяет, когда пользователь закончил говорить.
- E2E Seq2Seq на базе трансформеров — модель распознаёт завершённый фрагмент речи на русском или английском языках.
Чтобы улучшить эти две компоненты, нужны данные. Начать можно с открытых — но это другой домен: и акустика, и пользователи отличаются. Поэтому мы привлекли отдельных людей для создания более подходящих нам данных. Так собрали рабочее решение, но не сразу получили нужное качество.
Следующим шагом провели тесты на сотрудниках Яндекса, которые использовали колонку с раскатанной технологии. На этой стадии смогли собрать ошибки, необходимые для улучшения модели. Группы, на которые раскатывали технологию, росли по мере улучшения модели, а мы всё тоньше настраивали модель.
По мере появления данных мы проводили эксперименты с обеими моделями, подбирая датамиксы и гиперпараметры тренировок. И в какой-то момент достигли качества для полноценного распознавания целевых запросов на английском. Интересно, что в этих экспериментах получилось немного улучшить качество русского, так что исходную задачу даже перевыполнили.
Оставалось разобраться с EOU. Здесь были сложности из-за режима, в котором можно вести диалог с Алисой. Пользователи сценария могут делать паузы, растягивать слова, и в таких случаях обычная модель может преждевременно обрезать речь. Дослушивать мы тоже не можем — это может повлиять на другие компоненты и ответы Алисы сильно замедлятся.
Решение крылось в добавлении в пайплайн EoU более робастной и стабильной модели, способной учитывать паузы и длительность речи. Хотелось бы рассказать о технологии подробнее, но для этого потребуется описать весь пайплайн распознавания — если вам интересно, дайте знать в комментариях.
В итоге мы получили результат, который стал важной частью большого релиза:
— Голосовой набор сообщений на английском языке в чате и колонке;
— Сценарий диалогового тренажёра на колонке: пользователи могут вести диалог с Алисой, получать фидбек и переводить текст голосом.
Зовём протестировать, что у нас получилось: попробуйте поговорить с Алисой на английском или скажите: «Алиса, давай практиковать английский».
Евгений Ганкович ❣ Специально для Speech Info
Мы с хорошими новостями — теперь Алиса знает два языка: русский и английский! При этом распознавание русского не пострадало, а стало даже лучше. Обновлённая Алиса и поддержит диалог с носителем, и поможет улучшить навыки новичка. Мы ликуем, пользователи в восторге, а вот репетиторы и всем известная сова немного грустят.
Евгений Ганкович, руководитель группы ASR, рассказал, с какими вызовами столкнулась команда:
— Необходимо было обучить модель, которая способна работать с новым языком, при этом критически важно было не просадить качество на русском.
— Домен английского для русскоговорящих пользователей специфичен и не решается с помощью открытых данных.
— End-of-utterance (EOU) по многим причинам работает у англоговорящих пользователей иначе.
Разберём, почему нужно было создавать билингвальную модель, а не обучать две отдельные.
Сложность решения в том, что заранее неизвестно, на каком языке поступит запрос: пользователь может начать на русском, а продолжить на английском или наоборот.
В теории можно использовать классификатор: задан запрос, система определяет язык и направляет его в соответствующую модель. Но чтобы точно определить язык, придётся подождать несколько секунд. К тому же такая система сложнее в поддержке и плохо справляется со смешанными языками (см. «смотря какой fabric, смотря сколько details»).
Выходит, что разумный путь — развивать текущий русскоязычный стек до двуязычного и использовать одну модель, которая инкапсулирует логику выбора языка.
Однако и здесь есть подводные камни. Даже незначительное ухудшение распознавания на русском негативно скажется на пользовательском опыте. Поэтому новую логику в модель нужно добавлять осторожно. Причём улучшения вносятся в две ключевые части голосового стека:
- End-of-utterance (EOU) — модель на основе аудио и паршального распознавания, которая определяет, когда пользователь закончил говорить.
- E2E Seq2Seq на базе трансформеров — модель распознаёт завершённый фрагмент речи на русском или английском языках.
Чтобы улучшить эти две компоненты, нужны данные. Начать можно с открытых — но это другой домен: и акустика, и пользователи отличаются. Поэтому мы привлекли отдельных людей для создания более подходящих нам данных. Так собрали рабочее решение, но не сразу получили нужное качество.
Следующим шагом провели тесты на сотрудниках Яндекса, которые использовали колонку с раскатанной технологии. На этой стадии смогли собрать ошибки, необходимые для улучшения модели. Группы, на которые раскатывали технологию, росли по мере улучшения модели, а мы всё тоньше настраивали модель.
По мере появления данных мы проводили эксперименты с обеими моделями, подбирая датамиксы и гиперпараметры тренировок. И в какой-то момент достигли качества для полноценного распознавания целевых запросов на английском. Интересно, что в этих экспериментах получилось немного улучшить качество русского, так что исходную задачу даже перевыполнили.
Оставалось разобраться с EOU. Здесь были сложности из-за режима, в котором можно вести диалог с Алисой. Пользователи сценария могут делать паузы, растягивать слова, и в таких случаях обычная модель может преждевременно обрезать речь. Дослушивать мы тоже не можем — это может повлиять на другие компоненты и ответы Алисы сильно замедлятся.
Решение крылось в добавлении в пайплайн EoU более робастной и стабильной модели, способной учитывать паузы и длительность речи. Хотелось бы рассказать о технологии подробнее, но для этого потребуется описать весь пайплайн распознавания — если вам интересно, дайте знать в комментариях.
В итоге мы получили результат, который стал важной частью большого релиза:
— Голосовой набор сообщений на английском языке в чате и колонке;
— Сценарий диалогового тренажёра на колонке: пользователи могут вести диалог с Алисой, получать фидбек и переводить текст голосом.
Зовём протестировать, что у нас получилось: попробуйте поговорить с Алисой на английском или скажите: «Алиса, давай практиковать английский».
Евгений Ганкович ❣ Специально для Speech Info


18.04.202508:02
WavChat: A Survey of Spoken Dialogue Models. Часть 1/4
Сегодня поделимсясуммаризацией главным из большого обзора разговорных ИИ. Сначала он кажется неплохой попыткой систематизировать происходящее в мире ALM: авторы анализируют тренды и на основе существующих публикаций пытаются понять, куда всë идёт и как было бы лучше. Но в какой-то момент статья начинает повторять саму себя. Тем не менее, лучшей попытки осознать происходящее мы не нашли. Давайте разбираться.
Идея объединить аудиомодальность с LLM давно будоражит умы академии и индустрии. Но долгое время никто толком не мог понять, для чего это нужно. Первой значимой попыткой можно назвать Whisper, который заставил seq2seq-модель предсказывать не только ASR, но и перевод.
На диаграмме легко заметить, какой именно момент развития ALM стал переломным и сделал очевидным, что нужно двигаться к разговорным моделям: когда коммьюнити узнало о GPT-4o. OpenAI показали, как аудиомодальность может сделать диалог с LLM естественным, почти бесшовным, решая между делом не только задачи распознавания синтеза, но и, например, классификацию скорости дыхания.
Авторы считают, что всё нужно свести к voice-to-voice диалоговому стеку. Его можно собрать из последовательной работы моделей (ASR-LLM-TTS), сделать end2end или составить из частичных фьюзов отдельных компонент. Трёхстадийный каскад ASR-LLM-TTS при этом предлагается считать бейслайном, о который нужно калиброваться. И побеждать его — учиться понимать особенности речи, воспринимать звуки, уместно отвечать или, наоборот, пропускать реплики.
В статье выделяют девять навыков, которыми должны обладать диалоговые модели:
- Text Intelligence;
- Speech Intelligence;
- Audio and Music Generation;
- Audio and Music Understanding;
- Multilingual Capability;
- Context Learning;
- Interaction Capability;
- Streaming Latency;
- Multimodal Capability.
Всё, что опубликовано по теме диалоговых систем за последний год, авторы предлагают классифицировать по разным признакам:
- Архитектура: end2end- и каскадные модели.
- Способ представления звука: токенизация или энкодер.
- Парадигма тренировки: использовали ли пост-претрейн, какие задачи решали.
- Подход к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс.
Дальше попробуем пошагово проследить эту классификацию.
Продолжение следует.
Никита Рыжиков ❣ Специально для Speech Info
Сегодня поделимся
Идея объединить аудиомодальность с LLM давно будоражит умы академии и индустрии. Но долгое время никто толком не мог понять, для чего это нужно. Первой значимой попыткой можно назвать Whisper, который заставил seq2seq-модель предсказывать не только ASR, но и перевод.
На диаграмме легко заметить, какой именно момент развития ALM стал переломным и сделал очевидным, что нужно двигаться к разговорным моделям: когда коммьюнити узнало о GPT-4o. OpenAI показали, как аудиомодальность может сделать диалог с LLM естественным, почти бесшовным, решая между делом не только задачи распознавания синтеза, но и, например, классификацию скорости дыхания.
Авторы считают, что всё нужно свести к voice-to-voice диалоговому стеку. Его можно собрать из последовательной работы моделей (ASR-LLM-TTS), сделать end2end или составить из частичных фьюзов отдельных компонент. Трёхстадийный каскад ASR-LLM-TTS при этом предлагается считать бейслайном, о который нужно калиброваться. И побеждать его — учиться понимать особенности речи, воспринимать звуки, уместно отвечать или, наоборот, пропускать реплики.
В статье выделяют девять навыков, которыми должны обладать диалоговые модели:
- Text Intelligence;
- Speech Intelligence;
- Audio and Music Generation;
- Audio and Music Understanding;
- Multilingual Capability;
- Context Learning;
- Interaction Capability;
- Streaming Latency;
- Multimodal Capability.
Всё, что опубликовано по теме диалоговых систем за последний год, авторы предлагают классифицировать по разным признакам:
- Архитектура: end2end- и каскадные модели.
- Способ представления звука: токенизация или энкодер.
- Парадигма тренировки: использовали ли пост-претрейн, какие задачи решали.
- Подход к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс.
Дальше попробуем пошагово проследить эту классификацию.
Продолжение следует.
Никита Рыжиков ❣ Специально для Speech Info
24.03.202508:07
Mamba-like архитектуры. Часть 2/2: Samba и Samba-ASR
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
Samba комбинирует Mamba-блоки со sliding window attention из Longformer и MLP-блоками. Классический Samba-блок — это Mamba + MLP + SWA + MLP. За длинный контекст отвечают Mamba-блоки, а за краткосрочные зависимости — attention, который обрабатывает данные внутри окна.
Оказалось, что этот подход работает,обходя Llama 3 по бенчмаркам на reasoning, понимание языка и генерацию кода. Авторы также измерили perplexity на наборе данных SlimPajama, сравнив результаты с Llama 2, другими attention-based и Mamba-based моделями. По скорости обучения все примерно равны, но Samba и Mamba успешно работают с длинными контекстами, а у Llama 2 качество резко ухудшается уже на контексте в 32k токенов.
В другом эксперименте качество (perplexity) Samba 1.7B, Mamba 1.8B и Llama 3 1.6B замеряют на ProofPile и оказывается, что Samba и Mamba способны поддерживать контекст длиной до 1M без просадки по качеству, в то время как качество Llama 3 проседает уже на контексте длиной в несколько тысяч токенов.
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
Наконец, мы дошли до Samba-ASR. Сразу скажем, что она не имеет никакой связи с предыдущей моделью Samba, а основана на стандартных Mamba-блоках.
Модель состоит из аудиоэнкодера, собранного из Mamba-блоков, и декодера, который принимает эмбеддинги из энкодера через механизм Mamba-cross-connection. К ним добавляют learned positional эмбеддинги для токенов уже транскрибированного текста, всё объединяется, и предсказывается следующий текстовый токен.
Авторы заявляют, что это новая SOTA — они валидируются не на всех датасетах, но на LibriSpeech и GigaSpeech модель лидирует (в сравнении с CrisperWhisper, Canary и Parakeet). Однако модель не open-source — ну нас нет ни кода модели, ни кода обучения, поэтому сложно сказать что-то о достоверности результатов. Тем не менее не исключено, что это новый игрок на ASR-рынке, о котором мы ещё услышим.
Екатерина Козлова ❣ Специально для Speech Info
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
Samba комбинирует Mamba-блоки со sliding window attention из Longformer и MLP-блоками. Классический Samba-блок — это Mamba + MLP + SWA + MLP. За длинный контекст отвечают Mamba-блоки, а за краткосрочные зависимости — attention, который обрабатывает данные внутри окна.
Оказалось, что этот подход работает,обходя Llama 3 по бенчмаркам на reasoning, понимание языка и генерацию кода. Авторы также измерили perplexity на наборе данных SlimPajama, сравнив результаты с Llama 2, другими attention-based и Mamba-based моделями. По скорости обучения все примерно равны, но Samba и Mamba успешно работают с длинными контекстами, а у Llama 2 качество резко ухудшается уже на контексте в 32k токенов.
В другом эксперименте качество (perplexity) Samba 1.7B, Mamba 1.8B и Llama 3 1.6B замеряют на ProofPile и оказывается, что Samba и Mamba способны поддерживать контекст длиной до 1M без просадки по качеству, в то время как качество Llama 3 проседает уже на контексте длиной в несколько тысяч токенов.
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
Наконец, мы дошли до Samba-ASR. Сразу скажем, что она не имеет никакой связи с предыдущей моделью Samba, а основана на стандартных Mamba-блоках.
Модель состоит из аудиоэнкодера, собранного из Mamba-блоков, и декодера, который принимает эмбеддинги из энкодера через механизм Mamba-cross-connection. К ним добавляют learned positional эмбеддинги для токенов уже транскрибированного текста, всё объединяется, и предсказывается следующий текстовый токен.
Авторы заявляют, что это новая SOTA — они валидируются не на всех датасетах, но на LibriSpeech и GigaSpeech модель лидирует (в сравнении с CrisperWhisper, Canary и Parakeet). Однако модель не open-source — ну нас нет ни кода модели, ни кода обучения, поэтому сложно сказать что-то о достоверности результатов. Тем не менее не исключено, что это новый игрок на ASR-рынке, о котором мы ещё услышим.
Екатерина Козлова ❣ Специально для Speech Info


31.03.202508:06
Mamba-модели в задачах Speech Enhancement
Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».
В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.
Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.
Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.
Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):
— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.
Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.
Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.
Екатерина Кузина ❣ Специально для Speech Info
Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».
В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.
Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.
Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.
Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):
— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.
Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.
Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.
Екатерина Кузина ❣ Специально для Speech Info
Ko'proq funksiyalarni ochish uchun tizimga kiring.