Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Ko'rish

Николаевский Ванёк

Ko'rish

Мир сегодня с "Юрий Подоляка"

Ko'rish

Труха⚡️Україна

Ko'rish

Николаевский Ванёк

Ko'rish

ML Underhood

Рассказываем, чем живёт ML в Яндексе, и обсуждаем важные новости индустрии.
Вопросы и предложения > @yandex_ml_brand

TGlist reytingi

TuriOmmaviy

Tekshirish

Tekshirilmagan

Ishonchnoma

Shubhali

JoylashuvРосія

TilBoshqa

Kanal yaratilgan sanaApr 04, 2024

TGlist-ga qo'shildi

Aug 22, 2024

Men kanal egasiman

O'zgartirishlar tarixi

Muxrlangan guruh

ML Underhood [Chat]

Telegram kanali ML Underhood statistikasi

Batafsil

Obunachilar

2 564

24 soat

30.1%Hafta

200.8%Oy

1486.1%

Iqtiboslar indeksi

0

Eslatmalar1Kanallardagi repostlar0Kanallardagi eslatmalar1

Bitta postning o'rtacha qamrovi

4 825

12 soat00%24 soat4 8250%48 soat5 4880%

Ishtirok (ER)

4.33%

Repostlar154Izohlar0Reaksiyalar55

Qamrov bo'yicha ishtirok (ERR)

0%

24 soat0%Hafta0%Oy

170.64%

Bitta reklama postining qamrovi

0

1 soat00%1 – 4 soat00%4 - 24 soat00%

Batafsil

Botimizni kanalingizga ulang va ushbu kanal auditoriyasining jinsini bilib oling.

24 soat ichidagi barcha postlar

0

Dinamika

"ML Underhood" guruhidagi so'nggi postlar

Barcha postlar

31.03.202508:43

YandexGPT 5 Lite Instruct теперь в опенсорсе 🎉

В феврале в открытый доступ вышла Pretrain-версия, а сейчас очередь дошла и до YandexGPT 5 Lite Instruct. Это модель на 8 миллиардов параметров с размером контекстного окна в 32К токенов.

О претрейне мы уже писали вот тут, а алайнмент аналогичен тому, через который проходит YandexGPT 5 Pro. На этапе SFT концентрировались на сложных запросах, а также методах фильтрации и ранжирования данных. В рамках RLHF комбинировали RL-подходы, которые дают лучшие результаты: DPO, LogDPO и PPO. Подробнее об этом читайте на Хабре.

По результатам внутреннего слепого попарного сравнения (side-by-side) новая модель YandexGPT 5 Lite превосходит Qwen-2.5-7B-instruct в 62% случаев и не уступает GPT-4o mini в решении стандартных задач сервисов Яндекса. Показатели бенчмарков можно посмотреть в таблице.

А ещё обновили лицензию: теперь можно использовать модель не только в некоммерческих целях, но и в коммерческих до 10 миллионов выходных токенов в месяц. Если ваши объёмы выше, напишите на почту, указанную в тексте лицензии.

Модель доступна на Hugging Face. Там же есть и квантизованная версия с поддержкой GGUF . YandexGPT 5 Lite Instruct совместима с llama.cpp и Ollama.

ML Underhood

27.03.202507:33

Как ML рассаживает деревья в Яндекс Картах

Год назад в Яндекс Картах в Москве и Петербурге появились трёхмерные деревья, которые добавляют реалистичности и помогают пользователям лучше ориентироваться на местности. В этом посте Стас Лебедев, разработчик группы AI-картографирования, рассказывает, как устроен ML, который рассаживает деревья в Картах.

Разработанная модель умеет три вещи: определять деревья на аэросъёмке, отличать лиственные породы от хвойных и оценивать размеры деревьев. Каждому дереву подбирается подходящая 3D-модель, которую размещают на карте. Фактически моделей всего две: лиственная или еловая, а для эффекта разнообразия они масштабируются и немного поворачиваются.

Работа с данными

Основная сложность была в том, чтобы собрать и правильно обработать данные. Нашли несколько источников разметки — каждый со своими нюансами. В итоге использовали два:

— разметку от сообщества картографов «Народная карта» — она содержала несколько тысяч деревьев с достаточной точностью, но этого было мало для обучения модели;
— один из публичных датасетов геоданных — показал хорошую точность, но низкую полноту; немного уступал данным от картографов и отличался по параметрам съёмки.

Обучение

Модель предобучили на публичном датасете и разметке картографов. Она смогла базово отличать деревья, но качество предсказаний было низким, особенно по полноте. Помогла доразметка с «активным обучением»: прицельно размечали изображения, на которых модель часто сомневалась и возвращала предсказания рядом с порогом принятия решения.

За два месяца дополнительно разметили около 60 тысяч деревьев в Москве, Петербурге и Калининграде. При этом модель определила 4 миллиона деревьев за два дня — это показывает, как автоматизация сокращает трудозатраты на разметку данных.

Архитектура

В основе архитектуры — классическая UNet-модель с ResNet в качестве бэкбона. Нейросеть предсказывала попиксельную карту вероятностей наличия дерева в каждой точке. Изначально поиск деревьев был тесно связан с поиском точечной дорожной разметки (стрелочки на асфальте). На абстрактном уровне — это очень похожие вещи. Поэтому разработанные решения базируются на одних и тех же идеях, почерпнутых из этой статьи.

Проблему с недооценкой количества деревьев решали с помощью focal loss — модифицированной кросс-энтропийной функции, которая увеличивает влияние сложных для локализации объектов. Дополнительно повысили вес ошибок, связанных с пропусками, чтобы модель не игнорировала малозаметные деревья. Без такого перераспределения потерь предсказания смещались в сторону фона — то есть модель чаще выбирала класс «нет дерева», чем «есть дерево».

Модель научилась хорошо определять, где находится дерево, но также ей нужно было понимать, какого оно типа и какая 3D-модель для него нужна. А для этого надо понять ширину и высоту. Мы обратили внимание на модель DeepForest, которая плохо находила центры, но хорошо предсказывала ширину. Решили объединить усилия: нашей моделькой находили локализацию деревьев, а DeepForest просили сказать, какой они ширины. В результате получили данные, на которых смогли обучить модель предсказывать ширину по локализации: где находится дерево и как выглядит этот маленький кусочек снимка.

Благодаря картографам у нас также были данные вида: «это дерево, и оно имеет ширину Х и высоту Y». Мы уже научились находить дерево и определять его ширину. Осталось взять имеющиеся данные и научиться с их помощью предсказывать высоту. Вуаля — мы получили модель, которая умеет локализовывать (находить местоположение) + вычислять ширину (по локализации) + вычислять высоту (по ширине и тому, как дерево выглядит).

Результаты и планы

В итоге модель помогла разметить для Москвы почти 3 млн деревьев, а для Петербурга — 1,1 млн деревьев.
Сейчас система работает на аэросъемке, но в будущем есть планы перевести её на спутниковые снимки. Это ускорило бы обновление карт, поскольку спутниковая съёмка дешевле и проводится чаще. Однако разрешение спутниковых снимков ниже, и для такого перехода нужны дополнительные исследования и более сложные модели.

ML Underhood

12.02.202510:46

Как в Яндексе заменили сложную разметку на LLM

В конце прошлой осени Команда качества поиска одной из первых в Яндексе смогла существенно удешевить сложную асессорскую разметку за счёт генеративной модели. Татьяна Климук, руководитель Службы исследований и качества ранжирования, рассказала, как работали над технологией.

Яндекс использует услуги тысяч асессоров, которые каждый день выполняют десятки тысяч заданий по оценке выдачи с точки зрения качества и релевантности. Это дорогой, долгий и сложный процесс.

Идея проекта в том, чтобы отдать рутинную работу по разметке сильной нейронке. При этом мы не отказываемся от асессоров, а переключаем их на разметку более важных и сложных кейсов, а также поручаем контролировать корректность работы модели.

Архитектура

Мы начали с экспериментов с базовым претрейном от YandexGPT. На вход подавали сжатую инструкцию, запрос и контент документа, на выходе получали решение о принадлежности к одной из категорий релевантности.

Однако промптинг даже SoTA-моделей пока не даёт нужного качества на нестандартных кейсах. Инструкция оказывается для них настолько сложной, что без дообучения ни одна модель не справляется с ней. Поэтому на старте получилось выжать только 55% качества асессоров.

Тогда мы сделали ряд улучшений:

— Взяли претрейн от Нейро, который лучше понимает поисковый домен и легче обучается решать поисковые задачи.
— Обучались не просто на метку класса, но и на подготовленные Chain-of-Thoughts, чтобы научить модель больше думать перед тем, как она даёт ответ.
— Добавили внешние данные — знания, необходимые для понимания контекста, которые нельзя извлечь из текста. Пример таких знаний — то, какие страницы в сети официальные, а какие — нет.
— Подавали данные для обучения в нужном порядке — от более мусорных к более качественным.

Так мы добились качества 102% относительно разметки асессоров, что уже было неплохо. Но оставался риск «сломать» Поиск — поэтому нужно было проверить модель на разных классах запросов, исключить риск деградации со временем и учесть другие нюансы.

Решение

В итоге мы придумали решение, которое использует оценку как от людей, так и от нейросети. Мы стали извлекать из неё не только ответ по инструкции, но ещё и уверенность в этом предсказании. В зависимости от степени уверенности мы принимали решение, использовать ли в задаче человеческий ресурс.

— Если модель уверена в ответе, скорее всего, задача простая и не требует помощи асессоров. С этими кейсами она нередко справляется даже лучше людей. Таких задач оказалось около половины от общей массы.
— Если модель не до конца уверена в ответе, привлекаем её вместо одного из трёх асессоров. Размер этой зоны — около 30%.
— Когда модель говорит, что совсем не уверена в решении, отдаём задачу трём сильным асессорам — как это происходит в стандартном процессе. Таких задач порядка 20%.

Результаты и планы

С помощью этого решения мы получили 105% качества и 60% экономии денег.

Мы уже используем его экспериментально в разметке обучающих и валидационных пулов для моделей ранжирования, но конечный мониторинг интегрального качества поиска пока остаётся на людях.

Планируем продолжать наращивать качество и запускаться на новых разметках. Также в долгосрочных планах — свести процесс к промптингу, когда ты не обучаешь модель, а описываешь задачу текстом. Так мы сможем более гибко менять инструкции разметок без переобучения модели.

Мы рассчитываем, что решение поможет нам перекинуть рутину на нейронки, а людям давать более интересные и сложные задачи.

ML Underhood

24.10.202411:54

Улучшенный фотоперевод от Яндекса

Яндекс обновил функцию фотоперевода — новая версия уже доступна в Браузере и Переводчике. Коротко расскажем, как всё устроено с точки зрения ML.

В вебе, а также в приложениях для iOS и Android, в Яндекс Переводчике применяется transformer-based модель перевода, которая получила рост качества в 10%. А в Яндекс Браузере и Умной камере используется модель перевода на основе YandexGPT. По метрике оценки качества её перевод улучшился до 79 баллов из 100. Человек по той же метрике получает 85 баллов.

Обновили и модель компьютерного зрения. Теперь модель лучше выделяет семантические блоки: абзацы, предложения, пункты в списках и так далее. Благодаря этому перевод становится точнее, а визуализация — лучше.

А ещё инженеры из Яндекса реализовали алгоритм затирания оригинального текста, чтобы фон выглядел так же, как и в оригинале. Для реализации затирания использовали алгоритм PatchMatch, а для повышения контраста — APCA (Advanced Perceptual Contrast Algorithm). Также применили Yandex Sans Text Cond с Medium начертанием и добавили контрастную полупрозрачную обводку вокруг букв. В результате чего сильно выросли все метрики по аспектам визуализации (читаемость, подбор фона, размер шрифта).

А что в итоге? Обновлённый фотоперевод обошёл Google Lens в качестве (50% против 39%), читаемости (90/100 против 86/100), соответствии размера текста (91/100 против 79/100) и подбора фона (88/100 против 43/100).

Такой вот новый фотоперевод. Делитесь в комментариях мнением о нём!

ML Underhood

Kirishning iloji bo'lmadi
media kontentga

04.09.202409:09

Генерация видео в Шедевруме

Яндекс запустил новую диффузионную end-to-end-модель преобразования текста в видео в приложении Шедеврум. Расскажем, как она работает и чем отличается от прошлого подхода.

Как было раньше и как стало сейчас

Шедеврум и прежде умел создавать видео по текстовому запросу. Для этого использовалась технология Deforum. Она работает по принципу создания видео из отдельных изображений кадр за кадром. Каждый следующий получается из предыдущего с помощью эвристик — они добавляют движение камеры. При таком подходе согласованность кадров недостаточная.

В новом подходе используется end-to-end-text2video-модель. На вход она получает текст, в котором могут быть указаны субъект, объект и описание действия. Модель сама учитывает связь между кадрами, из-за чего получается более согласованный результат.

Этапы генерации видео

Генерация базовых кадров. На этом этапе создаётся видео с низкой частотой кадров и разрешением. Из нормального распределения сэмплируются зашумлённые кадры, которые впоследствии постепенно преобразуются в связное видео.

Интерполяция кадров. После создания базовых кадров модель увеличивает их частоту, делая видео более плавным. Интерполяция проводится с использованием диффузионной модели, которая добавляет новые кадры между уже существующими.

Повышение разрешения. Модель работает в латентном пространстве, поэтому для повышения разрешения сгенерированные латенты подаются в декодер VAE. В него для большей согласованности фреймов добавили motion-блоки.

Обучение

Процесс обучения модели text2video начинается с адаптации уже существующей text2image-модели. Чтобы не обучать её с нуля, что требует большого количества разнообразных данных, разработчики решили дообучить проверенную модель для генерации изображений, добавив в неё временные блоки (motion-блоки) для работы с видео. Чтобы снизить нагрузку на память и ускорить обучение, использовались техники mixed precision и torch.FSDP.

Обучение модели происходило поэтапно: сначала с низким разрешением и малым количеством кадров, а затем с постепенным увеличением этих параметров. Так мы смогли ускорить процесс обучения и валидировать больше гипотез за то же время. Однако в ходе обучения возникали проблемы, связанные с нестабильностью модели, вызванной бесконтрольным ростом значений активации. Это решили простой регуляризацией.

Более подробно об устройстве и модели и её создании — читайте в статье на Хабре. А здесь в комментариях делитесь своими впечатлениями!

ML Underhood

16.08.202413:43

Больше впечатлений от ICML 2024 и интересных статей

Завершаем серию постов по следам конференции ICML 2024. На этот раз своими впечатлениями поделился Богдан Воронин из ML в международной рекламе Яндекса. Вот, каким он увидел мероприятие:

Запомнились докладчики с не очень хорошим английским. Мой уровень знания языка не позволял пробиваться к смыслу через акцент (успокаивает, что автоматические субтитры справлялись хуже меня 🙂). Сейчас осознаю, что нужно было уходить с доклада, если не понял первые три минуты.

Здорово было увидеться со старыми знакомыми из разных компаний, а ещё познакомиться с новыми крутыми ребятами. Ну и круто, что нас от рекламы на конференции было четверо. Это очень полезно — обмениваться мнениями с коллегами о докладах и стендах.

Что касается общего впечатления, то, показалось, что было много попыток разобраться или объяснить как работает LLM. Много попыток улучшить на копейку текущие подходы — например, доклады о DoRA и тому подобные. При этом было не так много материалов, полезных для индустрии вне сеток.

А главное, что вынес из события лично я — список статей, которые стоит почитать.

Пара интересных статей

Strategic ML: How to Learn With Data That ‘Behaves’

Как правильно строить ML и систему в случае, когда пользователи могут влиять на неё? Автор рассматривает несколько примеров, но я расскажу про самый очевидный — кредитный скоринг. Пусть модель кредитного скоринга открыта (а какую-то часть точно можно реверс-инженерить). Пользователь очень хочет, чтобы ему одобрили кредит, при этом по-честному не проходит. Как получить желаемое?

Прямой путь — поднять свой доход, но это сложно. Но что, если переехать на месяц в более благополучный район? Давайте введём стоимость гейминга определённой фичи и ценность другого поведения модели, предположив, что пользователи будут их геймить, если это выгодно. Простой подход — поднять порог выдачи кредита, но тогда мы не одобрим его честным пользователям, которые не геймили систему. Далее идёт анализ на стыке ML и теории игр.

LCA-on-the-Line: Benchmarking Out of Distribution Generalization with Class Taxonomies

Если обобщать, то авторы говорят следующее: пусть у нас есть сильная корреляция таргета с фичами, которые будут не очень полезены в проде по тем или иным причинам. Объясняют идею на основе классификатора картинок, где по фону объекта можно найти неплохую корреляцию, а оставшиеся примеры — просто запомнить. Но тогда классификатор легко обмануть. В статье предлагается метод автоматического поиска строчек без лика таргета. На них нужно поднимать вес в датасете или файнтюниться в конце. В целом, прикольный подход для специфических задач.

Barcha postlar