RnD CV Team - Телеграм Каналынын Посттору

Notcoin Community

Карап чыгуу

Whale Chanel

Карап чыгуу

Proxy MTProto | پروکسی

Карап чыгуу

RnD CV Team

11.03.202509:58

Усиляем команду! 🦾

👁 Senior ML Engineer и 🛠 Junior DE в направление мультимодального GigaChat.

👥 О команде:
Команда RnD CV занимается исследованиями мультимодальных моделей в области компьютерного зрения. Мы стремимся довести результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.

—————————
👁 Задачи Senior MLE:
— Практический опыт в компьютерном зрении, включая обработку видео (распознавание, трекинг, анализ временных последовательностей)
— Работа с большими мультимодальными языковыми моделями, VLM (LLaVA, QwenVL, DeepSeekVL и т.д.)
— Обучение, валидация и имплементация новых state-of-the-art подходов для задач компьютерного зрения
— Работа с VLM в домене видео и омни-модальности
— Публикация результатов исследований в топовых научных конференциях

➕Будет плюсом:
— Опыт дообучения моделей (Supervised Fine-Tuning)
— Публикации уровня А/А* и опыт написания статей
— Призовые места в соревнованиях по машинному обучению (Kaggle, etc.)

—————————
🛠 Задачи Junior DE:
— Поддержка сервисов для сбора и разметки данных
— Построение пайплайнов для создания синтетических датасетов (с помощью нейронных сетей и классических алгоритмов)
— Создание качественных бенчмарков для оценки мультимодальных LLM, преимущественно в домене CV

—————————
Минимальные ожидания:
— Хороший уровень Python 3 🐍
— bash, git, Docker, dvc, OpenCV, pytorch
— Понимание ML и CV
— Умение разбирать и реализовывать идеи из научных статей

—————————
От нас:
➕ отсутствие проблем с вычислительными мощностями
🏙 удаленка или современный agile-офис по желанию
💊 ДМС, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, бесплатная парковка
💰 конкурентная зарплата!

Откликаться через: @m_ovsepyan
❗️В отклике обязательно укажите, на какую вакансию откликаетесь.

#job #hr #gigachat

19.11.202409:53

Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровцев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

07.03.202510:46

😍 HaGRIDv2-1M – 1 МИЛЛИОН изображений для распознавания жестов!
В 2022 году мы представили HaGRID – самый полный на тот момент датасет для обучения моделей жестового управления. Он быстро завоевал популярность, стал основой множества исследований и использовался не только в задачах детекции жестов, но и в генерации анатомически корректных рук с text-to-image моделей.
Сегодня мы представляем HaGRIDv2-1M – расширенную версию датасета с более чем 1 МИЛЛИОНОМ изображений и новым алгоритмом распознавания динамических жестов. Теперь система способна в реальном времени определять свайпы, клики, zoom, drag-n-drop, значительно расширяя возможности жестового управления!

🚀 Что нового?

🔹 15 новых жестов – разговорные («holy», «heart», «gun») и контролирующие («thumb index», «grip», «point» и др.), включая двуручные жесты, такие как «timeout», «take photo» и «xsign», для более гибкого и естественного взаимодействия.
🔹 Алгоритм динамических жестов – поддержка swipe, click, zoom, drag-n-drop без обучения на видео. Алгоритм настолько быстрый, а модели такие компактные, что позволяют распознавать динамические жесты в реальном времени без использования GPU!
🔹 Расширенный класс "no gesture" – больше естественных положений рук — в 16 раз меньше ложных срабатываний.

📊 Эксперименты и результаты

Мы провели сравнение HaGRIDv2-1M с другими датасетами и протестировали его не только в задачах детекции рук и жестов, но и для дообучения моделей text-to-image генерации.

✔️ Лучшая обобщающая способность в cross-dataset evaluation.
✔️ В 16 раз меньше ложных срабатываний на "no gesture" по сравнению с первой версией.
✔️ Идеален для предобучения – модели, обученные на HaGRIDv2-1M, показывают высокие метрики, что делает этот датасет мощной основой для разработки жестовых интерфейсов.
✔️ Дообучение Stable Diffusion на HaGRIDv2-1M улучшило генерацию рук, повысив анатомическую точность.

🖇Ссылки

💻HaGRIDv2-1M
💻Dynamic Gesture Recognition
📖 Статья
🖥 Пост на Habr
👥 Авторы: @drshellycooper @nagadit @AlexS_340 @hukenovs @karinakvanchiani
Будем рады получить ваш фидбек!

05.03.202510:48

🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖 ArXiv: https://arxiv.org/abs/2304.13509
👩‍💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news

27.02.202514:46

🔥 Наши коллеги релизнули open-source модель переноса головы на фото — GHOST 2.0. Подробнее в посте выше и по ссылкам в описании. 🔥

Хоть вклад нашей команды был и не такой значительный, нам удалось помочь коллегам с обучением моделей в задачах портретной сегментации лица и фейс парсинга.

Для работы моделей GHOST необходимо иметь качественную модель сегментации — она используется в модуле Blender, а также на этапах предварительной обработки для выбора головы человека. К модели предъявляются требования:
1) она должна уметь сегментировать прически и волосы на лице как отдельные классы,
2) она должна быть аддитивной, то есть сегментировать таким образом, чтобы мы могли объединить сегменты для получения полной головы.
3) каждый регион должен быть однородным по цвету — например, класс «борода» не должен пересекаться с классом «кожа».

Для обучения модели был собран и размечен датасет EasyPortrait из 20,000 HD+ изображений реальных людей, и на его основе была обучена модель сегментации. Коллеги остановились на Segformer-B5.

На рисунке показано визуальное сравнение нашей модели и бейзлайна.

👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Habr: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Repo: https://ai-forever.github.io/ghost-2.0/

Көрсөтүлдү 1 - 5 ичинде 5

Көбүрөөк функцияларды ачуу үчүн кириңиз.

Цитаталар

Цитаталар