Notcoin Community
Notcoin Community
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
Proxy MTProto | پروکسی
iRo Proxy | پروکسی
iRo Proxy | پروکسی
RnD CV Team avatar

RnD CV Team

Канал команды RND CV.
Repo: https://gitlab.aicloud.sbercloud.ru/rndcv
Тут будем делиться нашими результатами и факапами, мыслями и идеями в Computer Vision и не только.
TGlist рейтинг
0
0
ТипАчык
Текшерүү
Текшерилбеген
Ишенимдүүлүк
Ишенимсиз
ОрдуРосія
ТилиБашка
Канал түзүлгөн датаMay 24, 2023
TGlistке кошулган дата
Nov 26, 2024
Тиркелген топ

Рекорддор

10.03.202523:59
2.6KКатталгандар
19.11.202423:59
0Цитация индекси
28.02.202523:59
2.6K1 посттун көрүүлөрү
27.02.202516:01
2.6K1 жарнама посттун көрүүлөрү
08.03.202523:59
2.95%ER
27.02.202516:01
103.49%ERR
Катталуучулар
Citation индекси
Бир посттун көрүүсү
Жарнамалык посттун көрүүсү
ER
ERR
DEC '24JAN '25FEB '25MAR '25

RnD CV Team популярдуу жазуулары

11.03.202509:58
Усиляем команду! 🦾

👁 Senior ML Engineer и 🛠 Junior DE в направление мультимодального GigaChat.

👥 О команде:
Команда RnD CV занимается исследованиями мультимодальных моделей в области компьютерного зрения. Мы стремимся довести результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.

—————————
👁 Задачи Senior MLE:
— Практический опыт в компьютерном зрении, включая обработку видео (распознавание, трекинг, анализ временных последовательностей)
— Работа с большими мультимодальными языковыми моделями, VLM (LLaVA, QwenVL, DeepSeekVL и т.д.)
— Обучение, валидация и имплементация новых state-of-the-art подходов для задач компьютерного зрения
— Работа с VLM в домене видео и омни-модальности
— Публикация результатов исследований в топовых научных конференциях

Будет плюсом:
— Опыт дообучения моделей (Supervised Fine-Tuning)
— Публикации уровня А/А* и опыт написания статей
— Призовые места в соревнованиях по машинному обучению (Kaggle, etc.)


—————————
🛠 Задачи Junior DE:
— Поддержка сервисов для сбора и разметки данных
— Построение пайплайнов для создания синтетических датасетов (с помощью нейронных сетей и классических алгоритмов)
— Создание качественных бенчмарков для оценки мультимодальных LLM, преимущественно в домене CV

—————————
Минимальные ожидания:
— Хороший уровень Python 3 🐍
— bash, git, Docker, dvc, OpenCV, pytorch
— Понимание ML и CV
— Умение разбирать и реализовывать идеи из научных статей

—————————
От нас:
➕ отсутствие проблем с вычислительными мощностями
🏙 удаленка или современный agile-офис по желанию
💊 ДМС, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, бесплатная парковка
💰 конкурентная зарплата!

Откликаться через: @m_ovsepyan
❗️В отклике обязательно укажите, на какую вакансию откликаетесь.

#job #hr #gigachat
😍 HaGRIDv2-1M – 1 МИЛЛИОН изображений для распознавания жестов!
В 2022 году мы представили HaGRID – самый полный на тот момент датасет для обучения моделей жестового управления. Он быстро завоевал популярность, стал основой множества исследований и использовался не только в задачах детекции жестов, но и в генерации анатомически корректных рук с text-to-image моделей.
Сегодня мы представляем HaGRIDv2-1M – расширенную версию датасета с более чем 1 МИЛЛИОНОМ изображений и новым алгоритмом распознавания динамических жестов. Теперь система способна в реальном времени определять свайпы, клики, zoom, drag-n-drop, значительно расширяя возможности жестового управления!

🚀 Что нового?

🔹 15 новых жестов – разговорные («holy», «heart», «gun») и контролирующие («thumb index», «grip», «point» и др.), включая двуручные жесты, такие как «timeout», «take photo» и «xsign», для более гибкого и естественного взаимодействия.
🔹 Алгоритм динамических жестов – поддержка swipe, click, zoom, drag-n-drop без обучения на видео. Алгоритм настолько быстрый, а модели такие компактные, что позволяют распознавать динамические жесты в реальном времени без использования GPU!
🔹 Расширенный класс "no gesture" – больше естественных положений рук — в 16 раз меньше ложных срабатываний.

📊 Эксперименты и результаты

Мы провели сравнение HaGRIDv2-1M с другими датасетами и протестировали его не только в задачах детекции рук и жестов, но и для дообучения моделей text-to-image генерации.

✔️ Лучшая обобщающая способность в cross-dataset evaluation.
✔️ В 16 раз меньше ложных срабатываний на "no gesture" по сравнению с первой версией.
✔️ Идеален для предобучения – модели, обученные на HaGRIDv2-1M, показывают высокие метрики, что делает этот датасет мощной основой для разработки жестовых интерфейсов.
✔️ Дообучение Stable Diffusion на HaGRIDv2-1M улучшило генерацию рук, повысив анатомическую точность.

🖇Ссылки

💻HaGRIDv2-1M
💻Dynamic Gesture Recognition
📖 Статья
🖥 Пост на Habr
👥 Авторы: @drshellycooper @nagadit @AlexS_340 @hukenovs @karinakvanchiani
Будем рады получить ваш фидбек!
🔥 Наши коллеги релизнули open-source модель переноса головы на фото — GHOST 2.0. Подробнее в посте выше и по ссылкам в описании. 🔥

Хоть вклад нашей команды был и не такой значительный, нам удалось помочь коллегам с обучением моделей в задачах портретной сегментации лица и фейс парсинга.

Для работы моделей GHOST необходимо иметь качественную модель сегментации — она используется в модуле Blender, а также на этапах предварительной обработки для выбора головы человека. К модели предъявляются требования:
1) она должна уметь сегментировать прически и волосы на лице как отдельные классы,
2) она должна быть аддитивной, то есть сегментировать таким образом, чтобы мы могли объединить сегменты для получения полной головы.
3) каждый регион должен быть однородным по цвету — например, класс «борода» не должен пересекаться с классом «кожа».

Для обучения модели был собран и размечен датасет EasyPortrait из 20,000 HD+ изображений реальных людей, и на его основе была обучена модель сегментации. Коллеги остановились на Segformer-B5.

На рисунке показано визуальное сравнение нашей модели и бейзлайна.

👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Habr: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Repo: https://ai-forever.github.io/ghost-2.0/
🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖 ArXiv: https://arxiv.org/abs/2304.13509
👩‍💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news
Көбүрөөк функцияларды ачуу үчүн кириңиз.