12.03.202508:49
🚀 Seedream 2.0: Новая эра двуязычной генерации изображений от ByteDance
ByteDance впервые раскрывает детали технологии базовой модели генерации изображений! Раскрыт весь процесс от обработки данных до RLHF. Модель уже используется в приложении Doubao и платформе JIMENG, обслуживая миллионы пользователей.
✨ Основные особенности:
1️⃣ Четырехмерная архитектура данных: Баланс качества и разнообразия данных через четыре уровня: качественные данные, поддержка распределения, инъекция знаний и направленное усиление.
2️⃣ Умный механизм аннотации: Трехуровневая система, улучшающая описание изображений и поддерживающая мультиязычность.
3️⃣ Инженерные улучшения: Оптимизация процессов обработки данных, что ускорило упаковку данных в 8 раз.
🎨 Преимущества Seedream 2.0:
- Лучшее понимание и визуализация текста на китайском и английском языках.
- Уникальная способность генерировать изображения с учетом культурных особенностей.
- Высокая точность в создании художественных и научных иллюстраций.
📊 Результаты тестов:
- На английских запросах модель превосходит Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro.
- На китайских запросах достигает 78% доступности текста и 63% точности ответа на запросы.
🔗 Подробнее о технологии:
Полный отчет на arXiv
Сайт проекта
#КитайскийИИ #КитайAI #ГенерацияИзображений #Seedream2 #ByteDance
ByteDance впервые раскрывает детали технологии базовой модели генерации изображений! Раскрыт весь процесс от обработки данных до RLHF. Модель уже используется в приложении Doubao и платформе JIMENG, обслуживая миллионы пользователей.
✨ Основные особенности:
1️⃣ Четырехмерная архитектура данных: Баланс качества и разнообразия данных через четыре уровня: качественные данные, поддержка распределения, инъекция знаний и направленное усиление.
2️⃣ Умный механизм аннотации: Трехуровневая система, улучшающая описание изображений и поддерживающая мультиязычность.
3️⃣ Инженерные улучшения: Оптимизация процессов обработки данных, что ускорило упаковку данных в 8 раз.
🎨 Преимущества Seedream 2.0:
- Лучшее понимание и визуализация текста на китайском и английском языках.
- Уникальная способность генерировать изображения с учетом культурных особенностей.
- Высокая точность в создании художественных и научных иллюстраций.
📊 Результаты тестов:
- На английских запросах модель превосходит Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro.
- На китайских запросах достигает 78% доступности текста и 63% точности ответа на запросы.
🔗 Подробнее о технологии:
Полный отчет на arXiv
Сайт проекта
#КитайскийИИ #КитайAI #ГенерацияИзображений #Seedream2 #ByteDance
03.02.202507:17
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая
🚀 Huawei: Китайский гигант создает независимую ИИ-экосистему вопреки санкциям
В условиях жестких санкций Huawei демонстрирует впечатляющий прогресс в построении автономной экосистемы искусственного интеллекта Китая. На прошедшем мероприятии Huawei Connect 2024 компания представила новые проекты Modelers и openMind, закладывающие фундамент технологической независимости Китая.
🔍 Modelers: основа для китайского ИИ
Modelers — это AI-экосистема, разработанная совместно с China Telecom. Она предоставляет разработчикам доступ к инструментам, данным, моделям и приложениям (TDMA), поддерживая полный жизненный цикл создания AI-решений. Уже сейчас Modelers предлагает более 7000 высококачественных датасетов и 2000 открытых моделей, включая ведущие китайские разработки, такие как DeepSeek, Qwen и Kimi.
💡 openMind: китайская альтернатива HuggingFace
openMind — это набор инструментов для разработки AI-приложений, который поддерживает обучение, тонкую настройку и инференс моделей. Совместимый с популярными фреймворками, такими как PyTorch и MindSpore, openMind оптимизирован для работы с NPU Huawei Ascend, что позволяет разработчикам быстрее создавать и внедрять AI-решения на отечественных чипах.
🤝 Партнерство и экосистема
Huawei активно сотрудничает с китайскими сообществами, такими как GiteeAI, OpenI и GitCode, чтобы создать инклюзивную экосистему для разработчиков. Это позволяет компаниям и независимым специалистам совместно работать над инновациями, делиться ресурсами и ускорять развитие китайского ИИ.
⚠ Почему это важно?
Развитие экосистем Modelers и openMind идет параллельно с созданием собственного аппаратного обеспечения Huawei, включая NPU Ascend и решения Atlas. Это укрепляет позиции компании как ведущей ИИ-платформы Китая, обеспечивая технологическую независимость и замещение зарубежных решений, таких как NVIDIA.
🔗 Узнать больше:
- Официальный сайт Modelers: ссылка
- Официальный сайт Huawei Atlas: ссылка
- Документация openMind: ссылка
#КитайскийИИ #КитайAI #AI #Huawei #Modelers #openMind #ИскусственныйИнтеллект
🚀 Huawei: Китайский гигант создает независимую ИИ-экосистему вопреки санкциям
В условиях жестких санкций Huawei демонстрирует впечатляющий прогресс в построении автономной экосистемы искусственного интеллекта Китая. На прошедшем мероприятии Huawei Connect 2024 компания представила новые проекты Modelers и openMind, закладывающие фундамент технологической независимости Китая.
🔍 Modelers: основа для китайского ИИ
Modelers — это AI-экосистема, разработанная совместно с China Telecom. Она предоставляет разработчикам доступ к инструментам, данным, моделям и приложениям (TDMA), поддерживая полный жизненный цикл создания AI-решений. Уже сейчас Modelers предлагает более 7000 высококачественных датасетов и 2000 открытых моделей, включая ведущие китайские разработки, такие как DeepSeek, Qwen и Kimi.
💡 openMind: китайская альтернатива HuggingFace
openMind — это набор инструментов для разработки AI-приложений, который поддерживает обучение, тонкую настройку и инференс моделей. Совместимый с популярными фреймворками, такими как PyTorch и MindSpore, openMind оптимизирован для работы с NPU Huawei Ascend, что позволяет разработчикам быстрее создавать и внедрять AI-решения на отечественных чипах.
🤝 Партнерство и экосистема
Huawei активно сотрудничает с китайскими сообществами, такими как GiteeAI, OpenI и GitCode, чтобы создать инклюзивную экосистему для разработчиков. Это позволяет компаниям и независимым специалистам совместно работать над инновациями, делиться ресурсами и ускорять развитие китайского ИИ.
⚠ Почему это важно?
Развитие экосистем Modelers и openMind идет параллельно с созданием собственного аппаратного обеспечения Huawei, включая NPU Ascend и решения Atlas. Это укрепляет позиции компании как ведущей ИИ-платформы Китая, обеспечивая технологическую независимость и замещение зарубежных решений, таких как NVIDIA.
🔗 Узнать больше:
- Официальный сайт Modelers: ссылка
- Официальный сайт Huawei Atlas: ссылка
- Документация openMind: ссылка
#КитайскийИИ #КитайAI #AI #Huawei #Modelers #openMind #ИскусственныйИнтеллект


30.01.202513:48
🔮 CN-AI-MODELS | ИИ модели Китая
Команда Doubao представила модель Video Depth Anything (VDA), которая решает ключевые проблемы оценки глубины в видео. Это открывает новые горизонты для AR, 3D-реконструкции и автономных систем.
🔍 Что такое VDA?
- Модель основана на Depth Anything V2.
- Решает проблему временной согласованности в длинных видео.
- Поддерживает обработку видео до 10 минут с высокой точностью и скоростью.
💡 Основные особенности:
- Эффективность: Скорость обработки достигает 30 FPS даже на небольших графических картах.
- Точность: Улучшение точности на 10% по сравнению с предыдущими решениями.
- Стабильность: Лучшие показатели стабильности на 6 тестовых наборах данных.
📊 Результаты экспериментов:
- VDA-L и VDA-S превосходят конкурентов по всем ключевым метрикам.
- Модель демонстрирует стабильную производительность даже на сверхдлинных видео.
📌 Полезные ссылки:
- Статья на arXiv
- Официальный сайт проекта
- Репозиторий на GitHub
#КитайскийИИ #КитайAI #ByteDance #Doubao #VDA
Команда Doubao представила модель Video Depth Anything (VDA), которая решает ключевые проблемы оценки глубины в видео. Это открывает новые горизонты для AR, 3D-реконструкции и автономных систем.
🔍 Что такое VDA?
- Модель основана на Depth Anything V2.
- Решает проблему временной согласованности в длинных видео.
- Поддерживает обработку видео до 10 минут с высокой точностью и скоростью.
💡 Основные особенности:
- Эффективность: Скорость обработки достигает 30 FPS даже на небольших графических картах.
- Точность: Улучшение точности на 10% по сравнению с предыдущими решениями.
- Стабильность: Лучшие показатели стабильности на 6 тестовых наборах данных.
📊 Результаты экспериментов:
- VDA-L и VDA-S превосходят конкурентов по всем ключевым метрикам.
- Модель демонстрирует стабильную производительность даже на сверхдлинных видео.
📌 Полезные ссылки:
- Статья на arXiv
- Официальный сайт проекта
- Репозиторий на GitHub
#КитайскийИИ #КитайAI #ByteDance #Doubao #VDA
28.01.202513:28
🎯 CN-AI-EVENTS | Знакомимся с ключевыми мероприятиями по ИИ в Китае
🌟 World Artificial Intelligence Conference (WAIC)
WAIC - это одна из крупнейших и наиболее влиятельных международных конференций в области искусственного интеллекта. Ежегодное мероприятие, проводимое в Шанхае, собирает ведущих экспертов, исследователей и представителей бизнеса со всего мира для обсуждения последних достижений и будущего ИИ.
🏆 Значимость конференции:
• Входит в ТОП-3 глобальных событий в сфере ИИ
• Площадка для презентации прорывных технологий
• Место заключения крупнейших международных контрактов
• Формирование глобальных трендов развития ИИ
🔥 Ключевые показатели WAIC 2024:
• 9 лауреатов престижных премий (Тьюринга, Филдса и Нобелевской) и 88 академиков
• Более 500 компаний-участников
• 1500+ инновационных экспонатов
• 300 000 посетителей офлайн
• 2 миллиарда просмотров онлайн
• Общая площадь: 50 000 кв.м
💡 Главные темы конференции:
- Этика и управление в сфере ИИ
- Базовые модели и воплощенный ИИ
- Инвестиции и развитие талантов
- Применение ИИ в энергетике, астрономии, робототехнике и др. отраслях
🌍 Влияние на индустрию:
• Формирование международных стандартов ИИ
• Запуск глобальных исследовательских проектов
• Создание новых партнерств и альянсов
• Привлечение многомиллиардных инвестиций в сектор
🗓 WAIC 2025 предварительно пройдет в июне в Шанхае
Официальные ресурсы:
• Сайт: https://www.worldaic.com.cn/en
• LinkedIn: https://www.linkedin.com/company/world-artificial-intelligence-conference
#WAIC #AIEVENTS #ИскусственныйИнтеллект #Технологии #Инновации
🌟 World Artificial Intelligence Conference (WAIC)
WAIC - это одна из крупнейших и наиболее влиятельных международных конференций в области искусственного интеллекта. Ежегодное мероприятие, проводимое в Шанхае, собирает ведущих экспертов, исследователей и представителей бизнеса со всего мира для обсуждения последних достижений и будущего ИИ.
🏆 Значимость конференции:
• Входит в ТОП-3 глобальных событий в сфере ИИ
• Площадка для презентации прорывных технологий
• Место заключения крупнейших международных контрактов
• Формирование глобальных трендов развития ИИ
🔥 Ключевые показатели WAIC 2024:
• 9 лауреатов престижных премий (Тьюринга, Филдса и Нобелевской) и 88 академиков
• Более 500 компаний-участников
• 1500+ инновационных экспонатов
• 300 000 посетителей офлайн
• 2 миллиарда просмотров онлайн
• Общая площадь: 50 000 кв.м
💡 Главные темы конференции:
- Этика и управление в сфере ИИ
- Базовые модели и воплощенный ИИ
- Инвестиции и развитие талантов
- Применение ИИ в энергетике, астрономии, робототехнике и др. отраслях
🌍 Влияние на индустрию:
• Формирование международных стандартов ИИ
• Запуск глобальных исследовательских проектов
• Создание новых партнерств и альянсов
• Привлечение многомиллиардных инвестиций в сектор
🗓 WAIC 2025 предварительно пройдет в июне в Шанхае
Официальные ресурсы:
• Сайт: https://www.worldaic.com.cn/en
• LinkedIn: https://www.linkedin.com/company/world-artificial-intelligence-conference
#WAIC #AIEVENTS #ИскусственныйИнтеллект #Технологии #Инновации
11.03.202509:48
👥 CN-AI-LEADERS | Знакомимся с лидерами индустрии
🤖 ViLLA и GO-1: Новый этап в развитии робототехники
Компания AgiBot Robotics представила две инновационные разработки, которые могут изменить подход к обучению роботов. Речь идет о новой архитектуре Vision-Language-Latent-Action (ViLLA) и универсальной базовой модели GO-1. Эти технологии позволяют роботам эффективно обучаться на основе видео, текста и реальных действий.
🔍 Проблема данных для обучения роботов:
Роботы требуют огромного количества данных для обучения, включая:
- Тексты и изображения для понимания мира.
- Видео действий людей и других роботов.
- Данные из симуляций и реальных операций.
Однако существующие системы, такие как VLA (Vision-Language-Action), не могут полноценно использовать видеоданные с действиями людей, что замедляет развитие робототехники.
🌟 Решение: ViLLA и GO-1
Новая архитектура ViLLA позволяет роботам использовать видео с действиями человека, преобразуя их в последовательности действий, понятные машинам. Это значительно ускоряет обучение и делает его более доступным.
Модель GO-1, построенная на основе ViLLA, объединяет визуальные, языковые и тактильные данные, чтобы роботы могли выполнять сложные задачи, например, вешать одежду или убирать стол.
📊 Результаты тестов:
- Успешность выполнения задач выросла на 32% (с 46% до 78%).
- Особенно впечатляют результаты в задачах "налить воду", "убрать стол" и "пополнить запасы напитков".
🌐 Открытые данные и будущее
AgiBot Robotics активно делится своими разработками, чтобы ускорить прогресс в робототехнике. Среди последних инициатив — открытый доступ к набору данных AgiBot World и симуляционному набору AgiBot Digital World.
С полной информацией можно ознакомиться здесь.
#КитайскийИИ #КитайAI #Робототехника #ИскусственныйИнтеллект #Технологии #AgiBot
🤖 ViLLA и GO-1: Новый этап в развитии робототехники
Компания AgiBot Robotics представила две инновационные разработки, которые могут изменить подход к обучению роботов. Речь идет о новой архитектуре Vision-Language-Latent-Action (ViLLA) и универсальной базовой модели GO-1. Эти технологии позволяют роботам эффективно обучаться на основе видео, текста и реальных действий.
🔍 Проблема данных для обучения роботов:
Роботы требуют огромного количества данных для обучения, включая:
- Тексты и изображения для понимания мира.
- Видео действий людей и других роботов.
- Данные из симуляций и реальных операций.
Однако существующие системы, такие как VLA (Vision-Language-Action), не могут полноценно использовать видеоданные с действиями людей, что замедляет развитие робототехники.
🌟 Решение: ViLLA и GO-1
Новая архитектура ViLLA позволяет роботам использовать видео с действиями человека, преобразуя их в последовательности действий, понятные машинам. Это значительно ускоряет обучение и делает его более доступным.
Модель GO-1, построенная на основе ViLLA, объединяет визуальные, языковые и тактильные данные, чтобы роботы могли выполнять сложные задачи, например, вешать одежду или убирать стол.
📊 Результаты тестов:
- Успешность выполнения задач выросла на 32% (с 46% до 78%).
- Особенно впечатляют результаты в задачах "налить воду", "убрать стол" и "пополнить запасы напитков".
🌐 Открытые данные и будущее
AgiBot Robotics активно делится своими разработками, чтобы ускорить прогресс в робототехнике. Среди последних инициатив — открытый доступ к набору данных AgiBot World и симуляционному набору AgiBot Digital World.
С полной информацией можно ознакомиться здесь.
#КитайскийИИ #КитайAI #Робототехника #ИскусственныйИнтеллект #Технологии #AgiBot
02.02.202506:12
🔮 CN-AI-MODELS | ИИ модели Китая
🤖 Империя наносит ответный удар: OpenAI выпустила новый модельный ряд o3-mini
Этот шаг стал ответом на успехи китайского конкурента DeepSeek R1, который недавно захватил внимание разработчиков. Но что делает o3-mini таким особенным? Давайте разбираться.
✨ Что нового в o3-mini?
• Впервые OpenAI открывает доступ к своим моделям для бесплатных пользователей.
• Стоимость использования снижена в 15 раз по сравнению с предыдущими версиями.
• Модель обещает быть самой экономичной и эффективной в линейке OpenAI.
💡 Как o3-mini справляется с задачами?
Разработчики сразу же начали тесты, сравнивая o3-mini с DeepSeek R1. Один из ключевых тестов — написание Python-скрипта для симуляции мяча, прыгающего внутри вращающегося шестиугольника.
Результаты впечатляют:
• o3-mini идеально учитывает гравитацию и трение.
• DeepSeek R1, хотя и справляется, но демонстрирует странные физические аномалии (мяч "не слушается" законов Ньютона).
🔍 Тест на сложность: 4D-куб
Еще один интересный эксперимент — симуляция мяча внутри четырехмерного гиперкуба. Здесь o3-mini снова показал себя лучше:
• Геометрия гиперкуба воспроизведена стабильно.
• Траектория мяча выглядит реалистично.
• DeepSeek R1 упростил задачу до трехмерного пространства, потеряв часть сложности.
📊 Выводы:
• o3-mini доказал свою эффективность в сложных задачах, особенно в физике и геометрии.
• DeepSeek R1 остается сильным конкурентом, но иногда "перемудряет".
• OpenAI продолжает совершенствовать свои модели, делая их доступнее.
Подробнее здесь
Анонс o3-mini
#КитайскийИИ #КитайAI #OpenAI #DeepSeek #ИскусственныйИнтеллект
🤖 Империя наносит ответный удар: OpenAI выпустила новый модельный ряд o3-mini
Этот шаг стал ответом на успехи китайского конкурента DeepSeek R1, который недавно захватил внимание разработчиков. Но что делает o3-mini таким особенным? Давайте разбираться.
✨ Что нового в o3-mini?
• Впервые OpenAI открывает доступ к своим моделям для бесплатных пользователей.
• Стоимость использования снижена в 15 раз по сравнению с предыдущими версиями.
• Модель обещает быть самой экономичной и эффективной в линейке OpenAI.
💡 Как o3-mini справляется с задачами?
Разработчики сразу же начали тесты, сравнивая o3-mini с DeepSeek R1. Один из ключевых тестов — написание Python-скрипта для симуляции мяча, прыгающего внутри вращающегося шестиугольника.
Результаты впечатляют:
• o3-mini идеально учитывает гравитацию и трение.
• DeepSeek R1, хотя и справляется, но демонстрирует странные физические аномалии (мяч "не слушается" законов Ньютона).
🔍 Тест на сложность: 4D-куб
Еще один интересный эксперимент — симуляция мяча внутри четырехмерного гиперкуба. Здесь o3-mini снова показал себя лучше:
• Геометрия гиперкуба воспроизведена стабильно.
• Траектория мяча выглядит реалистично.
• DeepSeek R1 упростил задачу до трехмерного пространства, потеряв часть сложности.
📊 Выводы:
• o3-mini доказал свою эффективность в сложных задачах, особенно в физике и геометрии.
• DeepSeek R1 остается сильным конкурентом, но иногда "перемудряет".
• OpenAI продолжает совершенствовать свои модели, делая их доступнее.
Подробнее здесь
Анонс o3-mini
#КитайскийИИ #КитайAI #OpenAI #DeepSeek #ИскусственныйИнтеллект
30.01.202505:52
👥 CN-AI-LEADERS | Знакомимся с лидерами индустрии
Какой чат-бот стал самым популярным в Китае в 2024 году? Нашумевший DeepSeek или мощный Qwen? Нет! Это Doubao — чат-бот от создателей TikTok.
В 2024 году ByteDance представила мультимодального ИИ-помощника Doubao, который за полгода стал лидером на китайском рынке. Количество активных пользователей Doubao превысило 70 млн в месяц, что в 4 раза больше, чем у ближайшего конкурента — чат-бота Kimi от Moonshot (16.7 млн). В пятерку лидеров также вошли чат-боты от Baidu (13.4 млн), Zhipu (6.3 млн), Alibaba Cloud и iFlyTek (менее 6 млн).
🎯 Главные особенности Doubao
1. Интеграция с экосистемой ByteDance:
• Doubao учится на данных из Douyin (название TikTok в Китае), что делает его особенно сильным в понимании трендов и молодежной культуры.
2. Сверхбыстрые голосовые звонки
• Задержка всего 700 мс (в 2 раза быстрее конкурентов)
• Естественные эмоции в голосе и возможность имитации разных голосов
3. Умный поиск (AI Search)
• Мгновенный анализ веб-страниц
• Точные ответы на вопросы с учетом контекста беседы.
4.Креативные возможности
• Создание текстов любых форматов
• Генерация и редактирование изображений
• Скоро: преобразование текста в видео
Доступ к огромной пользовательской базе и данным существующих продуктов – ключевое преимущество технологических гигантов в гонке ИИ. ByteDance наглядно показала, как можно использовать популярность TikTok/Douyin для быстрого масштабирования нового продукта. Даже при наличии сильных технологических решений у конкурентов, преимущество в охвате аудитории может стать решающим фактором успеха.
🌐 https://www.doubao.com
Источник
#AIMODELS #КитайскийИИ #КитайAI #ByteDance #Doubao #TikTok #DeepSeek #Qwen #Kimi
Какой чат-бот стал самым популярным в Китае в 2024 году? Нашумевший DeepSeek или мощный Qwen? Нет! Это Doubao — чат-бот от создателей TikTok.
В 2024 году ByteDance представила мультимодального ИИ-помощника Doubao, который за полгода стал лидером на китайском рынке. Количество активных пользователей Doubao превысило 70 млн в месяц, что в 4 раза больше, чем у ближайшего конкурента — чат-бота Kimi от Moonshot (16.7 млн). В пятерку лидеров также вошли чат-боты от Baidu (13.4 млн), Zhipu (6.3 млн), Alibaba Cloud и iFlyTek (менее 6 млн).
🎯 Главные особенности Doubao
1. Интеграция с экосистемой ByteDance:
• Doubao учится на данных из Douyin (название TikTok в Китае), что делает его особенно сильным в понимании трендов и молодежной культуры.
2. Сверхбыстрые голосовые звонки
• Задержка всего 700 мс (в 2 раза быстрее конкурентов)
• Естественные эмоции в голосе и возможность имитации разных голосов
3. Умный поиск (AI Search)
• Мгновенный анализ веб-страниц
• Точные ответы на вопросы с учетом контекста беседы.
4.Креативные возможности
• Создание текстов любых форматов
• Генерация и редактирование изображений
• Скоро: преобразование текста в видео
Доступ к огромной пользовательской базе и данным существующих продуктов – ключевое преимущество технологических гигантов в гонке ИИ. ByteDance наглядно показала, как можно использовать популярность TikTok/Douyin для быстрого масштабирования нового продукта. Даже при наличии сильных технологических решений у конкурентов, преимущество в охвате аудитории может стать решающим фактором успеха.
🌐 https://www.doubao.com
Источник
#AIMODELS #КитайскийИИ #КитайAI #ByteDance #Doubao #TikTok #DeepSeek #Qwen #Kimi
28.01.202504:17
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Китайский ИИ DeepSeek продолжает шокировать мир: Janus-Pro и новый вызов для рынка AI 🔥
📊 Вчера запуск дешёвой модели DeepSeek-R1 вызвал настоящую панику среди технологических гигантов. Только NVIDIA и Broadcom потеряли более $800 млрд рыночной капитализации.
А сегодня китайская лаборатория ИИ DeepSeek представила усовершенствованную версию своей визуальной модели — Janus-Pro. Её уже называют революцией в области компьютерного зрения.
🤖 Что нового в Janus-Pro?
• Это улучшенная версия модели Janus с тремя ключевыми изменениями: оптимизация стратегии обучения, расширение данных и масштабирование до более крупной модели.
• Janus-Pro превосходит такие известные модели, как DALL-E 3 и Stable Diffusion, по точности и стабильности генерации изображений.
• Доступны две версии: 7B и 1B параметров, что делает её эффективной даже на устройствах с ограниченными ресурсами.
📚 Подробнее о Janus-Pro:
- Технический отчет: ссылка.
- Попробовать модель: Hugging Face.
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #DeepSeek #JanusPro
🔥 Китайский ИИ DeepSeek продолжает шокировать мир: Janus-Pro и новый вызов для рынка AI 🔥
📊 Вчера запуск дешёвой модели DeepSeek-R1 вызвал настоящую панику среди технологических гигантов. Только NVIDIA и Broadcom потеряли более $800 млрд рыночной капитализации.
А сегодня китайская лаборатория ИИ DeepSeek представила усовершенствованную версию своей визуальной модели — Janus-Pro. Её уже называют революцией в области компьютерного зрения.
🤖 Что нового в Janus-Pro?
• Это улучшенная версия модели Janus с тремя ключевыми изменениями: оптимизация стратегии обучения, расширение данных и масштабирование до более крупной модели.
• Janus-Pro превосходит такие известные модели, как DALL-E 3 и Stable Diffusion, по точности и стабильности генерации изображений.
• Доступны две версии: 7B и 1B параметров, что делает её эффективной даже на устройствах с ограниченными ресурсами.
📚 Подробнее о Janus-Pro:
- Технический отчет: ссылка.
- Попробовать модель: Hugging Face.
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #DeepSeek #JanusPro
07.03.202508:31
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 INT8-квантование для DeepSeek R1: как снизить затраты на вычисления и повысить производительность
Команда Meituan представила новое решение для оптимизации модели DeepSeek R1. Благодаря использованию INT8-квантования, удалось добиться значительного увеличения пропускной способности при сохранении точности модели.
🧠 Что сделано:
- Разработаны два метода квантования: блочное (Block-wise) и канальное (Channel-wise).
- Оба метода позволяют использовать модель на GPU A100, что ранее было невозможно из-за ограничений FP8.
- Результаты:
- Блочное квантование увеличивает пропускную способность на 33%.
- Канальное квантование — до 50%!
🔧 Как это работает:
- Веса модели преобразуются из FP8 в BF16, а затем квантуются в INT8.
- Для активаций используется поэлементное квантование в реальном времени.
- Это позволяет существенно снизить требования к памяти и ускорить вычисления.
📊 Результаты тестов:
На тестах GSM8K и MMLU точность моделей с INT8 практически не отличается от оригинальной версии с BF16/FP8.
💻 Как попробовать:
Код и веса уже доступны на Hugging Face:
- Block-wise INT8
- Channel-wise INT8
Подробнее о реализации и инструкции по запуску можно найти в репозитории SGLang:
- Block-wise поддержка
- Channel-wise поддержка
🤔 Зачем это нужно:
Этот подход открывает возможность использования мощных моделей на устаревшем оборудовании, что особенно важно для разработчиков с ограниченными ресурсами.
#КитайскийИИ #КитайAI #ИИ #МашинноеОбучение #Оптимизация #DeepSeek
🚀 INT8-квантование для DeepSeek R1: как снизить затраты на вычисления и повысить производительность
Команда Meituan представила новое решение для оптимизации модели DeepSeek R1. Благодаря использованию INT8-квантования, удалось добиться значительного увеличения пропускной способности при сохранении точности модели.
🧠 Что сделано:
- Разработаны два метода квантования: блочное (Block-wise) и канальное (Channel-wise).
- Оба метода позволяют использовать модель на GPU A100, что ранее было невозможно из-за ограничений FP8.
- Результаты:
- Блочное квантование увеличивает пропускную способность на 33%.
- Канальное квантование — до 50%!
🔧 Как это работает:
- Веса модели преобразуются из FP8 в BF16, а затем квантуются в INT8.
- Для активаций используется поэлементное квантование в реальном времени.
- Это позволяет существенно снизить требования к памяти и ускорить вычисления.
📊 Результаты тестов:
На тестах GSM8K и MMLU точность моделей с INT8 практически не отличается от оригинальной версии с BF16/FP8.
💻 Как попробовать:
Код и веса уже доступны на Hugging Face:
- Block-wise INT8
- Channel-wise INT8
Подробнее о реализации и инструкции по запуску можно найти в репозитории SGLang:
- Block-wise поддержка
- Channel-wise поддержка
🤔 Зачем это нужно:
Этот подход открывает возможность использования мощных моделей на устаревшем оборудовании, что особенно важно для разработчиков с ограниченными ресурсами.
#КитайскийИИ #КитайAI #ИИ #МашинноеОбучение #Оптимизация #DeepSeek
31.01.202516:45
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Qwen2.5-VL: Cookbooks
Думаете, чем заняться на выходных? Предлагаем изучить серию ноутбуков по новейшей визуальной модели Qwen2.5-VL! Команда разработчиков подготовила отличные материалы, которые помогут вам разобраться в возможностях модели и, возможно, вдохновят на создание собственных креативных приложений.
🖥️ Управление компьютером
Модель может анализировать скриншоты рабочего стола и выполнять точные действия на основе пользовательских запросов.
[Подробнее...]
🌍 Пространственное понимание
Демонстрация продвинутых способностей к позиционированию объектов и интерпретации сложных сцен.
[Подробнее...]
📄 Анализ документов
Возможность обработки изображений документов и экспорта содержимого в различных форматах.
[Подробнее...]
📱 Мобильный агент
Интерактивное взаимодействие с мобильными устройствами через модель.
[Подробнее...]
📚 Эти и другие примеры доступны в репозитории GitHub:
👉 Перейти к примерам
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ComputerVision #OCR #Qwen #Alibaba
🚀 Qwen2.5-VL: Cookbooks
Думаете, чем заняться на выходных? Предлагаем изучить серию ноутбуков по новейшей визуальной модели Qwen2.5-VL! Команда разработчиков подготовила отличные материалы, которые помогут вам разобраться в возможностях модели и, возможно, вдохновят на создание собственных креативных приложений.
🖥️ Управление компьютером
Модель может анализировать скриншоты рабочего стола и выполнять точные действия на основе пользовательских запросов.
[Подробнее...]
🌍 Пространственное понимание
Демонстрация продвинутых способностей к позиционированию объектов и интерпретации сложных сцен.
[Подробнее...]
📄 Анализ документов
Возможность обработки изображений документов и экспорта содержимого в различных форматах.
[Подробнее...]
📱 Мобильный агент
Интерактивное взаимодействие с мобильными устройствами через модель.
[Подробнее...]
📚 Эти и другие примеры доступны в репозитории GitHub:
👉 Перейти к примерам
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ComputerVision #OCR #Qwen #Alibaba
29.01.202513:39
⚡️ CN-AI-TRENDS | Тренды ИИ
🚀 10 ключевых ИИ трендов 2025 года: мнение китайских экспертов
1️⃣ Интеллектуальные агенты: начало новой эры
Интеллектуальные агенты становятся основной формой применения ИИ. Они уже используются в финансах, образовании, разработке ПО и других областях. В будущем они станут еще более специализированными, автоматизированными и способными к совместной работе.
2️⃣ Мультимодальные модели: битва гигантов
В 2025 году конкуренция между мультимодальными моделями достигнет пика. Такие модели, как Gemini 2.0 от Google и CogVideoX от Zhipu AI, будут бороться за лидерство, предлагая улучшенное взаимодействие с пользователями.
3️⃣ Генерация видео из текста
Технологии создания видео на основе текста или изображений будут развиваться быстрыми темпами. Это открывает новые возможности для творчества и производства контента.
4️⃣ Долговременная память ИИ
ИИ будет лучше справляться с запоминанием и обработкой информации, что позволит ему эффективнее работать с большими объемами данных.
5️⃣ Квантовые вычисления: революция в мощности
Квантовые компьютеры ускорят обучение моделей и откроют новые горизонты в таких областях, как фармацевтика и климатические исследования.
6️⃣ Локальные модели: новый уровень мобильности
С развитием IoT и мобильных устройств локальные модели станут более мощными, обеспечивая лучшую защиту данных и скорость работы.
7️⃣ "Физический" ИИ: новое измерение взаимодействия
ИИ начнет активнее взаимодействовать с физическим миром через роботов и другие устройства, что особенно важно для медицины и образования.
8️⃣ Человекоподобные роботы и пространственный интеллект
Роботы станут более автономными, а системы пространственного интеллекта — более точными, что значительно расширит их применение.
9️⃣ Самовоспроизводящиеся ИИ-системы
ИИ будет использовать синтетические данные для обучения, что повысит качество его работы.
🔟 Основной закон масштабирования
Увеличение параметров моделей по-прежнему ведет к улучшению их производительности, что подтверждает актуальность Scaling Law.
💡 Что ждет нас в будущем? Одно можно сказать точно — ИИ продолжит менять наш мир!
Источник
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ТехнологииБудущего
🚀 10 ключевых ИИ трендов 2025 года: мнение китайских экспертов
1️⃣ Интеллектуальные агенты: начало новой эры
Интеллектуальные агенты становятся основной формой применения ИИ. Они уже используются в финансах, образовании, разработке ПО и других областях. В будущем они станут еще более специализированными, автоматизированными и способными к совместной работе.
2️⃣ Мультимодальные модели: битва гигантов
В 2025 году конкуренция между мультимодальными моделями достигнет пика. Такие модели, как Gemini 2.0 от Google и CogVideoX от Zhipu AI, будут бороться за лидерство, предлагая улучшенное взаимодействие с пользователями.
3️⃣ Генерация видео из текста
Технологии создания видео на основе текста или изображений будут развиваться быстрыми темпами. Это открывает новые возможности для творчества и производства контента.
4️⃣ Долговременная память ИИ
ИИ будет лучше справляться с запоминанием и обработкой информации, что позволит ему эффективнее работать с большими объемами данных.
5️⃣ Квантовые вычисления: революция в мощности
Квантовые компьютеры ускорят обучение моделей и откроют новые горизонты в таких областях, как фармацевтика и климатические исследования.
6️⃣ Локальные модели: новый уровень мобильности
С развитием IoT и мобильных устройств локальные модели станут более мощными, обеспечивая лучшую защиту данных и скорость работы.
7️⃣ "Физический" ИИ: новое измерение взаимодействия
ИИ начнет активнее взаимодействовать с физическим миром через роботов и другие устройства, что особенно важно для медицины и образования.
8️⃣ Человекоподобные роботы и пространственный интеллект
Роботы станут более автономными, а системы пространственного интеллекта — более точными, что значительно расширит их применение.
9️⃣ Самовоспроизводящиеся ИИ-системы
ИИ будет использовать синтетические данные для обучения, что повысит качество его работы.
🔟 Основной закон масштабирования
Увеличение параметров моделей по-прежнему ведет к улучшению их производительности, что подтверждает актуальность Scaling Law.
💡 Что ждет нас в будущем? Одно можно сказать точно — ИИ продолжит менять наш мир!
Источник
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ТехнологииБудущего
27.01.202513:56
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Qwen (Alibaba) представила новые модели с контекстом в 1 миллион токенов!
Команда Qwen официально выпустила две новые open-source модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M, которые поддерживают контекст длиной до 1 миллиона токенов! Это первый случай, когда Qwen расширила возможности своих моделей до такого уровня.
🔑 Основные моменты:
1️⃣ Открытый исходный код: Модели и их фреймворк для вывода полностью открыты.
2️⃣ Ускорение работы: Интеграция методов разреженного внимания повысила скорость обработки до 3–7 раз.
3️⃣ Технический отчет: Подробности об обучении и архитектуре доступны в открытом доступе.
4️⃣ Qwen Chat: Новый AI-ассистент, который может генерировать текст, изображения, видео и даже программировать.
📊 Производительность модели:
- В задачах с длинным контекстом (например, Passkey Retrieval) модели показывают почти идеальную точность даже при 1 млн токенов.
- Qwen2.5-14B-Instruct-1M превосходит GPT-4o-mini на нескольких тестовых наборах данных.
- В коротких текстовых задачах модели сохраняют производительность на уровне своих версий с 128K токенами.
💡 Ключевые технологии:
- Постепенное увеличение длины контекста от 4K до 256K токенов.
- Метод Dual Chunk Attention (DCA) для экстраполяции длины до 1 млн токенов.
- Оптимизация разреженного внимания для ускорения работы.
🔮 Будущее:
Команда Qwen продолжает исследования для улучшения моделей, чтобы они могли эффективно работать даже с ограниченными ресурсами.
👉 Ссылки:
- Модели: ModelScope
- Технический отчет: PDF
- Демо: Demo
#КитайскийИИ #КитайAI #AIMODELS #qwen #Alibaba
🚀 Qwen (Alibaba) представила новые модели с контекстом в 1 миллион токенов!
Команда Qwen официально выпустила две новые open-source модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M, которые поддерживают контекст длиной до 1 миллиона токенов! Это первый случай, когда Qwen расширила возможности своих моделей до такого уровня.
🔑 Основные моменты:
1️⃣ Открытый исходный код: Модели и их фреймворк для вывода полностью открыты.
2️⃣ Ускорение работы: Интеграция методов разреженного внимания повысила скорость обработки до 3–7 раз.
3️⃣ Технический отчет: Подробности об обучении и архитектуре доступны в открытом доступе.
4️⃣ Qwen Chat: Новый AI-ассистент, который может генерировать текст, изображения, видео и даже программировать.
📊 Производительность модели:
- В задачах с длинным контекстом (например, Passkey Retrieval) модели показывают почти идеальную точность даже при 1 млн токенов.
- Qwen2.5-14B-Instruct-1M превосходит GPT-4o-mini на нескольких тестовых наборах данных.
- В коротких текстовых задачах модели сохраняют производительность на уровне своих версий с 128K токенами.
💡 Ключевые технологии:
- Постепенное увеличение длины контекста от 4K до 256K токенов.
- Метод Dual Chunk Attention (DCA) для экстраполяции длины до 1 млн токенов.
- Оптимизация разреженного внимания для ускорения работы.
🔮 Будущее:
Команда Qwen продолжает исследования для улучшения моделей, чтобы они могли эффективно работать даже с ограниченными ресурсами.
👉 Ссылки:
- Модели: ModelScope
- Технический отчет: PDF
- Демо: Demo
#КитайскийИИ #КитайAI #AIMODELS #qwen #Alibaba
06.03.202506:59
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Alibaba продолжает удивлять: выпущена модель рассуждений QwQ-32B, которая превосходит гигантов с 670 млрд параметров, используя всего 32 млрд!
Акции Alibaba взлетели на 8.6% после релиза новой модели Tongyi Qianwen QwQ-32B с открытым исходным кодом. Эта «компактная» модель (32 млрд параметров) сопоставима по производительности с DeepSeek-R1 (670 млрд параметров)!
🔥 Что делает QwQ-32B уникальной?
- Превосходит OpenAI o1-mini и конкурирует с DeepSeek-R1, несмотря на 20 кратное сокращение параметров.
- Оптимизирована для развертывания на потребительских GPU — идеально для стартапов и локальных решений.
- Умеет критически мыслить, адаптироваться к изменениям и обучаться через взаимодействие с окружением (благодаря интеграции RL).
🏆 Результаты тестов:
— В тестах на математику (AIME24) и программирование (LiveCodeBench) QwQ-32B показала результаты на уровне DeepSeek-R1, значительно опередив OpenAI o1-mini.
— В сложных тестах на общие когнитивные способности, таких как LiveBench, IFEval и BFCL, модель также превзошла конкурентов.
🌐 Ссылки
Модель QwQ-32B доступна на платформах:
- Hugging Face
- ModelScope
Также вы можете протестировать её через Qwen Chat.
💡 Интересный факт
Всего за неделю после релиза предыдущая модель Alibaba — Wan 2.1 — обогнала DeepSeek-R1 в рейтингах Hugging Face, став №1 в open-source сообществе. QwQ-32B, судя по всему, повторит этот успех.
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #МашинноеОбучение #Alibaba #Qwen
🚀 Alibaba продолжает удивлять: выпущена модель рассуждений QwQ-32B, которая превосходит гигантов с 670 млрд параметров, используя всего 32 млрд!
Акции Alibaba взлетели на 8.6% после релиза новой модели Tongyi Qianwen QwQ-32B с открытым исходным кодом. Эта «компактная» модель (32 млрд параметров) сопоставима по производительности с DeepSeek-R1 (670 млрд параметров)!
🔥 Что делает QwQ-32B уникальной?
- Превосходит OpenAI o1-mini и конкурирует с DeepSeek-R1, несмотря на 20 кратное сокращение параметров.
- Оптимизирована для развертывания на потребительских GPU — идеально для стартапов и локальных решений.
- Умеет критически мыслить, адаптироваться к изменениям и обучаться через взаимодействие с окружением (благодаря интеграции RL).
🏆 Результаты тестов:
— В тестах на математику (AIME24) и программирование (LiveCodeBench) QwQ-32B показала результаты на уровне DeepSeek-R1, значительно опередив OpenAI o1-mini.
— В сложных тестах на общие когнитивные способности, таких как LiveBench, IFEval и BFCL, модель также превзошла конкурентов.
🌐 Ссылки
Модель QwQ-32B доступна на платформах:
- Hugging Face
- ModelScope
Также вы можете протестировать её через Qwen Chat.
💡 Интересный факт
Всего за неделю после релиза предыдущая модель Alibaba — Wan 2.1 — обогнала DeepSeek-R1 в рейтингах Hugging Face, став №1 в open-source сообществе. QwQ-32B, судя по всему, повторит этот успех.
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #МашинноеОбучение #Alibaba #Qwen


31.01.202506:08
👥 CN-AI-LEADERS | Знакомимся с лидерами индустрии
🤖 Роботы на сцене: как китайские технологии покоряют мир
На сцене Центрального телевидения Китая (CCTV) в рамках шоу "Весенний фестиваль 2025" человекоподобные роботы Unitree H1 от Unitree Robotics вместе с известным режиссером Чжан Имоу и студентами Синьцзянского института искусств представили уникальный перформанс под названием "ЯнгБОТ". 🎭
Роботы, одетые в традиционные костюмы, танцевали народный танец янгэ, демонстрируя мастерство даже в таких сложных элементах, как вращение платка. 💃
🔧 Технологии за кулисами:
- Автоматическое позиционирование через лазерную технологию SLAM: 16 роботов синхронно двигались и меняли построение.
- Точная синхронизация с ритмом благодаря алгоритмам анализа музыки.
- Сложные движения стали возможными благодаря алгоритмам машинного обучения.
- Специальная конструкция для управления платком: скрытие, выброс и захват.
💡 Интересный факт: чтобы подчеркнуть индустриальную эстетику, роботы выступали без внешних панелей, показывая свои механизмы.
🚀 Робот Unitree H1 — это настоящий прорыв:
- Скорость ходьбы: более 5.4 км/ч.
- Потенциальная скорость движения: до 18 км/ч.
- Мощная батарея: 15 Ач, напряжение 67.2 В.
📊 Факты про Unitree Robotics:
- Unitree Robotics была основана в 2016 году в г. Ханчжоу
- Продукция компании представлена в более чем 50 странах.
- В 2023 году компания продала 23,700 единиц роботов, что составляет почти 70% мирового рынка.
👉 Посмотреть выступление можно здесь
Сайт компании: ссылка
📌 #КитайскийИИ #КитайAI #Роботы #Технологии #ИскусственныйИнтеллект #Unitree
🤖 Роботы на сцене: как китайские технологии покоряют мир
На сцене Центрального телевидения Китая (CCTV) в рамках шоу "Весенний фестиваль 2025" человекоподобные роботы Unitree H1 от Unitree Robotics вместе с известным режиссером Чжан Имоу и студентами Синьцзянского института искусств представили уникальный перформанс под названием "ЯнгБОТ". 🎭
Роботы, одетые в традиционные костюмы, танцевали народный танец янгэ, демонстрируя мастерство даже в таких сложных элементах, как вращение платка. 💃
🔧 Технологии за кулисами:
- Автоматическое позиционирование через лазерную технологию SLAM: 16 роботов синхронно двигались и меняли построение.
- Точная синхронизация с ритмом благодаря алгоритмам анализа музыки.
- Сложные движения стали возможными благодаря алгоритмам машинного обучения.
- Специальная конструкция для управления платком: скрытие, выброс и захват.
💡 Интересный факт: чтобы подчеркнуть индустриальную эстетику, роботы выступали без внешних панелей, показывая свои механизмы.
🚀 Робот Unitree H1 — это настоящий прорыв:
- Скорость ходьбы: более 5.4 км/ч.
- Потенциальная скорость движения: до 18 км/ч.
- Мощная батарея: 15 Ач, напряжение 67.2 В.
📊 Факты про Unitree Robotics:
- Unitree Robotics была основана в 2016 году в г. Ханчжоу
- Продукция компании представлена в более чем 50 странах.
- В 2023 году компания продала 23,700 единиц роботов, что составляет почти 70% мирового рынка.
👉 Посмотреть выступление можно здесь
Сайт компании: ссылка
📌 #КитайскийИИ #КитайAI #Роботы #Технологии #ИскусственныйИнтеллект #Unitree
29.01.202506:24
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Qwen2.5-VL: Новый уровень понимания визуальных данных!
Команда Qwen (Alibaba) представила новую модель для понимания визуальной информации — Qwen2.5-VL. Это флагманская модель семейства Qwen, доступная в трех размерах: 3B, 7B и 72B. По сравнению с предыдущей версией Qwen2-VL, новая модель совершила огромный скачок вперед.
🔑 Основные особенности:
- Визуальное понимание: Модель распознает не только объекты (цветы, птицы, рыбы), но и анализирует текст, графики, диаграммы и макеты.
- Работа как визуальный агент: Qwen2.5-VL может использовать инструменты и взаимодействовать с компьютером или смартфоном.
- Понимание длинных видео: Модель способна анализировать видео продолжительностью более часа и точно находить ключевые моменты.
- Точное позиционирование объектов: С помощью bounding boxes и точек модель определяет местоположение объектов на изображении.
- Структурированный вывод данных: Поддержка извлечения данных из документов, таких как счета, формы и таблицы.
📊 Производительность модели:
- Флагманская версия Qwen2.5-VL-72B-Instruct демонстрирует выдающиеся результаты в задачах анализа документов, математики, работы с видео и визуальным контентом.
- Версия Qwen2.5-VL-7B-Instruct превосходит GPT-4o-mini во многих задачах.
- Компактная Qwen2.5-VL-3B уже обгоняет предыдущую версию Qwen2-VL с 7B параметрами.
💡 Примеры возможностей:
1️⃣ Распознавание объектов: Модель легко идентифицирует достопримечательности, растения, животных и даже товары.
- Например: "Какие это достопримечательности?"
- Ответ: Великая Китайская стена, Статуя Свободы и другие.
2️⃣ Точное позиционирование: Модель определяет координаты объектов на изображении.
- Пример: "Найдите всех мотоциклистов на фото."
- Ответ: JSON с координатами и описанием.
3️⃣ OCR нового уровня: Улучшенное распознавание текста на разных языках и в сложных условиях.
- Пример: "Прочитайте текст на картинке."
- Ответ: Текст выводится построчно.
4️⃣ Анализ документов: Новая система QwenVL HTML позволяет извлекать текст, таблицы и изображения с точным сохранением структуры документа.
5️⃣ Видеоаналитика: Модель может находить события в длинных видео и создавать краткое содержание.
6️⃣ Управление устройствами: Qwen2.5-VL способна выполнять задачи на компьютере или смартфоне, например, бронировать билеты.
⚙️ Обновления:
- Улучшено восприятие времени и пространства.
- Оптимизирована архитектура сети для повышения эффективности.
🌐 Где попробовать?
- Официальный сайт: Qwen Chat
- Модели доступны на Hugging Face и ModelScope
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ВизуальныеМодели #Qwen #Alibaba
🚀 Qwen2.5-VL: Новый уровень понимания визуальных данных!
Команда Qwen (Alibaba) представила новую модель для понимания визуальной информации — Qwen2.5-VL. Это флагманская модель семейства Qwen, доступная в трех размерах: 3B, 7B и 72B. По сравнению с предыдущей версией Qwen2-VL, новая модель совершила огромный скачок вперед.
🔑 Основные особенности:
- Визуальное понимание: Модель распознает не только объекты (цветы, птицы, рыбы), но и анализирует текст, графики, диаграммы и макеты.
- Работа как визуальный агент: Qwen2.5-VL может использовать инструменты и взаимодействовать с компьютером или смартфоном.
- Понимание длинных видео: Модель способна анализировать видео продолжительностью более часа и точно находить ключевые моменты.
- Точное позиционирование объектов: С помощью bounding boxes и точек модель определяет местоположение объектов на изображении.
- Структурированный вывод данных: Поддержка извлечения данных из документов, таких как счета, формы и таблицы.
📊 Производительность модели:
- Флагманская версия Qwen2.5-VL-72B-Instruct демонстрирует выдающиеся результаты в задачах анализа документов, математики, работы с видео и визуальным контентом.
- Версия Qwen2.5-VL-7B-Instruct превосходит GPT-4o-mini во многих задачах.
- Компактная Qwen2.5-VL-3B уже обгоняет предыдущую версию Qwen2-VL с 7B параметрами.
💡 Примеры возможностей:
1️⃣ Распознавание объектов: Модель легко идентифицирует достопримечательности, растения, животных и даже товары.
- Например: "Какие это достопримечательности?"
- Ответ: Великая Китайская стена, Статуя Свободы и другие.
2️⃣ Точное позиционирование: Модель определяет координаты объектов на изображении.
- Пример: "Найдите всех мотоциклистов на фото."
- Ответ: JSON с координатами и описанием.
3️⃣ OCR нового уровня: Улучшенное распознавание текста на разных языках и в сложных условиях.
- Пример: "Прочитайте текст на картинке."
- Ответ: Текст выводится построчно.
4️⃣ Анализ документов: Новая система QwenVL HTML позволяет извлекать текст, таблицы и изображения с точным сохранением структуры документа.
5️⃣ Видеоаналитика: Модель может находить события в длинных видео и создавать краткое содержание.
6️⃣ Управление устройствами: Qwen2.5-VL способна выполнять задачи на компьютере или смартфоне, например, бронировать билеты.
⚙️ Обновления:
- Улучшено восприятие времени и пространства.
- Оптимизирована архитектура сети для повышения эффективности.
🌐 Где попробовать?
- Официальный сайт: Qwen Chat
- Модели доступны на Hugging Face и ModelScope
#КитайскийИИ #КитайAI #ИскусственныйИнтеллект #ВизуальныеМодели #Qwen #Alibaba
27.01.202506:51
👥 CN-AI-LEADERS | Знакомимся с лидерами индустрии
🚀 Moonshot AI: От Pink Floyd до технологической революции
В 2024 году компания Moonshot AI, основанная в марте 2023 года, вышла на второе место по количеству активных пользователей (MAU) в Китае, превысив отметку в 16 миллионов. С момента основания Moonshot AI привлекла более $1 миллиарда инвестиций и достигла оценки в $3,3 миллиарда, подтверждая свою роль одного из лидеров в области больших языковых моделей (LLM). 🌕🤖
🌟 Ключевые факты о Moonshot AI
- Основатели: Компания была создана Ян Чжилинь (Yang Zhilin), Чжоу Синьюй (Zhou Xinyu) и У Юйсинь (Wu Yuxin).
- Миссия: Moonshot AI стремится создать универсальный искусственный интеллект (AGI), сочетая технологический идеализм OpenAI с бизнес-философией ByteDance.
- Продукты: Флагманский продукт компании — чат-бот Kimi, способный обрабатывать до 2 миллионов китайских символов в одном запросе, что делает его лидером в области обработки длинных текстов.
👥 Ян Чжилинь - основатель Moonshot AI, выпускник Tsinghua и Carnegie Mellon, работал в Google Brain и Meta AI. Создатель Transformer-XL и XLNet.
🌍 Инвестиции и поддержка
Moonshot AI привлекла инвестиции от таких гигантов, как Alibaba, Tencent, HongShan (бывшая Sequoia China) и др. Эти инвестиции подчеркивают уверенность инвесторов в потенциале компании и её лидеров.
📚 Интервью с основателем Moonshot AI о миссии компании и её планах на будущее.
🌐 Сайт компании: Moonshot AI
#ИИ #AILEADERS #MoonshotAI #Kimi #КитайскийИИ #ИскусственныйИнтеллект #AGI
🚀 Moonshot AI: От Pink Floyd до технологической революции
В 2024 году компания Moonshot AI, основанная в марте 2023 года, вышла на второе место по количеству активных пользователей (MAU) в Китае, превысив отметку в 16 миллионов. С момента основания Moonshot AI привлекла более $1 миллиарда инвестиций и достигла оценки в $3,3 миллиарда, подтверждая свою роль одного из лидеров в области больших языковых моделей (LLM). 🌕🤖
🌟 Ключевые факты о Moonshot AI
- Основатели: Компания была создана Ян Чжилинь (Yang Zhilin), Чжоу Синьюй (Zhou Xinyu) и У Юйсинь (Wu Yuxin).
- Миссия: Moonshot AI стремится создать универсальный искусственный интеллект (AGI), сочетая технологический идеализм OpenAI с бизнес-философией ByteDance.
- Продукты: Флагманский продукт компании — чат-бот Kimi, способный обрабатывать до 2 миллионов китайских символов в одном запросе, что делает его лидером в области обработки длинных текстов.
👥 Ян Чжилинь - основатель Moonshot AI, выпускник Tsinghua и Carnegie Mellon, работал в Google Brain и Meta AI. Создатель Transformer-XL и XLNet.
🌍 Инвестиции и поддержка
Moonshot AI привлекла инвестиции от таких гигантов, как Alibaba, Tencent, HongShan (бывшая Sequoia China) и др. Эти инвестиции подчеркивают уверенность инвесторов в потенциале компании и её лидеров.
📚 Интервью с основателем Moonshot AI о миссии компании и её планах на будущее.
🌐 Сайт компании: Moonshot AI
#ИИ #AILEADERS #MoonshotAI #Kimi #КитайскийИИ #ИскусственныйИнтеллект #AGI
Ko'rsatilgan 1 - 16 dan 16
Ko'proq funksiyalarni ochish uchun tizimga kiring.