

11.05.202509:00
🔥 9 бесплатных курсов c HuggingFace по искусственному интеллекту!
➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1
➡️Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction
➡️ Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
➡️ Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction
➡️ Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction
➡️ Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction
➡️ Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction
➡️ Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1
➡️ Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index
@ai_machinelearning_big_data
#free #courses #opensource #huggingface
➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1
➡️Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction
➡️ Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
➡️ Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction
➡️ Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction
➡️ Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction
➡️ Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction
➡️ Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1
➡️ Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index
@ai_machinelearning_big_data
#free #courses #opensource #huggingface


09.05.202514:47
🔥 В Qwen теперь есть песочницы для генерации и запуска кода.
Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat.
🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете код приложения.
Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро.
➡️ Попробовать: https://chat.qwen.ai/?inputFeature=web_dev
@ai_machinelearning_big_data
#qwen #codegenerator #online
Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat.
🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете код приложения.
Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро.
➡️ Попробовать: https://chat.qwen.ai/?inputFeature=web_dev
@ai_machinelearning_big_data
#qwen #codegenerator #online
08.05.202507:44
✔️ IBM Linux ONE Emperor 5: мейнфрейм для эпохи ИИ.
IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами.
Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев.
zdnet.com
✔️ Figma запустила ИИ-инструменты для сайтов, прототипирования и маркетинга.
Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать.
Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц.
figma.com
✔️ К 2026 году большинство компаний введут должность Chief AI Officer.
Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%).
Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения.
Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии.
amazon.com
✔️ ChatGPT набирает обороты по трафику.
Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований.
Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату.
SimilarWeb в сети X(ex-Twitter)
✔️ OpenAI запускает инициативу развития ИИ для стран.
OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании.
openai.com
IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами.
Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев.
zdnet.com
✔️ Figma запустила ИИ-инструменты для сайтов, прототипирования и маркетинга.
Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать.
Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц.
figma.com
✔️ К 2026 году большинство компаний введут должность Chief AI Officer.
Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%).
Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения.
Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии.
amazon.com
✔️ ChatGPT набирает обороты по трафику.
Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований.
Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату.
SimilarWeb в сети X(ex-Twitter)
✔️ OpenAI запускает инициативу развития ИИ для стран.
OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании.
openai.com
07.05.202505:51
✔️ Google анонсировала функцию Simplify для iOS.
В приложении Google для iOS появилась новая функция Simplify, которая с помощью ИИ делает сложные или технические тексты в интернете проще для понимания. Разработка использует модель Gemini от Google Research: она переформулирует контент, сохраняя ключевые детали, но убирая лишнюю сложность. Тесты показали, что после упрощения пользователи лучше усваивают информацию. Функция не только облегчает обучение, но и удерживает пользователей в экосистеме Google, конкурируя с ChatGPT. Обновление уже доступно в AppStore для iOS.
9to5google.com
✔️ Вышла Gemini 2.5 Pro Preview.
Google досрочно выпустила обновлённую версию Gemini 2.5 Pro Preview. Модель теперь лидирует в рейтинге WebDev Arena благодаря способности создавать эстетичные и функциональные веб-приложения.
Среди новшеств — продвинутая работа с видео: модель преобразует ролики в интерактивные приложения, например, учебные программы на базе YouTube-видео. Для фронтенд-разработчиков упростилась реализация фич: Gemini 2.5 Pro генерирует CSS-код, подбирая стили под дизайн, и даже создает анимации. Обновление также устраняет прошлые ошибки в вызове функций и повышает их срабатывание. Модель доступна через Gemini API в Google AI Studio и Vertex AI для корпоративных клиентов — цена осталась прежней.
developers.googleblog.com
✔️ OpenAI достигла соглашения о покупке Windsurf.
OpenAI договорилась о покупке Windsurf за $3 млрд. Это станет крупнейшей сделкой компании в условиях растущей конкуренции на рынке ИИ-инструментов для программистов. По данным источников, соглашение ещё не закрыто, а стороны пока отказались от комментариев.
Этим шагом OpenAI стремится закрепиться в нише, где набирают обороты стартапы вроде Anysphere. Покупка Windsurf не только расширит ее инструментарий, но и даст преимущество в гонке за лидерство в создании систем, генерирующих код по текстовым запросам.
bloomberg.com
✔️ LTX Studio выпустила открытую видео-модель с рекордной скоростью и качеством.
LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах.
Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами.
Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace.
LTX в сети Х (ex-Twitter)
✔️ Обновление ComfyUI: нативные API-ноды и новый дизайн.
ComfyUI выпустила масштабное обновление. Теперь пользователи получают 65 готовых API-нод, которые позволяют подключать платные облачные модели — от Veo2 от Google до GPT4o от OpenAI. Обновление объединяет 11 семейств моделей, включая генерацию видео (Pika 2.2, MiniMax) и изображений (Stable Diffusion 3.5, Ideogram V3).
Цены совпадают с оригинальными API, а платформа остается бесплатной и открытой. В планах — поддержка своих API-ключей, параллельное выполнение задач и оптимизация для видео. Вместе с этим ComfyUI обновила внешний вид: логотип из «кубиков» отсылает к графам воркфлоу, а яркие цвета подчеркивают баланс между творчеством и серьезностью инструмента.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
В приложении Google для iOS появилась новая функция Simplify, которая с помощью ИИ делает сложные или технические тексты в интернете проще для понимания. Разработка использует модель Gemini от Google Research: она переформулирует контент, сохраняя ключевые детали, но убирая лишнюю сложность. Тесты показали, что после упрощения пользователи лучше усваивают информацию. Функция не только облегчает обучение, но и удерживает пользователей в экосистеме Google, конкурируя с ChatGPT. Обновление уже доступно в AppStore для iOS.
9to5google.com
✔️ Вышла Gemini 2.5 Pro Preview.
Google досрочно выпустила обновлённую версию Gemini 2.5 Pro Preview. Модель теперь лидирует в рейтинге WebDev Arena благодаря способности создавать эстетичные и функциональные веб-приложения.
Среди новшеств — продвинутая работа с видео: модель преобразует ролики в интерактивные приложения, например, учебные программы на базе YouTube-видео. Для фронтенд-разработчиков упростилась реализация фич: Gemini 2.5 Pro генерирует CSS-код, подбирая стили под дизайн, и даже создает анимации. Обновление также устраняет прошлые ошибки в вызове функций и повышает их срабатывание. Модель доступна через Gemini API в Google AI Studio и Vertex AI для корпоративных клиентов — цена осталась прежней.
developers.googleblog.com
✔️ OpenAI достигла соглашения о покупке Windsurf.
OpenAI договорилась о покупке Windsurf за $3 млрд. Это станет крупнейшей сделкой компании в условиях растущей конкуренции на рынке ИИ-инструментов для программистов. По данным источников, соглашение ещё не закрыто, а стороны пока отказались от комментариев.
Этим шагом OpenAI стремится закрепиться в нише, где набирают обороты стартапы вроде Anysphere. Покупка Windsurf не только расширит ее инструментарий, но и даст преимущество в гонке за лидерство в создании систем, генерирующих код по текстовым запросам.
bloomberg.com
✔️ LTX Studio выпустила открытую видео-модель с рекордной скоростью и качеством.
LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах.
Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами.
Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace.
LTX в сети Х (ex-Twitter)
✔️ Обновление ComfyUI: нативные API-ноды и новый дизайн.
ComfyUI выпустила масштабное обновление. Теперь пользователи получают 65 готовых API-нод, которые позволяют подключать платные облачные модели — от Veo2 от Google до GPT4o от OpenAI. Обновление объединяет 11 семейств моделей, включая генерацию видео (Pika 2.2, MiniMax) и изображений (Stable Diffusion 3.5, Ideogram V3).
Цены совпадают с оригинальными API, а платформа остается бесплатной и открытой. В планах — поддержка своих API-ключей, параллельное выполнение задач и оптимизация для видео. Вместе с этим ComfyUI обновила внешний вид: логотип из «кубиков» отсылает к графам воркфлоу, а яркие цвета подчеркивают баланс между творчеством и серьезностью инструмента.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml


06.05.202510:04
Учитесь в универе и хотите вырваться из рутины? Уедьте на бесплатный ИИ-интенсив в Новосиб! NLP-студкемп от Яндекс Образования и НГУ уже ждёт!
Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений! За две недели — с 14 по 26 июля — вы разложите NLP по полочкам — от теории до практики:
💡 сравните модели YandexGPT и Qwen;
💡 поработаете с бенчмарками и обучающими датасетами;
💡 узнаете, как устроены новейшие технологии — от механизма внимания и авторегрессии до мультимодальности и RAG;
💡 создадите свой проект на стыке науки и бизнеса.
Всё это — бесплатно и под руководством экспертов из Яндекса и НГУ. С вас — только желание развиваться и пройти отбор.
Заявку нужно оставить до 18 мая. Причём студентов ждут со всей страны: неважно, где вы учитесь или работаете, — дорогу и проживание оплатят всем, кто прошёл отбор. Регистрируйтесь прямо сейчас и проведите лето с пользой!
Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений! За две недели — с 14 по 26 июля — вы разложите NLP по полочкам — от теории до практики:
💡 сравните модели YandexGPT и Qwen;
💡 поработаете с бенчмарками и обучающими датасетами;
💡 узнаете, как устроены новейшие технологии — от механизма внимания и авторегрессии до мультимодальности и RAG;
💡 создадите свой проект на стыке науки и бизнеса.
Всё это — бесплатно и под руководством экспертов из Яндекса и НГУ. С вас — только желание развиваться и пройти отбор.
Заявку нужно оставить до 18 мая. Причём студентов ждут со всей страны: неважно, где вы учитесь или работаете, — дорогу и проживание оплатят всем, кто прошёл отбор. Регистрируйтесь прямо сейчас и проведите лето с пользой!
05.05.202514:07
✨ Arenadata представила новую дата-платформу Arenadata One: облачную экосистему хранения и обработки данных следующего поколения ✨
Arenadata запустила Arenadata One (AD.One) — cloud-native платформу хранения и обработки данных, созданную специально для работы в мультитенантных облачных средах на базе Kubernetes®.
Что делает AD.One особенной?
🔹 Разделённые Compute и Storage → легко масштабировать ресурсы
🔹 Поддержка S3 Object Storage → единое унифицированное хранилище
🔹 Форматы данных на любой вкус
🔹 Одновременная аналитическая и транзакционная нагрузка
🔹 AI-хранилище для ML/AI задач
🔹 Встроенные инструменты Data Governance, оркестрации, мониторинга и аудита
🔹 Multi-tiering-архитектура → быстрый доступ к «горячим» данным
🔹 Гибридный обмен данными (Public/Private Cloud)
Платформа покрывает задачи от ad hoc-запросов до real-time-аналитики (Spark, Impala), а также поддерживает транзакции на Serverless Postgres (Neon) и хранение векторов и features для AI.
💥 В чём отличие от классических bare-metal СУБД?
AD.One не требует резервирования оборудования и работает в эластичных облачных средах. Это снижает TCO и Time to Market благодаря:
✅ автоматическому масштабированию нагрузки
✅ переиспользованию вычислительных ресурсов
✅ DBaaS-сервису
✅ единой self-service-консоли управления с шаблонами развёртывания
Платформа подходит для построения современных архитектур больших данных (включая Lakehouse) и будет интересна компаниям с неоднородными пиками нагрузки, стремящимися снизить стоимость владения СУБД.
👉 Подробнее о Arenadata One: arenadata.tech/products/arenadata-one
Arenadata запустила Arenadata One (AD.One) — cloud-native платформу хранения и обработки данных, созданную специально для работы в мультитенантных облачных средах на базе Kubernetes®.
Что делает AD.One особенной?
🔹 Разделённые Compute и Storage → легко масштабировать ресурсы
🔹 Поддержка S3 Object Storage → единое унифицированное хранилище
🔹 Форматы данных на любой вкус
🔹 Одновременная аналитическая и транзакционная нагрузка
🔹 AI-хранилище для ML/AI задач
🔹 Встроенные инструменты Data Governance, оркестрации, мониторинга и аудита
🔹 Multi-tiering-архитектура → быстрый доступ к «горячим» данным
🔹 Гибридный обмен данными (Public/Private Cloud)
Платформа покрывает задачи от ad hoc-запросов до real-time-аналитики (Spark, Impala), а также поддерживает транзакции на Serverless Postgres (Neon) и хранение векторов и features для AI.
💥 В чём отличие от классических bare-metal СУБД?
AD.One не требует резервирования оборудования и работает в эластичных облачных средах. Это снижает TCO и Time to Market благодаря:
✅ автоматическому масштабированию нагрузки
✅ переиспользованию вычислительных ресурсов
✅ DBaaS-сервису
✅ единой self-service-консоли управления с шаблонами развёртывания
Платформа подходит для построения современных архитектур больших данных (включая Lakehouse) и будет интересна компаниям с неоднородными пиками нагрузки, стремящимися снизить стоимость владения СУБД.
👉 Подробнее о Arenadata One: arenadata.tech/products/arenadata-one
10.05.202515:37
🔥 NVIDIA научили гуманоидных роботов двигаться как люди — прямо из симуляции в реальный мир !
Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.
Всё обучение прошло в симуляции, и после этого роботы сразу были отправлены на выполнение задач в открытом пространстве.
🌟 Что особенно впечатляет:
➡️ Обучение, которое заняло бы 10 лет в реальности, было сжато всего в 2 часа симуляции.
✔️ Как это возможно:
- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.
- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.
- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.
Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.
Очень мощный шаг для развития embodied AI и робототехники 🚀
➡️ Полное выступление
@ai_machinelearning_big_data
#ai #robots #nvidia #future
Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.
Всё обучение прошло в симуляции, и после этого роботы сразу были отправлены на выполнение задач в открытом пространстве.
🌟 Что особенно впечатляет:
➡️ Обучение, которое заняло бы 10 лет в реальности, было сжато всего в 2 часа симуляции.
✔️ Как это возможно:
- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.
- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.
- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.
Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.
Очень мощный шаг для развития embodied AI и робототехники 🚀
➡️ Полное выступление
@ai_machinelearning_big_data
#ai #robots #nvidia #future




09.05.202511:06
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
📌Лицензирование кода : Tencent Hunyuan Community License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
📌Лицензирование кода : Tencent Hunyuan Community License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent


07.05.202516:50
🤖 В Калифорнии открылся ресторан, где роботы готовят бургеры за 27 секунд
Роботы идеально подходят для рутинной и однообразной работы, автоматизируя повторяющиеся задачи с высокой эффективностью.
@ai_machinelearning_big_data
#роботы #автоматизация #технологии
Роботы идеально подходят для рутинной и однообразной работы, автоматизируя повторяющиеся задачи с высокой эффективностью.
@ai_machinelearning_big_data
#роботы #автоматизация #технологии


06.05.202516:20
🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay.
Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.
Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.
В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).
▶️ Состав релиза:
🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий.
🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов.
🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени.
🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру.
🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #VOILA #Matrix
Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.
Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.
В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).
▶️ Состав релиза:
🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий.
🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов.
🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени.
🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру.
🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #VOILA #Matrix
Could not access
the media content
the media content
06.05.202508:12
🔥 Калифорнийский стартап объявляет о прорыве в области робототехники для повседневных задач с помощью ИИ π0.5 — модели «зрение-язык-действие».
Все, что видит робот, он видит впервые.
🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.
➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний
✔️ Подробнее про π0.5 мы писали в новостном дайджесте
@ai_machinelearning_big_data
#robots #ai #ml
Все, что видит робот, он видит впервые.
🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.
➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний
✔️ Подробнее про π0.5 мы писали в новостном дайджесте
@ai_machinelearning_big_data
#robots #ai #ml


05.05.202509:19
🔥 На видео 32-летний Янн Лекун демонстрирует первую в мире сверточную нейронную сеть (CNN) для распознавания текста в 1993 году .
📅 Когда появились традиционные методы обработки изображений:
Традиционные (или классические) методы начали развиваться с 1960-х годов, а активно применяться — с 1970–1980-х, задолго до появления современных нейросетей.
✔️ К таким методам относятся:
- Фильтрация изображений (Гаусс, Собель, Лаплас и др.)
- Детектирование границ (Canny, Prewitt)
- Морфологическая обработка (эрозия, дилатация)
- Бинаризация, сегментация, пороговая фильтрация
- Шумоподавление, выделение контуров
📍 К 1990-м эти техники уже активно использовались в промышленности, медицине, военной технике и OCR (распознавании текста), например в факсах и сканерах. Именно в этом контексте и появлялись первые попытки заменить часть ручной обработки нейросетями, как сделал Лекун с CNN.
Всем продуктивного дня ☀️
@ai_machinelearning_big_data
📅 Когда появились традиционные методы обработки изображений:
Традиционные (или классические) методы начали развиваться с 1960-х годов, а активно применяться — с 1970–1980-х, задолго до появления современных нейросетей.
✔️ К таким методам относятся:
- Фильтрация изображений (Гаусс, Собель, Лаплас и др.)
- Детектирование границ (Canny, Prewitt)
- Морфологическая обработка (эрозия, дилатация)
- Бинаризация, сегментация, пороговая фильтрация
- Шумоподавление, выделение контуров
📍 К 1990-м эти техники уже активно использовались в промышленности, медицине, военной технике и OCR (распознавании текста), например в факсах и сканерах. Именно в этом контексте и появлялись первые попытки заменить часть ручной обработки нейросетями, как сделал Лекун с CNN.
Всем продуктивного дня ☀️
@ai_machinelearning_big_data






10.05.202511:01
🌟 ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков.
ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.
Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.
Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.
Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.
Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.
Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
▶️ На Huggingface опубликованы Simulation модели c 3, 7 и 14 млрд. параметров, заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:
🟢Релевантные (содержат точные ответы на запросы);
🟠Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).
⚠️ В промпте к этим моделям необходимо добавить метки
🔜 Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции
🟡Arxiv
🟡Датасет
🟡Набор Simulation моделей
🟡Коллекция обученных моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.
Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.
Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.
Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.
Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.
Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
▶️ На Huggingface опубликованы Simulation модели c 3, 7 и 14 млрд. параметров, заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:
🟢Релевантные (содержат точные ответы на запросы);
🟠Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).
⚠️ В промпте к этим моделям необходимо добавить метки
[useful]
или [noisy]
. В инференсе модель возвращает 5 документов заданного типа.🔜 Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции
🟡Arxiv
🟡Датасет
🟡Набор Simulation моделей
🟡Коллекция обученных моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
09.05.202506:40
✔️ OpenAI пригласила гендиректора Instacart возглавить направление разработки приложений.
OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации.
В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI.
cnbc.com
✔️ Anthropic открыла API для веб-поиска.
Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок.
В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов.
anthropic.com
✔️ Google внедряет неявное кэширование в Gemini API.
Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка).
Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами.
developers.googleblog.com
✔️ Робота для пинг-понга создали в MIT.
Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов.
Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA.
interestingengineering.com
✔️ Infinix анонсировала умные наушники с переводом 162 языков в реальном времени.
Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос.
Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми.
prnewswire.co.uk
@ai_machinelearning_big_data
#news #ai #ml
OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации.
В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI.
cnbc.com
✔️ Anthropic открыла API для веб-поиска.
Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок.
В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов.
anthropic.com
✔️ Google внедряет неявное кэширование в Gemini API.
Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка).
Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами.
developers.googleblog.com
✔️ Робота для пинг-понга создали в MIT.
Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов.
Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA.
interestingengineering.com
✔️ Infinix анонсировала умные наушники с переводом 162 языков в реальном времени.
Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос.
Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми.
prnewswire.co.uk
@ai_machinelearning_big_data
#news #ai #ml


07.05.202515:29
🚀 Релиз: Mistral Medium 3
Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости.
Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов.
Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода).
По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении.
Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам.
Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше.
https://mistral.ai/news/mistral-medium-3
@ai_machinelearning_big_data
#Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка
Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости.
Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов.
Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода).
По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении.
Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам.
Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше.
https://mistral.ai/news/mistral-medium-3
@ai_machinelearning_big_data
#Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка


06.05.202515:14
Нейросеть GigaChat 2.0 — тот самый сеньор, который уверенно затащит любую задачу. Сохраняем топ-5 промптов и тестируем в вебе или Телеграм-боте:
1. Работа с кодом
2. Обучение
3. Советы по самопрезентации
4. Персональные подборки
5. Актуальные события
1. Работа с кодом
Посмотри мой скрипт для парсинга данных с сайта на Python. Он выполняется слишком медленно. Объясни, что я делаю неэффективно, и покажи, как его улучшить [вставить фрагмент]
2. Обучение
Подбери практические задания, чтобы прокачаться в TypeScript и научиться писать устойчивый фронтенд
3. Советы по самопрезентации
Помоги подготовиться к собеседованию на вакансию техлида [добавить ссылку]
4. Персональные подборки
Составь топ-10 книг по программированию для геймдева — от движков до оптимизации
5. Актуальные события
Привет, я специалист по машинному обучению, стараюсь развивать свои компетенции. Порекомендуй конференции по машинному обучению в России, на которые я ещё успею попасть.
06.05.202506:53
✔️ ОАЭ вводит обязательное обучение ИИ для школьников всех возрастов.
ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий.
Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем.
bloomberg.com
✔️ OpenAI остается некоммерческой структурой, но есть нюансы.
OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров.
Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее.
Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям.
openai.com
✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей.
Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии.
Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act.
pymnts.com
✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API.
Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни.
Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов.
anthropic.com
✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ.
Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений.
Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий.
Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем.
bloomberg.com
✔️ OpenAI остается некоммерческой структурой, но есть нюансы.
OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров.
Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее.
Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям.
openai.com
✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей.
Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии.
Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act.
pymnts.com
✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API.
Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни.
Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов.
anthropic.com
✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ.
Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений.
Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml


04.05.202518:35
📈 За последние 28 дней сайт ChatGPT посетили больше людей, чем X (Твиттер).
- ChatGPT посетили 4,786 млрд раз
- X 4,028 млрд посещений
@ai_machinelearning_big_data
- ChatGPT посетили 4,786 млрд раз
- X 4,028 млрд посещений
@ai_machinelearning_big_data
10.05.202507:35
✔️ Тенденция регулирования ИИ меняется: техгиганты переходят от «стремления к регулированию» к «отказу от регулирования».
Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай.
OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией.
washingtonpost.com
✔️ Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США.
Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд.
По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании.
reuters.com
✔️ Google инвестирует в 3 площадки для развития ядерной энергетики в США.
Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года.
Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии.
world-nuclear-news.org
✔️ LegoGPT генерирует конструкции LEGO по текстовым описаниям.
Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля.
Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub.
tomshardware.com
✔️ Google создала Gemini Nano для защиты от мошенничества в реальном времени.
Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные.
В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай.
OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией.
washingtonpost.com
✔️ Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США.
Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд.
По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании.
reuters.com
✔️ Google инвестирует в 3 площадки для развития ядерной энергетики в США.
Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года.
Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии.
world-nuclear-news.org
✔️ LegoGPT генерирует конструкции LEGO по текстовым описаниям.
Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля.
Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub.
tomshardware.com
✔️ Google создала Gemini Nano для защиты от мошенничества в реальном времени.
Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные.
В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая.
blog.google
@ai_machinelearning_big_data
#news #ai #ml






08.05.202512:04
🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.
Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.
Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.
Тестовую модель обучали в 3 стадии:
🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.
🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.
🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.
Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.
Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.
Тестовую модель обучали в 3 стадии:
🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.
🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.
🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.
Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #CoT #UnifiedReward #Tencent


07.05.202511:38
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.
Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.
Модель поддерживает форматы
📌Лицензирование: CC-BY-4.0 License.
🟡Модель
🟡Demo
@ai_machinelearning_big_data
#AI #ML #ASR #Parakeet #NVIDIA
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.
Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.
Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.
Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.
Модель поддерживает форматы
.wav
и .flac
с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.📌Лицензирование: CC-BY-4.0 License.
🟡Модель
🟡Demo
@ai_machinelearning_big_data
#AI #ML #ASR #Parakeet #NVIDIA




06.05.202511:10
🌟 NeMo-Inspector: продвинутый анализ генерации языковых моделей.
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
▶️NeMo-Inspector работает в двух режимах:
🟢Inference Page позволяет экспериментировать с промптами в реальном времени. Вы можете писать запросы вручную или использовать шаблоны с плейсхолдерами: например, подставлять разные задачи в структуру «Проблема: {вопрос}; Решение: {ответ}». Это удобно, когда нужно тестировать гипотезы без постоянной перезагрузки модели.
🟢Analyze Page заточен под глубокий разбор уже сгенерированных данных. Загрузите JSON-файлы и инструмент покажет выборки в читаемом формате с подсветкой кода и формул.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
📌Лицензирование: Apache 2.0 License.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
▶️NeMo-Inspector работает в двух режимах:
🟢Inference Page позволяет экспериментировать с промптами в реальном времени. Вы можете писать запросы вручную или использовать шаблоны с плейсхолдерами: например, подставлять разные задачи в структуру «Проблема: {вопрос}; Решение: {ответ}». Это удобно, когда нужно тестировать гипотезы без постоянной перезагрузки модели.
🟢Analyze Page заточен под глубокий разбор уже сгенерированных данных. Загрузите JSON-файлы и инструмент покажет выборки в читаемом формате с подсветкой кода и формул.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
📌Лицензирование: Apache 2.0 License.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA




05.05.202515:10
⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple.
Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.
Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.
Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.
Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.
В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.
Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.
Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.
Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Photogrammetry #Matrix3D #Apple
Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.
Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.
Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.
Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.
В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.
Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.
Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.
Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Photogrammetry #Matrix3D #Apple


04.05.202509:12
🌟 Atropos: тренажерный зал для RL языковых моделей.
Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.
Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.
Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.
Практическая польза протестирована в экспериментах:
🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%.
🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%).
Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.
Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.
Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.
В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.
Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.
📌Лицензирование: MIT License.
🟡Статья
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Framework #NousResearch #Atropos
Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.
Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.
Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.
Практическая польза протестирована в экспериментах:
🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%.
🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%).
Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.
Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.
Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.
В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.
Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.
📌Лицензирование: MIT License.
🟡Статья
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Framework #NousResearch #Atropos
Shown 1 - 24 of 401
Log in to unlock more functionality.