Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Лачен пише
Лачен пише
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Лачен пише
Лачен пише
Искусственный интеллект. Высокие технологии avatar
Искусственный интеллект. Высокие технологии
Искусственный интеллект. Высокие технологии avatar
Искусственный интеллект. Высокие технологии
🧠 OpenAI: новые модели o3 и o4-mini — успехи и вызовы с галлюцинациями

16 апреля 2025 года OpenAI выпустила новый System Card, посвящённый возможностям и безопасности моделей o3 и o4-mini.

Особое внимание уделено анализу галлюцинаций — случаев, когда модели генерируют неправильную или вымышленную информацию. Для оценки использовался тест PersonQA Benchmark.

▪ 🔍 Что такое PersonQA Benchmark?

PersonQA — набор вопросов с фактами из открытых источников, проверяющий две метрики:

- Accuracy — доля правильно отвеченных вопросов (чем выше, тем лучше)
- Hallucination Rate — частота появления неточной информации (чем ниже, тем лучше)

▪ 📊 Результаты тестов

▪ o4-mini: ожидаемые компромиссы ради компактности

- Accuracy: 0.36
- Hallucination Rate: 0.48

o4-mini показала более низкую точность и более высокую склонность к галлюцинациям по сравнению с o1 и o3.
Это ожидаемо для моделей меньшего размера — у них меньше встроенных знаний о мире.

▪ o3: выше точность, но и выше риск ошибок

- Accuracy: 0.59
- Hallucination Rate: 0.33

Модель o3 превзошла o1 по количеству правильных ответов, но также чаще совершала ошибки.
Причина: o3 делает больше утверждений в ответах, что увеличивает как количество верных фактов, так и количество неточностей.

> *"Больше утверждений — больше правильных фактов и одновременно больше ошибок."*

OpenAI подчёркивает, что требуется дополнительное исследование этого явления.

▪ 🧩 Что это значит?

По словам представителя OpenAI Нико Феликса:

> *"Борьба с галлюцинациями остаётся для нас одним из важнейших направлений исследований."*

Модели o3 и o4-mini подтверждают сложную дилемму современного ИИ:
Как повысить знания и возможности без увеличения числа ошибок?

▪ 📚 Подробнее

@vistehno
08.04.202519:29
В CapCut появилась фича: оживление фото — изображения теперь шевелят губами и показывают эмоции 😱

Тест бесплатный. Работает через IP США.

#CapCut #photoanimation #AI

📌 Попробовать

@vistehno
⚡️ Я рекомендую вам не ронять ничего перед этим зарядным устройством.

@vistehno
✔️ VideoScene (CVPR'25) — это проект, представляющий собой значительное усовершенствование предыдущей разработки под названием ReconX.

Это модель диффузии видео, которая работает в один шаг и позволяет преобразовывать видео в 3D.

Основное преимущество VideoScene заключается в том, что она превосходит по скорости традиционные многоэтапные процессы, делая переход от видео к трехмерным моделям более эффективным.

▪️Paper: https://arxiv.org/abs/2504.01956
▪️Project Page: https://hanyang-21.github.io/VideoScene
▪️Code: https://github.com/hanyang-21/VideoScene

@vistehno
«Ошибка на миллиард» в ИИ

«Ошибка на миллиард долларов» — это популяризованное ученым Чарльзом Э. Хоаром название для null pointer exception. В большинстве классических языков программирования переменная, якобы содержащая объект какого-то класса, на самом деле может ничего не содержать.

В мире генеративных нейросетей «ошибкой на миллиард» можно назвать галлюцинации LLM. «Творческая натура» больших языковых моделей играет со строгими задачами злую шутку: в любой непонятной ситуации модель принимается фантазировать на основе претрейна.

Старший инженер по разработке ПО искусственного интеллекта в YADRO описал метод, который использовал, чтобы значительно снизить галлюцинации в выдаче модели.

Читать статью →
22.03.202516:02
🌅 HunyuanVideo-I2V

HunyuanVideo-I2V – это модель с открытым исходным кодом, предназначенная для создания видео на основе изображений, разработанная с активным участием сообщества.

В репозитории доступны реализации на PyTorch, предобученные веса и код для инференса. Для стабильной работы модели требуется NVIDIA GPU с поддержкой CUDA и не менее 80 ГБ видеопамяти. Кроме того, модель оснащена широким спектром настроек, позволяющих повысить качество генерируемого видео.

📌 Github

@vistehno
@vistehno
Кайра бөлүшүлгөн:
Анализ данных (Data analysis) avatar
Анализ данных (Data analysis)
08.04.202507:23
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!

Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.

🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.

ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.

Прикрепленное минутное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.

Вот его полный промпт.

⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.

Следим за развитием.

📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit

@data_analysis_ml
06.04.202509:16
🎮 Microsoft представила нейро-версию Quake II на базе Muse и WHAMM.

Microsoft Research представила WHAMM — новую систему или технологию, предназначенную для моделирования окружающего мира в реальном времени, с особым акцентом на интерактивные среды.

Это означает, что WHAMM способна быстро создавать и постоянно обновлять цифровую 3D-модель физического пространства, учитывая изменения, которые происходят в нем, в том числе в результате взаимодействия пользователя или других динамических событий.

▪ ИИ генерирует кадры в реальном времени, анализируя действия игрока.

▪Старая WHAMM — 1 fps, новая — 10 fps при 640×360, почти играбельно.

Модель помнит последние 0,9 секунды, что добавляет случайности.

Ключевая особенность — система работает достаточно быстро, чтобы обновлять модель мира практически мгновенно по мере поступления новых данных от сенсоров (вероятно, камер, датчиков глубины и т.д.). Это критически важно для плавного взаимодействия.

🔗 Играть в ИИ-версию Quake II можно здесь.

@vistehno

#microsoft #ai #quake #muse
Кайра бөлүшүлгөн:
Machinelearning avatar
Machinelearning
✔️ Google обновляет ряды руководителей ИИ-проектов.

Google объявила о смене руководства в подразделении потребительских приложений искусственного интеллекта: Josh Woodward сменил Sissie Hsiao на посту главы этого подразделения.

Hsiao, который возглавлял потребительские приложения ИИ, в том числе проект Gemini, покидает свой пост с сегодняшнего дня. Согласно инсайду, Sissie возьмет небольшой перерыв, после чего перейдет на новую должность в компании. Woodward, который ранее возглавлял Google Labs и контролировал запуск NotebookLM, продолжит проекты в Google Labs, одновременно взяв на себя новые обязанности. Это изменение происходит по мере того, как в гонке ИИ основное внимание уделяется не базовым моделям, а продуктам, созданным на их основе.
semafor.com

✔️ Nomic выпустила мультимодальные эмбединги для визуального поиска.

Nomic представила Nomic Embed Multimodal — набор опенсорсных эмбединг-моделей для создания векторных представлений текста, изображений, PDF и графиков. Флагманская модель ColNomic Embed Multimodal 7B показала 62.7 NDCG@5 на бенчмарке Vidore-v2, опережая предыдущие решения на 2.8 пункта.

Модели Nomic обрабатывают текст и изображения совместно, избегая сложных пайплайнов с OCR. Это особенно полезно для научных статей, технической документации или мультиязычных документов, где важен контекст.

Модели доступны в двух вариантах: ColNomic (многокомпонентные векторы) для максимальной точности и Nomic (одновекторные) для экономии ресурсов. Модели доступны на Hugging Face, а разобраться помогут гайды и ноутбуки Google Colab.
nomic.ai

✔️ Китайские ИТ-гиганты заказали чипов Nvidia на 16 млрд. долларов в первом квартале 2025 года.

ByteDance, Alibaba Group и Tencent Holdings разместили заказы на общую сумму более 16 миллиардов долларов на серверные чипы H20 AI от Nvidia в первом квартале 2025 года. Такой резкий рост спроса происходит на фоне опасений, что администрация США может наложить запрет на продажу этих чипов в Китай, ссылаясь на вопросы национальной безопасности.

H20 - самый доступный чип Nvidia для продажи в рамках действующих экспортных ограничений, которые запрещают передачу более мощных моделей китайским компаниям. Значительные заказы из Китая ставят Nvidia в сложное положение, поскольку она лавирует между возможностями для бизнеса и потенциальными геополитическими рисками.
theinformation.com

✔️ Google DeepMind опубликовали 145-страничный документ об ответственном развитии ИИ.

Google DeepMind выпустила подробный документ "Ответственный путь к AGI", в котором излагается технический план безопасного развития искусственного интеллекта общего назначения.

В документе подчеркивается важность устранения потенциальных рисков неправильного использования и несоответствия, связанных с технологией AGI. Несмотря на детальный подход, некоторые аналитики полагают, что документ может не полностью убедить скептиков в надежности и безопасности разработки AGI.
deepmind.google

✔️ Epic Games купит стартап Loci чтобы автоматизировать разметку 3D-контента.

Epic Games объявила о приобретении стартапа Loci, чья ИИ-платформа упрощает работу с 3D-ассетами. Технология автоматически генерирует теги для моделей, экономя время создателей на ручную разметку. Это особенно актуально для проектов с тысячами объектов — например, в Fortnite, где игроки добавляют элементы из популярных франшиз, провоцируя споры об авторских правах.

ИИ Loci не только ускоряет поиск и организацию контента, но и помогает выявлять нарушения интеллектуальной собственности. Loci будет интегрирован в экосистему Epic, в том числе в Unreal Editor для Fortnite и маркетплейс Fab, где продаются цифровые активы. Таким образом, разработчики получат инструменты для предотвращения юридических конфликтов и упрощения рабочих процессов.
epicgames.com

@ai_machinelearning_big_data

#news #ai #ml
🧠 Neuralink с открытым исходным кодом с использованием активности мозга обезьяны для управления роботизированными руками 🙉

Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.

Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.

В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.

Исследование открывает путь к созданию адаптивных интерфейсов «мозг-компьютер» за счет гибкого моделирования активности мозга.

Github

@vistehno
Кайра бөлүшүлгөн:
Machinelearning avatar
Machinelearning
22.03.202512:04
📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование


@ai_machinelearning_big_data

#AI #ML #Research #NLP
ChatGPT насчитывает 600–800 млн активных пользователей в месяц, тогда как у Google Gemini — около 350 млн. Но за цифрами стоит больше, чем кажется:

Реальный охват ChatGPT может быть выше. В TED Talk Сэм Альтман невольно упомянул, что «официальные» 600 млн — это консервативная оценка.

Встроенное преимущество Gemini. Модель предустановлена на большинстве Android-устройств и по соглашению является «родным» AI-ассистентом в смартфонах Samsung. Такой «фаворитизм» даёт Google огромное преимущество в распространении.

Безусловно, прямое сравнение в таких условиях не совсем справедливо. Но главное — цифры свидетельствуют: AI-ассистенты уже прочно вошли в повседневную жизнь сотен миллионов пользователей по всему миру. Независимо от того, запускаете ли вы GPT для генерации идей или просите Gemini перевести фразу, ясно одно: искусственный интеллект стал массовым продуктом.

@vistehno
Кайра бөлүшүлгөн:
Machinelearning avatar
Machinelearning
🔥 Microsoft запускает бесплатные курсы по ИИ для всех.

Microsoft представила масштабную образовательную инициативу — AI Skills Fest, где каждый может бесплатно освоить навыки работы с ИИ. Программа подходит как новичкам, так и опытным специалистам — от основ ML до работы с Azure и Copilot.

Обучение доступно на 40+ языках, включая русский, а материалы разбиты на модули: введение в ИИ, CV, NLP и создание приложений. Участники, прошедшие курс, получат бейдж для LinkedIn и шанс выиграть один из 50 тысяч сертификационных ваучеров. GitHub также предлагает скидку 50% на экзамен по Copilot для тех, кто завершит их модуль.

Чтобы присоединиться, достаточно зарегистрироваться на сайте Microsoft и выбрать подходящий уровень сложности. Помимо основного блока, доступны хакатоны, форумы и самообучение в удобном темпе.

🟡 microsoft.com

@ai_machinelearning_big_data

#course #ai #ml #freeeducation
🤖 Новое видео NEO от 1X: полностью автономный робот.

ИИ выполняет различные задачи, а также координирует движения всего тела.

Вместо того чтобы решать одну задачу за раз, 1X тренируется для общей автономности в различных неструктурированных домашних бытовых задачах.
Кайра бөлүшүлгөн:
Machinelearning avatar
Machinelearning
✔️ DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶 По сути это Сursor в браузере.

🟡Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data


#deepseek #vibecoding #app
Сотрудники Авито ведут свой telegram-канал ⭐️

И знаете, получается мега-лампово и увлекательно. Всего через несколько постов начинаешь уже чувствовать себя частью их уютного офиса: рядом — знакомые весёлые коллеги из постов, и вам точно есть что обсудить.

А вообще хвалим и одобряем. Во-первых, смело и интересно. Во-вторых, для тех, кто рассматривает работу в компании, это возможность изучить культуру и вайб команды ещё до трудоустройства.

🔥 Однозначно подписка — @avito_life
🔥🔥 Если думаешь о работе в Авито, то добавляй сразу — @avito_career
⚡️ Metallica представили уникальный концертный опыт Apple Immersive, который будет доступен бесплатно только на Apple Vision Pro с 14 марта.

Расширенная версия будет доступна во время демонстраций Apple Vision Pro в некоторых магазинах Apple Store.

«Компания Apple построила специальную сцену с 14 камерами Apple Immersive Video, используя сочетание стабилизированных камер, камер на тросах и дистанционно управляемых систем тележек для камер, которые перемещались по сцене».

«Снятый во время нашей последней остановки M72 в 2024 году в Мехико, он включает в себя полные выступления «Whiplash», «One» и «Enter Sandman», все записанные эксклюзивно на Apple Immersive Video».

«Песни, вошедшие в альбом Metallica, также будут доступны в виде нового EP Metallica Live from Mexico City в формате Spatial Audio на Apple Music в эту пятницу».

«Расширенный предварительный просмотр концерта Metallica будет доступен в рамках демонстрации Apple Vision Pro в магазинах Apple Store по всему миру, начиная с пятницы, 14 марта. Apple Vision Pro доступен в Австралии, Канаде, Франции, Германии, Гонконге, Японии, Сингапуре, Южной Корее, Тайване, Объединенных Арабских Эмиратах, Великобритании и США. Клиенты в этих странах могут зарезервировать бесплатную демонстрацию Vision Pro в своем местном магазине Apple Store. Для записи вам необходимо иметь учетную запись Apple».

@vistehno
🔁 дублируем видосы бесплатно на любой язык — вышла новая нейронка Vozo и это просто подарок.

Это целый мультитул: перевод видео с сохранением голоса, можно сделать липсинк и субтитры. Из интересных фишек: поддерживает перевод сразу нескольких спикеров!

Внутри 39+ языков, среди которых и русский — делает как перевод с великого и могучего, так и на него. После регистрации отсыпают 30 кредитов, это где-то 3 минуты дублированного видео, что очень много.

Попробовать — здесь.
😖 Новость дня: учёные из стартапа Colossal воскресили лютоволков из «Игры престолов», живших 12'000 лет назад.

Они собрали ДНК из зуба (13 000 лет) и черепа (72 000 лет), отредактировали 14 генов серого волка и имплантировали эмбрионы суррогатным матерям. Через 65 дней родились три щенка — Ромул, Рем и Дейенерис, которые на 25% крупнее обычных волчат.

В планах Colossal также воскрешение мамонтов, додо, саблезубых тигров и гигантских ленивцев.

#science #cloning #клонирование
🖥 ​OpenAI меняют планы выпуска моделей: o3 и o4-mini выйдут раньше GPT-5​

Компания планирует выпустить o3 и o4-mini в ближайшие недели, а релиз GPT-5 ожидается через несколько месяцев. ​

По словам Альтмана, это решение обусловлено несколькими факторами:​

- Дополнительное время позволит значительно повысить качество и возможности модели GPT-5. ​

- Компания столкнулась с трудностями при попытке плавно интегрировать различные компоненты, что потребовало пересмотра первоначальных планов. ​

OpenAI пытаются подготовить достаточные мощности для поддержки предполагаемого беспрецедентного спроса на новые модели.

@vistehno
Кайра бөлүшүлгөн:
Machinelearning avatar
Machinelearning
✔️ Ant Group использует китайские чипы для снижения стоимости обучения моделей на 20%

Ant Group успешно использовала хардверные решения от Alibaba и Huawei для обучения своих моделей, что позволило сократить затраты примерно на 20%. Результаты тестов показали, что китайские чипы сопоставимы по производительности с Nvidia H800. Хотя Ant Group пока полностью не отказывается от Nvidia для разработки ИИ, ее последние разработки в основном полагаются на альтернативные решения - AMD и чипы китайского производства.

Это свидетельствует о том, что китайские компании ускоряют локализацию технологий искусственного интеллекта, чтобы сократить затраты и уменьшить зависимость от американских чипов.
bloomberg.com

✔️ В Италии запущена первая в мире газета, созданная ChatGPT.

Итальянская газета Il Foglio начала месячный эксперимент, опубликовав первый в мире газетный выпуск, сгенерированный искусственным интеллектом. Цель эксперимента - изучить влияние ИИ на журналистику, используя ChatGPT для создания контента.

Редактор газеты Клаудио Сераса заявил, что ИИ использовался на всех этапах создания - от написания текстов и заголовков до цитат и резюме, при этом журналисты редакции участвуют в создании промптов для ИИ и проверке сгенерированных текстов.
asianfin.com

✔️ ARC Prize запускает бенчмарк ARC-AGI-2 с призовым фондом в 1 миллион долларов.

Команда ARC Prize запустила 2 этап бенчмарка ARC-AGI-2 для оценки «гибкости мышления» ИИ через задачи, которые человек решает за секунды, а алгоритмы — с трудом. Как и в прошлой версии, система проверяет способность к обобщению знаний, но теперь барьер выше: на нем базовые LLM набирают 0%, а продвинутые — меньше 4%. Призовой фонд бенчмарка -1 млн. долларов, главный приз получит разработка, которая сможет превысить 85% выполнения бенчмарка.

Решение задач ARC-AGI-2 требует интуиции и адаптивности — того, что в людях заложено природой. «Это не тест на эрудицию, а проверка умения мыслить вне данных», — поясняют разработчики.
arcprize.org

✔️ Поисковая система Atlantic позволит проверить, использовалась ли ваша работа для обучения моделей.

Компания The Atlantic разработала поисковый инструмент, позволяющий пользователям проверить, не фигурирует ли их работа в LibGen - архиве книг, научных работ и статей, который, как сообщается, использовался для обучения популярных языковых моделей.

Согласно судебным документам, набор данных LibGen использовался для обучения моделей Llama. OpenAI уже публично сообщила, что контент LibGen не включен в текущие версии ChatGPT или в API OpenAI. Другие компании, занимающиеся разработкой ИИ, пока не комментировали, использование LibGen в своем обучении.
theatlantic.com

✔️ OceanDS: 1,8 млрд. данных об океане стали основой первой океанографической LLM.

Китайская модель OceanDS, созданная для морских исследований, опирается на уникальную базу из 1,8 млрд токенов данных. В неё вошли оцифрованные научные работы, книги и отчёты — всё, что касается океана.

По тестам OceanDS обходит топовые LLM в точности ответов на профильные запросы — разрыв достигает 25%. Это первый в мире ИИ, заточенный под океанографию. Уже сейчас его тестируют в управлении природными ресурсами Китая, а в будущем — внедрят в другие отрасли.
news.cgtn.com

@ai_machinelearning_big_data

#AI #ML #Research #NLP
🌟 Интересная визуализация для быстрого запоминания азбуки Морзе!

@vistehno
11.03.202517:28
⚡️ OpenAI представили новые инструменты для разработки агентов:

● Web Search — любой агент, созданный через OpenAI, теперь может искать и использовать информацию из интернета.
● File Search — реализован функционал поиска по локальным файлам.
● Multi-agent framework — Swarm переименован в Agents SDK, позволяющий передавать диалоги между агентами с сохранением контекста.
● Computer Use — возможность создать агента, который автономно управляет вашим пк

Стрим: https://www.youtube.com/live/hciNKcLwSes

@vistehno
Көрсөтүлдү 1 - 24 ичинде 41
Көбүрөөк функцияларды ачуу үчүн кириңиз.