Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data Secrets avatar
Data Secrets
Data Secrets avatar
Data Secrets
06.05.202516:20
Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:

➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2

➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»

➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:

"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"


Игра престолов, не иначе 😐
Стартап Anysphere (это разработчики Cursor) оценили в 9 миллиардов долларов

По слухам, скоро они получат инвестиции в размере 900 миллионов долларов от крупнейших капиталистов США, в том числе от a16z.

Напоминаем, что еще в декабре стартап стоил 2.5 миллиарда.
Журналисты нашли на спутниковых снимках три секретных китайских завода Huawei по производству чипов

По сети распространяется все больше слухов об AI Ascend 910D – новых чипах компании Huawei, которые по производительности якобы превзойдут H100 от Nvidia. Есть даже информация, что на этих картах обучают DeepSeek-R2.

А сегодня Financial Times написали, что на спутниковых снимках они нашли три "построенных в одном стиле" завода, расположенных прямо около базы Huawei. Ранее о них никогда не сообщалось, но по словам инсайдеров на этих линиях производят как раз AI Ascend.

Интересно, что судя по снимкам, строить заводы начали сразу после введения Америкой первых технологических санкций. Инсайдеры также говорят, что объекты получают субсидии от государства.

Напоминаем, что сейчас импорт линейки Blackwell в Китае запрещен, поэтому компании и стартапы страдают от нехватки железа. Получается, что если AI Ascend действительно заменит стандарт H100, это может стать переломным моментом в ИИ-гонке.
Сегодня ночью Gemini 2.5 Pro впервые полностью прошла Pokémon Blue

Это первый случай полного прохождения моделью культовой франшизы. До этого в покемонов играл Claude Sonnet 3.7, но до конца он дойти так и не смог: застрял в карте.

Gemini 2.5 Pro на все прохождение понадобилось всего нескольких сотен часов. Правда, с небольшой помощью.

Например, для улучшения навигации на кадры в эмуляторе накладывается сетка (+ есть текстовая карта), а для решения головоломок и планирования маршрутов используются дополнительные агенты (тоже экземляры Gemini). Память тоже обновляется не абы как, а по специальной подходящей под игру логике.

Проект независимый, его запускали не в Google. Разработчики говорят, что сейчас готовятся запускать прохождения с o3 и Сlaude.

Лайвстрим можно смотреть здесь
Microsoft выпустили reasoning версии моделей линейки Phi-4

Пост-разбор самой линейки, которая вышла в феврале, можно посмотреть тут. Сегодня она пополнилась моделями Phi-4-reasoning, Phi-4 reasoning-plus и Phi-4-mini-reasoning. В первых двух 14В, в последней – всего 3.8B, можно запускать дома.

Самая мощная Phi-4 reasoning-plus во многих тестах лучше R1 (в R1 в десятки раз больше параметров), и намного лучше o1-mini в математике. То есть в целом на уровне с передовыми ризонерами, но открыто и легковесно.

Немного отстает только на кодинге, но авторы сами говорят, что в датасете задач по программированию было мало. В то же время приросты относительно обычной Phi-4 говорят сами за себя, бусты достигают х10. Маленькая модель в своем размере тоже тащит.

Как обучали:

Phi-4-reasoning: это только SFT на задачах с CoT от o3-mini. Интересно, что даже эта версия, хоть училась только на CoT o3-mini, иногда обходит своего учителя (пример - бенч OmniMath).

Phi-4 reasoning-plus: тут добавляется еще и RL, правда совсем не масштабный, всего 6 тысяч задач. Больше не брали, потому что модель начинала выходить за контекст. При этом даже такой компактный RL показал крутые результаты, сами сравните на бенчмарках с Phi-4-reasoning.

Phi-4-mini-reasoning: здесь все немного иначе. CoT брали из R1 + датасетов. Обучали в четыре этапа: дистилляция (тут не из конкретной модели, а просто по собранному датасету и только на next-token), SFT, DPO и RL. Про эту модель вышла отдельная статья (там очень подробный рецепт того, как добавить в маленькую модель качественный ризонинг, так что сохраняем).

Веса | Тех.репорт
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2

В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.

Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?

В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
06.05.202511:52
Открытая модель от OpenAI будет отставать от передовых моделей стартапа на целое поколение

Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:

«Мы выпускаем эту модель, потому что хотим, чтобы лучший в мире открытый ИИ был производства США, а не Китая, и отвечал именно демократическим ценностям.

По этим же соображениям эта модель будет отставать примерно на поколение от наших лучших моделей. Выпустить открытую модель лучше – значит тоже помочь Китаю»
05.05.202515:20
Полезная новость для всех, кто практикует data-driven: Arenadata релизнули новую мощную платформу для хранения и обработки данных

Arenadata One потянет любую архитектуру бигдаты, включая Lakehouse + вероятно будет дешевле имеющихся СУБД. Быстро пройдемся по фишкам:

➖ В отличие от классических bare-metal-СУБД, Arenadata One не требует резервации оборудования и работает в эластичной среде. Данные можно держать и в своём дата-центре, и в облаке – и перемещать между ними.
➖ Система умеет переиспользовать ресурсы и автоматически масштабирует нагрузки. За счет этого вы получите минимальный Total Cost of Ownership.
➖ Вычисления и хранение работают отдельно: это позволит быстро добавлять мощности, не прикасаясь к данным.
➖ Все совместимо с S3 и абсолютно не привязано к форматам данных, грузим что хотим.
➖ Реализовано multi-tiering: горячие данные лежат быстро и близко, холодные – экономно и глубже.
➖ Есть готовые панели и функции для мониторинга, управления доступами, отслеживания изменений и аудита.
➖ Аналитика и транзакции работают под одной крышей, больше не надо держать отдельную базу под отчёты и отдельную под приложение.

Ну и на десерт: Хранение AI-векторов и feautures. По факту, AI/ML-ready инфраструктура из коробки.

За подробностями сюда
Новый эпизод черного зеркала: Альтман официально запустил в США подтверждение вашей личности через сканирование сетчатки глаза

Помните, мы рассказывали про второй стартап Сэма World (пост, пост)? Так вот они наконец прошли все юридические проверки, и теперь понемного раскатывают свои центры сканирования по США. Цель компании – избежать исполнения теории мертвого интернета и сделать так, чтобы каждый человек в сети имел подтвержденный человеческий ID.

Сканирование выполняется небольшим устройством под названием Orb, каждый прошедший получает тот самый айдишник + можно приобрести криптовалюту WorldCoin.

К концу года устройства планируют разместить по всей Америке. Самое интересное, что уже сейчас в партнерах у стартапа Visa и Tinderчтобы вы встречались с живыми людьми»).

Посмотрим, что из этого выйдет
Chatbot Arena больше не работает? Вышло исследование "The Leaderboard Illusion", в котором ученые доказали предвзятость всеми любимого рейтинга

Среди авторов – ученые из Cohere, Стэнфорда, Принстона, Ватерлоо, MIT и других вузов с именем. Вот что им удалось выяснить:

Во-первых, у крупных провайдеров появляется нечестное преимущество за счет количества "попыток". На арене есть такая штука, как приватное тестирование. В ходе него можно "анонимно" запустить N версий своей модели (разные гиперпараметры, системные промпты, чекпоинты). При этом результаты этих N версий не появляются на лидерборде: туда отгружается только результат лучшей из них.

На первый взгляд все честно. Но на самом деле тут есть статистическая ошибка. Если из N моделей мы выбираем ту, у которой максимальный Arena Score и публикуем его, то он получается завышенным.

Дело в том, что при "истинном" умении X результаты модели колеблются на X+-Δ. Если мы тестируем одну модель (как это обычно делают мелкие провайдеры), то результат получается средним и отражает истинный X. Но в случае выбора из N моделей мы автоматически выбираем ту, которая больше раз случайно "стрельнула" в сторону завышения способностей, а значит отражаем результат выше, чем X (картинка 2).

В статье ученые даже показали это на реальном эксперименте (картинка 3). Взяли модель и дважды отправили ее на арену по разным путям тестирования. Разница получилась в 17 очков, а это довольно серьезно. При этом чем больше N, тем больше будет этот несправедливый разрыв. А у кого есть ресурсы на кучу тестов? Правильно, только у больших игроков.

Во-вторых, большие игроки получают преимущество за счет ассиметрии количества баттлов (картинка 4). Посмотрите: проприетарные модели получают 54–70% всех диалогов, а значит им и данных достается гораздо больше. А значит, разработчики могут лучше файн-тюниться под арену. И дальше все превращается в снежный ком.

При этом в статье показано, что это переобучение в чистом виде. То есть чем больше мы файнтюним модель под арену, тем она хуже показывает себя на реальных бенчмарках (в статье брали MMLU).

И это уже не говоря о том, что на арене вендоры могут по-тихому удалять свои модели, что тоже портит статистику и влияет на рейтинги.

Значит ли все это, что арена совершенно бесполезная и непрезентативная? Нет, просто нужно переосмыслять концепцию и вводить больше правил и ограничений. В статье, кстати, даже предложили парочку.

Почитать работу полностью можно здесьвот тут, кстати, сами разрабы арены написали на нее свою рецензию-ревью)
1 мая – день труда. Вот и мы с утра потрудились и сделали для вас технический разбор статьи про новенькую DeepSeek-Prover-V2

Это ризонинг-модель на 671B для доказательства теорем в среде Lean. Lean – это такая классическая программа от Microsoft Research для формальной верификации доказательств. Там свой язык программирования, и среда умеет проверять корректность отдельных утверждений и обоснованность доказательства в целом.

Первое, чем цепляет работа – пайплайн сбора данных. Для него используется связка из двух полноценных моделей: DeepSeek-V3 и DeepSeek-Prover-V2-7B. Вот как это работает:

1. DeepSeek-V3 генерирует скетч доказательства в виде рекурсивной серии утверждений вида "если у нас будет доказанная лемма A, то мы сможем доказать B". Так у нас появляется план действий и список лемм, которые надо доказать для решения.
2. Подключается моделька DeepSeek-Prover-V2-7B (еще без всякого ризонинга, в non-CoT). В качестве базы для нее брали DeepSeek-Prover-V1.5-Base-7B и дообучали прямо в процессе сбора данных. Цель модели – доказать все мелкие леммы из пункта 1.
3. Все сгенерированные скрипты прогоняются через Lean. Верифицированные остаются в датасете, не верифицированные остаются на следующий прогон как нерешенные.


Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (CoT — потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки.

Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:

1. Мы смешиваем CoT и non-CoT данные так, чтобы в каждом батче был баланс между быстрыми решениями и развернутыми.
2. Берем уже предобученную на куче математических текстов 671B-модель и для начала просто файнтюним на смешанном корпусе. Получается такой Cold-start RL.
3. Ну и, конечно, полноценный RL с фирменным дипсиковским GRPO
(разбор метода).
Награда бинарная, 1 за верифицированное доказательство, 0 иначе. Еще введен consistency reward, штрафующий несовпадение структуры итогового доказательства с изначальным CoT-скетчем.

Параллельно, кстати, точно так же (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг.

Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат – 49 решенных задач. Для понимания, o3-mini на этом тесте выбивает 0, а о4-mini-high – 2.

Статья
Кстати, с сегодняшнего дня GPT-4 – все

Модель отключили, и теперь она недоступна ни в чате, ни в API

🫡
Ничего необычного, просто сооснователь OpenAI Грег Брокман на красной дорожке вчерашнего Met Gala

Звезда Голливуда получается 💅
Твиттерский ML-инженер поделился историей о том, как пошел к травматологу, а получил консультацию от ChatGPT

Когда тот самый мем уже не мем
Исследователи из Университета Карнеги-Меллон создали IT-компанию, полностью состоящую из ИИ-агентов. Вот что из этого вышло

Команда исследователей из CMU запустила необычный эксперимент: они создали автономную виртуальную среду, имитирующую небольшую software компанию, и поместили на "реальные" рабочие места современных LLM-агентов. Все оформили в виде бенчмарка и назвали TheAgentCompany.

По сути агенту необходимо делать все то же, что делает типичный работчик IT (картинка 1): писать код, использовать терминал, рыться в браузере и Google Drive, взамодействовать с коллегами в мессенджере, пользоваться GitLab и Jira. Выполнение всех задач, кстати, оценивалось по чекпоинтам, а не просто "выполнил/не выполнил" (картинка 2) + учитывали итоговую стоимость по токенам.

В компании успели поработать Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие. Задачи покрывали SWE, PM, HR и еще несколько классических сфер. Всего 175 тасок, рассчитанных на 3000 часов труда 20 живых людей.

Результаты в таблицах на картинке 3. Как видите, даже лучший Claude 3.5 Sonnet справляется только с четвертью базовых обязанностей. Следующум идет Gemini 2.0 Flash, но уже с большим отрывом: 11.4%. Все остальные – меньше 9%.

Забавно, что GitLab и кодинг давались агентам довольно легко, а вот самым сложным оказались банальные заполнения форм, браузинг, планирование встреч и общение в мессенджере (им просто не объяснили, что надо мемы отправлять).

Хороший бенч, побольше бы таких

Статья | Код | Сайт (лидерборд внутри) | Результаты экспериментов
Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных

Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.

При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.

По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.

www.anthropic.com/news/integrations
Xiaomi опенсорснули свою ризонинг модель

Она называется MiMo-7B и результаты для своего веса у нее довольно неплохие: 93.6% на MATH-500, 55.4% на AIME 2025 и 49.1% на LCB.

Это примерно уровень o1-mini. Есть, как у DeepSeek, вариант Zero (то есть RL с холодным стартом), SFT+RL и даже base+SFT.

Веса
Мира Мурати получит 2 миллиарда долларов от крупнейшнего венчурного фонда a16z

Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.

Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.

Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.

А что, так можно было? 🔵
OpenAI сломалась под общественным давлением и отказалась от полного перехода в статус некоммерческой организации

Некоммерческий совет директоров сохранит акции и контроль над коммерческим крылом, которое переходит в статус Public Benefit Corporation (PBC).

Это тип коммерческой организации, цели которой включают оказание положительного влияния на общество. То есть буквально смесь for-profit и non-profit. Для ИИ-стартапов PBC – классика жанра.

Говорят, что такое решение в OpenAI приняли после общения с «гражданскими лидерами» и генпрокурорами Делавэра и Калифорнии.

openai.com/index/evolving-our-structure/
Шах и мат, ИИ-грубияны: старший научный сотрудник Google Deepmind и профессор когнитивной робототехники в Имперском колледже Лондона Мюррей Шанахан подтвердил, что слова "спасибо" и "пожалуйста" могут улучшить качество ответов модели

"Конечно, это зависит от обстоятельств: модели ведь постоянно меняются. Однако в общем случае есть веская научная причина, почему четкие дружелюбные формулировки и использование таких слов, как «пожалуйста» и «спасибо», могут улучшить качество ответов.

Все дело в том, что это похоже на ролевую игру. ИИ, скажем, исполняет роль очень умного стажера. Стажер может быть менее эффективным, если его не хвалить и постоянно ругать. Модель имитирует поведение человека, поэтому может вести себя точно также"


https://youtu.be/v1Py_hWcmkU?t=2327
База: в открытом репозитории инженера xAI несколько месяцев лежали API ключи доступа к внутренним моделям стартапа

Пару дней назад первым уязвимость заметил chief hacking officer из компании Seralys (они занимаются консалтингом в сфере кибербеза). Он опубликовал об этом пост на линкедине, и публикацию заметили исследователи из GitGuardian.

Для контекста: GitGuardian занимаются постоянным авто-сканированием GitHub на предмет раскрытых ключей API и отправляют оповещения владельцам. Они провели мини-расследование и выяснили, что токен из репы xAI вел к нескольким невыпущенным моделям Grok. В общей сложности обнаружился доступ как минимум к 60 моделям.

xAI фейл никак не прокомментировал, но ключ уже удалили
О, Cursor поделились статистикой самых популярных среди разработчиков моделей

Топ-5 самых популярных:

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o

Топ-5 быстрее всего набирающих популярность:

1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3

Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек 😱
30.04.202512:54
Лучшее GPU-облако в России? По мнению CNews — это MWS

Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.

Что дало преимущество:
➖ Поддержка платформы виртуализации GPU (вкл. MWS VMcloud Platform, KVM)
➖ MWS GPT и MLOps-инструменты под задачи ИИ
➖ 15 конфигураций: от T4 до A100, с CPU Intel Xeon Gold
➖ Kubernetes, VDI, DRaaS, ML-библиотеки
➖ ЦОДы уровня Tier III и высокая отказоустойчивость

В целом, это облако, которое закроет задачи от теста модели до продакшена.
29.04.202518:43
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯

Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?

Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.

Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
Көрсөтүлдү 1 - 24 ичинде 532
Көбүрөөк функцияларды ачуу үчүн кириңиз.