Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data Secrets avatar
Data Secrets
Data Secrets avatar
Data Secrets
База: в открытом репозитории инженера xAI несколько месяцев лежали API ключи доступа к внутренним моделям стартапа

Пару дней назад первым уязвимость заметил chief hacking officer из компании Seralys (они занимаются консалтингом в сфере кибербеза). Он опубликовал об этом пост на линкедине, и публикацию заметили исследователи из GitGuardian.

Для контекста: GitGuardian занимаются постоянным авто-сканированием GitHub на предмет раскрытых ключей API и отправляют оповещения владельцам. Они провели мини-расследование и выяснили, что токен из репы xAI вел к нескольким невыпущенным моделям Grok. В общей сложности обнаружился доступ как минимум к 60 моделям.

xAI фейл никак не прокомментировал, но ключ уже удалили
О, Cursor поделились статистикой самых популярных среди разработчиков моделей

Топ-5 самых популярных:

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o

Топ-5 быстрее всего набирающих популярность:

1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3

Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек 😱
30.04.202512:54
Лучшее GPU-облако в России? По мнению CNews — это MWS

Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.

Что дало преимущество:
➖ Поддержка платформы виртуализации GPU (вкл. MWS VMcloud Platform, KVM)
➖ MWS GPT и MLOps-инструменты под задачи ИИ
➖ 15 конфигураций: от T4 до A100, с CPU Intel Xeon Gold
➖ Kubernetes, VDI, DRaaS, ML-библиотеки
➖ ЦОДы уровня Tier III и высокая отказоустойчивость

В целом, это облако, которое закроет задачи от теста модели до продакшена.
29.04.202518:43
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯

Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?

Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.

Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
Робо-руку от HuggingFace за 100 долларов надо?

HuggingFace показали свою новую модель робо-руки SO-101. Это продолжение SO-100, которую они раскатывали в октябре совместно с The Robot Studio (в этот раз релиз тоже совместный). Новая модель проще для сборки, легче, и оснащена лучшими двигателями и камерой.

Стоит удовольствие всего 100 долларов. Но, если быть откровенным, это базовая цена. В зависимости от тарифов она может колебаться до 500 долларов.

Самое интересное, что покупателям предстоит не только самостоятельно собрать, но и обучить руку. Это, к слову, не сложно: вот здесь в репозитории подробнейшие инструкции, справится даже не инженер. А научить робота можно чему хочешь (ну в рамках возможностей и, желательно, этики).

Получается какое-то лего нового поколения 🙌
Пока ждем выхода Qwen 3, о котором жужжит весь реддит, разбираем статью "Reasoning Models Can Be Effective Without Thinking" от ученых из Беркли

Сегодняшние ризонинг модели называются "ризонинг", потому что используют явный многошаговый процесс мышления. Мы называем это Chain-of-Thought. На практике это просто большой префикс ответа, то есть куча токенов, которые хотя и улучшают качество, но делают это долго и дорого.

Так вот, внезапно оказалось, что ризонинг ризонинг-моделям не так уж и нужен.

Смотрите: в статье авторы берут DeepSeek-R1-Distill-Qwen-32B (с ризонингом), но вместо всего процесса рассуждения ставят заглушку. Для этого прямо в промпт добавляют кусочек
<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>

, и так как модель обучена генерировать готовое решение сразу после этого тега, она пропускает размышления и тут же генерирует ответ. Вот такой джейлбрейк.

Метод называется NoThinking, и он, несмотря на всю свою простоту, оказывается удивительно эффективен. На pass@k (хотя бы один из k ответов верен) на задачках по математике и кодингу результаты сопоставимые с CoT, особенно если бюджет токенов небольшой. На кривой Парето можно увидеть красивый accuracy-budget трейдофф.

При этом если NoThinking генерирует N ответов параллельно, а затем из них мы выбираем лучший, то на pass-1 метрика даже выше, чем у обычного CoT (и это все еще быстрее, чем ванильный ризонинг).

Получается, гипотеза следующая: нам не нужны длинные рассуждения на инференсе. Достаточно того, что модель была рассуждениям обучена. Просто в NoThinking она не разворачивает все свои мысли в длинный текст, а думает их про себя. Да, иногда такая ментальная арифметика работает чуть хуже, но работает же. А значит и потенциал какой-то есть.

https://arxiv.org/abs/2504.09858
Сегодня ночью Gemini 2.5 Pro впервые полностью прошла Pokémon Blue

Это первый случай полного прохождения моделью культовой франшизы. До этого в покемонов играл Claude Sonnet 3.7, но до конца он дойти так и не смог: застрял в карте.

Gemini 2.5 Pro на все прохождение понадобилось всего нескольких сотен часов. Правда, с небольшой помощью.

Например, для улучшения навигации на кадры в эмуляторе накладывается сетка (+ есть текстовая карта), а для решения головоломок и планирования маршрутов используются дополнительные агенты (тоже экземляры Gemini). Память тоже обновляется не абы как, а по специальной подходящей под игру логике.

Проект независимый, его запускали не в Google. Разработчики говорят, что сейчас готовятся запускать прохождения с o3 и Сlaude.

Лайвстрим можно смотреть здесь
Microsoft выпустили reasoning версии моделей линейки Phi-4

Пост-разбор самой линейки, которая вышла в феврале, можно посмотреть тут. Сегодня она пополнилась моделями Phi-4-reasoning, Phi-4 reasoning-plus и Phi-4-mini-reasoning. В первых двух 14В, в последней – всего 3.8B, можно запускать дома.

Самая мощная Phi-4 reasoning-plus во многих тестах лучше R1 (в R1 в десятки раз больше параметров), и намного лучше o1-mini в математике. То есть в целом на уровне с передовыми ризонерами, но открыто и легковесно.

Немного отстает только на кодинге, но авторы сами говорят, что в датасете задач по программированию было мало. В то же время приросты относительно обычной Phi-4 говорят сами за себя, бусты достигают х10. Маленькая модель в своем размере тоже тащит.

Как обучали:

Phi-4-reasoning: это только SFT на задачах с CoT от o3-mini. Интересно, что даже эта версия, хоть училась только на CoT o3-mini, иногда обходит своего учителя (пример - бенч OmniMath).

Phi-4 reasoning-plus: тут добавляется еще и RL, правда совсем не масштабный, всего 6 тысяч задач. Больше не брали, потому что модель начинала выходить за контекст. При этом даже такой компактный RL показал крутые результаты, сами сравните на бенчмарках с Phi-4-reasoning.

Phi-4-mini-reasoning: здесь все немного иначе. CoT брали из R1 + датасетов. Обучали в четыре этапа: дистилляция (тут не из конкретной модели, а просто по собранному датасету и только на next-token), SFT, DPO и RL. Про эту модель вышла отдельная статья (там очень подробный рецепт того, как добавить в маленькую модель качественный ризонинг, так что сохраняем).

Веса | Тех.репорт
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2

В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.

Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?

В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
OpenAI анонсировали в ChatGPT <strike>рекламу</strike> встроенный шоппинг 🤑

Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.

На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
29.04.202508:01
Основатели стартапов здесь? Пост специально для вас

С новым витком развития GenAI, к примеру, DeepSeek R1, мы видим, как появляется шанс у небольших игроков. Да и AI, в целом, позволяет запускать стартапы быстрее чем когда бы то ни было.

Однако, вырастить стартап — та ещё задачка. Вы придумали идею, сделали первую версию продукта... А что дальше? Как финансировать проект?

Многие начинают с бутстрепа — вкладывают в стартап деньги из собственного кармана. Это сработает, если у вас есть накопления или стабильный доход с основной работы.

Другой путь — привлечь инвестиции. Но есть куча вопросов:

▪️Может ли мой продукт рассчитывать на инвестиции?
▪️Где найти инвестора?
▪️Как подготовить презентацию стартапа?
▪️Как вообще вывести продукт на рынок и собрать первую команду?

Андрей Резинкин сделал про все это тг-канал для фаундеров — Money For Startup. Андрей — ранний инвестор в стартапах Educate Online, EBAC, XOR, AiTOMATIC, InTone и др. и рассказывает про стартапы с точки зрения инвестора. А это взгляд, которого часто не хватает фаундеру.

Знакомство лучше начать с этого поста:

👉 Что нужно знать фаундеру на каждом этапе развития стартапа?

Если хотите не просто разработать продукт, а построить бизнес, подписывайтесь. Канал Андрея поможет разобраться с фандрейзингом и вывести ваш стартап на новый уровень. Кто знает, может уже "завтра" Вы станете тем самым GameChanger, а эта информация будет как нельзя кстати.
В Твиттере обнаружили место обитания моделей Meta нового поколения
Chatbot Arena больше не работает? Вышло исследование "The Leaderboard Illusion", в котором ученые доказали предвзятость всеми любимого рейтинга

Среди авторов – ученые из Cohere, Стэнфорда, Принстона, Ватерлоо, MIT и других вузов с именем. Вот что им удалось выяснить:

Во-первых, у крупных провайдеров появляется нечестное преимущество за счет количества "попыток". На арене есть такая штука, как приватное тестирование. В ходе него можно "анонимно" запустить N версий своей модели (разные гиперпараметры, системные промпты, чекпоинты). При этом результаты этих N версий не появляются на лидерборде: туда отгружается только результат лучшей из них.

На первый взгляд все честно. Но на самом деле тут есть статистическая ошибка. Если из N моделей мы выбираем ту, у которой максимальный Arena Score и публикуем его, то он получается завышенным.

Дело в том, что при "истинном" умении X результаты модели колеблются на X+-Δ. Если мы тестируем одну модель (как это обычно делают мелкие провайдеры), то результат получается средним и отражает истинный X. Но в случае выбора из N моделей мы автоматически выбираем ту, которая больше раз случайно "стрельнула" в сторону завышения способностей, а значит отражаем результат выше, чем X (картинка 2).

В статье ученые даже показали это на реальном эксперименте (картинка 3). Взяли модель и дважды отправили ее на арену по разным путям тестирования. Разница получилась в 17 очков, а это довольно серьезно. При этом чем больше N, тем больше будет этот несправедливый разрыв. А у кого есть ресурсы на кучу тестов? Правильно, только у больших игроков.

Во-вторых, большие игроки получают преимущество за счет ассиметрии количества баттлов (картинка 4). Посмотрите: проприетарные модели получают 54–70% всех диалогов, а значит им и данных достается гораздо больше. А значит, разработчики могут лучше файн-тюниться под арену. И дальше все превращается в снежный ком.

При этом в статье показано, что это переобучение в чистом виде. То есть чем больше мы файнтюним модель под арену, тем она хуже показывает себя на реальных бенчмарках (в статье брали MMLU).

И это уже не говоря о том, что на арене вендоры могут по-тихому удалять свои модели, что тоже портит статистику и влияет на рейтинги.

Значит ли все это, что арена совершенно бесполезная и непрезентативная? Нет, просто нужно переосмыслять концепцию и вводить больше правил и ограничений. В статье, кстати, даже предложили парочку.

Почитать работу полностью можно здесьвот тут, кстати, сами разрабы арены написали на нее свою рецензию-ревью)
1 мая – день труда. Вот и мы с утра потрудились и сделали для вас технический разбор статьи про новенькую DeepSeek-Prover-V2

Это ризонинг-модель на 671B для доказательства теорем в среде Lean. Lean – это такая классическая программа от Microsoft Research для формальной верификации доказательств. Там свой язык программирования, и среда умеет проверять корректность отдельных утверждений и обоснованность доказательства в целом.

Первое, чем цепляет работа – пайплайн сбора данных. Для него используется связка из двух полноценных моделей: DeepSeek-V3 и DeepSeek-Prover-V2-7B. Вот как это работает:

1. DeepSeek-V3 генерирует скетч доказательства в виде рекурсивной серии утверждений вида "если у нас будет доказанная лемма A, то мы сможем доказать B". Так у нас появляется план действий и список лемм, которые надо доказать для решения.
2. Подключается моделька DeepSeek-Prover-V2-7B (еще без всякого ризонинга, в non-CoT). В качестве базы для нее брали DeepSeek-Prover-V1.5-Base-7B и дообучали прямо в процессе сбора данных. Цель модели – доказать все мелкие леммы из пункта 1.
3. Все сгенерированные скрипты прогоняются через Lean. Верифицированные остаются в датасете, не верифицированные остаются на следующий прогон как нерешенные.


Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (CoT — потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки.

Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:

1. Мы смешиваем CoT и non-CoT данные так, чтобы в каждом батче был баланс между быстрыми решениями и развернутыми.
2. Берем уже предобученную на куче математических текстов 671B-модель и для начала просто файнтюним на смешанном корпусе. Получается такой Cold-start RL.
3. Ну и, конечно, полноценный RL с фирменным дипсиковским GRPO
(разбор метода).
Награда бинарная, 1 за верифицированное доказательство, 0 иначе. Еще введен consistency reward, штрафующий несовпадение структуры итогового доказательства с изначальным CoT-скетчем.

Параллельно, кстати, точно так же (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг.

Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат – 49 решенных задач. Для понимания, o3-mini на этом тесте выбивает 0, а о4-mini-high – 2.

Статья
Кстати, с сегодняшнего дня GPT-4 – все

Модель отключили, и теперь она недоступна ни в чате, ни в API

🫡
Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе

Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.

"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии."
⚡️ Вышел Qwen-3, встречаем новую открытую соту

Выпустили 2 MoE и 6 dense моделей в весах на любой вкус, 0.6В до 235B. Разбираем.

Самая большая модель на уровне со всеми звездами – Gemini 2.5 Pro, Grok-3, o1, R1. И это MoE всего с 22В активных параметров. На 30В MoE модель тоже крутая получилась: на бенчах видно, что она лучше предыдущего ризонера QwQ-32B (при этом активных параметров у нее всего 3В, то есть в 10 раз меньше).

Что еще чтоит знать:

1. Это полу-ризонеры, как Sonnet 3.7 или Gemini 2.5 Pro. То есть модель будет «думать», если задать мод think, и не думать, если задать Non-Thinking. Бюджет рассуждений тоже можно контролировать.

2. Модели мультиязычные (русский тоже есть), но не мультимодальные. Довольствуемся тем, что есть.

3. Улучшены агентные способности на уровне поиска в браузере, использования интерпретатора и др. Что особенно приятно – добавили поддержку MCP.

4. Претрейнинг был в три этапа: сначала на 30 триллионах токенов с контекстом 4К, затем отдельно на сложных научных текстах (5Т), потом на длинных контекстах до 32К токенов.

5. Пост-трейнинг: файн-тюнинг на CoT + несколько стадий RL. Интересно, что мелкие модели до 30В обучали дистилляцией из крупных.

В общем, пробуем и наслаждаемся здесь

Веса | Блогпост | Гитхаб
Учите машины учиться? Тогда вам на IML

🗓️16–17 мая
📍 Питер + онлайн

IML — конференция для всех, кто использует ML в проектах. Здесь собираются ML-инженеры, дата-сайентисты, исследователи, аналитики и разработчики.

В этот раз вас ждет двухдневный технологический хардкор об NLP, RecSys, MLOps и Computer Vision. С докладами выступят спикеры из Яндекса, Сбера, Т-Банка, Точки и других известных компаний.

А вот что с билетами:
→ дают скидку 15% на билет для частных лиц по промокоду DATASECRETS
→ есть билет для студентов и преподавателей вузов — в два раза дешевле персонального
→ можно попросить руководство приобрести корпоративный билет

Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно.

За подробностями и билетами
Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных

Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.

При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.

По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.

www.anthropic.com/news/integrations
Xiaomi опенсорснули свою ризонинг модель

Она называется MiMo-7B и результаты для своего веса у нее довольно неплохие: 93.6% на MATH-500, 55.4% на AIME 2025 и 49.1% на LCB.

Это примерно уровень o1-mini. Есть, как у DeepSeek, вариант Zero (то есть RL с холодным стартом), SFT+RL и даже base+SFT.

Веса
Мира Мурати получит 2 миллиарда долларов от крупнейшнего венчурного фонда a16z

Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.

Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.

Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.

А что, так можно было? 🔵
Reposted from:
Трендоскоп avatar
Трендоскоп
Генерация картинок нового поколения

На прошлой неделе OpenAI выкатили API для нативного создания и редактирования изображений. Теперь доступна вся триада text-to-image нового поколения — GPT-Image-1 от OpenAI, Gemini Flash Image Gen, а также Grok 3 Image.

Этому подходу уже пророчат звание «Photoshop 2.0» — ИИ отлично понимает композицию, может легко менять и объединять стили, а также точечно редактировать картинки одним только текстом.

Всё это открывает много новых возможностей для стартеров. Традиционный маркетинг уже превращается в вайб-маркетинг. А также появляются новые продукты с GPT-Image-1 под капотом, например:

- Расширение для виртуальной примерки одежды с любого интернет-магазина.

- Prompt-2-Swag: дизайн мерча «на лету» с помощью промптов.

- Книжка-раскраска по загруженным семейным фото.

В эту среду (30 апреля) мы проведём онлайн-брейншторм актуальных возможностей на базе этой технологии. Если вы хотите поучаствовать и найти соратников — присоединяйтесь к нашему сообществу Трендоскоп Lab. Подать заявку можно в этой Гугл-форме. Велкам!

@trendoscope
Модель перевода видео в Яндекс Браузере научили сохранять тембр и интонации спикера

Раньше в Яндексе синтез речи при переводе видео осуществлялся заранее подготовленным набором голосов, которые просто подбирались по полу и тону. Но сейчас инженеры шагнули дальше, и теперь система сохраняет интонации и тембр говорящего, а перевод звучит максимально близко к оригиналу.

Вот, как это устроено технически:

🟦 За основу взяли модель Tortoise text-to-speech. Идея похожа на привычные LLM: модель принимает на вход некоторый аудиопромпт (это наше видео) и текстовую последовательность (это перевод), а далее происходит предсказание дискретных аудиотокенов речи. Однако оригинальная Tortoise очень медленная на инференсе (отсюда и название), а еще у нее есть проблемы с акцентом и шумными аудиопромптами, так что модель пришлось значительно дорабатывать.

🟦 Во-первых, исследователи заменили токенизатор BPE на фонемное представление. Это значит, что текст перевода, который подается в сеть, токенизируется не ванильным LLM-ным способом, а фонемной транскрипцией. Для такой токенизации компании пришлось даже найти лингвиста и составить с ним русско-английский фонемный алфавит.

🟦 Во-вторых, в модель добавили биометрические эмбеддинги. Важно, что эти эмбеддинги практически не обучаются, чтобы предотвратить «подглядывание» LM за правильным ответом и снизить риск переобучения.

🟦 Кроме биометрии для снижения акцента и повышения качества в модель добавили автометрику синтеза UTMOS. В данном случае это как бы гиперпараметр качества синтеза, чтобы модель училась генерировать не просто какую-то речь, а хорошо различимую, но в то же время естественную.

🟦 Ну и, наконец, рисерчеры плотно поработали с данными (включая пайплайн предобработки с денойзингом) и добавили инженерных хаков для скорости. Например, с диффузионкой провернули knowledge distillation, прикрутили flash attention, добавили обработку масок в батчах. В итоге из мега-медленной Tortoise получилась модель, которая очень шустро работает в реалтайме.

В общем, очень значительная работа получилась и с инженерной, и с исследовательской, и с продуктовой точки зрения. Итоговые метрики на уровне даже по сравнению с ElevenLabs.

Больше тех.деталей – на Хабре. А модельку уже можно попробовать в Яндекс Браузере.
А вы тоже заметили, что после последних обновлений 4o превратился в ванильный раф с сиропом?

Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами 😛
Shown 1 - 24 of 521
Log in to unlock more functionality.