Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Лёха в Short’ах Long’ует
Лёха в Short’ах Long’ует
Сиолошная avatar
Сиолошная
Сиолошная avatar
Сиолошная
22.02.202518:33
Телеграм в третий раз за 2 недели стёр пост из черновиков, поэтому поста не будет 🤷‍♂️ Ещё раз — и пишу Дурову 👶

Держите ссылку https://epoch.ai/gradient-updates/ai-progress-is-about-to-speed-up и тезисы на англисйком:

> The release of GPT-4 in March 2023 stands out because GPT-4 represented a 10x compute scale-up over the models we had seen before. Since then, we’ve not seen another scale-up of this magnitude: all currently available frontier models, with the exception of Grok 3, have been trained on a compute budget similar to GPT-4 or less

> Grok 3 represent more than an order of magnitude scale-up over GPT-4, and perhaps two orders of magnitude when it comes to reasoning RL. Based on past experience with scaling, we should expect this to lead to a significant jump in performance, at least as big as the jump from GPT-3.5 to GPT-4.

> The models are initially going to be perhaps an order of magnitude bigger than GPT-4o in total parameter count so we’ll probably see a 2-3x increase in the API token prices and around 2x slowdown in short context decoding speed when the models are first released, though these will improve later in the year thanks to inference clusters switching to newer hardware and continuing algorithmic progress.

> What should we make of Grok 3?
It’s possible to make both a bullish and a bearish for scaling based on Grok 3. The bullish case is that Grok 3 is indeed state-of-the-art as a base model with a meaningful margin between it and the second best models, and this is what we would expect given its status as a “next generation model” with around 3e26 FLOP of training compute. The bearish case is that the gap between Grok 3 and models such as Claude 3.5 Sonnet seems much smaller than the gap between GPT-4 and GPT-3.5, despite both representing roughly an order of magnitude of compute difference.

> I think the correct interpretation is that xAI is behind in algorithmic efficiency compared to labs such as OpenAI and Anthropic, and possibly even DeepSeek. This is why Grok 2 was not a frontier model despite using a comparable amount of compute to GPT-4, and this is also why Grok 3 is only “somewhat better” than the best frontier models despite using an order of magnitude more training compute than them.

> Putting all of this together, I think Grok 3 gives us more reasons to be bullish than bearish on AI progress this year.

===

> In addition, a counterintuitive prediction I’m willing to make is that most of the economic value of AI systems, in 2025 and beyond, is actually going to come from these more mundane tasks that currently don’t get much attention in benchmarking and evaluations [про это я писал в канале в посте с критикой Gemini 2.0 Pro; ожидаю, что OpenAI смогут донести ценность]. The smaller improvements in long-context performance, ability to develop plans and adapt them to changing circumstances, a general ability to learn quickly from in-context mistakes and fix them, etc. are going to drive more revenue growth than the math, programming, question answering etc. capabilities that AI labs like to evaluate and demo.
22.02.202510:40
Далее систему тестировали в end-2-end режиме на трёх реальных исследовательских задачах, а результаты отсматривались специалистами в этих областях.

Тест первый.
Тестирование и одобрение новых лекарств — очень долгое и дорогое занятие; поэтому существует drug repurposing, когда уже одобреное и работающее лекарство пытаются использовать для чего-то, для чего оно изначально не предназначалось. Задача очень сложная и требует экспертизы в нескольких дисциплинах.

AI-ко-саентисту дали задачу найти лекарства из числа одобренных (примерно 2400 штук) для лечения одной из 30+ форм рака. Затем 30 самых высокооценённых гипотез отсмотрели эксперты-онкологи, для каких-то из них произвели анализ на основе методов вычислительной билогии), и закончили экспериментами в мокрой лаборатории с использованием линий раковых клеток (не полноценных опухолей).

Если интересно, вид рака, для которого проверялись гипотезы, был «Острый миелоидный лейкоз» (AML), редкий агрессивный вид рака крови. Так вот, было отобрано 5 лекарств, 3 из них показали результаты, и один показался прямо очень многообещающим. Я не буду притворяться, что что-то понял из медицинских объяснений в статье, поэтому больше деталей дать не могу 🤷‍♂️ что и как они замеряли, что за графики, по которым можно увидеть действие — хз.

Это одно многообещающее — Binimetinib, который уже одобрен в качестве лечения для матастазирующей меланомы.

«Этот результат показывает, что препараты, предложенные ко-саентистом, являются многообещающими в качестве жизнеспособных кандидатов для клинических испытаний на повторное использование лекарств».

«ко-саентист смог предложить нового кандидата для лечения AML, помимо тех, которые могли быть выбраны с помощью других существующих подходов и экспертных источников. Это говорит о том, что система может быть способна генерировать новые, многообещающие гипотезы для исследователей»

«Даже немотря на то, что гипотеза, созданная ко-саентисом, хорошо проверена онкологами и подкреплена доклиническим обоснованием и сильными экспериментами в пробирке, это не гарантирует эффективность и успех в клинических испытаниях. Такие факторы, как биодоступность препарата, фармакокинетика, побочные эффекты и критерии отбора пациентов, могут повлиять на результаты последующих испытаний»
Вот так выглядела траектория в прошлом и вот так она может экстраполироваться в будущее

(тут недельная активная аудитория)

Источник картинки
👀👀👀

Серьезные ребята


UPD: завтра

UPD2: https://github.com/facebookresearch/MLGym
18.02.202519:03
Ex-CTO Mira Murati вышла на связь спустя полгода после ухода из OpenAI и анонсировала создание компании Thinking Machines. К ней присоединится несколько десятков достаточно известных специалистов, включая недавно ушедших из OpenAI.

Миссия Компании — «заставить ИИ работать на вас, построив будущее, в котором у каждого будет доступ к знаниям и инструментам, позволяющим использовать ИИ для удовлетворения уникальных потребностей».

«Мы стремимся к открытой науке посредством публикаций и выкладыванию исходного кода, уделяя особое внимание сотрудничеству человека и искусственного интеллекта, которое служит различным областям [Вместо того чтобы сосредотачиваться исключительно на создании полностью автономных систем искусственного интеллекта, мы стремимся создавать мультимодальные системы, которые работают совместно с людьми.]. Наш подход охватывает совместное проектирование исследований и продуктов, чтобы обеспечить обучение на основе реального развертывания ИИ-продуктов и быстрой итерации. Мы стремимся создавать модели на передовой возможностей, чтобы выполнить это обещание». — звучит как то, что они не только обёртки над GPT/Claude будут делать, но и свои модели.

Будут делать фокус на 3 вещах:
— качество ИИ моделей («самые передовые модели откроют самые революционные приложения и преимущества, такие как возможность совершения новых научных открытий и инженерных прорывов»)
— качество инфраструктуры как главный приоритет
— расширенные мультимодальные возможности

В команде будут:
— Alexander Kirillov, бывший руководитель команды мультимодальности в OpenAI (ушёл совсем недавно); автор Segment Anything (во время работы в META)
— Barret Zoph (помните парня, который показывал демо Advanced Voice Mode рядом с Mira? Это он. ex-VP of Research (Post-Training) at OpenAI). Будет CTO компании.
— Devendra Chaplot из Mistral (не только ж из OpenAI тянуть таланты!), отвечавший за мультимодальность
— John Schulman, ко-фаундер OpenAI, ушедший примерно в одно время с Mira из OpenAI, но в Anthropic; недавно уволился оттуда, чтобы занять пост Chief Scientist здесь
— Lilian Weng, которую вы знаете по её чудесному блогу (тоже ушла из OpenAI)
— Myle Ott, жёсткий инженер, соавтор библиотек FSDP и fairseq
— Randall Lin, техлид в Твиттере, отвечавший за алгоритм ранжирования ленты
— Rowan Zellers (из демки «You're the announcement» в Advanced Voice Mode)
— Sam Schoenholz, лид команды надёжного масштабирования и оптимизации GPT-4o
— и другие...

💪 мощный составчик

Сайт компании
15.02.202521:22
Забыл дописать. Посмотрел на ускорения для 14 добавленных автором задач, из них 3 не имели ускорения, а вот пятёрка запомнившихся:

Task 1, MLA из DeepSeek v3 (но для 1 GPU), ускорение 1.76x
Task 3, вся модель DeepSeek v3 (а значит и R1), но в сильно меньшем размере, как и писал, чтобы влезло на 1 GPU, 1.09x
Task 5, модель S4 (не трансформер), какое-то невероятное ускорение, 30.36x
Task 10, RWKV (ещё одна альтернатива трансформерам), 3.26x
Task 11, Mamba 2 (смесь трансформеров и SSM, писал про неё тут), 7.18x

(напомню, все цифры — для инференса, то есть генерации, а не тренировки)

Все задачи тут, а лучшие решения здесь.

Как видим, самые большие ускорения наблюдаются в необычных архитектурах, отличных от самых распространённых. Правда важным аспектом является то, что обычно для этих моделей сами авторы пишут эффективные имплементации, так как без них даже если они смогут продемонстрировать прирост по отношению к LLM на трансформерах, то будут существенно менее эффективными, а значит скорее всего ненужными.

Здесь же в качестве бейзлайна взяты наивные имплементации, то есть очень простые, основанные только на PyTorch-операциях и torch.compile(). И вот по отношению к ним такие приросты. В моём понимании, теперь авторам fancy-архитектур будет чуть проще, ибо как показал эксперимент они могут закинуть в агента на o3-mini код своей модели и попросить переписать эффективно. Сжечь $500 и получить ускорение в 3-10 раз, а то и больше — звучит клёво.
22.02.202510:51
У этой работы есть ограничения, некоторые из которых плавно перетекают в намёки на то, что именно ждать от второй версии системы. Уверен, что Google по аналогии с AlphaFold будут толкать тему дальше, и возможно уже через год результат лучших гипотез будет неоспорим:

— используется только открытая литература, доступная без подписок. Наверное, логично скооперироваться с парой крупшейших издателей, заплатить десяток миллионов и почивать, пока TPU гудят

— из-за предыдущего пункта система скорее всего имеет ограниченный доступ к негативным экспериментальным результатам или записям об неудачных экспериментах. В науке в целом так вышло, что такие данные публикуются реже, чем положительные, и потому какие-то из гипотез, которые ко-саентист мог отсечь, всё ещё остаюстя

— система работает только с текстом, хотя Gemini 2.0 должна хорошо понимать картинки в статьях и отчётах об экспериментах

— так как это ранний прототип, то точно можно существенно прокачать проверку всех гипотез, включая улучшение литературных обзоров, добавление перекрестных проверок с внешними инструментами, улучшение проверки фактов и цитирований

— «Будущая работа будет сосредоточена на обработке более сложных экспериментальных проектов, таких как многошаговые эксперименты. Интеграция ко-саентиста с системами автоматизации лаборатории может потенциально создать замкнутый цикл для проверки и обоснованную основу для итеративного улучшения» (тут речь про то, что уже существуют программируемые лаборатории, которые могут проводить эксперименты, описанные кодом. Модель выдаёт код на питоне, он исполняется, реактивы смешиваются, туда сюда, центрифуга, и готово).

— Авторы уже попробовали подключить AlphaFold 3 в качестве инструмента, говорят, заработало, но никакими деталями не делятся. Такие модели смогут усилять систему за счёт возможности проверки некоторых гипотез и предположений на лету, без реальных экспериментов.

===

«Эти достижения имеют значительные последствия для различных биомедицинских и научных областей. Например, интеграция ко-саентиста в процесс выбора кандидатов на лекарства представляет собой значительный прогресс в поиске повторного использования лекарств. Помимо простого поиска литературы, соученый может быть способен синтезировать новые идеи, соединяя молекулярные пути, существующие доклинические данные и потенциальные терапевтические приложения в структурированные, проверяемые конкретные цели»

===

3 теста это здорово, но мало, очень хотелось бы увидеть через полгода-год масштабирование на десятки-сотни и коллаборации с ведущими экспертами в разных областях. Такое, к сожалению, пока ограничено нашей естественной скоростью проведения тестов и бюрократии 🥺

О и да, инструмент пока в закрытом доступе, Google ищет партнёров-учёных 👍

UPD: короткий разбор = 6 постов 😀
22.02.202510:39
Генерирующий агент:
— Агент инициирует процесс исследования, генерируя начальные области фокусировки, итеративно расширяя их и генерируя набор начальных гипотез и предложений, которые касаются целей исследования
— Ему доступен поиск по интернету и базе статей, однако на данный момент она содержит лишь публичные данные; статьи из платных журналов сюда не включены, что накладывает ограничения, зато предоставляет зону роста на будущее
— Во время генерации агент может симулировать дебаты между экспертами, добавляя «Критика» в процесс генерации (просто другой промпт для LLM)

Рефлексирующий:
— оценивает существующие экспериментальные данные за или против конрктеной гипотезы и строго проверяет новизну, правильность и качество полученных результатов.
— делает он это в три этапа: 1) Начальное ревью (LLM просто сама даёт оценки по новизне, правильности и качеству ) 2) полное ревью (то же самое, но теперь с поиском по всем статьям) 3) Глубокое верифицирующее ревью, в ходе которого гипотеза раскладывается на независимые низкоуровневые предположения, которые оцениваются по отдельности, опять же, через поиск по литературе
— Также в Рефлексирующего подаётся результат работы Ранжирующего агента (об этом ниже), что позволяет выявлять часто повторяющиеся проблемы и зоны улучшения гипотез (чтобы не делать одни и те же ошибки снова и снова)

Ранжирующий:
— это самое интересное, мне кажется, вся изюминка системы тут
— Ранжирующий выбирает пары гипотез и проводит между ними полноценные дебаты (LLM + промпт «твоя задача защитить или атаковать вот эту позицию»), а затем оценивает победителя
— по результатам большого количества попарных «сражений» строится рейтинг на основе системы Эло (как в шахматах).
— Чем больше рейтинг, тем, видимо, легче гипотезу отстоять в дебатах (то есть или там мало к чему есть подкопаться, или все аргументы имеют крепкую базу с опорой на литературу)
— Так как суммарное количество гипотез очень велико (авторы, к сожалению, никак не описывают порядок величин даже приблизительно), и провести игры каждый-с-каждым не получится, то здесь внедрено две оптимизации: 1) гипотезы с высоким рангом проводят более длинные дебаты (до 10 шагов в диалоге), а с низким — 1 или 3-5 2) гипотезы чаще сравниваются с похожими на них (то есть среди некоторой группы схожих идей проявляется самая сильная). Группировка по похожести делается Группирующим агентом, он строит граф близости (никаких деталей в статье нет)
— результаты дебатов суммаризуются и подаются в Рефлекирующего

Эволюционирующий агент постоянно совершенствует и улучшает существующие гипотезы и предложения, используя:
— упрощение
— объединение/комбинацию гипотез
— и ещё пару методов

Наконец, Мета-оценщик:
— агент работает с результатами дебатов в турнире и находит общие закономерности, выявленные в ревью и дебатах
— Объединяя информацию из всех обзоров, метаобзор предоставляет ценную обратную связь Рефлексирующему
— также в генерируемом мета-обзоре очерчиваются потенциальные области и направления исследований, обосновывается их важность и предлагаются конкретные эксперименты в рамках каждой области. Каждая область включает иллюстративные примеры тем.
21.02.202521:11
Chief Operating Officer OpenAI Brad Lightcap в интервью для CNBC рассказал, что бизнес растёт, цветёт и пахнет:

— OpenAI быстро развиваются, несмотря на растущую конкуренцию, в том числе со стороны китайских компаний

— в феврале компания достигла 400 миллионов активных юзеров в неделю (Weekly Active Users, WAU). Это рост на 33% по отношению к декабрю — очень стремительно!

— у компании сейчас есть 2 миллиона платящих корпоративных пользователей (прим.: скорее всего речь о подписке Team за $25). Это удвоение показателя с сентября.

— за последние 6 месяцев количество трафика на reasoning-модели в API выросло в 5 раз.

(и всё это с учётом того, что два последних продукта, Operator и Deep Research, недоступны бесплатным пользователям, а также тем, кто платит $20/мес)

===

Напомню, что по информации от TheInformation OpenAI нацелены на достижение ЕЖЕДНЕВНОЙ (не недельной) аудитории в 1 миллиард человек уже к концу 2025-го года. С каждым месяцем цель выглядит всё реалистичнее и реалистичнее. Компания планирует выпуск GPT-5 и предоставление практически безлимитного её использования даже для неплатящих пользователей — что должно привлечь огромное количество людей.

Попросил Deep Research подготовить мне табличку продуктов с самыми большими недельными и дневными аудиториями (данные не перепроверял, но уверен, что 90% цифр правильные):

Facebook — 3.07B MAU (но я так понял это не именно соцсеть, а любой из продуктов META)
YouTube — 2.54B MAU
WhatsApp — 2B MAU
Instagram — 2B MAU
LinkedIn — 930M MAU
Snapchat — 453M DAU / 850M MAU (лол, нифига себе много)
Telegram — 450M DAU / 950M MAU
X (Twitter) — 600M MAU
Reddit — 500M MAU
Flight 8 на следующей неделе.

FAA выкатили предварительное окно для запуска Starship S34 и Super Heavy B15.

Основная дата: 26 февраля
Запасные даты: с 27 февраля по 6 марта.

Официальное подтверждение от SpaceX должно быть сегодня или завтра вечером.
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
15.02.202509:12
Слоган пары следующих постов — «what gets measured gets improved».

Сначала 12-го февраля Nvidia выпустила блогпост. В нём рассказывается, как DeepSeek R1 может использоваться для оптимизации кернелов — это такие маленькие программы, выполняющие несколько простых функций на видеокарте (GPU). Кернелы используются для запуска LLM, многие (все?) отдельные операции или блоки операций прописаны как раз в них.

Создание оптимизированного кернела — то есть такого, который утилизирует GPU эффективно, на полную — требует специальные навыки и занимает много времени даже у опытных инженеров. Нужно думать о том, как обращаться с памятью GPU, в какие моменты где какие переменные запоминать, в каком порядке операции выполнять, в какой части памяти данные хранить — от всего этого зависит скорость. Иногда даже имеет смысл не сохранять промежуточный результат, а пересчитывать его после при необходимости (потому что память ценнее). Ну и вишенка на торте — для разных поколений GPU кернелы могут отличаться — потому что на ново архитектуре эффективнее посчитать что-то можно по-другому (пример FlashAttention 3). В общем, много сложных неочевидных решений.

Идея: давайте для каждого кернела напишем тесты, которые позволяет проверить, что он работает в точности так, как мы ожидаем. Если входные аргументы одни, то результат вот такой, а если вот такие — то другой. Теперь когда такие тесты есть, мы можем брать любую программу, прогонять через тесты и проверять, совпадает ли она с нашим ожиданием. А затем берём LLM, даём ей описание кернела, его код и говорим «сделай лучше». Моделька думает, выплёвывает код кернела, мы его тестируем на реальной GPU и замеряем время. Если тесты не прошли — отдаём модели на переработку, если прошли, то добавляем в промпт время (ну и тут понятно, стало лучше/хуже).

Повторяя эту операцию в цикле мы можем рассчитывать на некоторые улучшения (если LLM достаточно умна или кернелы были совсем неоптимизированными).

Nvidia хвастается, что они смогли ускорить несколько достаточно популярных кернелов (используемых в PyTorch FlexAttention, если вам интересно) на 10-110%. Это не означает, что все модели и всегда будут быстрее, так как отдельные кернелы используются в отдельных моделях. Плюс, кернел это очень малая часть вычислений — ускорение одного даже на 400% может привести к суммарному ускорению всей модели на, условно, 5%.

На картинке 1 — ускорения для разных кернелов относительно того, что сейчас есть в PyTorch (то есть по идее со следующим обновлением все должны получить ускоренные версии кернелов), а на картинке 2 — доля кернелов из некоторого бенчмарка, для которых модель смогла написать код, проходящий все тесты (без условия «он быстрее того что было»). Видно, что чем больше времени Nvidia давали подумать рассуждающей модели R1, тем больше эта доля.
Картинки

1) устройство системы и описание того, как общаются агенты между собой

2) Рост эло-рейтинга от количества времени работы системы (чем дольше работает, тем лучше получаются гипотезы). Плато пока не наблюдается, можно вкинуть в 10 раз больше ресурсов и посмотреть, что ко-саентист найдет. Так как рейтинг оценивается самой системой, то это не обязательно означает рост реального объективного качества гипотез, однако гугловцы сделали отдельный анализ корреляции качества ответов на GPQA (выбор ответов в сложных вопросах) и Эло оценки решений ответов, и подтвердили, что она высокая.


3) Сравнение эло-рейтинга гипотез системы с генерациями обычных моделей (как я понял, просто один раз просят сгенерировать что-то по нужному формату; а затем Ранжировщик оценивает и сравнивает). Обратите внимание, что o3(-mini-high) и R1 как обособленные модели сами по себе выдают очень сильные гипотезы даже без всех этих агентских обвязок! А представьте как себя покажет GPT-5?

Ахахах а ещё посмотрите как низко люди на последней картинке...
22.02.202510:39
Towards an AI co-scientist (блог, статья)

Вообще по-хорошему про эту работу нужно было писать длиннопост, как было с FunSearch. У меня за 3 дня только заметок на 7 страниц накопилось, и это без картинок. К сожалению, времени сейчас нет, поэтому будет усечённый формат, где я опущу часть деталей — но возможно кому-то захочется написать нормальный качественный пост (а не селф-промоушен), могу поддержать редактурой и фидбеком.

Так вот, в статье представляют AI-ко-саентиста (учёного, но я буду использовать слово саентист), мультиагентную систему от Google, построенную на обычной, не дообученной специально, версии Gemini 2.0. Ко-саентист — виртуальный коллаборатор, призванный помочь в генерации новых научных гипотез и предложений исследований.

В погоне за научными достижениями исследователи-люди сочетают изобретательность и креативность с проницательностью и экспертными знаниями, основанными на научной литературе, чтобы генерировать новые и жизнеспособные направления исследований. Во многих областях это представляет собой задачу необъятной широты и глубины, поскольку сложно ориентироваться в быстро растущей библиотеке научных публикаций, интегрируя идеи из мало/незнакомых областей. Тем не менее, преодоление таких проблем имеет решающее значение, о чем свидетельствуют многочисленные современные прорывы, возникшие в результате трансдисциплинарных усилий.

Самый известный тут пример, пожалуй — это Нобелевка 2020-го год по химии за технику модификации генов CRISPR-Cas9. Если упрощать, то два основных (и очень разных) открытия произошли достаточно давно, но никому не приходило в голову их совместить — либо это было неочевидно, либо было столько других кандидатов на совмещение знаний, что не счесть.

Ко-саентист призван помочь в определении гипотез для проверки и составлении протоколов экспериментов. Чем мне очень понравилась работа Google — это тем, что они прошли даже не одну, а три последние мили, и доказали на практике, что гипотезы, которые выдала модель, при тестировании в пробирке в реальной лаборатории показывают реальные результаты. Спойлер: AI НАШЕЛ НОВОЕ ЛЕКАРСТВО ОТ РАКА!!! (не шутка, но слегка преувеличенный факт). Но об этом позже.

===

Итак, что же это за система? Как написал выше, она состоит из нескольких агентов — то есть одной и той же модели Gemini 2.0, но с разными промптами, инструментами (поиск по базам / по интернету / запись в долгосрочную память / итд) и частотой их запуска. Ко-саентист анализирует полученную от человека цель в конфигурацию плана исследований (за это отвечает агент-супервизор).

Агент-супервизор назначает специализированных агентов в очередь и выделяет им вычислительные ресурсы. Такая конструкция позволяет системе гибко масштабировать вычисления и итеративно улучшать свои научные рассуждения в направлении указанной цели исследования. Например, в самом начале имеет смысл дать больший вес (ресурсов агенту) просто генерации рандомных гипотез, а на более поздних стадиях важно получать критику, применять её и адаптировать уже существующие гипотезы, внося уточнения и правки.

Дальше существует ещё 6 агентов: Генерирующий, Рефлексирующий, Ранжирующий, Эволюционирующий, Группирующий и Мета-оценщик. Про них вкратце, а потом про самый важный
(всё ещё не пост, который следует за этой гифкой)

TheVerge пишет:
— GPT-4.5 aka Orion может появиться уже на следующей неделе, поскольку Microsoft прямо сейчас освобождают серверные мощности для развёртывания моделей
— «Нам сообщили, что Microsoft ожидает GPT-5 в конце мая, что совпадает с обещанием Sam Altman о появлении модели следующего поколения в течение нескольких месяцев»
— релиз/анонс GPT-5 могут быть привязаны к конференции Microsoft Build, которая начинается 19-го мая
19.02.202520:51
Это я читаю блогпост, на который буду писать следующий обзор в канале

reaction.gif
Elon написал, что релиз Grok 3 с живой демонстрацией состоится в 7 утра по Москве во вторник. («Grok 3 release with live demo» я воспринимаю как «сначала демка а почти сразу после — публичный доступ, релиз: надеюсь так и будет).

Всё ещё обещает, что это «самый умный ИИ на Земле» — вот и поглядим, на чём это продемонстрируют. Правда ставочники на площадке предсказаний Manifold не верят в тезис, и дают 70%, что Grok 3 не окажется самым умным. Но там нет точных критериев, оценка проводится автором вопроса (и он не совсем нонейм), и... в сравнении не участвуют reasoning-модели 🤷‍♂️

Голосуйте эмоутами под этим постом, 👍 верите ли вы или 👎 нет
Как раз на днях вышла статья от Google, где они показывают масштабирование Visual-Language модели на 100 миллиардов картинок и пытаются оценить, становятся ли результаты лучше. Если смотреть только на английские бенчмарки с западными ценностями, то разницы между 10B пар в тренировочной выборке и 100B почти нет.

Зато разница существенна на бенчмарках, оценивающих навыки модели по cultural и language diversity. По ним видно, что впереди ещё пахать и пахать, можно получать приросты — и это как раз то, о чём я написал выше; то, чего я жду (и соответственно жду способа проверки, бенчмарк) от моделей следующего поколения.

Вот такой же рост (и как следствие метод замера) должен быть для LLM следующего поколения; «да, тут и там мы приросли по 3-7%. А вот мы собрали наши бизнес кейсы, проверили на них и прирост 50%! а на японском вообще 146%!»
22.02.202510:40
Тест второй.
Деталей мало, «системе было поручено разработать экспериментально проверяемые гипотезы относительно роли эпигенетических изменений в фиброзе печени, а также определить препараты, воздействующие на эпигенетические модификаторы, которые можно было бы использовать для лечения фиброза печени».

Тут люди отобрали 3 из 15 самых высокооценённых гипотез, провели эксперименты, тоже все красиво, а детали ожидаются в статье, которую скоро напишут совместно со Stanford University, что, как мне кажется, указывает на уровень — если бы там совсем ничего нового не было, или что-то не работало, как ожидается, скорее всего так бы не делали.

Тест третий.
Тут сосредоточились на на создании гипотез, объясняющих механизмы эволюции переноса бактериальных генов, связанные с устойчивостью к противомикробным препаратам (AMR) — эволюционно развитыми механизмами микробов, позволяющими им противостоять препаратам для лечения инфекций.

Но тут произошла такая штука — вот прямо в феврале одна из исследовательских групп написала статью с реальными экспериментами, и они получили результат, который собираются публиковать в престижных научных изданиях. Но эта статья и результаты ещё нигде не были размещены онлайн, то есть модель не могла их найти.

И так вышло, что как раз одна из топовых гипотез, предложенных моделью, и показала себя в реальных экспериментах, проделанных исследователями (Fleming Initiative и Imperial College London) независимо.

BBC взяли интервью у одного из авторов не-AI-шного исследования, и я так понял, что это не гугловцы придумали именно такой запрос задать в ко-саентиста, а просто профессор был знаком с кем-то из команды, которая делала инструмент, и из любопытства (или его попросили) закинул свой самый свежий тезис, вот прям в котором он очень хорошо разбирается, и по которому у него готовится статья с экспериментальным подтверждением.

«Полное десятилетие, потраченное учеными, также включает время, которое потребовалось для доказательства исследования, что само по себе заняло несколько лет. Но они говорят, что если бы у них была гипотеза в начале проекта, это сэкономило бы годы работы»

«Дело не только в том, что главная гипотеза, которую ко-саентист выдвинул, была правильной», — сказал профессор. «Дело в том, что он выдвинули еще четыре, и все они имеют смысл. И об одной из них мы даже никогда не думали, и теперь мы работаем над ней».
⚡️Появилась очень интересная инфа, как раз в тему нашей сегодняшней статьи!

По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship

Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase

🤞
20.02.202520:15
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
15.02.202522:43
Я уже писал в канале, что не очень большой любитель смотреть сериалы, но иногда залипаю. В ноябре-декабре-январе впервые посмотрел Доктора Хауса (House M.D.), было здорово. Думаю, меня привлекло то, что это в некотором смысле адаптация истории Шерлока Холмса.

Хотел поделиться тремя сериями, которые понравились мне, но при этом не входят в топы IMDB (но с теми я почти со всеми согласен, от «After Hours» до «House's Head»), то есть не упоминаются часто:

— 5-to-9, S6E14, в котором мы видим день из жизни больницы глазами главврача;
— Cane and Able, S3E2, в котором ребёнку кажется, что его похищают инопланетяне;
— All In, S2E17, начинающийся с лёгкой безобидной тусовки за покерным столом, но перерастающий в борьбу с травмами/кризисами прошлого

Наверное, ещё какие-то, так как я не сидел с ручкой и не записывал, просто эти отложились.

Так что если вдруг в смотрели сериал очень давно и не прочь пересмотреть пяток серий, то рекомендую включить эти в список.
14.02.202508:29
Вчера в нашем чате канала обсуждали, что Gemini 2.0 Pro пока по всем демонстрируемым параметрам не выглядит как модель следующего поколения — по бенчмаркам она очевидно отстаёт от рассуждающих моделей (но это ок), но совсем едва-едва выигрывает у базовых моделей текущего поколения, если брать какой-то базовый набор замеров.

При этом я не считаю, что из этого следуют выводы «масштабирование предтренировки моделей упёрлось в стену» и «модели Google еле улучшились по отношению к тому, что уже было на рынке». Для меня не ясно, почему в табличке метрик, опубликованной в блоге с анонсом Gemini 2.0 Pro, выбраны эти, а не другие бенчмарки.

Я писал ранее в канале, что мои ожидания от дальнейшего роста моделей — в количестве нюансов и деталей, которые они надёжно запомнили (и не галлюцинируют), и в применимости в длинном хвосте распределения задач: сюда входят и разные языки, и непопулярные работы, о которых в интернете не так много написано, и прочее. И моё ожидание, что модели следующего поколения как раз должны продавать (в значении «демонстрировать превосходство») именно в этом.

Я вполне OK с тем, что компании сделают свои новые бенчмарки для оценки прогресса там. OpenAI вон за полгода 4 новых выкатили! Никак к чему-то готовятся 🤔 А Google в декабре показали FACTS Grounding для оценки способности LLM генерировать ответы, которые не только фактически точны по отношению к предоставленному в промпте контексту, но и достаточно подробны, чтобы давать удовлетворительные ответы на запросы пользователей. И этот бенчмарк есть в вышеупомянутом блоге. И там есть прирост (не очень большой). И... всё. (и ещё на бенчмарке OpenAI показали рост).

Вспомните как было с GPT-4: там показали и замеры на большом наборе экзаменов (НЕ стандартный замер, который долго обсуждали), на большом наборе языков (чтобы показать, что модель стала более доступной людям, для которых английский не родной язык), и затем феноменальные на тот момент мультимодальные навыки, показав новый рекорд с отрывом на 4 из 8 бенчмарков.

Может быть к глобальному запуску Pro подвезут ещё что нибудь, но пока я бы сказал, что Google зафейлил часть демонстрации того, почему next gen — это next gen. Да, у них есть агенты, но они в разработке, их и пощупать нельзя, и сами Google про них ничего не пишут (зайдите в блог и сделайте поиск по странице).

Если смотреть на картинку из блогпоста, то модель можно было бы спокойно назвать Gemini Pro 1.5-003 (уже были 001 и 002). Если OpenAI покажут Orion aka 4.5 также — я тоже скажу, что они или failed to deliver on model, или failed to deliver the message.

UPD: даже больше скажу, я от трёх человек, включая @bogdanisssimo, услышал, что новые Gemini по-русски очень живо общаются, «видно, что больше начитанность, больше данных видели», но... почему Google-то нам это не показывает? В компании на 200 тысяч сотрудников не хватило пиарщиков или рисователей табличек? 😀
显示 1 - 24 179
登录以解锁更多功能。