Notcoin Community

Whale Chanel

Переглянути

Proxy MTProto | پروکسی

Переглянути

Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Рейтинг TGlist

ТипПублічний

Верифікація

Не верифікований

Довіреність

Не надійний

РозташуванняРосія

МоваІнша

Дата створення каналуСіч 23, 2023

Додано до TGlist

Лист 18, 2023

Я власник каналу

Історія змін

Прикріплена група

Чат Котенков и Горь

2.3K

Статистика Телеграм-каналу Сиолошная

Детальніше

Підписників

56 346

24 год.

240%Тиждень

1310.2%Місяць

1 5192.8%

Індекс цитування

0

Згадок1Репостів на каналах0Згадок на каналах1

Середнє охоплення 1 допису

14 561

12 год.12 168

174.4%24 год.14 561

7.4%48 год.14 998

69.6%

Залученість (ER)

2.41%

Репостів104Коментарів8Реакцій25

Залученість за охопленням (ERR)

24.04%

24 год.0%Тиждень

0.65%Місяць

8.65%

Охоплення 1 рекл. допису

17 460

1 год.4 48025.66%1 – 4 год.330.19%4 - 24 год.7 95045.53%

Детальніше

Під'єднайте нашого бота до каналу і дізнайтеся стать аудиторії цього каналу.

Всього дописів за 24 години

9

Динаміка

Останні публікації в групі "Сиолошная"

Всі дописи

22.02.202510:51

У этой работы есть ограничения, некоторые из которых плавно перетекают в намёки на то, что именно ждать от второй версии системы. Уверен, что Google по аналогии с AlphaFold будут толкать тему дальше, и возможно уже через год результат лучших гипотез будет неоспорим:

— используется только открытая литература, доступная без подписок. Наверное, логично скооперироваться с парой крупшейших издателей, заплатить десяток миллионов и почивать, пока TPU гудят

— из-за предыдущего пункта система скорее всего имеет ограниченный доступ к негативным экспериментальным результатам или записям об неудачных экспериментах. В науке в целом так вышло, что такие данные публикуются реже, чем положительные, и потому какие-то из гипотез, которые ко-саентист мог отсечь, всё ещё остаюстя

— система работает только с текстом, хотя Gemini 2.0 должна хорошо понимать картинки в статьях и отчётах об экспериментах

— так как это ранний прототип, то точно можно существенно прокачать проверку всех гипотез, включая улучшение литературных обзоров, добавление перекрестных проверок с внешними инструментами, улучшение проверки фактов и цитирований

— «Будущая работа будет сосредоточена на обработке более сложных экспериментальных проектов, таких как многошаговые эксперименты. Интеграция ко-саентиста с системами автоматизации лаборатории может потенциально создать замкнутый цикл для проверки и обоснованную основу для итеративного улучшения» (тут речь про то, что уже существуют программируемые лаборатории, которые могут проводить эксперименты, описанные кодом. Модель выдаёт код на питоне, он исполняется, реактивы смешиваются, туда сюда, центрифуга, и готово).

— Авторы уже попробовали подключить AlphaFold 3 в качестве инструмента, говорят, заработало, но никакими деталями не делятся. Такие модели смогут усилять систему за счёт возможности проверки некоторых гипотез и предположений на лету, без реальных экспериментов.

===

«Эти достижения имеют значительные последствия для различных биомедицинских и научных областей. Например, интеграция ко-саентиста в процесс выбора кандидатов на лекарства представляет собой значительный прогресс в поиске повторного использования лекарств. Помимо простого поиска литературы, соученый может быть способен синтезировать новые идеи, соединяя молекулярные пути, существующие доклинические данные и потенциальные терапевтические приложения в структурированные, проверяемые конкретные цели»

===

3 теста это здорово, но мало, очень хотелось бы увидеть через полгода-год масштабирование на десятки-сотни и коллаборации с ведущими экспертами в разных областях. Такое, к сожалению, пока ограничено нашей естественной скоростью проведения тестов и бюрократии 🥺

О и да, инструмент пока в закрытом доступе, Google ищет партнёров-учёных 👍

UPD: короткий разбор = 6 постов 😀

22.02.202510:40

Картинки

1) устройство системы и описание того, как общаются агенты между собой

2) Рост эло-рейтинга от количества времени работы системы (чем дольше работает, тем лучше получаются гипотезы). Плато пока не наблюдается, можно вкинуть в 10 раз больше ресурсов и посмотреть, что ко-саентист найдет. Так как рейтинг оценивается самой системой, то это не обязательно означает рост реального объективного качества гипотез, однако гугловцы сделали отдельный анализ корреляции качества ответов на GPQA (выбор ответов в сложных вопросах) и Эло оценки решений ответов, и подтвердили, что она высокая.

3) Сравнение эло-рейтинга гипотез системы с генерациями обычных моделей (как я понял, просто один раз просят сгенерировать что-то по нужному формату; а затем Ранжировщик оценивает и сравнивает). Обратите внимание, что o3(-mini-high) и R1 как обособленные модели сами по себе выдают очень сильные гипотезы даже без всех этих агентских обвязок! А представьте как себя покажет GPT-5?

Ахахах а ещё посмотрите как низко люди на последней картинке...

22.02.202510:40

Тест второй.
Деталей мало, «системе было поручено разработать экспериментально проверяемые гипотезы относительно роли эпигенетических изменений в фиброзе печени, а также определить препараты, воздействующие на эпигенетические модификаторы, которые можно было бы использовать для лечения фиброза печени».

Тут люди отобрали 3 из 15 самых высокооценённых гипотез, провели эксперименты, тоже все красиво, а детали ожидаются в статье, которую скоро напишут совместно со Stanford University, что, как мне кажется, указывает на уровень — если бы там совсем ничего нового не было, или что-то не работало, как ожидается, скорее всего так бы не делали.

Тест третий.
Тут сосредоточились на на создании гипотез, объясняющих механизмы эволюции переноса бактериальных генов, связанные с устойчивостью к противомикробным препаратам (AMR) — эволюционно развитыми механизмами микробов, позволяющими им противостоять препаратам для лечения инфекций.

Но тут произошла такая штука — вот прямо в феврале одна из исследовательских групп написала статью с реальными экспериментами, и они получили результат, который собираются публиковать в престижных научных изданиях. Но эта статья и результаты ещё нигде не были размещены онлайн, то есть модель не могла их найти.

И так вышло, что как раз одна из топовых гипотез, предложенных моделью, и показала себя в реальных экспериментах, проделанных исследователями (Fleming Initiative и Imperial College London) независимо.

BBC взяли интервью у одного из авторов не-AI-шного исследования, и я так понял, что это не гугловцы придумали именно такой запрос задать в ко-саентиста, а просто профессор был знаком с кем-то из команды, которая делала инструмент, и из любопытства (или его попросили) закинул свой самый свежий тезис, вот прям в котором он очень хорошо разбирается, и по которому у него готовится статья с экспериментальным подтверждением.

«Полное десятилетие, потраченное учеными, также включает время, которое потребовалось для доказательства исследования, что само по себе заняло несколько лет. Но они говорят, что если бы у них была гипотеза в начале проекта, это сэкономило бы годы работы»

«Дело не только в том, что главная гипотеза, которую ко-саентист выдвинул, была правильной», — сказал профессор. «Дело в том, что он выдвинули еще четыре, и все они имеют смысл. И об одной из них мы даже никогда не думали, и теперь мы работаем над ней».

22.02.202510:40

Далее систему тестировали в end-2-end режиме на трёх реальных исследовательских задачах, а результаты отсматривались специалистами в этих областях.

Тест первый.
Тестирование и одобрение новых лекарств — очень долгое и дорогое занятие; поэтому существует drug repurposing, когда уже одобреное и работающее лекарство пытаются использовать для чего-то, для чего оно изначально не предназначалось. Задача очень сложная и требует экспертизы в нескольких дисциплинах.

AI-ко-саентисту дали задачу найти лекарства из числа одобренных (примерно 2400 штук) для лечения одной из 30+ форм рака. Затем 30 самых высокооценённых гипотез отсмотрели эксперты-онкологи, для каких-то из них произвели анализ на основе методов вычислительной билогии), и закончили экспериментами в мокрой лаборатории с использованием линий раковых клеток (не полноценных опухолей).

Если интересно, вид рака, для которого проверялись гипотезы, был «Острый миелоидный лейкоз» (AML), редкий агрессивный вид рака крови. Так вот, было отобрано 5 лекарств, 3 из них показали результаты, и один показался прямо очень многообещающим. Я не буду притворяться, что что-то понял из медицинских объяснений в статье, поэтому больше деталей дать не могу 🤷‍♂️ что и как они замеряли, что за графики, по которым можно увидеть действие — хз.

Это одно многообещающее — Binimetinib, который уже одобрен в качестве лечения для матастазирующей меланомы.

«Этот результат показывает, что препараты, предложенные ко-саентистом, являются многообещающими в качестве жизнеспособных кандидатов для клинических испытаний на повторное использование лекарств».

«ко-саентист смог предложить нового кандидата для лечения AML, помимо тех, которые могли быть выбраны с помощью других существующих подходов и экспертных источников. Это говорит о том, что система может быть способна генерировать новые, многообещающие гипотезы для исследователей»

«Даже немотря на то, что гипотеза, созданная ко-саентисом, хорошо проверена онкологами и подкреплена доклиническим обоснованием и сильными экспериментами в пробирке, это не гарантирует эффективность и успех в клинических испытаниях. Такие факторы, как биодоступность препарата, фармакокинетика, побочные эффекты и критерии отбора пациентов, могут повлиять на результаты последующих испытаний»

22.02.202510:39

Генерирующий агент:
— Агент инициирует процесс исследования, генерируя начальные области фокусировки, итеративно расширяя их и генерируя набор начальных гипотез и предложений, которые касаются целей исследования
— Ему доступен поиск по интернету и базе статей, однако на данный момент она содержит лишь публичные данные; статьи из платных журналов сюда не включены, что накладывает ограничения, зато предоставляет зону роста на будущее
— Во время генерации агент может симулировать дебаты между экспертами, добавляя «Критика» в процесс генерации (просто другой промпт для LLM)

Рефлексирующий:
— оценивает существующие экспериментальные данные за или против конрктеной гипотезы и строго проверяет новизну, правильность и качество полученных результатов.
— делает он это в три этапа: 1) Начальное ревью (LLM просто сама даёт оценки по новизне, правильности и качеству ) 2) полное ревью (то же самое, но теперь с поиском по всем статьям) 3) Глубокое верифицирующее ревью, в ходе которого гипотеза раскладывается на независимые низкоуровневые предположения, которые оцениваются по отдельности, опять же, через поиск по литературе
— Также в Рефлексирующего подаётся результат работы Ранжирующего агента (об этом ниже), что позволяет выявлять часто повторяющиеся проблемы и зоны улучшения гипотез (чтобы не делать одни и те же ошибки снова и снова)

Ранжирующий:
— это самое интересное, мне кажется, вся изюминка системы тут
— Ранжирующий выбирает пары гипотез и проводит между ними полноценные дебаты (LLM + промпт «твоя задача защитить или атаковать вот эту позицию»), а затем оценивает победителя
— по результатам большого количества попарных «сражений» строится рейтинг на основе системы Эло (как в шахматах).
— Чем больше рейтинг, тем, видимо, легче гипотезу отстоять в дебатах (то есть или там мало к чему есть подкопаться, или все аргументы имеют крепкую базу с опорой на литературу)
— Так как суммарное количество гипотез очень велико (авторы, к сожалению, никак не описывают порядок величин даже приблизительно), и провести игры каждый-с-каждым не получится, то здесь внедрено две оптимизации: 1) гипотезы с высоким рангом проводят более длинные дебаты (до 10 шагов в диалоге), а с низким — 1 или 3-5 2) гипотезы чаще сравниваются с похожими на них (то есть среди некоторой группы схожих идей проявляется самая сильная). Группировка по похожести делается Группирующим агентом, он строит граф близости (никаких деталей в статье нет)
— результаты дебатов суммаризуются и подаются в Рефлекирующего

Эволюционирующий агент постоянно совершенствует и улучшает существующие гипотезы и предложения, используя:
— упрощение
— объединение/комбинацию гипотез
— и ещё пару методов

Наконец, Мета-оценщик:
— агент работает с результатами дебатов в турнире и находит общие закономерности, выявленные в ревью и дебатах
— Объединяя информацию из всех обзоров, метаобзор предоставляет ценную обратную связь Рефлексирующему
— также в генерируемом мета-обзоре очерчиваются потенциальные области и направления исследований, обосновывается их важность и предлагаются конкретные эксперименты в рамках каждой области. Каждая область включает иллюстративные примеры тем.

22.02.202510:39

Towards an AI co-scientist (блог, статья)

Вообще по-хорошему про эту работу нужно было писать длиннопост, как было с FunSearch. У меня за 3 дня только заметок на 7 страниц накопилось, и это без картинок. К сожалению, времени сейчас нет, поэтому будет усечённый формат, где я опущу часть деталей — но возможно кому-то захочется написать нормальный качественный пост (а не селф-промоушен), могу поддержать редактурой и фидбеком.

Так вот, в статье представляют AI-ко-саентиста (учёного, но я буду использовать слово саентист), мультиагентную систему от Google, построенную на обычной, не дообученной специально, версии Gemini 2.0. Ко-саентист — виртуальный коллаборатор, призванный помочь в генерации новых научных гипотез и предложений исследований.

В погоне за научными достижениями исследователи-люди сочетают изобретательность и креативность с проницательностью и экспертными знаниями, основанными на научной литературе, чтобы генерировать новые и жизнеспособные направления исследований. Во многих областях это представляет собой задачу необъятной широты и глубины, поскольку сложно ориентироваться в быстро растущей библиотеке научных публикаций, интегрируя идеи из мало/незнакомых областей. Тем не менее, преодоление таких проблем имеет решающее значение, о чем свидетельствуют многочисленные современные прорывы, возникшие в результате трансдисциплинарных усилий.

Самый известный тут пример, пожалуй — это Нобелевка 2020-го год по химии за технику модификации генов CRISPR-Cas9. Если упрощать, то два основных (и очень разных) открытия произошли достаточно давно, но никому не приходило в голову их совместить — либо это было неочевидно, либо было столько других кандидатов на совмещение знаний, что не счесть.

Ко-саентист призван помочь в определении гипотез для проверки и составлении протоколов экспериментов. Чем мне очень понравилась работа Google — это тем, что они прошли даже не одну, а три последние мили, и доказали на практике, что гипотезы, которые выдала модель, при тестировании в пробирке в реальной лаборатории показывают реальные результаты. Спойлер: AI НАШЕЛ НОВОЕ ЛЕКАРСТВО ОТ РАКА!!! (не шутка, но слегка преувеличенный факт). Но об этом позже.

===

Итак, что же это за система? Как написал выше, она состоит из нескольких агентов — то есть одной и той же модели Gemini 2.0, но с разными промптами, инструментами (поиск по базам / по интернету / запись в долгосрочную память / итд) и частотой их запуска. Ко-саентист анализирует полученную от человека цель в конфигурацию плана исследований (за это отвечает агент-супервизор).

Агент-супервизор назначает специализированных агентов в очередь и выделяет им вычислительные ресурсы. Такая конструкция позволяет системе гибко масштабировать вычисления и итеративно улучшать свои научные рассуждения в направлении указанной цели исследования. Например, в самом начале имеет смысл дать больший вес (ресурсов агенту) просто генерации рандомных гипотез, а на более поздних стадиях важно получать критику, применять её и адаптировать уже существующие гипотезы, внося уточнения и правки.

Дальше существует ещё 6 агентов: Генерирующий, Рефлексирующий, Ранжирующий, Эволюционирующий, Группирующий и Мета-оценщик. Про них вкратце, а потом про самый важный

Переслав з:

SpaceX | Starship News

21.02.202521:21

⚡️Появилась очень интересная инфа, как раз в тему нашей сегодняшней статьи!

По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship

Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase

🤞

21.02.202521:12

Вот так выглядела траектория в прошлом и вот так она может экстраполироваться в будущее

(тут недельная активная аудитория)

Источник картинки

21.02.202521:11

Chief Operating Officer OpenAI Brad Lightcap в интервью для CNBC рассказал, что бизнес растёт, цветёт и пахнет:

— OpenAI быстро развиваются, несмотря на растущую конкуренцию, в том числе со стороны китайских компаний

— в феврале компания достигла 400 миллионов активных юзеров в неделю (Weekly Active Users, WAU). Это рост на 33% по отношению к декабрю — очень стремительно!

— у компании сейчас есть 2 миллиона платящих корпоративных пользователей (прим.: скорее всего речь о подписке Team за $25). Это удвоение показателя с сентября.

— за последние 6 месяцев количество трафика на reasoning-модели в API выросло в 5 раз.

(и всё это с учётом того, что два последних продукта, Operator и Deep Research, недоступны бесплатным пользователям, а также тем, кто платит $20/мес)

===

Напомню, что по информации от TheInformation OpenAI нацелены на достижение ЕЖЕДНЕВНОЙ (не недельной) аудитории в 1 миллиард человек уже к концу 2025-го года. С каждым месяцем цель выглядит всё реалистичнее и реалистичнее. Компания планирует выпуск GPT-5 и предоставление практически безлимитного её использования даже для неплатящих пользователей — что должно привлечь огромное количество людей.

Попросил Deep Research подготовить мне табличку продуктов с самыми большими недельными и дневными аудиториями (данные не перепроверял, но уверен, что 90% цифр правильные):

Facebook — 3.07B MAU (но я так понял это не именно соцсеть, а любой из продуктов META)
YouTube — 2.54B MAU
WhatsApp — 2B MAU
Instagram — 2B MAU
LinkedIn — 930M MAU
Snapchat — 453M DAU / 850M MAU (лол, нифига себе много)
Telegram — 450M DAU / 950M MAU
X (Twitter) — 600M MAU
Reddit — 500M MAU

21.02.202511:09

(всё ещё не пост, который следует за этой гифкой)

TheVerge пишет:
— GPT-4.5 aka Orion может появиться уже на следующей неделе, поскольку Microsoft прямо сейчас освобождают серверные мощности для развёртывания моделей
— «Нам сообщили, что Microsoft ожидает GPT-5 в конце мая, что совпадает с обещанием Sam Altman о появлении модели следующего поколения в течение нескольких месяцев»
— релиз/анонс GPT-5 могут быть привязаны к конференции Microsoft Build, которая начинается 19-го мая

20.02.202520:15

👀👀👀

Серьезные ребята

UPD: завтра

UPD2: https://github.com/facebookresearch/MLGym

Переслав з:

Техасский Вестник

20.02.202514:20

Flight 8 на следующей неделе.

FAA выкатили предварительное окно для запуска Starship S34 и Super Heavy B15.

Основная дата: 26 февраля
Запасные даты: с 27 февраля по 6 марта.

Официальное подтверждение от SpaceX должно быть сегодня или завтра вечером.

19.02.202520:51

Это я читаю блогпост, на который буду писать следующий обзор в канале

reaction.gif

Переслав з:

Агенты ИИ | AGI_and_RL

19.02.202512:49

Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду

Всі дописи

Рекламувався0 секунд

12

18.02.202508:16Метаверсище и ИИще

35.9K

Рекламувався1 день

0

17.02.202504:59RationalAnswer | Павел Комаровский

101K

Рекламувався1 день

0

09.02.202516:34Экономика долгого времени

13.5K

Рекламувався10 годин

33

07.02.202507:14Just links

5.9K

Рекламувався1 день

0

03.02.202505:07RationalAnswer | Павел Комаровский

101K

Рекламувався1 день

0

28.01.202512:47Лаборатория Промптинга Mozlab

Рекламувався0 секунд

53

25.01.202516:05Адель и МЛь

1.4K

Рекламувався11 годин

0

04.11.202412:01Утиная либеральная партия

411

Рекламувався1 день

0

18.09.202405:10RationalAnswer | Павел Комаровский

101K

Детальніше

Рекорди

20.02.202523:59

56.4K

Підписників

25.05.202423:59

200

Індекс цитування

19.02.202523:59

28.1K

Охоплення 1 допису

08.05.202415:37

21.7K

Охоп рекл. допису

24.01.202518:23

19.08%

18.02.202523:40

49.92%

ERR

Розвиток

Детальніше

Підписників

Індекс цитування

Охоплення 1 допису

Охоп рекл. допису

ERR

Детальніше

Популярні публікації Сиолошная

Всі дописи

Переслав з:

Denis Sexy IT 🤖

04.02.202513:13

Как мне o1 Pro с шеей помогла

>36 лет, почти 2 метра роста
>в ~33 много сидел за ноутом в позе буквы G и заработал хронические боли в шее (ригидность шеи)
>прошел много сессий массажа чтобы снять боль, но полностью боль не проходила
>купил всякие подставки для ноута, начал ходить чаще в зал, в шее все еще скованность мышц – не посмотреть в право без ощущения натянутой струны в затылке
>надоело, решил снова записаиться на массаж-терапию и починиться – массажист-терапевт сразу заметил, с какими мышцами проблема
>Но мы же в будущем
>Описал o1 Pro всю историю болезни и попросил сделать мне программу для починки мышц
>Попросил сразу включить поисковые запросы для Youtube чтобы быстро найти нужные техники
>3 вечера занимаюсь по ее программе
>Терапевт на втором приеме сегодня – Денис, я не могу нащупать напряженные мышцы???
>Показал ему программу o1 Pro, терапевт в восторге – все по науке
>Впервые могу смотреть во все стороны как нормальный обычный человек

Программа тут, если кто-то с шеей страдает – но, o1 Pro не замена для врачей, но очень классно помогает – рекомендую

16.02.202509:56

Elon написал, что релиз Grok 3 с живой демонстрацией состоится в 7 утра по Москве во вторник. («Grok 3 release with live demo» я воспринимаю как «сначала демка а почти сразу после — публичный доступ, релиз: надеюсь так и будет).

Всё ещё обещает, что это «самый умный ИИ на Земле» — вот и поглядим, на чём это продемонстрируют. Правда ставочники на площадке предсказаний Manifold не верят в тезис, и дают 70%, что Grok 3 не окажется самым умным. Но там нет точных критериев, оценка проводится автором вопроса (и он не совсем нонейм), и... в сравнении не участвуют reasoning-модели 🤷‍♂️

Голосуйте эмоутами под этим постом, 👍 верите ли вы или 👎 нет

04.02.202511:07

gptPhone: начало post-mobile эпохи?

OpenAI планирует выпустить новое «GenAI-устройство» на замену смартфону. Слухи об этом ходили давно, но в последнее время Альтман и Ко мощно активизировались в этом направлении:

- На днях OpenAI подали заявку на патенты целого ряда «умных» продуктов. Среди них — часы, браслеты, носимые компьютеры и камеры, а также гуманоидные роботы.

- Альтман разъезжает по Корее и Японии, где даёт интервью с анонсами новых смартфонов и собственных полупроводников. Рассматривают партнерство с Samsung для конкуренции со взлетевшим китайским DeepSeek.

- Легендарный дизайнер Apple Джонни Айв может приложить руку к новым AI-устройствам. Альтман утверждает, что с Айвом на борту они смогут создать новый «iPhone-момент» для индустрии.

Подходы к созданию ИИ-девайсов уже были: начиная от провалившихся Rabbit и Humane Pin, до умеренно успешных Meta Ray-Ban. iPhone тоже не был первым смартфоном, но ему удалось нащупать правильный интерфейс и маркетинг — что привело к перевороту игры.

Такое же хотят повторить OpenAI. Тайминг выбран как нельзя лучше: рынок созрел для революции в мобильных устройствах. Существующие смартфоны практически достигли потолка развития, а ИИ-технологии достаточно продвинулись для создания принципиально новых интерфейсов.

Назревает платформенная революция, сравнимая с вебом в 90-х или мобайлом в конце нулевых. А такие времена — кладезь новых возможностей для стартеров.

@trendoscope

23.01.202517:23

Sama настолько расщедрился, что анонсировал введение o3-mini в БЕСПЛАТНЫЙ тир. Не в Plus за $20/месяц — в БЕСПЛАТНЫЙ.

Что..странно, с учётом того, что на подписке за $200 компания теряет деньги.

Но Big для наращивания аудитории.

10.02.202500:56

Реклама OpenAI на Суперкубке была слабенькая, слишком абстрактно, не ясно какая польза (что рекламируют то вообще?) и чё делать. -$8M, короче. Глобально идея показать развитие и эволюцию мб и норм, но пипл не поймёт

https://fixupx.com/OpenAI/status/1888753166189031925

Думал хоть скажут что вот мол o3-mini доступна всем бесплатно, бегите. Или подчеркнут национальный статус проекта, что нибудь про АМЭРИКУ и Трампа.

UPD: а вот тут через двое суток CMO расскажет, как они это делали и что это значит.

UPD2: оказывается реклама стоила 14 миллионов, а не 8! Можно было натренировать 2 дипсика и ещё останется. «Мы хотим, чтобы сообщение было актуальным для аудитории, которая смотрит Суперкубок, а это десятки миллионов людей, не знакомых с ИИ», сказала CMO. Как думаете, человек на диване дома, не знакомый с ИИ, понял, что именно рекламируют?

Переслав з:

эйай ньюз

11.02.202501:19

😮 Французский ответ Stargate

На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.

Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.

Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Она должна включать упрощенные регуляции, на замену отвратительному AI Act. Франция в этой стратегии должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.

Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.

@ai_newz

07.02.202522:09

ПОСТ ПРО ДИПСИК (но не полный)

Наконец-то состоялось первое серьезное мероприятие с олимпиадными задачами по математике в период после релиза рассуждающих моделей. Можно взять свежие проблемы, которых не было в тренировочных данных*, пропустить через все интересные нам LLM и сравнить.

Соревнование это — American Invitational Mathematics Examination (AIME), первая часть из двух, в каждой из которых по 15 задач. Вторая пятнашка появятся 12-го февраля, тоже отпишусь.

На картинке вы видите, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток).

Зелёный квадратик означает, что модель справилась 4/4 раз, желтый 1-3, красный — 0 раз из 4. Кому не интересно вникать — проще смотреть колонку «Acc», где отображена усреднённая точность «участников».

Модели OpenAI с большим отрывом обходят R1 (кстати топ-1 и стоит дешевле 😀), Sonnet 3.6 из коробки вообще ничего не решает.

Но что куда интереснее это сравнить метрики за 2024й год (которые репортились самими компаниями) и то, что получилось в 2025м:
— o3-mini: 87.3% -> 78.33% сейчас, есть просадка но всё равно топ-1
— o1: 74.4% -> 76.67%, показала себя даже чуть лучше, чем на давно доступных задачах
— R1: 79.8% -> 65% 🥱☠️
— дистиллянт R1-Qwen-14b: 69.7% -> 50% (падение даже больше чем у R1)

Я не думаю, что эти данные ультимативно подтверждают тезис о лучшей генерализации и отсутствии переобученности моделей OpenAI, но делают хорошую подводку.

(это не отменяет того что модель R1 от DeepSeek хороша)

* а вот в этом твиттер-треде нашли, что как минимум 3 задачи уже были в интернете (куда смотрели авторы олимпиады..?).

Источник — MathArena, увидел у @j_links. Задачи читать тут.

Переслав з:

Denis Sexy IT 🤖

25.01.202509:39

11.02.202520:22

Серьёзный вопрос к некоторым представителям моей аудитории

Зачастую под анонсом моделей, технологий, блогпостов, эссе, да хоть чего, касающегося лидеров ИИ-компаний (в основном Sama и Dario Amodei) всплывает комментарий в духе «чего не скажешь ради инвестиций, всё делают ради бабок, просят деняк» и тому подобное. Я вот прям сейчас увидел первый комментарий у Gonzo вот тут — он такого же содержания.

Я пытаюсь понять, для вот таких людей это действительно единственное объяснение, которое они считают очевидным и самым вероятным, и зачастую даже не дают никаких сопроводительных комментариев?

Вопрос к таким людям — как вы для себя отбиваете всю остальную критику такой точки зрения? Или вы просто эту критику не видите/не воспринимаете, всерьёз считая, что никаких реальных изменений и пользы от ИИ в каком-то виде нет и не будет? Или что это на горизонте десятилетия не отобьет несколько десятков миллиардов долларов? Или реальная цель топ компаний положить деньги инвесторов в карман?

не жаль тех кто уже за написание подобного отлетел в бан, они не смогут отметиться под постом 😀

UPD: тех, кто забанен, но всё ещё читает канал, приглашаю во временный чат с адекватными сообщениями (там модерация ещё более строгая будет): https://t.me/+SVP0PC-iUHYzMWRi

10.02.202516:27

Наверняка вы читали про недавно обнаруженный астероид 2024 YR4, который может столкнуться с Землей в 2032м. Последняя вероятность этого события, что я видел, была 2.2%. Если она реализуется, то прям совсем критичного для человечества ничего не произойдёт — это будет сравнимо с одним взрывом ядерной бомбы, ни о каком уничтожении человечества речи не идёт.

Из пары видео узнал, что до сих пор остаётся очень сложной оценка траектории и параметров астероида, и что есть надежда на 3 вещи:
1) или мы найдём данные в записях 2020-го года, которые покажут, где был астероид
2) или мы найдём определенные данные за 2020-ый год, где астероида не было видно, и это тоже даст нам какую-то информацию («X не был здесь, следовательно, траектория не такая»)
3) или мы ждём 2028-го года, где практически сразу как только астероид выйдет из тени и глубокого космоса и мы его заметим — всё станет понятно, будет удар ещё через 4 года или нет.

Scott Manley попытался ответить на вопрос, что будет, если вдруг мы узнаем, что всё же столкновению быть. По его расчётам, даже очень маленького ударного воздействия хватит, чтобы подвинуть орбиту, и астероид пролетел мимо. У человечества для этого есть всё: в определённых конфигурациях даже хватит ракеты Falcon 9 (не Falcon Heavy).

Также он с помощью инструмента NASA оценил, что существует две траектории от Земли, которые доставят нашу посылку в лицо астероиду примерно за 100 дней, так, что контакт может произойти 26-го декабря 2028го — на следующий день после рождества. Вот был бы клёвый подарок!

Если честно — не подумайте что я враг человечества — мне бы хотелось, чтобы по итогу переоценки орбиты астероида оказалось, что он летит на нас, и мы как человечество смогли легко отбить его атаку. Это вдохновляет, это объединяет, это футуристично, это круто.

Но чтоб совсем не переживать — вот вам пара тезисов про миссию DART от NASA. В её рамках как раз таки произвели запуск спутника (удивительно, тоже на Falcon 9), который в 2022м году врезался в астероид и успешно изменил его орбиту, причём даже сильнее, чем мы рассчитывали (и не расколол его). Это была тренировка, но если бы он угрожал Земле — то всё бы обошлось. И тот астероид к тому же был в несколько раз массивнее, чем 2024 YR4.

Так что у нас всё схвачено 👍

UPD: ахахха а потом будут люди которые не поверят, что это произошло, и скажут что всё выдумки и снято в голивуде. Мы ж не могли видеть это, ну вот и дурят.

14.02.202508:00

Competitive Programming with Large Reasoning Models

OpenAI выпустили скорее не статью, а отчёт о том, как они замеряют прогресс в программировании у моделей, и сравнивают o3 с o1 и o1-ioi (системой, которая была заточена на решение международной олимпиады по информатике; там были свои методы с агрегацией и фильтрацией решений).

Большая часть метрик уже была показана ранее, тут больших сюрпризов нет, просто добавили деталей. Одна из важнейших — это то, как сравнивают решения LLM с решениями людей в соревнованиях, где играет роль время отправки решения и количество ошибок. Недостаточно просто написать код, который прошёл все тесты — нужно это делать как можно быстрее. Понятно, что кластер с 100,000 видеокарт сгенерирует пару сотен решений быстрее, чем человек, так ещё и одновременно для всех задач сразу — как быть?

OpenAI выбрали, как мне кажется, достаточно резонную стратегию (тут и ниже — в контексте оценки рейтинга CodeForces): они использовали медианное время отправки и количество попыток среди всех людей, кто решил задачу. Таким образом полученные оценки слегка занижены относительно того, если бы OpenAI гнались за максимальным скором, и считали, что отправляют решения быстрее всех (или хотя бы как топ-10-20%, а не медианный).

<тут я должен напомнить что при таком замере рейтинг o3 достигает 2724, или 99.8 перцентиль, то есть лучше неё очень малая доля участников>

===

Другая интересная вещь: o3 во время рассуждений может пользоваться инструментами (o1 пока нет), то есть запускать код, который сама пишет, без отправки решения. Почти наверняка модель так обучалась.

На картинке вы видите одну из стратегий, обнаруженную o3 во время тренировки и применяемую тут: для проблем, где проверка нетривиальна, она часто пишет простые решения методом перебора — жертвуя эффективностью ради правильности — затем перекрестно проверяет результаты с помощью своих более оптимизированных алгоритмических реализаций. Этот самодельный механизм проверки позволяет o3 выявлять потенциальные ошибки и повышать надежность своих решений.

Говоря проще код на картинке — это проверка в духе «так, вот тут решение, в котором я точно уверен, а вот моё оптимизированное. Не продолбался ли я где-то? Ща проверим на сотне случайных примеров». И всё это в рамках цепочки рассуждений.

Благодаря DeepSeek R1 мы знаем, что OpenAI не врали, когда говорили, что модель сама по себе придумывает паттерны рассуждений, без вмешательства человека и явного прописывания таких стратегий. Скорее всего, этот пример тоже относится к таким — модель во время обучения просто поняла, что такие проверки позволяют чаще справляться с задачами, меньше ошибаться (что вполне логично), и начала применять технику. Ведь по сути это та же самопроверка, которую мы видели для математических задач, просто с отдельным запуском кода.

Absolute Cinema 🖐😶🤚

05.02.202520:59

Я откладывал пост про Deep Research от OpenAI, так как не было времени сесть и собравшись с мыслями написать мнение (как и про DeepSeek 🙂). Две самые главные вещи оттуда:

— основано на o3 (не mini), с которой не-сотрудникам OpenAI до этого не было возможности взаимодействовать

— Sama написал, что Deep Research «по моим приблизительным подсчетам может выполнять однозначный процент [прим. 1-9%] всех экономически значимых задач в мире, что является колоссальным достижением». С одной стороны это заявление может казаться неправильным, мол, в мире нет такого спроса на задачи поиска информации и компиляции отчётов. Если спросить Deep Research, то система найдёт несколько свежих экономических оценок, из которых выходит, что это 15-20% по доле занятости в мире (не США). Понятно, что продукт OpenAI не займёт 100% рынка. С другой стороны можно заметить, что технология не надёжна и иногда ошибается, но ведь ошибаются и люди (я регулярно слышу от матери рассказы про «дураков на работе, вообще ведь ничего не соображают». Согласны? Узнали?). Какие-то десятки нижних перцентилей исполнителей вполне могут быть хуже системы.

Но технологии не стоят на месте, и скоро выйдет и o4 (в идеале на основе GPT-5/Orion), и OpenAI соберут большое количество обратной связи и улучшат систему, закрыв очевидные проблемы/ошибки. В общем, я считаю, что тезис про однозначный процент верен, если трактовать его как «в самое ближайшее время, через пару итераций, инструмент СМОЖЕТ делать X, но сможет не равно БУДЕТ» (последняя часть важна, потому что компании медленные). Разумеется, умные компании должны начинать готовиться уже вот в этом году, а не когда клубника доспеет.

====

Вместо послесловия вставлю отрывок сообщения если не критика, то скептика развития AI, экономиста и профессора Tyler Cowen, который вот недавно участвовал в дебатах по поводу влияния AI на рост ВВП:

Я попросил Deep Search написать несколько десятистраничных работ, и каждая из них была выдающейся [outstanding в оригинале]. Я оцениваю качество как сопоставимое с работой хорошего научного ассистента с PhD, которому поручили задачу на одну-две недели, а может и больше.

Deep Research выполняет эту работу за пять-шесть минут. И, похоже, не делает ошибок благодаря качеству модели o3.

Я запросил работу с объяснением теории ренты Рикардо и её места в его более широкой теории распределения. Результат я сравнил с рядом других источников в интернете и пришёл к выводу, что этот вариант лучше, поэтому использую его для своего курса по истории экономической мысли.

Пока я не вижу признаков оригинальности, но уровень точности и ясности впечатляет. Кроме того, эта работа показывает, что модель способна к некому долгосрочному планированию, и это свойство может быть обобщено на самые разные контексты и задачи — это, пожалуй, одна из главных новостей, связанных с этим релизом.

(перевод взят с канала @longviewecon с мелкими правками)

25.01.202517:54

Принимаю в комментарии идеи того, на чём попробовать Operator, какие задачи.

Для вдохновления рекомендую посмотреть 14 примеров на сайте OpenAI.

В идеале от вас длинный промпт на 5+ строк, и может даже пара файлов, которые нужно закинуть в гугл диск. Хотя можете их и в телеграме оставить — Operator может заходить в мою учётку и ~~банить вас~~ качать их.

Я выберу несколько интересных примеров и выложу видео (мб в канал, мб в комментарии, в зависимости от интересности) — Operator умеет сам записывать ход сессии.

UPD: помните, что оператор плохо работает с задачами на 20+ минут, а так как всё делается медленнее, чем при исполнении человеком, то задачи должны быть на 5-8 минуток.

10.02.202510:28

Пост про дипсик (но не совсем)

Сегодня ночью будет Супербоул (в 2:30 по мск), который я по традиции буду смотреть.

Сообщается, что OpenAI купили 30-секундную рекламу (за $8M). В новостях пишут что это первая TV-реклама, но на моей памяти в целом вообще первая — компания вкладывала примерно нуль в своё продвижение до недавнего времени. А вот, например, Anthropic в прошлом году уже появлялись на Супербоуле.

«Ха-ха, боятся конкуренции с DeepSeek» — может кто-нибудь сказать. Но вообще-то про начало маркетинговых компаний CMO OpenAI Kate Rouch говорила ещё в конце 2024-го года. Ближе к концу января мы узнали, что у OpenAI ОЧЕНЬ амбициозные планы на 2025й: они хотят вырастить аудиторию более чем в 4 раза (до МИЛЛИАРДА пользователей В СУТКИ), поэтому логично, что начнутся а) маркетинговые акции б) коллаборации в) промо-акции со скидками.

Также для того, чтобы привлекать бесплатных юзеров, было пора бы и модель обновить (там всё ещё крутилась GPT-4o-mini, если память не изменяет), и появление o3-mini для бесплатных юзеров — да ещё и с поиском — это скорее логическая закономерность нежели ответ на китайские релизы. Я не верю, что OpenAI приняли это решение испугавшись роста конкурента (который по итогу не смог выдержать наплыва аудитории и был долгое время недоступен — прямо как сами OpenAI в 2022м), но допускаю, что они могли чуть поднять лимиты по сравнению с теми, которые рассчитали до выхода и популярности R1.

Про коллаборации — вот например OpenAI предоставят доступ к ChatGPT Edu для студентов и сотрудников California State University, более 500'000 человек!

Ну и промо-акции: через неделю после релиза R1 в коде сайта OpenAI было обнаружено, что планируется давать скидку в 50% на Plus-подписку. А вчера нашли ещё больше информации (названия промо-кампаний):
— "students-2025-six-month-discount"
— "first month discount", "first month free", "six months discount", и "six months free"

(🥱 вот бы это на Pro-тир распространялось 👶...)

Тут у каждого оценка шансов субъективная, но для меня «компания с бывшим директором YC, где персонально он учил расти стартапы, и которая наняла CMO, который уже с месяц говорил про маркетинг, и в планы которой входил рост в 4 раза за год, планировала промо-кампании заранее» куда более вероятно, чем «эта же компания за неделю перевернулась и сделала промо-акции в ответ на китайскую угрозу». Почитаю в комментах почему я не прав 😀

для особо интересующихся напишу очевидную вещь: «не из-за DeepSeek» не равно «не из-за конкурентов»

===

О, и ещё: Similarweb пишет, что сайт ChatGPT стал 6м по трафику в мире, обойдя Twitter, Reddit, Netflix, и совсем чуть-чуть отставая от Instagram. За январь рост составил без малого 6%.

UPD: написал в комментах, но вынесу и сюда. Я считаю, что цены на на o3-mini / o1-mini упали почти наверняка из-за DeepSeek, и за это им спасибо.

18.02.202505:26

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

Увійдіть, щоб розблокувати більше функціональності.