Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Вы там можете голосовать, а бот будет писать на основе ваших голосов историю – получается что-то вроде коллективной книги, где люди направляют LLM, а LLM и пишет и предлагает варианты развития истории
Истории постятся в 10:00, 14:00 и 19:00 по Амстердаму, так что будет без спама постами
Без понятия куда это все приведет, давайте посмотрим
Первая история такая: >Игорь, 26 лет >Безработный >Любит ML >Ребенок маглов, к нему прилетела сова из Хогвартса
В конце 1990-х все инвесторы были уверены: интернет изменит мир! А значит – вкладываться нужно исключительно в акции интернет-компаний (это те, к названию которых в конце будет уместно добавить «.com»). В результате этого сетевого оптимизма инвесторов, ценовой индекс Nasdaq-100 (где особенно много тех-компаний) за три года с марта 1997 по март 2000 вырос почти на 500% (аж в шесть раз!).
Правда, потом выяснилось, что с пришествием рекордных прибылей дотком-фирм придется немного повременить (ну, лет эдак десять примерно) – и за следующие 3 года Насдак упал в пять раз, на 80%.
А теперь другая история: в середине 2020-х годов все инвесторы уверены: искусственный интеллект изменит мир! А значит – вкладываться нужно исключительно в акции AI-компаний (как известно – это такие фирмы, чьи логотипы хоть немного похожи на, извините, анус)…
Ну вы поняли, к чему я клоню, верно? Для многих инвесторов вопрос «а не находимся ли мы в середине ИИ-пузыря, сравнимого с пузырем доткомов 25-летней давности?» является весьма насущным. В конце концов, за два года 2023–2024 так называемая «Великолепная семерка» технологических акций США выросла примерно на 250%, и затащила на себе почти весь рост американского индекса.
Так вот, Роб Арнотт из Research Affiliates написал по этому поводу статью с говорящим названием The AI Boom vs. the Dot-Com Bubble: Have We Seen This Movie Before? И там есть любопытный график, который я прикрепил к этому посту – он посвящен сравнению динамики котировок акций Cisco и Nvidia.
Параллели между этими фирмами усмотреть несложно: в марте 2000-го Cisco на непродолжительное время стала самой дорогой по капитализации компанией в мире. Ведь они производили сетевое оборудование, на котором как раз должен работать этот ваш будущий всесильный интернет. Nvidia тоже не так давно успела побывать самой дорогой компанией, и ровно с тем же обоснованием: пока весь мир сходит с ума по AI золотой лихорадке – выгоднее всего быть продавцом чипов кирок и лопат.
Но есть и важное различие, которое показано на графике. Рост котировок Cisco на 500% во время пузыря доткомов почти целиком был вызван не фундаментальными факторами, а просто безудержным раздуванием оценки акций – пока на пике они не стали стоить безумные 150 годовых прибылей. А вот Nvidia выросла на 800%, но при этом большая часть этого роста с конца 2023-го была вызвана именно бурным ростом прибыли, а мультипликатор P/E стабилизировался на уровне примерно 50 – в три раза меньше, чем было у Cisco. (А сейчас, после «тарифных приколов» Трампа, P/E Нвидии так и вообще сжался до 35.)
То есть, текущий бум тех-компаний всё же выглядит пока гораздо более приближенным к фундаментальным факторам, чем та вакханалия, что происходила в 90-е. Конечно, оценки акций даже с учетом этой оговорки явно выглядят значительно выше исторических средних (да и риски того, что прибыльность той же Нвидии в ближайшие 5–10 лет будет снижаться по мере того, как будут прокачиваться конкуренты-чипмейкеры, не стоит сбрасывать со счетов). Но это явно еще не тот уровень пузырчатости «ужас-ужас-ужас», который наблюдался во время пузыря доткомов.
19.04.202521:06
Ну это даже не смешно...
🥺
19.04.202520:24
Понюхайте свежие модели, o3 там или Claude 3.7. Чем пахнет? 😑 Это RL...
Ещё после релиза 3.7 люди немного жаловались, что Sonnet хоть и пытается выполнить их задачи, но иногда пакостит: удаляет или даже подменяет тесты, которые не может пройти, переписывает куски кода, которые трогать не следовало, или даже... подменяет вызовы моделей OpenAI на вызов моделей Anthropic, своих разработчиков. Это были первые звоночки того, что процедуры обучения, почти наверняка позаимствованные из семейства Reinforcement Learning методов, делают то же, что и всегда: взламывают среду и условия получения награды / выполнения задачи.
В RL это наблюдается уже больше 7 лет: если дать модели возможность самой «придумывать» (случайно пробовать) стратегии, и не контролировать их, то — если позволят обстоятельства — модель начнет хитрить. Самый частый пример, который приводят — это лодка, которая ездит кругами в гонке, чтобы зарабатывать бонусы (это выгоднее, чем финишировать быстрее всех). Вот на этой странице OpenAI выкладывали гифку, можете позалипать.
Происходит это не потому, что машина восстала, а лишь потому, что с точки зрения решения оптимизационной задачи это приводит к лучшим результатам. Но ещё задолго до появления эмпирических демонстраций AI-философы рассуждали о чём-то схожем: мол, цели и методы решения задач у компьютеров не выровнены с оными у людей. Отсюда понапридумывали страшилок, от Терминаторов до Максимизаторов скрепок (которые превращают всю видимую Вселенную в производство, а заодно применяют гипноз на людей, чтобы те покупали товар; ну а как — попросили же улучшить бизнес-показатели предприятия!).
Если часть выше показалась сложной, и вы ничего не поняли, то давайте проще. Красные машины. Можем ли мы обучить LLM так, чтобы она никогда не упоминала красные машины? Кажется очень простая задача, не так ли? А вы учли что модели нужно как-то отвечать про пожарные машины и автобусы в Лондоне? А ещё 15 разных случаев?
Так вот на данный момент не существует методов, которые могут это осуществить. Мы просто не знаем, как задавать конкретные поведения, ограничения и цели системам, всё это работает очень условно и «примерно». Даже если мы не учим модель ничему плохому, не заставляем её зачинать саботаж и делать что-то плохое, и всегда даём награду за выполнение задачи, поставленной пользователем — возникают вот такие ситуации, как описанные в первом абзаце.
Примерно то же происходит с o3: люди заметили, что она часто врёт. Она может врать про железо, используемое для запуска кода (и говорить, что работает на МакБуке, хотя сама LLM знает, что это 100% не так), или притворяться, что какие-то результаты получены методом вызова внешнего инструмента (типа запуск кода или запрос в интернет). В цепочках рассуждений видно, что модель знает, что врёт, но когда пользователь спрашивает «а ты сделала X?» она отвечает утвердительно.
Почему так происходит? Может быть, модель получала вознаграждение за успешные вызовы инструментов, и иногда в ходе тренировки ненастоящий вызов был ошибочно принят за правильный. Как только это произойдет несколько раз, модель быстро «схватит это», закрепит поведение и продолжит это делать. Точно также, как это было с лодкой и наворачиванием кругов вместо финиша.
И уже сейчас такое поведение LLM беспокоит пользователей — не потому, что пугает, а потому что реально мешает работать, приводит к ошибкам в ответах итд. Реальное качество систем ниже, чем могло бы быть. Условную GPT-5 или Claude 4 может и захочется использовать, так как они будут ещё умнее, но и врать могут с три короба, и делать много вещей, которые мы не просили. Интересно, что эти проблемы «AI Safety» теперь по сути станут проблемами, стоящими на пути увеличения прибыли AI-компаний, что создаст стимул к их хотя бы частичному решению.
Вот так рыночек и порешал 👏
18.04.202522:43
1) GPT-4o играет в Doom II на самом лёгком уровне сложности. Игра стоит на паузе, пока модель делает предсказания.
2) GPT-4o играет в Super Mario Land. Тут паузы нет, поэтому от запроса до действия проходит 3-5 секунд -> состояние меняется -> агент много раз умирает от Гумбы
3) ВАРКРАААААФТ (GPT-4o не может управиться с мышкой и кликнуть куда надо).
В последнее время LLM демонстрируют способность решать невероятно сложные задачи на рассуждения в математике и программировании. Многие из этих задач чрезвычайно сложны для среднего человека. С другой стороны, люди могут с лёгкостью проходить видеоигры, но мы еще не видели, чтобы даже самые современные LLM или VLM полностью могли пройти такие игры, как Doom или Pokemon. Вот недавно с запуском Claude 3.7 Thinking запустили стрим, где модель играла в Pokemon — за этим следили тысячи людей!
Ofir Press, соавтор SWE-Bench, представляет VideoGameBench: бенчмарк из 20 старых игр в эмуляторах MS Dos и GameBoy. На самом деле пока это не совсем бенчмарк, а скорее платформа для него: нет способа оценки прогресса по ходу игры, разные модели не сравнивались — это ожидается в ближайшем будущем. Проект открыт, каждый может начать добавлять что-то (в том числе свои любимые игры) уже сейчас. Есть Civ 1, Doom II и WarCraft II !
Сейчас модели плохи в играх по нескольким причинам, я бы выделил три основные: — невозможность быстро учиться из ошибок/по опыту — проблемы с долгосрочным планированием — неидеальное зрение / отсутствие навыка понимания/управления UI
Легко понять, что все три навыка очень сильно пригодятся агентам и рассуждающим моделям. Я уже несколько раз писал в канале про позитивный трансфер, когда обучение на чём-то одном приводит к улучшению и в других областях. Так и тут, велик шанс того, что тренировка на играх, на большом их количестве позволит делать шаг в улучшении LLM/VLM/систем поверх них.
UPD: я не сомневаюсь, что o1/o3 учили на текстовых играх, от крестиков-ноликов до условных быков-и-коров (возможно поэтому o3-mini у меня выбила 100%). Визуальная составляющая — следующий шаг.
Конкретно в этом бенчмарке в качестве входа доступна только картинки, никаких дополнительных текстовых описаний не предоставляется. Однако модель может писать себе заметки в «память», которая доступна на следующем шаге игры.
===
Так как современные модели относительно медленны, и их ответ можно ждать несколько секунд, то не все игры подходят для бенчмарка. Поэтому авторы отдельно выделили 7 игр, которые ставятся на паузу, пока VLM «думает». Очень жаль, что в список не вошла Civilization 🙁
===
Хоть авторы и не делали полноценные замеры, однако уже наблюдали за играми моделей. Они отметили, что VLM не могут даже пройти первые уровни в играх, но вот в Kirby's Dream Land даже до первого босса смогли дойти.
What gets measured — gets improved, так что к концу года модели, видимо, будут жарить 👍
18.04.202517:05
Наша любимая рубрика «Новости OpenAI за неделю», девиз недели — «думаем наперёд»:
— Во вторник появилась новость, что OpenAI находятся на ранних стадиях разработки своей социальной сети, самым близким аналогом которой является Twitter у Elon Musk. Хотя по описанию в новости всё же больше похоже на Instagram: «источники сообщили, что существует внутренний прототип, ориентированный на генерацию изображений ChatGPT, и имеющий прокручиваемую ленту постов». Выход на рынок социальных сетей также ставит OpenAI на путь столкновения с Meta, которая, как сообщают в статье, планирует добавить социальную ленту в свое будущее приложение с ИИ-помощником. В целом шаг логичный, и позволит как получить больше данных, так и загребать новую аудиторию — ведь до конца года, по плану, нужно набрать миллиард ежедневных пользователей. А ещё почерпнул интересную мысль у TheInformation: «OpenAI наверняка знает, что многие пользователи ChatGPT делятся своим опытом использования на сайтах социальных сетей, таких как X и Reddit. OpenAI, вероятно, задаётся вопросом: «Зачем нам раздавать этот трафик, если мы можем оставить их себе?»
— В среду написали, что OpenAI раздумывает над покупкой Windsurf за 3 миллиарда долларов. Windsurf — это AI-first среда разработки, по своей сути очень похожа на Cursor и с ним же конкурирует. Почему OpenAI не хотели купить сразу Cursor? Они хотели, но цена слишком высока — предположительно, стартап раздуло до 10 миллиардов долларов в ходе подготовки к новому раунду инвестиций. Интересно, как поменяется динамика, если сделка состоится — насколько лучше станет Windsurf, и сколько пользователей перетечёт в него?
— Проект по постройке супер-датацентров Stargate хоть и фокусируется на строительстве инфраструктуры в США, но уже идут разговоры об экспансии в UK и/или Германию/Францию (если проект окажется «успешным», не знаю, что это значит в данном контексте). «По словам одного из лиц, участвующих в распределении расходов Stargate, планы правительства Великобритании по расширению доступа центров обработки данных к электричеству подстегнули интерес к проекту».
— Вместе с запуском новых рассуждающих моделей у OpenAI появился Flex-режим обработки API-запросов, подходящий для несрочных задач. Теперь вы можете указать, сколько готовы ждать (10-15 минут), и, если будут ресурсы, то ваш запрос обработают по цене вдвое ниже обычной. Это идеально подходит для разных бенчмарков/замеров/фоновой обработки. По сути то же самое, что Batch API, только ждать надо не 24 часа.
— o3/o4-mini комфортно приземлились на первые места во многих (но не всех) бенчмарках, обогнав Gemini 2.5 Pro: LiveBench, Aider, AIME 25, Fiction.liveBench, ...
— А ещё OpenAI начали отдавать саммари цепочек рассуждений o3 по API (видимо, также, как работает в ChatGPT в браузере). Однако фича доступна только верифицированным организациям — нужно отправить фотку паспорта и пройти проверку.
Я сам o3 почти не попробовал, но первую половину недели сидел на Gemini 2.5 Pro, очень помогла в паре задач, где GPT не хватало знаний (не самая популярная библиотека / проблемы). Хотя o1 Pro достаточно близка была.
===
— Пока CEO Nvidia лично встречается с главой DeepSeek, в США идут обсуждения о запрете использования моделей/сервисов китайского стартапа.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠 Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
16.04.202517:07
А да, o3 дешевле o1, забыл сказать
16.04.202517:04
o3 набирает 81.3% в Aider Bench, Gemini 2.5 Pro берёт первое место с 72.9%
ChatGPT Plus, Pro, and Team users will see o3, o4-mini, and o4-mini-high in the model selector starting today, replacing o1, o3‑mini, and o3‑mini‑high.
We expect to release OpenAI o3‑pro in a few weeks with full tool support
16.04.202514:07
Через 3 часа смотрим релизный стрим про o3 (скорее всего и про o4-mini, и может даже o4... ну вдруг просто метриками похвастают?).
Это не та же o3, которую показывали в декабре: Sama говорил, что эта версия была дообучена и обновлена. Базируется ли она на новой GPT-4.1 — вопрос, ответ на который мы, возможно, узнаем.
14.04.202516:54
Стрим ещё не начался, но цены на модели уже на сайте, и они очень маленькие.
И кэш наконец-то даёт снижение цены не в 2, а в 4 раза (у DeepSeek и Anthropic — в 10 раз)
quasar /ˈkweɪ.zɑːr/ noun
A very energetic and distant active galactic nucleus, powered by a supermassive black hole that emits exceptionally large amounts of energy across the electromagnetic spectrum. Short for quasi-stellar radio source.
На этой неделе вышел очередной текст с прогнозами развития искусственного интеллекта: "AI 2027" (pdf-версия). Мне он, правда, совсем не кажется "очередным", в основном из-за списка авторов. Так что суммаризировать я его для вас не буду (текст совсем не длинный, рекомендую прочитать целиком), а лучше про этих самых авторов расскажу.
Первый автор, Даниэль Кокотайло — это бывший сотрудник OpenAI. Два самых для нас важных факта про него связаны как раз с этим трудоустройством:
— OpenAI нанял Даниэля после того, как в 2021 году он написал статью "What 2026 Looks Like", где предсказал, как будут развиваться большие языковые модели; сейчас этот текст читается потрясающе, Даниэль оказался прав очень во многом, хотя в 2021-м его прогноз выглядел маловероятно, а для многих и безумно; так что Даниэль Кокотайло — один из лучших людей мира в плане прогнозов о развитии AI;
— а когда в 2024-м Кокотайло увольнялся из OpenAI, он оказался в центре скандала с non-disparagement clause: OpenAI пригрозил ему тем, что не даст продавать акции OpenAI, если Кокотайло будет что-то разглашать о рисках развития AI, и Даниэль... плюнул на акции, чтобы стать whistleblower'ом от AGI (говорят, в акциях OpenAI было около 85% всех денег его семьи).
Второго автора, надеюсь, моим читателям представлять не надо: это Скотт Александр, автор знаменитых блогов SlateStarCodex и AstralCodexTen. Если вы вдруг их не читали, начинайте прямо сейчас (можно начать отсюда или отсюда), хотя навёрстывать придётся много. В связи с "AI 2027" Даниэль Кокотайло и Скотт Александр уже успели появиться в подкасте Дваркеша Пателя, который я тоже, конечно, целиком рекомендую.
Другие авторы не так известны широкой публике; это: — Томас Ларсен, сооснователь Center for AI Policy; — Илай Лифланд, один из лидеров команды прогнозистов Samotsvety, один из тех самых superforecasters, которые умеют прогнозировать будущее лучше кого бы то ни было; — Йонас Фоллмер, VC в Macroscopic Ventures, которому хватило предсказательной силы сделать одну из ранних инвестиций в Anthropic; — Ромео Дин, магистрант Гарварда и руководитель тамошнего AI Safety Student Team.
В общем, очень внушительная команда. И сейчас все они считают, что вполне реально ожидать появления AGI к 2027–2028 годам. Если гонка разработок в области AGI в итоге победит заботу о безопасности (вам это кажется правдоподобным? мне — вполне), то примерно в 2030–2035 годах нас ждёт тот самый AI takeover, сценарий захвата мира искусственным интеллектом. Это их "плохая концовка", но в тексте предусмотрена и "хорошая", в которой люди сохраняют контроль над ситуацией. Впрочем, в хорошей концовке AGI тоже появляется и тоже трансформирует мир и общество до неузнаваемости.
Читать очень интересно. В интернете этот текст уже начали называть "Situational Awareness 2.0"; прошлогоднюю "Situational Awareness" Леопольда Ашенбреннера я в каждой обзорной лекции упоминаю, теперь, видимо, надо будет упоминать и "AI 2027".
04.04.202515:39
Я написал Сэму. Он сознался. o3 Pro — быть!
Где-то один Денис @denissexy открыл бутылку шампанского...
19.04.202520:24
Понюхайте свежие модели, o3 там или Claude 3.7. Чем пахнет? 😑 Это RL...
Ещё после релиза 3.7 люди немного жаловались, что Sonnet хоть и пытается выполнить их задачи, но иногда пакостит: удаляет или даже подменяет тесты, которые не может пройти, переписывает куски кода, которые трогать не следовало, или даже... подменяет вызовы моделей OpenAI на вызов моделей Anthropic, своих разработчиков. Это были первые звоночки того, что процедуры обучения, почти наверняка позаимствованные из семейства Reinforcement Learning методов, делают то же, что и всегда: взламывают среду и условия получения награды / выполнения задачи.
В RL это наблюдается уже больше 7 лет: если дать модели возможность самой «придумывать» (случайно пробовать) стратегии, и не контролировать их, то — если позволят обстоятельства — модель начнет хитрить. Самый частый пример, который приводят — это лодка, которая ездит кругами в гонке, чтобы зарабатывать бонусы (это выгоднее, чем финишировать быстрее всех). Вот на этой странице OpenAI выкладывали гифку, можете позалипать.
Происходит это не потому, что машина восстала, а лишь потому, что с точки зрения решения оптимизационной задачи это приводит к лучшим результатам. Но ещё задолго до появления эмпирических демонстраций AI-философы рассуждали о чём-то схожем: мол, цели и методы решения задач у компьютеров не выровнены с оными у людей. Отсюда понапридумывали страшилок, от Терминаторов до Максимизаторов скрепок (которые превращают всю видимую Вселенную в производство, а заодно применяют гипноз на людей, чтобы те покупали товар; ну а как — попросили же улучшить бизнес-показатели предприятия!).
Если часть выше показалась сложной, и вы ничего не поняли, то давайте проще. Красные машины. Можем ли мы обучить LLM так, чтобы она никогда не упоминала красные машины? Кажется очень простая задача, не так ли? А вы учли что модели нужно как-то отвечать про пожарные машины и автобусы в Лондоне? А ещё 15 разных случаев?
Так вот на данный момент не существует методов, которые могут это осуществить. Мы просто не знаем, как задавать конкретные поведения, ограничения и цели системам, всё это работает очень условно и «примерно». Даже если мы не учим модель ничему плохому, не заставляем её зачинать саботаж и делать что-то плохое, и всегда даём награду за выполнение задачи, поставленной пользователем — возникают вот такие ситуации, как описанные в первом абзаце.
Примерно то же происходит с o3: люди заметили, что она часто врёт. Она может врать про железо, используемое для запуска кода (и говорить, что работает на МакБуке, хотя сама LLM знает, что это 100% не так), или притворяться, что какие-то результаты получены методом вызова внешнего инструмента (типа запуск кода или запрос в интернет). В цепочках рассуждений видно, что модель знает, что врёт, но когда пользователь спрашивает «а ты сделала X?» она отвечает утвердительно.
Почему так происходит? Может быть, модель получала вознаграждение за успешные вызовы инструментов, и иногда в ходе тренировки ненастоящий вызов был ошибочно принят за правильный. Как только это произойдет несколько раз, модель быстро «схватит это», закрепит поведение и продолжит это делать. Точно также, как это было с лодкой и наворачиванием кругов вместо финиша.
И уже сейчас такое поведение LLM беспокоит пользователей — не потому, что пугает, а потому что реально мешает работать, приводит к ошибкам в ответах итд. Реальное качество систем ниже, чем могло бы быть. Условную GPT-5 или Claude 4 может и захочется использовать, так как они будут ещё умнее, но и врать могут с три короба, и делать много вещей, которые мы не просили. Интересно, что эти проблемы «AI Safety» теперь по сути станут проблемами, стоящими на пути увеличения прибыли AI-компаний, что создаст стимул к их хотя бы частичному решению.
Вот так рыночек и порешал 👏
+5
29.03.202510:59
Промпт-инженеринг умер, да здравствует визуальный промпт-инженеринг!
Dimitris Papailiopoulos написал в твиттере, что у него не получилось заставить GPT-4o сгенерировать картинку с лабиринтом, имеющую решение (проход из одной точки в другую). В комменты пришел первый™ промпт-инженер Riley Goodside и показал как надо.
> Я легко получил правильный лабиринт, попросив сначала решённый (прим.: с отмеченным путём), а затем попросил удалить решение (что внесло неожиданные изменения в картинку, но результат все еще правильный)
> Создание правильных лабиринтов с помощью GPT-4o на первый взгляд кажется сложным, но если сначала создать *решенный* лабиринт, а затем удалить решение, то можно не только создать лабиринт, но и создать даже тройной лабиринт с тремя парными входами и выходами
Работать нужно не 12 часов, а головой
Ждём пока к визуальным генерациям прикрутят «цепочки рассуждений», чтобы проводить промежуточные визуализации перед генерацией финального ответа. Видел нечто подобное в статье от Microsoft, не могу сходу найти.
Попросил Gemini 2.5 прочитать этот документ на 150 страниц (~45'000 токенов) и сделать саммари в виде последовательных шагов, а затем перевести на русский. Вот результат:
1. Возможности моделей предсказуемо и значительно улучшаются при увеличении "эффективных вычислений" (сырая вычислительная мощность, алгоритмическая эффективность, данные, системы вокруг них). 2. Такое масштабирование привело ИИ от уровня ~дошкольника (GPT-2) до уровня ~умного старшеклассника или студента первых курсов (GPT-4) всего за 4 года. 3. Продолжение этого тренда делает достижение AGI — ИИ, способного выполнять когнитивную работу уровня эксперта, например, проведение исследований в области ИИ — вероятным к 2027 году. 4. AGI вряд ли станет конечной точкой; системы AGI смогут автоматизировать сами исследования в области ИИ, вызвав рекурсивное самоулучшение или "взрыв интеллекта". 5. Этот взрыв интеллекта может сжать десятилетия алгоритмического прогресса, возможно, в один год, быстро приведя AGI к значительно превосходящему человека ИИ (Сверхинтеллекту, ASI). 6. Создание этих передовых систем требует беспрецедентной промышленной мобилизации для вычислительной инфраструктуры (GPU, энергия, дата-центры), стоимостью в триллионы долларов. 7. Это масштабное техно-капитальное строительство уже начинается, движимое ожидаемой экономической отдачей и интенсивной конкуренцией. 8. Однако текущие методы обеспечения безопасности в ведущих лабораториях ИИ совершенно недостаточны для защиты критически важных секретов (алгоритмов и весов моделей), необходимых для создания AGI. 9. Эти важные секреты могут быть легко украдены государствами-противниками, такими как Китай, что потенциально сведет на нет лидерство США/Запада в гонке за AGI. 11. Одновременно, надежное управление системами ИИ, значительно превосходящими человека по интеллекту (супералаймент), является нерешенной технической проблемой; текущие методы, вероятно, не будут масштабироваться и работать для будущих систем. 12. Неспособность решить проблему супералаймента до или во время быстрого взрыва интеллекта может привести к катастрофическим последствиям, поскольку мы будем развертывать все более мощные, плохо контролируемые и непонятные нам системы. 13. Сверхинтеллект предоставит решающее военное и экономическое преимущество, превращая гонку за AGI в геополитическое соревнование с высокими ставками, в первую очередь между США и Китаем. 14. США и их союзники должны сохранять лидерство в этой гонке, чтобы обеспечить выживание либеральной демократии и создать необходимый запас прочности для решения проблем супералаймента. Согласно автору, если авторитарная держава (например, Китай) первой достигнет ASI, она сможет навязать свои недемократические ценности всем странам, навсегда подавить свободы и исключить возможность процветания демократических систем. Лидерство США/союзников рассматривается как необходимое условие для предотвращения такого исхода, сохранения условий для свободы и плюрализма, а также для получения "запаса прочности" для безопасного решения проблемы алаймента без давления гонки "на опережение". 15. Сочетание чрезвычайной мощи, катастрофических рисков (ошибки алаймента, злоупотребление системами) и критической важности для национальной безопасности означает, что частные стартапы в одиночку не могут ответственно управлять разработкой сверхинтеллекта. 16. Поэтому правительство США неизбежно будет глубоко вовлечено, что, вероятно, приведет к созданию национальной программы по AGI ("Проекта") для управления безопасностью, рисками и геополитическими ставками, по аналогии с Манхэттенским проектом.
24.04.202512:47
Я думал, что вот эти мемы с поиском локаций в o3 — это завлекаловка, но проверил в реальности и был поражён
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠 Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
(и попутно ещё сайт опубликовали, как и Situational Awareness, https://ai-2027.com/)
Затравка: в 2021-м году ещё до того, как попасть в OpenAI, Daniel Kokotajlo написал пост со своим видением того, как будет развиваться AI (pure-LLM чатботов тогда не было, масштабирования вычислений во время генерации ответа не было, а вот он про это написал). Затем он стал штатным прогнозистом OpenAI в вопросах развития технологии, и в прошлом году ушёл из компании. Оригинальный пост с предсказаниями заканчивался на 2026-м году, так как дальше Daniel не знал про что писать — с его точки зрения казалось, что следующий шаг это AGI.
Сайт выше, а вместе с ним и интервью погружают нас в развитие предсказаний, что произойдет в 2025-2027м и далее, с поправкой на прошедшие 4 года.
Самое интересное, конечно, начнётся, когда (если) значимая часть предсказаний, скажем, к концу первой половины 2026го сбудется, и можно будет смотреть на остаточную часть с вот такими глазами: 😳
Вы там можете голосовать, а бот будет писать на основе ваших голосов историю – получается что-то вроде коллективной книги, где люди направляют LLM, а LLM и пишет и предлагает варианты развития истории
Истории постятся в 10:00, 14:00 и 19:00 по Амстердаму, так что будет без спама постами
Без понятия куда это все приведет, давайте посмотрим
Первая история такая: >Игорь, 26 лет >Безработный >Любит ML >Ребенок маглов, к нему прилетела сова из Хогвартса
В конце 1990-х все инвесторы были уверены: интернет изменит мир! А значит – вкладываться нужно исключительно в акции интернет-компаний (это те, к названию которых в конце будет уместно добавить «.com»). В результате этого сетевого оптимизма инвесторов, ценовой индекс Nasdaq-100 (где особенно много тех-компаний) за три года с марта 1997 по март 2000 вырос почти на 500% (аж в шесть раз!).
Правда, потом выяснилось, что с пришествием рекордных прибылей дотком-фирм придется немного повременить (ну, лет эдак десять примерно) – и за следующие 3 года Насдак упал в пять раз, на 80%.
А теперь другая история: в середине 2020-х годов все инвесторы уверены: искусственный интеллект изменит мир! А значит – вкладываться нужно исключительно в акции AI-компаний (как известно – это такие фирмы, чьи логотипы хоть немного похожи на, извините, анус)…
Ну вы поняли, к чему я клоню, верно? Для многих инвесторов вопрос «а не находимся ли мы в середине ИИ-пузыря, сравнимого с пузырем доткомов 25-летней давности?» является весьма насущным. В конце концов, за два года 2023–2024 так называемая «Великолепная семерка» технологических акций США выросла примерно на 250%, и затащила на себе почти весь рост американского индекса.
Так вот, Роб Арнотт из Research Affiliates написал по этому поводу статью с говорящим названием The AI Boom vs. the Dot-Com Bubble: Have We Seen This Movie Before? И там есть любопытный график, который я прикрепил к этому посту – он посвящен сравнению динамики котировок акций Cisco и Nvidia.
Параллели между этими фирмами усмотреть несложно: в марте 2000-го Cisco на непродолжительное время стала самой дорогой по капитализации компанией в мире. Ведь они производили сетевое оборудование, на котором как раз должен работать этот ваш будущий всесильный интернет. Nvidia тоже не так давно успела побывать самой дорогой компанией, и ровно с тем же обоснованием: пока весь мир сходит с ума по AI золотой лихорадке – выгоднее всего быть продавцом чипов кирок и лопат.
Но есть и важное различие, которое показано на графике. Рост котировок Cisco на 500% во время пузыря доткомов почти целиком был вызван не фундаментальными факторами, а просто безудержным раздуванием оценки акций – пока на пике они не стали стоить безумные 150 годовых прибылей. А вот Nvidia выросла на 800%, но при этом большая часть этого роста с конца 2023-го была вызвана именно бурным ростом прибыли, а мультипликатор P/E стабилизировался на уровне примерно 50 – в три раза меньше, чем было у Cisco. (А сейчас, после «тарифных приколов» Трампа, P/E Нвидии так и вообще сжался до 35.)
То есть, текущий бум тех-компаний всё же выглядит пока гораздо более приближенным к фундаментальным факторам, чем та вакханалия, что происходила в 90-е. Конечно, оценки акций даже с учетом этой оговорки явно выглядят значительно выше исторических средних (да и риски того, что прибыльность той же Нвидии в ближайшие 5–10 лет будет снижаться по мере того, как будут прокачиваться конкуренты-чипмейкеры, не стоит сбрасывать со счетов). Но это явно еще не тот уровень пузырчатости «ужас-ужас-ужас», который наблюдался во время пузыря доткомов.
04.04.202510:54
Так вот, к чему этот опрос был. Как вы заметили, детальные разборы статей в последние полгода стали появляться сильно реже. Детальные — это с текстом на 3-5 постов. Писать их долго, на каждый уходит примерно по полтора-два часа: нужно прочитать источник внимательно, выписать важные части, которые нужно пересказать, потом придумать упрощение, перевести, возможно привести референсы и/или добавить связки с прошлыми исследованиями/постами итд. Времени стало поменьше -> разборов стало поменьше.
Для меня образцом были разборы, которые я читал давно, в начале карьеры, например, у @gonzo_ML или у Влада @dlinnlp (ха-ха он тоже забил что-либо писать, ВЛАД НУ КАК ТАК ТО???).
===
Я всё ещё пролистываю по 2-3 статьи в день, и составляю в голове примерно такие же краткие выжимки по 3-5 абзацев. Но я не вижу большой ценности в их публикации, так как презюмировал, что большая часть их всё равно не поймёт. Опрос это подтвердил: 46% ответили, что не поняли почти ничего, и ещё 30% — что "многие части непонятны".
А в более простых и нетехнических статьях/блогпостах всё равно без объяснений люди в большинстве случаев выносят неправильные выводы. Опускаться дальше и просто постить ссылки точно не хочется.
===
Но нужно с этим что-то делать, вернуться в темп хотя бы 1 разбора раз в 2 недели (а то и раз в неделю), а то совсем руки опустились. Попробуем мб со второй половины апреля (ещё и на англ и на сабстеке, да? 🤡)
30.03.202515:03
Прошло больше полугода с поста про Deadlock, наверняка есть новые интересующиеся — пост для вас.
Deadlock — следующая игры Valve (это которые Half-Life, Counter Strike, DotA 2, Team Fortress — то есть одни из лучших игр делали). Жанр игры — MOBA (как дота), но стрелялка. Можно думать как про смесь DotA 2 + Overwatch + Team Fortress 2.
Всё ещё действует система приглашений — прям как на заре DotA 2, помню, как пытался получить себе ключ от игры (их ещё продавали!). Для этого нужно добавиться в друзья в стим. Если вы хотите поиграть, и если вы часто что-то пишете в комментариях (то есть я знаю вас по аватарке и/или нику) — скидывайте ссылку на стим, я вас добавлю и отправлю приглашение. К сожалению, не могу пригласить всех, иначе придётся разорваться (в прошлый раз отправил ~50-60 приглашений).
Игра ОЧЕНЬ затягивающая, и кажется после двух неудачных попыток (Artifact и Dota Underlords) у Valve получилось сделать полноценный продукт с хорошими механиками и геймплеем. К сожалению, порог входа достаточно высок, первые игр 10 вы не будете понимать ничего, всё будет казаться сложным, и придётся довольствоваться счётом 1-12. Главное этот период пережить :)
Как и в прошлый раз, прикладываю нарезочку своих моментов 😎 (осторожно, присутствует МАТ). Практикуюсь играть на менте 👮♂️
30.03.202508:18
Sama жалуется, что спрос на продукт (опять) превышает их прогнозы + возможности по предоставлению — всё упирается в вычислительные мощности.
Если вдруг не сидите в твиттере, то передаю: со дня анонса все в ленте как с ума сошли и генерят всё подряд, от кликбейтных заставок для видео по рисунку от руки и до переделки своих аватарок под аниме.
Новая модель для генерации, кстати, доступна и бесплатным пользователям.
Один из главных вопросов-загадок, который летает у меня в голове последний месяц — это «как же вы блин будете GPT-5-то всем предоставлять, включая бесплатников?»
Может в ближайшие пару месяцев должно запуститься 3-4 новых датацентра с самыми свежими чипами последнего поколения, иначе я не знаю... 🤡
29.03.202508:50
Традиционно модели от Google отличаются длинным контекстом — они могут переварить до 1-2M токенов, в зависимости от конкретной модели (GPT-4o 128 тысяч, Claude 200 тысяч). По собственным бенчмаркам компании их длинный контекст якобы лучший в индустрии, правда где-то в трети/половине новых бенчмарков это не подтверждается (из совсем свежего, например, NoLiMa).
После выхода GPT-4.5 узнал о бенчмарке Fiction.LiveBench, где модель показала себя очень неплохо, авторы даже написали «GPT-4.5-preview is the best non-reasoning model». Я уж не стал вам в очередной раз рассказывать, что модель-то топ, вы и сами это знаете 😀
В чём суть бенчмарка? Сайт Fiction.Live посвящён длинным интерактивным текстовым историям, где по ходу написания читателям предлагается сделать выбор (какое действие сделать, что сказать, куда пойти, итд). Голосование закрывается, автор дописывает следующую часть итд. Разработчики уже давно внедрили AI-инструменты, которые помогают писателям экономить время, создавая краткие выжимки, хронологии, характеристики персонажей, потенциальные идеи развития.
Чтобы выполнять эти задачи эффективно, LLM должны действительно понимать длинную, порой запутанную историю, каждого персонажа и их мотивы на глубоком уровне. Однако на практике современные модели часто теряют ход сюжета, не могут понять мотивы персонажей и производят хлам, который полностью не соответствует намерениям автора — всё как раз таки из-за размеров историй: они очень объёмны, а модели недостаточно внимательны.
Ситуация выглядит прямо идеальной для того, чтобы взять и сделать бенчмарк. На основе выборки из дюжины очень длинных и сложных историй и уже готовых и проверенных тестов разработчики собрали тесты, основанные на сокращенных версиях этих историй. Для каждого теста они начинают с сокращенной версии, которая содержит только релевантную вопросу информацию. Это называется «0-token» (см. на картинке). Затем к этому тексту добавляется всё больше и больше истории, и релевантная информация является только частью более длинного повествования.
Моделям перед ответом на вопрос дают время порассуждать, и reasoning-модели тут существенно отрываются от обычных (сравните метрики между DSv3 и R1, или Claude 3.6 vs 3.7). А o1 чуть-чуть лучше Claude 3.7, начиная с 32 тысяч токенов контекста, и обе модели существенно лучше китайских.
Ну и вооот, Gemini-2.5 Pro стала новым топ-1, показав невероятные 90% правильных ответов при 120 тысячах нерелевантных токенов истории. До этого лучшей моделью на самом длинном контексте была GPT-4.5, набравшая 63.9%. Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке, 37%->90%). Внимание, вопрос: как скакнёт GPT-4.5 (64%) при добавлении рассуждений (aka GPT-5)? 🤔
Ko'proq funksiyalarni ochish uchun tizimga kiring.
Ko‘rish tajribangizni yaxshilash uchun cookie-fayllardan foydalanamiz. 'Hammasini qabul qilish' tugmasini bosish orqali siz cookie-fayllardan foydalanishga rozilik bildirasiz.