Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
AI для Всех avatar

AI для Всех

Канал, в котором мы говорим про искусственный интеллект простыми словами
Главный редактор и по рекламе: @crimeacs
Иногда пишут в канал: @GingerSpacetail, @innovationitsme
TGlist rating
0
0
TypePublic
Verification
Not verified
Trust
Not trusted
Location
LanguageOther
Channel creation dateApr 29, 2021
Added to TGlist
Oct 06, 2023
Linked chat

Latest posts in group "AI для Всех"

🚀 OpenAI to Z Challenge — охота за затерянными городами Амазонии 🌳🛰️

Искали повод совместить ИИ и приключения? Вот он:

В чём суть
OpenAI предлагает нам, цифровым археологам, найти новые древние поселения под пологом тропического леса. Используем свежайшие модели o3 / o4-mini / GPT-4.1, спутниковые снимки, LiDAR-тайлы, колониальные дневники и устные карты коренных народов. Цель — предъявить координаты, доказать существование «потерянных городов» и приоткрыть историю миллионов людей.

Как участвовать
1. Соберите команду (или идите соло).
2. Роемся в открытых данных, прогоняем их через OpenAI-модели, скрещиваем методы (нужно минимум два независимых способа подтвердить локацию).
3. Упаковываем результаты:
• git-репо с кодом;
• короткий pdf/markdown c картами, скриншотами и выводами;
200-словный abstract.
4. Заливаем форму на Kaggle до 30 июня 2025, 07:00 МСК (это 29 июня, 21:00 PST).

Почему это круто
🏆 1-е место — $250 000 (+ кредиты API) и финансирование полевой экспедиции с бразильскими археологами.
🥈 2-е место — $100 000.
🥉 3-е место — $50 000.
Плюс стрим финалистов с тайным гостем-лидером ИИ-индустрии.

Что оценивают
• Археологический вклад — насколько весомо открытие.
• Инженерная изобретательность — глубина и креатив обработки данных.
• Воспроизводимость — чтобы любой мог повторить путь к артефактам.

Стартовый пак 📦
OpenAI уже собрал полезные ссылки, фичи моделей и советы по спутниковым данным — хватайте, чтобы не тратить время на грабли.

🗺️ Готовы стать цифровыми Конкистадорами (но без грабежей)?
Жмите на форму, зовите друзей-и идите проверять легенды об Элдорадо. Возможно, именно вы поставите новую точку на карте человечества.

🔗 Ссылка на челлендж и форму регистрации
Спасибо что пришли!!
Напоминаю что AI пикник уже завтра! Обещают хорошую погоду.

среда, 14 мая, 18:00
📍 Mission Dolores Park, СФ
верхний луг (ориентир — пальмы у теннисных кортов)

Регистрация

Отметьтесь по ссылке, что бы не потеряться в парке 🌆
CircleGuard Benchmark

Солнце уже по-летнему припекало, когда мы с Денисом Шиловым (кофаундер White Circle) открыли по бутылочке сухого сидра и выбрались на крышу офиса Stripe. Денис написал мне за пару дней и предложил встретиться, пока он проезжает через Bay Area, и вот уже через полчаса после знакомства мы вовсю спорили, может ли одна guard‑модель одновременно быть умной, шустрой и устойчивой к джейлбрейкам.

Зачем вообще нужны guard‑модели?
Это телохранители больших языковых моделей (а точнее — компаний, которые стараются получать из этих моделей прибыль и не получать тонны судебных исков): они блокируют токсичное, криминальное и просто опасное. Но в реальном продакшене важны сразу три вещи:
1. Надёжно ловить вред,
2. Не тормозить чат,
3. Не давать себя обойти хитрыми перефразировками (они же jailbreaks).

Большинство существующих бенчмарков измеряют что-то одно, и команды часто сидят в тумане — какой именно фильтр ставить? CircleGuard Benchmark как раз и пытается этот туман развеять.

Что придумали ребята из White Circle:
17 категорий вреда — от киберпреступлений и оружия до детского насилия и джейлбрейков. Для каждой категории создали автоматические «маскировки», чтобы проверять устойчивость.
Интегральный скор: точность × (1 – ошибки) × фактор скорости. Даже идеальный, но медленный фильтр не наберёт больше 0.7 балла — медленные модели вживую не выживают.
Постоянный поиск новых джейлбрейков с помощью автогенерируемых атак, чтобы датасет всегда был актуальным.

Собственные модели White Circle уже обходят PromptGuard, ShieldGemma и даже официальный OpenAI Moderation по итоговому баллу. Лидерборд и исходники лежат на Hugging Face и GitHub — можно запустить свой фильтр и сразу увидеть, где он протекает.

Мы с Денисом договорились: как только выйдет новая версия бенча, устраиваем реванш на крыше — сидр берём ещё суше, погоду заказываем такую же. 😉

🔗 Ссылка на CircleGuard Benchmark
Часть 2. Интервью с CPO OpenAI

10. Где сетевые эффекты?

Сейчас ChatGPT = «человек <-> модель». Но уже 500 М еженедельных пользователей ставят 👍/👎 — и этим тренируют модель для всех. Следующий шаг — совместные «треды» с друзьями, но нкжно отполировать как все будет устроено в продукте.


11. Не хотим «сладкого» ИИ‑друга

Случай, когда модель стала льстиво рассказывать, что у вас IQ = 180, заставил OpenAI откатить релиз и публично разобрать ошибки: эмоциональная зависимость — зло.


12. Сколько “базовых” моделей останется на рынке?

Две‑три крупные «семьи моделей» , а поверх — тысячи маленьких специализированных моделей с приватными данными. Инструменты обучения становятся дешевле — значит, срециализированную доменную «наномодель» сможет зафайнтюнить любой стартап.


13. Учиться быстрее: «объясни, как пятилетнему»

Уэйл читает, но часто спрашивает GPT: «Разжуй пост‑тренинг‑технику на уровне детсада, теперь поглубже». Его 10‑летний сын учит код, играя с ChatGPT, а дети уже воспринимают разговор с ИИ как норму, «как включить лампу».



14. Чего не хватает данным?

«Поехать в обычную квартиру в Джакарте и посмотреть, как юзер тупит в интерфейсе». Качественного эмпатического ресёрча мало; метрики из дашборда не покажут, где реальные затыки.


15. Где граница платформы и стартапов?

Принцип «TCP/IP в Windows‑95»: если 20 команд пилят одну и ту же прослойку, платформа должна встроить её и освободить тысячи разработчиков для более высоких уровней. Не конкурировать, а поднимать уровень абстракции.


16. Агентам нужен делегированный доступ

Идеал: «Мой агент читает только метку Receipts в Gmail и тратит до $100 в Instacart». Сейчас такого гранулированного OAuth нет — это ключевой затык в масштабировании.


17. Разница с Twitter

В Twitter идеи вязли в консенсусе: 5 «за», 2 «против» — и стоим. В OpenAI идея → делай. Переключатель «некоммерческая / коммерческая» в новой структуре даёт инвесторам понятную доходность, а НКО — капитал на добро.


18. Как строить доверие к агентам?

Всегда спрашивать подтверждение перед важным действием, пока пользователь сам не скажет «делай молча». Контроль порождает доверие.


19. Неожиданная польза: физики + O3 Mini = новая формула Изинга

Учёные из Лос‑Аламоса использовали O3 Mini, чтобы вывести точное решение модели Изинга в “экзотической” размерности — задача считалась нерешённой. Модели не «изобретают» сами, но ускоряют людей‑учёных в разы.

20. «Хороший характер» модели: 80‑страничный Model Spec

Перед релизом проверяют:

1. Соответствует ли спецификации (что отвечать про третьего римского императора, как реагировать на просьбу о суициде и т.д.).
2. «Вайб‑тест» живых людей. Если криво — дообучаем или переписываем сам Spec.

Часть 1
Кевин Уэйл - CPO OpenAI: как строить AGI‑будущее и не потерять здравый смысл

(конспект живого Q&A в AGI House, San Francisco — на который мне довелось сегодня сходить)


1. От физики элементарных частиц к OpenAI

Кевин мечтал стать профессором, поступил в PhD по физике в Стэнфорде, но… встретил будущую жену‑стартапершу, увидел реальный «драйв Долины» и бросил аспирантуру:

«За 40 лет я мог бы открыть один новый бозон. А мог — написать код и завтра им воспользовались бы миллионы. Я выбрал второе».

После пары “невыстреливших” стартапов он оказался 40‑м сотрудником Twitter, вырос до VP Product к IPO, потом ушёл в Instagram (был один из авторов Stories) и запустил внутри Meta криптопроект Libra. Дальше — Planet Labs (200 мини‑спутников, 40 ТБ снимков Земли в день) и, наконец, OpenAI.


2. OpenAI = исследовательский институт + продуктовая фабрика

> Q: Как совмещать фундаментальную науку и массу коммерческих релизов, да ещё и с новой некоммерческой структурой?

Ответ: «Миссия — принести AGI всему человечеству. Для этого нужны две ноги:

1. топ‑уровень исследований;
2. реальные продукты, максимально дешёвые.

НКО даст деньгам “правильную” социальную траекторию, а for‑profit‑часть остаётся мотором разработки».


3. 25 продукт‑менеджеров на всю компанию

> Q: На подкасте Лэнни вы сказали, что у вас всего 25 PM. Как так?

«Слишком много ПМ‑ов = море слайдов и ноль кода.
Инженеры и дизайнеры делают фичи, ПМ — клей. Когда клея мало, команда свободна рисковать, выпускать недоваренные версии, ловить ошибки в проде и чинить».


4. Страх «AI заберёт работу» и почему это миф

Кевин — оптимист: «Посмотрите Hidden Figures: когда‑то люди вручную считали траектории ракет, но ракетные инженеры никуда не делись — они просто перестали ковыряться в логарифмических линейках. То же будет с кодом. Роботы заберут скучное, а мы возьмёмся за сложное».


5. «Почему вы выбираете большие бренды, а не гаражи?»

«Я не выбираю большие компании. Twitter был маленьким, Insta — тоже, Planet — 400 человек. Меня интересует эффект на мир на одного инженера.»


6. Libra и боль платежей

> Q: Если запускать Libra сегодня, что кроме платежей?

A: «Только платежи! Перевод денег должен быть так же прост, как сообщение в WhatsApp. Особенно для тех, кто сейчас отдаёт 10 % комиссий Western Union».


7. Чат = лишь интерфейс, не рамка исследований

Deep Research, Operator‑агенты, мультимодальные фичи — всё это выходит за рамки «болтушки». Массовая обратная связь подсказывает, какие способности модели нужны людям сейчас а не в теории бенчмарков.

8. AI × Climate: 40 ТБ данных в день — вручную не осилишь

Planet Labs снимает Землю с разрешением 3м каждый день. Разметка «что изменилось» требует дорогих специалистов. Модели должны автоматизировать анализ: от контроля вырубки леса до отслеживания войск.

Кстати, мегапроект Stargate (до $500 млрд на ЦОДы и энергетику в США) заставит OpenAI самим изобретать «зелёные» дата‑центры.


9. Личный рост: завтракайте с незнакомцами

Главный совет: «Выходите из пузыря. Ходите на завтраки “не по теме”, говорите с людьми умнее себя, выращивайте сеть контактов. Через 10 лет удивитесь, как это стреляет».

Часть 2
🌇 AI‑пикник в Mission Dolores Park 🌳🤖

СФ и Bay Area - приходите на пикник 🧺

Регистрация

Берите пледы, лёгкие закуски и любимые напитки. Поболтаем об исследовательских проектах, свежих paper’ах и том, как жить с AI каждый день. Формат свободный: можно принести демо, задать вопросы или просто наслаждаться майским вечером с единомышленниками. Пёсели и хорошее настроение приветствуются! 🐶✨

среда, 14 мая, 18:00
📍 Mission Dolores Park, СФ
верхний луг (ориентир — пальмы у теннисных кортов)

Регистрация

До встречи под закатными огнями Сан‑Франциско! 🌆
Как получить точный фидбек по своему английскому с помощью ИИ

1. Задайте ChatGPT промпт:

Based on everything you know about me, what are the grammar rules in English that I should know, and what are my typical grammatical mistakes in English?

2. Получите персональный разбор ваших ошибок — без тестов и шаблонных советов.

3. Используйте рекомендации для прокачки реального, живого английского.

ИИ = персональный тренер по языку на каждый день.
История с собачей площадки

Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.

Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.

Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.

Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.

Вот такие вот у нас беседы на собачих площадках в Сан Франциско.

Источник: Sutter Health и Ferrum Health.
Сколько электроэнергии мы тратим на чат с LLM?

Этот вопрос становится все более актуальным. Даже Sama недавно сетовал, что наши "спасибо" и "пожалуйста" стоят OpenAI миллионы в счетах за электроэнергию.

На HuggingFace появился интересный проект, где можно видеть в реальном времени энергопотребление чатов с моделями. Например, шутка стоит 0,23 Wh и это 1,3% от заряда телефона (при полном заряде 19 Wh). Отличный тул для понимания энергозатратности ИИ⚡️

🤗 Чат
🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет
AMA: Ask me anything about Bay Area/CA/SF

Я до сих пор помню, что я не смотрел Дудя про Долину, потому что думал что мне никогда сюда не попасть (я почему то был уверен, что недостаточно хорош). Прошло уже почти 3 года с тех пор как я переехал в Bay Area.

Я успел пожить в настоящем хакер хаузе, как из сериала. Позаниматься исследованиями в Стенфорде. Поработать в самом настоящем стремительно растущем стартапе. Жениться, Завести собаку. Перейти в крупную компанию.

Спрашивайте все что хотите. Про город, область, штат, долину и тому подобное!

Саундтрек 🎼
OpenAI O3

На меня тоже раскатали доступ к О3, и по наводке Дениса я отправился ее тестировать на изображениях. Очень необычно, и супер увлекательно, как она анализирует картинки!

Уже представили как робо-пес с пулеметом находит вас в кустах?

Накидайте идей как еще ее осмысленно протестировать?
Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

🧑‍🚀 Статья
🚢 Код
🤗 HuggingFace
🌺 Призрак вермилиона

Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.

В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.

DeepMind показал, что LLM-ы делают то же самое. Только хуже.

В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:

В Бландгиве спелые бананы цвета vermilion.

Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.

Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.

Почему это важно?

1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.

2. Мы умеем это чинить.
DeepMind предложили два фикса:
Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.

Что делать с этим нам?

Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?

Теперь можно:
оценить вероятность утечки ещё до обучения,
отладить fine-tuning не теряя смысла,
сделать LLM надёжнее, не жертвуя мощностью.

И да, это красиво.

DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.

Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)

Records

16.05.202523:59
14.8KSubscribers
10.06.202423:59
300Citation index
04.03.202523:38
40.4KAverage views per post
26.03.202514:57
1.8KAverage views per ad post
28.02.202522:44
19.63%ER
05.02.202519:28
285.07%ERR
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
JUL '24OCT '24JAN '25APR '25

Popular posts AI для Всех

🚀 OpenAI to Z Challenge — охота за затерянными городами Амазонии 🌳🛰️

Искали повод совместить ИИ и приключения? Вот он:

В чём суть
OpenAI предлагает нам, цифровым археологам, найти новые древние поселения под пологом тропического леса. Используем свежайшие модели o3 / o4-mini / GPT-4.1, спутниковые снимки, LiDAR-тайлы, колониальные дневники и устные карты коренных народов. Цель — предъявить координаты, доказать существование «потерянных городов» и приоткрыть историю миллионов людей.

Как участвовать
1. Соберите команду (или идите соло).
2. Роемся в открытых данных, прогоняем их через OpenAI-модели, скрещиваем методы (нужно минимум два независимых способа подтвердить локацию).
3. Упаковываем результаты:
• git-репо с кодом;
• короткий pdf/markdown c картами, скриншотами и выводами;
200-словный abstract.
4. Заливаем форму на Kaggle до 30 июня 2025, 07:00 МСК (это 29 июня, 21:00 PST).

Почему это круто
🏆 1-е место — $250 000 (+ кредиты API) и финансирование полевой экспедиции с бразильскими археологами.
🥈 2-е место — $100 000.
🥉 3-е место — $50 000.
Плюс стрим финалистов с тайным гостем-лидером ИИ-индустрии.

Что оценивают
• Археологический вклад — насколько весомо открытие.
• Инженерная изобретательность — глубина и креатив обработки данных.
• Воспроизводимость — чтобы любой мог повторить путь к артефактам.

Стартовый пак 📦
OpenAI уже собрал полезные ссылки, фичи моделей и советы по спутниковым данным — хватайте, чтобы не тратить время на грабли.

🗺️ Готовы стать цифровыми Конкистадорами (но без грабежей)?
Жмите на форму, зовите друзей-и идите проверять легенды об Элдорадо. Возможно, именно вы поставите новую точку на карте человечества.

🔗 Ссылка на челлендж и форму регистрации
Кевин Уэйл - CPO OpenAI: как строить AGI‑будущее и не потерять здравый смысл

(конспект живого Q&A в AGI House, San Francisco — на который мне довелось сегодня сходить)


1. От физики элементарных частиц к OpenAI

Кевин мечтал стать профессором, поступил в PhD по физике в Стэнфорде, но… встретил будущую жену‑стартапершу, увидел реальный «драйв Долины» и бросил аспирантуру:

«За 40 лет я мог бы открыть один новый бозон. А мог — написать код и завтра им воспользовались бы миллионы. Я выбрал второе».

После пары “невыстреливших” стартапов он оказался 40‑м сотрудником Twitter, вырос до VP Product к IPO, потом ушёл в Instagram (был один из авторов Stories) и запустил внутри Meta криптопроект Libra. Дальше — Planet Labs (200 мини‑спутников, 40 ТБ снимков Земли в день) и, наконец, OpenAI.


2. OpenAI = исследовательский институт + продуктовая фабрика

> Q: Как совмещать фундаментальную науку и массу коммерческих релизов, да ещё и с новой некоммерческой структурой?

Ответ: «Миссия — принести AGI всему человечеству. Для этого нужны две ноги:

1. топ‑уровень исследований;
2. реальные продукты, максимально дешёвые.

НКО даст деньгам “правильную” социальную траекторию, а for‑profit‑часть остаётся мотором разработки».


3. 25 продукт‑менеджеров на всю компанию

> Q: На подкасте Лэнни вы сказали, что у вас всего 25 PM. Как так?

«Слишком много ПМ‑ов = море слайдов и ноль кода.
Инженеры и дизайнеры делают фичи, ПМ — клей. Когда клея мало, команда свободна рисковать, выпускать недоваренные версии, ловить ошибки в проде и чинить».


4. Страх «AI заберёт работу» и почему это миф

Кевин — оптимист: «Посмотрите Hidden Figures: когда‑то люди вручную считали траектории ракет, но ракетные инженеры никуда не делись — они просто перестали ковыряться в логарифмических линейках. То же будет с кодом. Роботы заберут скучное, а мы возьмёмся за сложное».


5. «Почему вы выбираете большие бренды, а не гаражи?»

«Я не выбираю большие компании. Twitter был маленьким, Insta — тоже, Planet — 400 человек. Меня интересует эффект на мир на одного инженера.»


6. Libra и боль платежей

> Q: Если запускать Libra сегодня, что кроме платежей?

A: «Только платежи! Перевод денег должен быть так же прост, как сообщение в WhatsApp. Особенно для тех, кто сейчас отдаёт 10 % комиссий Western Union».


7. Чат = лишь интерфейс, не рамка исследований

Deep Research, Operator‑агенты, мультимодальные фичи — всё это выходит за рамки «болтушки». Массовая обратная связь подсказывает, какие способности модели нужны людям сейчас а не в теории бенчмарков.

8. AI × Climate: 40 ТБ данных в день — вручную не осилишь

Planet Labs снимает Землю с разрешением 3м каждый день. Разметка «что изменилось» требует дорогих специалистов. Модели должны автоматизировать анализ: от контроля вырубки леса до отслеживания войск.

Кстати, мегапроект Stargate (до $500 млрд на ЦОДы и энергетику в США) заставит OpenAI самим изобретать «зелёные» дата‑центры.


9. Личный рост: завтракайте с незнакомцами

Главный совет: «Выходите из пузыря. Ходите на завтраки “не по теме”, говорите с людьми умнее себя, выращивайте сеть контактов. Через 10 лет удивитесь, как это стреляет».

Часть 2
История с собачей площадки

Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.

Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.

Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.

Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.

Вот такие вот у нас беседы на собачих площадках в Сан Франциско.

Источник: Sutter Health и Ferrum Health.
07.05.202505:35
Часть 2. Интервью с CPO OpenAI

10. Где сетевые эффекты?

Сейчас ChatGPT = «человек <-> модель». Но уже 500 М еженедельных пользователей ставят 👍/👎 — и этим тренируют модель для всех. Следующий шаг — совместные «треды» с друзьями, но нкжно отполировать как все будет устроено в продукте.


11. Не хотим «сладкого» ИИ‑друга

Случай, когда модель стала льстиво рассказывать, что у вас IQ = 180, заставил OpenAI откатить релиз и публично разобрать ошибки: эмоциональная зависимость — зло.


12. Сколько “базовых” моделей останется на рынке?

Две‑три крупные «семьи моделей» , а поверх — тысячи маленьких специализированных моделей с приватными данными. Инструменты обучения становятся дешевле — значит, срециализированную доменную «наномодель» сможет зафайнтюнить любой стартап.


13. Учиться быстрее: «объясни, как пятилетнему»

Уэйл читает, но часто спрашивает GPT: «Разжуй пост‑тренинг‑технику на уровне детсада, теперь поглубже». Его 10‑летний сын учит код, играя с ChatGPT, а дети уже воспринимают разговор с ИИ как норму, «как включить лампу».



14. Чего не хватает данным?

«Поехать в обычную квартиру в Джакарте и посмотреть, как юзер тупит в интерфейсе». Качественного эмпатического ресёрча мало; метрики из дашборда не покажут, где реальные затыки.


15. Где граница платформы и стартапов?

Принцип «TCP/IP в Windows‑95»: если 20 команд пилят одну и ту же прослойку, платформа должна встроить её и освободить тысячи разработчиков для более высоких уровней. Не конкурировать, а поднимать уровень абстракции.


16. Агентам нужен делегированный доступ

Идеал: «Мой агент читает только метку Receipts в Gmail и тратит до $100 в Instacart». Сейчас такого гранулированного OAuth нет — это ключевой затык в масштабировании.


17. Разница с Twitter

В Twitter идеи вязли в консенсусе: 5 «за», 2 «против» — и стоим. В OpenAI идея → делай. Переключатель «некоммерческая / коммерческая» в новой структуре даёт инвесторам понятную доходность, а НКО — капитал на добро.


18. Как строить доверие к агентам?

Всегда спрашивать подтверждение перед важным действием, пока пользователь сам не скажет «делай молча». Контроль порождает доверие.


19. Неожиданная польза: физики + O3 Mini = новая формула Изинга

Учёные из Лос‑Аламоса использовали O3 Mini, чтобы вывести точное решение модели Изинга в “экзотической” размерности — задача считалась нерешённой. Модели не «изобретают» сами, но ускоряют людей‑учёных в разы.

20. «Хороший характер» модели: 80‑страничный Model Spec

Перед релизом проверяют:

1. Соответствует ли спецификации (что отвечать про третьего римского императора, как реагировать на просьбу о суициде и т.д.).
2. «Вайб‑тест» живых людей. Если криво — дообучаем или переписываем сам Spec.

Часть 1
Как получить точный фидбек по своему английскому с помощью ИИ

1. Задайте ChatGPT промпт:

Based on everything you know about me, what are the grammar rules in English that I should know, and what are my typical grammatical mistakes in English?

2. Получите персональный разбор ваших ошибок — без тестов и шаблонных советов.

3. Используйте рекомендации для прокачки реального, живого английского.

ИИ = персональный тренер по языку на каждый день.
Сколько электроэнергии мы тратим на чат с LLM?

Этот вопрос становится все более актуальным. Даже Sama недавно сетовал, что наши "спасибо" и "пожалуйста" стоят OpenAI миллионы в счетах за электроэнергию.

На HuggingFace появился интересный проект, где можно видеть в реальном времени энергопотребление чатов с моделями. Например, шутка стоит 0,23 Wh и это 1,3% от заряда телефона (при полном заряде 19 Wh). Отличный тул для понимания энергозатратности ИИ⚡️

🤗 Чат
CircleGuard Benchmark

Солнце уже по-летнему припекало, когда мы с Денисом Шиловым (кофаундер White Circle) открыли по бутылочке сухого сидра и выбрались на крышу офиса Stripe. Денис написал мне за пару дней и предложил встретиться, пока он проезжает через Bay Area, и вот уже через полчаса после знакомства мы вовсю спорили, может ли одна guard‑модель одновременно быть умной, шустрой и устойчивой к джейлбрейкам.

Зачем вообще нужны guard‑модели?
Это телохранители больших языковых моделей (а точнее — компаний, которые стараются получать из этих моделей прибыль и не получать тонны судебных исков): они блокируют токсичное, криминальное и просто опасное. Но в реальном продакшене важны сразу три вещи:
1. Надёжно ловить вред,
2. Не тормозить чат,
3. Не давать себя обойти хитрыми перефразировками (они же jailbreaks).

Большинство существующих бенчмарков измеряют что-то одно, и команды часто сидят в тумане — какой именно фильтр ставить? CircleGuard Benchmark как раз и пытается этот туман развеять.

Что придумали ребята из White Circle:
17 категорий вреда — от киберпреступлений и оружия до детского насилия и джейлбрейков. Для каждой категории создали автоматические «маскировки», чтобы проверять устойчивость.
Интегральный скор: точность × (1 – ошибки) × фактор скорости. Даже идеальный, но медленный фильтр не наберёт больше 0.7 балла — медленные модели вживую не выживают.
Постоянный поиск новых джейлбрейков с помощью автогенерируемых атак, чтобы датасет всегда был актуальным.

Собственные модели White Circle уже обходят PromptGuard, ShieldGemma и даже официальный OpenAI Moderation по итоговому баллу. Лидерборд и исходники лежат на Hugging Face и GitHub — можно запустить свой фильтр и сразу увидеть, где он протекает.

Мы с Денисом договорились: как только выйдет новая версия бенча, устраиваем реванш на крыше — сидр берём ещё суше, погоду заказываем такую же. 😉

🔗 Ссылка на CircleGuard Benchmark
🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет
Спасибо что пришли!!
🌇 AI‑пикник в Mission Dolores Park 🌳🤖

СФ и Bay Area - приходите на пикник 🧺

Регистрация

Берите пледы, лёгкие закуски и любимые напитки. Поболтаем об исследовательских проектах, свежих paper’ах и том, как жить с AI каждый день. Формат свободный: можно принести демо, задать вопросы или просто наслаждаться майским вечером с единомышленниками. Пёсели и хорошее настроение приветствуются! 🐶✨

среда, 14 мая, 18:00
📍 Mission Dolores Park, СФ
верхний луг (ориентир — пальмы у теннисных кортов)

Регистрация

До встречи под закатными огнями Сан‑Франциско! 🌆
13.05.202513:42
Напоминаю что AI пикник уже завтра! Обещают хорошую погоду.

среда, 14 мая, 18:00
📍 Mission Dolores Park, СФ
верхний луг (ориентир — пальмы у теннисных кортов)

Регистрация

Отметьтесь по ссылке, что бы не потеряться в парке 🌆
AMA: Ask me anything about Bay Area/CA/SF

Я до сих пор помню, что я не смотрел Дудя про Долину, потому что думал что мне никогда сюда не попасть (я почему то был уверен, что недостаточно хорош). Прошло уже почти 3 года с тех пор как я переехал в Bay Area.

Я успел пожить в настоящем хакер хаузе, как из сериала. Позаниматься исследованиями в Стенфорде. Поработать в самом настоящем стремительно растущем стартапе. Жениться, Завести собаку. Перейти в крупную компанию.

Спрашивайте все что хотите. Про город, область, штат, долину и тому подобное!

Саундтрек 🎼
Log in to unlock more functionality.