Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Адель и МЛь avatar

Адель и МЛь

Об ИИ и жизни в Нидерландах @AdelZakirov
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置
语言其他
频道创建日期Sep 20, 2023
添加到 TGlist 的日期
Jan 20, 2025
关联群组

记录

28.04.202521:19
2K订阅者
16.04.202523:59
100引用指数
14.02.202501:21
52.7K每帖平均覆盖率
06.04.202511:39
34.3K广告帖子的平均覆盖率
25.01.202523:59
35.32%ER
07.02.202501:22
4873.29%ERR
订阅者
引用指数
每篇帖子的浏览量
每个广告帖子的浏览量
ER
ERR
NOV '24DEC '24JAN '25FEB '25MAR '25APR '25

Адель и МЛь 热门帖子

История с собачей площадки

Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.

Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.

Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.

Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.

Вот такие вот у нас беседы на собачих площадках в Сан Франциско.

Источник: Sutter Health и Ferrum Health.
24.04.202512:59
20.04.202518:39
Еще одно применение о3 и о4-mini от моей жены.

Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.

Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.

В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.

Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.

Ну и я трачу все лимиты, прям не хватает 🫠

Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.

Пока что эти модели - лучший экспириенс за долгое время.
19.04.202508:20
Vending‑Bench — стресс‑тест «долгого горизонта» LLM

Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).

Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.

o3 и o4‑mini пока не тестили.

Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.

Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.

Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
Релиз firebase.studio от Google

По описанию похоже на микс cursor и lovable.

Пробуем и ждем отзывов.

Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.
31.03.202510:22
Отвлечемся немного от AI и поговорим о проблемах первого мира.
#storytime

Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)

Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.

Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!

Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.

Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.

Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.

А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
10.04.202521:27
Кто там толкал роботов палкой? Что с лицом?

Unitree проведет прямую трансляцию боёв роботов примерно через месяц.


P.s. Осторожно звук
04.04.202518:21
Cтартап, советы, немного ML — и сделка, к которой я оказался причастен
#storytime

Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.

Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.

Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.

Второй остался и построил уже четыре компании под брендом frontiergroup.ai.

Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.

Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.

Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.

Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
Открытая модель от OpenAI.

На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.

Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.

Ждем подробностей!
07.04.202517:16
Кажется, Llama 4 не проходит vibe check.

Для этого несколько причин.

Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.

Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.

В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.

В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.

Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.

Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.

P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
14.04.202517:46
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷‍♂️

GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.

https://openai.com/index/gpt-4-1/
17.04.202508:26
В общем, o3 и o4 mini — классные модели.

Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.

В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:

о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.

Сегодня буду тестить на рабочих задачах.

P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
Через три часа нам представят полную о3 модель
05.04.202519:17
Llama 4 🦙

Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Коротко:

1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1


2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия

3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning

🎉
登录以解锁更多功能。