24.04.202512:59


16.04.202514:05
Через три часа нам представят полную о3 модель
07.04.202517:16
Кажется, Llama 4 не проходит vibe check.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
31.03.202510:22
Отвлечемся немного от AI и поговорим о проблемах первого мира.
#storytime
Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)
Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.
Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!
Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.
Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.
Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.
А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
#storytime
Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)
Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.
Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!
Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.
Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.
Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.
А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
25.03.202511:32
На сколько AI помогает в работе?
Если вы еще сомневаетесь, что с AI работать лучше, чем без - вот там свежее исследование на эту тему.
776 человек из P&G получили GPT-4(о) в качестве напарника, исследовалось его влияние на командную работу и профессиональную экспертизу. Авторы выявили значительное влияние на качество идей, скорость работы и эмоциональный опыт в реальных условиях разработки продуктов.
- Команды без AI показали результаты лучше отдельных сотрудников на 0.24 standard deviation (SD)
- Отдельные сотрудники с AI достигли уровня командной работы, улучшив свои показатели на 0.37 SD.
- Лучшие результаты продемонстрировали команды с AI (+0.39 SD), особенно выделяясь качеством решений в топ-10%
- Пользователи AI работали на 12–16% быстрее и создавали более детализированные решения.
- Без AI специалисты работали изолированно (R&D фокусировались на технических аспектах, а Commercial — на маркетинге). Команды без AI смогли сбалансировать эти перспективы за счет сотрудничества людей.
- С AI как отдельные сотрудники, так и команды создавали сбалансированные, кросс-функциональные решения.
- AI стирал границы между областями знаний, помогая менее опытным сотрудникам работать на уровне опытных экспертов.
- Использование AI повысило позитивные эмоции (азарт, энергию, энтузиазм).
- AI снизил негативные эмоции (тревожность, разочарование) по сравнению с группами без AI.
- Отдельные сотрудники с AI чувствовали себя эмоционально так же или лучше, чем сотрудники в полностью человеческих командах.
- Представленные результаты могут быть нижней границей, так как модели и prompt engineering продолжают совершенствоваться.
Подробнее в посте одного из авторов и в статье.
Если вы еще сомневаетесь, что с AI работать лучше, чем без - вот там свежее исследование на эту тему.
776 человек из P&G получили GPT-4(о) в качестве напарника, исследовалось его влияние на командную работу и профессиональную экспертизу. Авторы выявили значительное влияние на качество идей, скорость работы и эмоциональный опыт в реальных условиях разработки продуктов.
- Команды без AI показали результаты лучше отдельных сотрудников на 0.24 standard deviation (SD)
- Отдельные сотрудники с AI достигли уровня командной работы, улучшив свои показатели на 0.37 SD.
- Лучшие результаты продемонстрировали команды с AI (+0.39 SD), особенно выделяясь качеством решений в топ-10%
- Пользователи AI работали на 12–16% быстрее и создавали более детализированные решения.
- Без AI специалисты работали изолированно (R&D фокусировались на технических аспектах, а Commercial — на маркетинге). Команды без AI смогли сбалансировать эти перспективы за счет сотрудничества людей.
- С AI как отдельные сотрудники, так и команды создавали сбалансированные, кросс-функциональные решения.
- AI стирал границы между областями знаний, помогая менее опытным сотрудникам работать на уровне опытных экспертов.
- Использование AI повысило позитивные эмоции (азарт, энергию, энтузиазм).
- AI снизил негативные эмоции (тревожность, разочарование) по сравнению с группами без AI.
- Отдельные сотрудники с AI чувствовали себя эмоционально так же или лучше, чем сотрудники в полностью человеческих командах.
- Представленные результаты могут быть нижней границей, так как модели и prompt engineering продолжают совершенствоваться.
Подробнее в посте одного из авторов и в статье.


19.03.202500:27
Руку жмет крепко, здоровье хорошее.🤖
20.04.202518:39
Еще одно применение о3 и о4-mini от моей жены.
Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
14.04.202517:46
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷♂️
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
https://openai.com/index/gpt-4-1/
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
https://openai.com/index/gpt-4-1/
05.04.202519:17
Llama 4 🦙
Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Коротко:
1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия
3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning
🎉
Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Коротко:
1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия
3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning
🎉
27.03.202510:04
Властелин колец в стиле Ghibli.
С релизом image gen gpt-4o весь интернет заполнен переделками картинок в стиле анимации студии Ghibli.
Вот чел обработал каждый главный кадр из оригинального трейлера LOTR с помощью модели OpenAI, потом потратил $250 на Kling и LumaLabs, еще 9 часов поредактировал - готово.
Тут даже звуковая дорожка оригинальная легла.
С релизом image gen gpt-4o весь интернет заполнен переделками картинок в стиле анимации студии Ghibli.
Вот чел обработал каждый главный кадр из оригинального трейлера LOTR с помощью модели OpenAI, потом потратил $250 на Kling и LumaLabs, еще 9 часов поредактировал - готово.
Тут даже звуковая дорожка оригинальная легла.
21.03.202517:50
Оригинальный код того самого AlexNet опубликовали на гитхабе.
AlexNet был представлен в 2012 году в статье ImageNet classification with deep convolutional neural networks, и после нее все накинулись на нейронки и свертки.
Больше инфы тут
AlexNet был представлен в 2012 году в статье ImageNet classification with deep convolutional neural networks, и после нее все накинулись на нейронки и свертки.
В 2011 году Сутскевер убедил своего коллегу по аспирантуре Алекса Крижевского, обладавшего выдающейся способностью выжимать максимальную производительность из GPU, обучить сверточную нейронную сеть для ImageNet, при этом Джеффри Хинтон выступал в роли научного руководителя. Крижевский уже написал CUDA-код для сверточной нейронной сети на основе NVIDIA GPU, под названием cuda-convnet, которую он обучал на гораздо меньшем датасете изображений CIFAR-10. Он расширил cuda-convnet, добавив поддержку нескольких GPU и другие функции, и переобучил её на ImageNet. Обучение происходило на компьютере с двумя видеокартами NVIDIA в спальне Крижевского в доме его родителей. В течение следующего года Крижевский постоянно настраивал параметры сети и переобучал её, пока она не достигла производительности, превосходящей конкурентов. Эта сеть впоследствии получила название AlexNet, в честь Крижевского. Описывая проект AlexNet, Джефф Хинтон резюмировал для CHM: «Илья подумал, что нам стоит это сделать, Алекс заставил это работать, а Нобелевскую премию получил я».
Больше инфы тут
18.03.202520:16
CEO Nvidia Jensen выступил на GTC, вот небольшие хайлайты.
Следующее поколение чипов:
- после Grace Blackwell будет Vera Rubin (астронавт и астрофизик)
- в один чип запаковано 4 видеокарты
- Rubin - это 3.6 экзафлопс инференса в режиме fp4 и
1.2 экзафлопса тренинга в fp8
- поступит в продажи во второй половине 2026
- после Rubin - Feynman в 2028 (надеюсь, не надо представлять Фейнмана)
Новые настольные компьютеры:
- DGX Spark (раньше назывался digits). По мощности это как старый рэк DGX-1, но настольный. “It is DGX-1 with Pim particles” - Jensen.
- DGX Station: зверь побольше - 784Gb памяти, 20 петафлопс. Цена и время релиза пока неизвестны.
Общее:
- теперь все расчеты Nvidia ведет в fp4
- очень много слов про reasoning модели
- много про робототехнику, но без конкретики
В конце вытащили на сцену робота от Дисней а ля R2D2, после обеда побегу его искать на выставку, потому что он страшно милый и вообще.
Следующее поколение чипов:
- после Grace Blackwell будет Vera Rubin (астронавт и астрофизик)
- в один чип запаковано 4 видеокарты
- Rubin - это 3.6 экзафлопс инференса в режиме fp4 и
1.2 экзафлопса тренинга в fp8
- поступит в продажи во второй половине 2026
- после Rubin - Feynman в 2028 (надеюсь, не надо представлять Фейнмана)
Новые настольные компьютеры:
- DGX Spark (раньше назывался digits). По мощности это как старый рэк DGX-1, но настольный. “It is DGX-1 with Pim particles” - Jensen.
- DGX Station: зверь побольше - 784Gb памяти, 20 петафлопс. Цена и время релиза пока неизвестны.
Общее:
- теперь все расчеты Nvidia ведет в fp4
- очень много слов про reasoning модели
- много про робототехнику, но без конкретики
В конце вытащили на сцену робота от Дисней а ля R2D2, после обеда побегу его искать на выставку, потому что он страшно милый и вообще.
19.04.202508:20
Vending‑Bench — стресс‑тест «долгого горизонта» LLM
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
10.04.202521:27
Кто там толкал роботов палкой? Что с лицом?
P.s. Осторожно звук
Unitree проведет прямую трансляцию боёв роботов примерно через месяц.
P.s. Осторожно звук
04.04.202518:21
Cтартап, советы, немного ML — и сделка, к которой я оказался причастен
#storytime
Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
#storytime
Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
25.03.202519:00
У AI лаб наверняка есть сговор - иначе почему они релизятся в один и тот же день?
За сегодня у нас было вот что:
- Deepseek V3 обновился, обходя на бенчмарках все неризонинг модели, включая GPT-4.5. При этом инпут дешевле в 107 раз, а аутпут в 214 🫠 И это open source.
- Gemini 2.5 pro с ноги выходит почти везде на первое место. При этом она ризонинг, мультимодальная, с окном в миллион токенов, набирает 18% на Humanity’s Last Exam.
- OpenAI наконец добавили нормальные генерацию и редактирование изображений в gpt-4o. Есть фотореализм, нормальные тексты на картинках, и можно генерить видео прямо из чата.
Урожайный день выдался.
За сегодня у нас было вот что:
- Deepseek V3 обновился, обходя на бенчмарках все неризонинг модели, включая GPT-4.5. При этом инпут дешевле в 107 раз, а аутпут в 214 🫠 И это open source.
- Gemini 2.5 pro с ноги выходит почти везде на первое место. При этом она ризонинг, мультимодальная, с окном в миллион токенов, набирает 18% на Humanity’s Last Exam.
- OpenAI наконец добавили нормальные генерацию и редактирование изображений в gpt-4o. Есть фотореализм, нормальные тексты на картинках, и можно генерить видео прямо из чата.
Урожайный день выдался.
19.03.202522:51
Какие же милые эти Дроиды от Дисней 🥰
Буквально, ТЕ дроиды, что ты ищешь.
Буквально, ТЕ дроиды, что ты ищешь.


17.03.202518:41
Я на Nvidia GTC 2025 в San Jose.
Начал с воркшопа по квантизации, прюнингу и дистилляции моделей - довольно интересно. Nvidia как будто хочет всех пересадить на fp4 - мол, blackwell видеокарты оптимизированы под эту точность. На fp4 будет работать и персональный маленький пека для LLM’ок Nvidia Digits. Я доставал дядю из Nvidia вопросами и он, похоже, проговорился, что Digits переименовали в Spark - релиз ожидается в мае.
Еще меня записали в первую нидерландскую делегацию на GTC. По сути собрали всех из НЛ в одну группу и завтра устроят тур по конфе, выставке, отвезут на keynote ну и в целом будут один день нас обхаживать, чтоб мы были довольны и купили много видеокарт, само собой.
Вечером иду на спец-ивент для startup’ов и VC, где можно за коктейлями поклянчить деньги на свои идеи.
Ну и еще я участвую в розыгрыше 5090, пожелайте удачи!
P.S. Летел из Амстердама в Сан-Франциско 11 часов и капитально отсидел себе жопу.
Начал с воркшопа по квантизации, прюнингу и дистилляции моделей - довольно интересно. Nvidia как будто хочет всех пересадить на fp4 - мол, blackwell видеокарты оптимизированы под эту точность. На fp4 будет работать и персональный маленький пека для LLM’ок Nvidia Digits. Я доставал дядю из Nvidia вопросами и он, похоже, проговорился, что Digits переименовали в Spark - релиз ожидается в мае.
Еще меня записали в первую нидерландскую делегацию на GTC. По сути собрали всех из НЛ в одну группу и завтра устроят тур по конфе, выставке, отвезут на keynote ну и в целом будут один день нас обхаживать, чтоб мы были довольны и купили много видеокарт, само собой.
Вечером иду на спец-ивент для startup’ов и VC, где можно за коктейлями поклянчить деньги на свои идеи.
Ну и еще я участвую в розыгрыше 5090, пожелайте удачи!
P.S. Летел из Амстердама в Сан-Франциско 11 часов и капитально отсидел себе жопу.
17.04.202508:26
В общем, o3 и o4 mini — классные модели.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.


09.04.202517:51
Релиз firebase.studio от Google
По описанию похоже на микс cursor и lovable.
Пробуем и ждем отзывов.
По описанию похоже на микс cursor и lovable.
Пробуем и ждем отзывов.
Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.


31.03.202520:22
Открытая модель от OpenAI.
На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.
Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.
Ждем подробностей!
На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.
Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.
Ждем подробностей!
转发自:
Denis Sexy IT 🤖

25.03.202518:42
ChatGPT сегодня обновится:
– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)
– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп
– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)
– Можно удалять фон у картинок (привет нормальные png)
– Работает довольно медленно, сделал видео как оно работает
– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)
– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп
– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)
– Можно удалять фон у картинок (привет нормальные png)
– Работает довольно медленно, сделал видео как оно работает
19.03.202515:33
Atlas от Boston Dynamics демонстрирует reinforcement learning policies, созданные на основе данных с костюма захвата движений.
15.03.202517:21
BotQ от Figure.
Помните роботов Figure? Это которые раскладывали тарелки и одежду, сотрудничали (а потом перестали) с OpenAI и работают на заводах BMW таская и раскладывая железяки.
Так вот, компания Figure объявила о запуске BotQ - своего завода по производству роботов. Завод значит масштаб: текущая мощность - 12000 роботов в год. Планируют расти и дальше и заделать аж 100 000 гуманоидных роботов за 4 года.
Под капотом у них две модели: S2 (7B VLM) обрабатывает изображение, состояние и команду, создавая латентный вектор. S1 (80M трансформер) управляет роботом на 200 Гц, используя этот вектор.
Вот тут подробнее.
Пора прекращать уже издеваться над роботами, их числа растут 🫠
Помните роботов Figure? Это которые раскладывали тарелки и одежду, сотрудничали (а потом перестали) с OpenAI и работают на заводах BMW таская и раскладывая железяки.
Так вот, компания Figure объявила о запуске BotQ - своего завода по производству роботов. Завод значит масштаб: текущая мощность - 12000 роботов в год. Планируют расти и дальше и заделать аж 100 000 гуманоидных роботов за 4 года.
Под капотом у них две модели: S2 (7B VLM) обрабатывает изображение, состояние и команду, создавая латентный вектор. S1 (80M трансформер) управляет роботом на 200 Гц, используя этот вектор.
Вот тут подробнее.
Пора прекращать уже издеваться над роботами, их числа растут 🫠
显示 1 - 24 共 55
登录以解锁更多功能。