Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры: Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
27.03.202510:04
Властелин колец в стиле Ghibli.
С релизом image gen gpt-4o весь интернет заполнен переделками картинок в стиле анимации студии Ghibli. Вот чел обработал каждый главный кадр из оригинального трейлера LOTR с помощью модели OpenAI, потом потратил $250 на Kling и LumaLabs, еще 9 часов поредактировал - готово.
Тут даже звуковая дорожка оригинальная легла.
07.04.202517:16
Кажется, Llama 4 не проходит vibe check.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.
31.03.202510:22
Отвлечемся немного от AI и поговорим о проблемах первого мира. #storytime
Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)
Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.
Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!
Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.
Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.
Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.
А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
04.04.202518:21
Cтартап, советы, немного ML — и сделка, к которой я оказался причастен #storytime
Supplai, которых я консультирую, недавно купили Certus Automation. Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.” Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
10.04.202521:27
Кто там толкал роботов палкой? Что с лицом?
Unitree проведет прямую трансляцию боёв роботов примерно через месяц.
– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)
– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп
– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)
– Можно удалять фон у картинок (привет нормальные png)
– Работает довольно медленно, сделал видео как оно работает
25.03.202511:32
На сколько AI помогает в работе?
Если вы еще сомневаетесь, что с AI работать лучше, чем без - вот там свежее исследование на эту тему.
776 человек из P&G получили GPT-4(о) в качестве напарника, исследовалось его влияние на командную работу и профессиональную экспертизу. Авторы выявили значительное влияние на качество идей, скорость работы и эмоциональный опыт в реальных условиях разработки продуктов.
- Команды без AI показали результаты лучше отдельных сотрудников на 0.24 standard deviation (SD)
- Отдельные сотрудники с AI достигли уровня командной работы, улучшив свои показатели на 0.37 SD.
- Лучшие результаты продемонстрировали команды с AI (+0.39 SD), особенно выделяясь качеством решений в топ-10%
- Пользователи AI работали на 12–16% быстрее и создавали более детализированные решения.
- Без AI специалисты работали изолированно (R&D фокусировались на технических аспектах, а Commercial — на маркетинге). Команды без AI смогли сбалансировать эти перспективы за счет сотрудничества людей.
- С AI как отдельные сотрудники, так и команды создавали сбалансированные, кросс-функциональные решения.
- AI стирал границы между областями знаний, помогая менее опытным сотрудникам работать на уровне опытных экспертов.
- Использование AI повысило позитивные эмоции (азарт, энергию, энтузиазм).
- AI снизил негативные эмоции (тревожность, разочарование) по сравнению с группами без AI.
- Отдельные сотрудники с AI чувствовали себя эмоционально так же или лучше, чем сотрудники в полностью человеческих командах.
- Представленные результаты могут быть нижней границей, так как модели и prompt engineering продолжают совершенствоваться.
На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.
Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.
Ждем подробностей!
14.04.202517:46
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷♂️
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
У AI лаб наверняка есть сговор - иначе почему они релизятся в один и тот же день?
За сегодня у нас было вот что:
- Deepseek V3 обновился, обходя на бенчмарках все неризонинг модели, включая GPT-4.5. При этом инпут дешевле в 107 раз, а аутпут в 214 🫠 И это open source.
- Gemini 2.5 pro с ноги выходит почти везде на первое место. При этом она ризонинг, мультимодальная, с окном в миллион токенов, набирает 18% на Humanity’s Last Exam.
- OpenAI наконец добавили нормальные генерацию и редактирование изображений в gpt-4o. Есть фотореализм, нормальные тексты на картинках, и можно генерить видео прямо из чата.
Урожайный день выдался.
17.04.202508:26
В общем, o3 и o4 mini — классные модели.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠 Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры: Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
17.04.202508:26
В общем, o3 и o4 mini — классные модели.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠 Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
16.04.202514:05
Через три часа нам представят полную о3 модель
14.04.202517:46
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷♂️
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.
07.04.202517:16
Кажется, Llama 4 не проходит vibe check.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
05.04.202519:17
Llama 4 🦙
Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.
1. Llama 4 Scout - 17B активных параметров, 16 экспертов, 109B общих параметров - Контекст: 10M токенов(в 80 раз больше, чем у Llama 3) - Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding - Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
2. Llama 4 Maverick - 17B активных параметров, 128 экспертов, 400B общих параметров - Побеждает GPT-4o, Gemini 2.0 Flash - Сравнима с DeepSeek v3.1, но гораздо эффективнее - ELO (LMArena): 1417 — один из лучших среди открытых моделей - Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия
3. Llama 4 Behemoth(в разработке) - 288B активных параметров, 16 экспертов, ~2T общих параметров - Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках - Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning
🎉
04.04.202518:21
Cтартап, советы, немного ML — и сделка, к которой я оказался причастен #storytime
Supplai, которых я консультирую, недавно купили Certus Automation. Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.” Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
31.03.202520:22
Открытая модель от OpenAI.
На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.
Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.
Ждем подробностей!
31.03.202510:22
Отвлечемся немного от AI и поговорим о проблемах первого мира. #storytime
Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)
Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.
Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!
Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.
Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.
Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.
А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
27.03.202510:04
Властелин колец в стиле Ghibli.
С релизом image gen gpt-4o весь интернет заполнен переделками картинок в стиле анимации студии Ghibli. Вот чел обработал каждый главный кадр из оригинального трейлера LOTR с помощью модели OpenAI, потом потратил $250 на Kling и LumaLabs, еще 9 часов поредактировал - готово.
Тут даже звуковая дорожка оригинальная легла.
25.03.202519:00
У AI лаб наверняка есть сговор - иначе почему они релизятся в один и тот же день?
За сегодня у нас было вот что:
- Deepseek V3 обновился, обходя на бенчмарках все неризонинг модели, включая GPT-4.5. При этом инпут дешевле в 107 раз, а аутпут в 214 🫠 И это open source.
- Gemini 2.5 pro с ноги выходит почти везде на первое место. При этом она ризонинг, мультимодальная, с окном в миллион токенов, набирает 18% на Humanity’s Last Exam.
- OpenAI наконец добавили нормальные генерацию и редактирование изображений в gpt-4o. Есть фотореализм, нормальные тексты на картинках, и можно генерить видео прямо из чата.