Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Метаверсище и ИИще avatar
Метаверсище и ИИще
Метаверсище и ИИще avatar
Метаверсище и ИИще
А так ведь хорошо всё начиналось... потом набежали кожаные..
Голосуем и помним, что всё зачтётся...
Комфи - великий и ужасный.

Сейчас рискну навлечь на себя гнев умных подписчиков, фанатов Комфи.

Тут я хотел написать, что ничего не имею против Комфи, но понял, что нет, имею. Что сказать.

Да, это ассемблер в мире GenAI, но давайте посмотрим на него глазами нового нормального пользователя.

1. Установка. Ну ок, с выходом десктоп-версии стало получше. Но все равно, на вас могут выскочить проблемы с:
- установкой питонговской виртуальной среды (ашоэто?)
- отсутствием у вас Гита (ашоэто?)
- зависимости поломались при установке (ашоэто?)
- Please install ComfyUI on your system drive (eg. C:\). Drives with different file systems(what?) may cause unpredicable issues - этшта?
- версии под Линукс нет, но линуксоидов не напугаешь проблемами выше. Но все равно странно.

2. И вот вы все-таки поставили и даже запустили пахнущий краской и бобрами Комфи.

И вам умные коллеги говорят, там все просто, вот держи рабочий воркфлоу, просто открой его в Комфи.
Вы такие думаете, это наверное как в фотошопе, щас открою и ну слои править да картинки делать.

Не тут то было.

У вас с вероятностью 90% ошибка Missing Nodes. Чего-то не хватат.

3. Тут я проведу аналогию с 3ДМаксом. Представьте, что вам прислали сцену из Макса. Вы ея открываете, а вам пишут: у тебя, брат, не такого плагина, и вот такого, и еще десятка вот таких. Иди ставь, потом придешь после уроков. А пока это нерабочая сцена.

4. Вы такие, ну ок, вот тут кнопка есть Открыть Менеджер и "Скачать эти сраные ноды". Проблема в том, что она помогает в 50% случаев. А если вы полугик, и даже знаете где они лежат на гитхабе, то вас все равно пошлют лесом - безопасность не позволяет их ставить. Закрывайте шарманку и идите в командную строку. Удобно ведь?

[Installation Errors]
'ComfyUI-WanVideoWrapper': With the current security level configuration, only custom nodes from the "default channel" can be installed.

5. А потом вы начитались этого канала и видите новую модель. И ну ея качать. Скачали. А куда ея положить? Тут умные коллеги бросают через плечо: да там просто, ваешник в VAE, клип в text_encoders, а модельку в unet. Вы такие: шо? Коллеги: ну или в чекпойнты, если модель старая. Вы такие: шо?

Робко спрашиваете: я вот научился с Hugging Face скачивать сразу папку и подпапки с моделями, все разложено аккуратно, можно я просто куда-то это положу и назову именем с HuggingFace?. Так на гитхабе делают...
- Нет! Ваешник в VAE, клип в text_encoders, а модельку в unet, пёс!

6. Пройдет пара дней(недель) и вы откроете наконец воркфлоу, который вас скинули коллеги. И поймете, что это ассемблерный код. Он - write only. Написать можно, прочитать(кому-то) нет.

7. За сим - странный совет.
Хотите разобраться - собирайте свой воркфлоу с нуля. Изучая доки, реддиты, гитхабы. Сначала будете переводить все слова со словарем, но через пару недель полегчает. Или вы пошлете Comfy на UI.

Копаться в чужих вокфлоу, это как изучать 3ДМакс по чьим-то сценам, увешанным плагинами.

Давайте, наваливайте на вентилятор в защиту Комфи.

@cgevent
06.05.202513:20
LTX VIDEO-13B
05.05.202513:52
Фантомченко вышел из тени.

Тренировать Лоры для видеомоделей - занятие не для каждого. У коммерческих моделей давно появились "однокнопочные решения" типа Kling elements, pika ingredients и новоиспеченные GEN-4 References.

Вгружаете фотки, видеогенератор переносит их на видео.

В феврале писал про Фантом - опенсорсную ответочку от Bytedance - как бы нашлепка над Wan - a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures.

Но ни кода, ни подробностей не было.

И тут, о чудо, гитхаб обновился и там теперь есть код и инструкции.

Видосы выглядят наряднейше, переносить на видео можно не только лицо или объект, вгружать НЕСКОЛЬКО изображений. Меня больше всего порадовали видосы-переодеваторы, о которых я тут регулярно толкую. Можно задавать до 4 входных картинок.

Но в отличие от коммерческих решений, тут вам придется упороться в установку: скачать веса малого WAN 2.1 1.3B, скачать веса самого фантома Phantom-Wan-1.3B и попотеть с флагами --ref_image. Хотя Киджай уже изваял враппер.

Проблема в том, что весов Фантома для "Большого Вани" на 14B пока нет, поэтому качества ждать не приходится.

Но сам тренд на быстрое повторение фич коммерческих генераторов в опен-сорсе - радует.

Код и веса тут:
https://github.com/Phantom-video/Phantom

@cgevent
05.05.202506:46
Месть джунов: Revenge of the junior developer

Интернет взрывается вот такой статьей про вайбкодинг:


И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.

А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.

Ниже саммари:

1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.

3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.

https://sourcegraph.com/blog/revenge-of-the-junior-developer

Я бы заменил слово джуниоры на просто "люди с новым мышлением".

@cgevent
Repost qilingan:
Сиолошная avatar
Сиолошная
04.05.202510:49
С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:

— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.

— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.

— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.

— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).

— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
07.05.202510:56
HeyGen Avatar IV - вот держите версию с животными. Это же просто космос.

Я помню был такой фильм "Кошки против собак" и Женя Вендровский рассказывал в конце нулевых, как они мучились, чтобы заставить тварей говорить (у них челюсти не подходят для этого). Риг был на миллион, а бюджет на графику и того дороже.

А сейчас - апажалста!

Версия в 4K для любителей кино:
https://www.youtube.com/watch?v=dpbP3Kj79ig

@cgevent
07.05.202509:19
Comfy-трансформация

Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.

Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.

Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.

Как и по степени сложности освоения.

И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).

Но вчера произошел тектонический сдвиг:

Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.

Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]

Kling 2.0, 1.6, 1.5 & Various Effects

Luma Photon, Ray2, Ray1.6

MiniMax Text-to-Video, Image-to-Video

PixVerse V4 & Effects

Recraft V3, V2 & Various Tools

Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large

Google Veo2

Ideogram V3, V2, V1

OpenAI GPT4o image

Pika 2.2

Думаю, список будет расширяться.

Но почему я думаю, что это тектоника плит?

Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.

Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).

В общем шаг исторический.

https://blog.comfy.org/p/comfyui-native-api-nodes

@cgevent
06.05.202513:13
Израильтяне из Lightricks бахнули "большую" модель LTX VIDEO на 13B параметров. Выложили веса и код.

Новая модель, получившая название LTX VIDEO-13B, включает 13 миллиардов параметров с открытым исходным кодом и претендует на то, чтобы генерировать высококачественное видео за меньшую цену, чем конкуренты вроде OpenAI's
Sora, Google и другие лидеры в области генеративного видео. По словам Lightricks, ее модель может давать
результаты, сопоставимые с системами высшего уровня, при этом ее обучение стоит всего десятки миллионов долларов.
Стоимость рендеринга видео с использованием этой модели составляет всего несколько центов за ролик, что может
стать серьезным прорывом в области доступного видео с искусственным интеллектом.


До сих пор LTX прославился своей скоростью, заимствованием кода у Вана и так себе качеством.

А щас они целят в "Deepseek moment" - такой у них маркетинг в интернетике.

Но Большую Модель на 13B надо тестировать, а то они вон собрались побивать Сору и Вео.

Го тестировать.

Модель: https://huggingface.co/Lightricks/LTX-Video

Код: https://github.com/Lightricks/LTX-Video?tab=readme-ov-file#news

Попробовать модель уже можно у них на сайте:
https://app.ltx.studio/

При этом сам сайт позволяет выбрать в качестве генератора еще и Veo2

Мне вообще непонятно их позиционирование.
@cgevent
Repost qilingan:
Psy Eyes avatar
Psy Eyes
FramePack: lllyasviel снова на связи и выпустил F1 версию своего видеогенератора FramePack.

F1 здесь значит forward pass, то есть AI предсказывает только будущие кадры без обратного прохода. Это накладывает на модель меньше ограничений.

В итоге вариативность генераций и динамичность выросли — камера теперь должна легче двигаться.

Ещё Жанг пишет, что встроил технологию анти-дрифтинг, предотвращающую накопление ошибок. Вероятно для уменьшения количества артефактов.

На гитхабе теперь появился отдельный скрипт demo_gradio_f1.py для запуска F1, и инструкции как запустить тем, кто поставил портативную сборку. Вместе с этим F1 появилась и на хаггинге.

Если вы через git pull обновляете локальную репу на винде, но при запуске нужного скрипта всё равно запускается обычный FramePack — сделайте новую папку и поставьте новый FramePack рядом со старым. У нового в заголовке должно быть написано F1.

На тестах по скорости и потреблению VRAM ничего не изменилось, а вот динамичность действительно улучшилась. Причём у быстро двигающихся объектов детали могут жеваться, так что важно не переборщить. Камера теперь легче двигается, например, для прокрутки вокруг персонажа. Но, не смотря на то, что артефактов стало меньше, места сшивания кадров могут быть заметны.

Pinokio ещё пока не обновился.

Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
Comfy
Про FramePack
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Решил сломать вам мозг с утра.

Что говорит кожаная VLM в вашей голове?

Чувак на вайбе встречает понедельник..

@cgevent
03.05.202521:20
Эппле показала новую рекламу своего AI - Apple Intelligence.

Это настолько плохо, что верится с трудом.

Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.

Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).

Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.

Хочется спросить, это все серьезно в 2025 году?

Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".

Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?

Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.

Во всем этом есть тем не менее один огромный плюс.

Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.

Жаль только, что через призму Ген-мать-их-моджи.

У меня всё.

@cgevent
HeyGen Avatar IV - это просто огнищще.

На входе ОДНА фотка и ваш текст.

Всё.

Похоже тема липсинка близка к закрытию.

Но это еще не все. Оно работает с анимационными персонажами, и даже с животными! Как они это сделали, не понимаю.

И да, русский поддерживается.

https://x.com/HeyGen_Official/status/1919824467821551828

@cgevent
Офигенный пример из нового Gemini 2.5 (I/O Edition)

- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.

Поглядите на эти анимации.

Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.

I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.

@cgevent
06.05.202512:41
ACE-Step: Новый опен-сорсный генератор музыки. Stable Diffusion moment для музыки.

Существующие методы сталкиваются с присущим им компромиссом между скоростью генерации, музыкальной связностью и управляемостью. Например, модели на основе LLM (например, Yue, SongGen) отлично справляются с текстами, но страдают от медленного инференса и структурных артефактов. Диффузионные модели (например, DiffRhythm), с другой стороны, обеспечивают более быстрый инференс, но часто не имеют структурной связности на больших длительностях.

Вместо того чтобы создавать еще один сквозной генератор для преобразования текста в музыку, мы хотим создать базовую модель для музыкального ИИ: быструю, универсальную, эффективную, но гибкую архитектуру, которая позволяет легко обучать подзадачи поверх нее. Это открывает путь для разработки мощных инструментов, которые легко интегрируются в творческие рабочие процессы музыкальных исполнителей, продюсеров и создателей контента. Одним словом, мы стремимся создать Stable Diffusion moment для музыки.


Есть демо, можно погенерить, а на странице проекта есть примеры.
Это, конечно, не Суно, но сам замысел и амбиции мне нравятся. Сделать Stable Diffusion для музыки, чтобы потом увешать его лорами и файнтюнами - звучит круто.

Смотрите, что у них в планах:
Release RapMachine lora
Release ControlNet training code
Release Singing2Accompaniment controlnet

https://ace-step.github.io/

Код?
Апажалста: https://github.com/ace-step/ACE-Step

Попробовать?
Тут: https://huggingface.co/spaces/ACE-Step/ACE-Step

@cgevent
OpenAI обновили документацию про то, какую модель оптимально использовать в том или ином случае.

GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.

GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.

o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.

o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.

o3 - самый мощный движок для сложного, многоступенчатого анализа.

o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.

https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits

Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.

@cgevent
04.05.202515:23
И тут интересно порассуждать о том, что SEO-оптимизация и все эти сакральные знания и курсы SEO-оптимизаторов будут неизбежно отмирать. Ибо поиск идет не по сайтам, а как бы уровнем выше, этакий метапоиск.

Соответственно, интересно посмотреть на сражение за выдачу в chatGPT, Google AI Mode и во всех других подобных поисковых ресерчах. Один ИИ будет искать лучшую цену по всему интернетику, включая реддиты, твиттары, фейсбучеки, а другие ИИ-умельцы будут мастерить алгоритмы постинга, скрытые символы, сакральные токены, и, конечно, полчища ботов, которые будут впрыскивать нужные инъекции уже не на сайты, а в весь интернетик.
Битвы ИИ не за горами, на кону деньги кожаных.

@cgevent
03.05.202512:40
Держите тесты Veo2 и Whisk->Veo2 (см предыдущий пост)

А промпты были вот такие:

📦🐸🍄 as mascots

🌮🍔🍕 dancing

🥬🥦🥒 as astronauts

🐷🐷 in 🐝 costumes, very very cute

🎠🦕🍄 as claymation

Иногда лучше добавить "emoji" в начало промпта.

Думаю, вы сами догадаетесь, где какой промпт.

Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.

Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.

Все подробности в предыдущем посте.

Хорошей субботы.

https://gemini.google.com/
https://labs.google/fx/tools/whisk

@cgevent
Для тупых.

Интересную штуку сделал Гугл (на основе Gemini).

При просмотре статьи в приложении Гугла Discover, выделение текста, в котором используется жаргон или технические понятия, с которыми вы не знакомы, откроет новую опцию "Упростить" в контекстном меню (наряду с "Поиск" и "Перевод").

ИИ вам на пальцах пояснит за сложные вещи.

Вот пример.

Оригинал: Сложная патология этого состояния включает эмфизематозное разрушение паренхимы легких, диффузный интерстициальный фиброз, изменения в составе иммунных клеток легких, повышенную продукцию иммуномодулирующих факторов и выраженное ремоделирование легочной сосудистой сети

Упрощение: Это сложное заболевание включает в себя повреждение легочной ткани в результате эмфиземы - болезни, при которой повреждаются воздушные мешки в легких, и широко распространенное рубцевание легочной ткани, называемое фиброзом. Иммунные клетки в легких изменяются, и организм вырабатывает больше иммуномодулирующих факторов - веществ, контролирующих иммунную систему. Кровеносные сосуды в легких также сильно изменяются.

Я уже писал, что интернетик стремительно пухнет на стероидах нового ИИ-контента всех модальностей (тексты, звук, видео). Вы не в силах более переваривать контент, у нас нейроферментов не хватает.

Поэтому тот же ИИ придет к нам на помощь. Одни кожаные с помощью ИИ плодят умный и не очень контент, другие кожаные с помощью ИИ его сжимают обратно, суммаризируют, упрощают. Никто больше сам контент не потребляет. Потребляют производные - вытяжки из бобровой ИИ-струи.

Любопытно видеть как в рекламе Эппле поясняют за фичу "раскучерявим ваш имейл" и тут же продвигают фичу "устали читать огромные письма из школы, мы их пожмем для вас".

Ну вы поняли.

Примечательно, что фича с упрощением контента сделана только для пользователей айфонов. Видать Гугл что-то знает про них и про IQ пользователей андроида.

https://9to5google.com/2025/05/06/google-app-simplify-ios/

@cgevent
Repost qilingan:
Сиолошная avatar
Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Интернетик полон новых забав.

Подаем на вход chatGPT изображение, говорим "опиши его и сделай картинку по описанию". И так 73 раза.

Получается игра в испорченный телефон. Картинка "уплывает" от оригинала.

Я игрался с этим примерно полтора года назад, когда в chatGPT еще был DALL·E 3. Было интересно поглядеть, в какие архетипы он уводит картинку - писал скрипт на Autohotkey, который сохранял картинку и сувал ея обратно в chatGPT.
Обнаруживались уход в цветы из чорного квадрата, подъем камеры наверх, определенные ракурсы и библейские облака.

Сейчас описание и генерация картинок стали точнее. Но мне вот за ИИ обидно. Попробуйте кожаному на словах описать картинку и попросить нарисовать по словесному описанию, потом показать картинку другому кожаному, и попросить его описать, ну и так далее. Думаю хватит двух итераций, чтобы "напеть Шаляпина".

Так что шутка не очень смешная.

Но занимательная..

@cgevent
05.05.202510:04
Нейропрожарка.

Нейродеморил от подписчика Юрия.

В принципе, деморилы, трейлеры, нарезки больше всего подходят для генератива. Ибо быстрые склейки, короткие планы, минимум требований к монтажу.

В обличие от обычных деморилов, где нарезаются или подрендериваются уже готовые работы студии или автора, Юрий сгенерил "гипотетический" деморил - полностью сделал с нуля демонстрацию собственных нейровозможностей, а не нарезал готовое.

Цитирую:

После нескольких сделанных ИИ роликов на заказ, решил, что нужно создать свой шоурил, который продемонстрирует различные вариации использования ИИ в рекламе.

Все кадры создал в
Reve. Оживлял в трех нейронках:

* Gen4
* Kling 1.6 (2.0 для динамичных кадров)
* Higgsfield

Если суммировать все часы, то делал примерно полторы недели. Но половина срока ушло на звуковую дорожку(звук со стоков), я сделал 6 разных вариантов, и потом еще несколько дней крутил их, думал, какая лучше :))

Доп. инструменты: фотошоп с генеративной заливкой, Topaz для апскейла в 4к

По затратам примерно 300$.

Обсуждаем в коментах.

@cgevent
SAM в Instagram

У Метачки есть одна из лучших моделей для сегментации и трекинга объектов на фото и видео.
Segment Anything Model 2 (SAM 2) is a foundation model towards solving promptable visual segmentation in images and videos.

Любопытно, что не прошло и пары лет, как они начали встраивать это в свои продукты.

Точнее так: в феврале они выпустили своего тряпочного "убийцу" CapCut под названием Edits - это монтажка видео на телефоне (одно из самых извращенных извращений, которыми я занимался).

А три дня назад, там появилась фича Cutouts - грубо говоря ротоскопинг объектов и отрезание их от фона.
Я проверил на своих видео, да, работает.

Любопытно наблюдать, как он анализирует картинку - вычисления происходят в сети на их серверах с H100.

Но еще любопытнее почитать статью об этом. Там они толкуют про новое поколение SAM 3, которое обещает быть огненным.

Ждем обновлений.

Можете поиграть на телефоне (ios \ android), а можете по-взрослому на десктопе:
https://sam2.metademolab.com/demo

@cgevent
Оптимальная генерация Veo2 за 8 евро в месяц.

Veo2, Whisk, Gemini Advanced: генерация видео, лимиты, подписки, image2video - разбираемся.

В приложение Gemini от Гугла официально привезли видеомодель Veo2 (на телефоне тоже).

Она теперь выпадает в списке моделей вместе 2.5 Flash, 2.5 Pro, Deep Research with 2.5 Pro и др (см скриншот).

Все это раскатали на всех пользователей Gemini Advanced. Без всяких US Only - работает с европейского IP как часы.

Я, естественно, не выдержал и сразу купил подписку и это того стоило.

Ибо.

Первый месяц подписки стоит 10 долларов.

Но.

С меня, сняли 8.8 евро (тут Гугль в отличие от OpenAI не переводит доллары в евро по курсу 1:1), а льготный период составил 53 дня(!), а не месяц (видать понимают, с кем имеют дело). Мелочь, а приятно.

С Advanced идут разные ништяки. Типа 2 ТЕРРАБАЙТА на ГуглДрайве, а также доступ к Whisk и другим экспериментальным проектам.

Ну и доступ к Veo2.

Давайте разберемся с лимитами и с Image2Video.

По умолчанию image2video в приложении Gemini не поддерживается (плюсик есть, но серый и пишет "пока недоступно").
Но подписка Advanced дает доступ к Whisk - это очень симпатичный генератор картинок от Гугла и уже в нем, если сгенерить лежачее видео (16:9), можно анимировать его с помощью Veo2 - просто появляется кнопка Animate прямо на результате (надо скрольнуть вверх) и смотреть на картинку (UX спорный).

Получается этакое text-to-image-to-video.

Я специально провел сравнения на очень прикольных промптах с эмоджи (см. пост ниже) - следование промпту, попадание в замысел и общий результат - гораздо лучше в связке Whisk->Veo2 (text-to-image-to-video) чем напрямую писать промпт в Veo2 (text-to-video).

А теперь про лимиты.

В Whisk можно сделать 100 видео-генераций в месяц (если цензура, то кредит не списывают). Это именно анимация полученной в Whisk картинки. Кстати, для генерации картинок есть прикольные фичи типа стилевых и объектовых референсов.

А вот сколько лимитов в самой Gemini Advanced - это тайна покрытая мраком. Я даже сделал Deep Research с помощью Gemini 2.5 Pro - Гугл честно сам признался, что "пользователей фрустрирует невозможность планировать время и бюджет".

Информации нет.

Но чтение реддитов\твиттаров помогает предположить, что есть скользящее окно, причем оно меньше, чем сутки, во время которого можно запихать в Veo2 до 20 запросов. Грубо говоря, 5-20 видосов за полдня, если сильно не частить (мне включили лимит до завтра, через 6 генераций в Veo2)
Это гипотеза, и это сильно зависит от времени суток, вашей гео(ближайшие сервера), и общей загрузки по планете.

Короче, я прям сильно рекомендую взять подписку за 8 евро и поиграть с Whisk и Veo2. Пощупать лимиты, погонять text-to-image-to-video.

Дисклаймер: пишут, что не у всех такая сладкая цена. Могу добавить лишь, что я брал Advanced в декабре, а потом отменил. Ну и мои прогибы под ИИ тоже наверное засчитываются.

А видосы и промпты вынесу в следующий пост.

https://gemini.google.com/

@cgevent
Ko'rsatilgan 1 - 24 dan 544
Ko'proq funksiyalarni ochish uchun tizimga kiring.