Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Psy Eyes avatar

Psy Eyes

Креатив + AI + Web3... и мемы
Личная страница @AndreyBezryadin
TGlist rating
0
0
TypePublic
Verification
Not verified
Trust
Not trusted
Location
LanguageOther
Channel creation dateDec 14, 2019
Added to TGlist
May 24, 2024
Linked chat

Latest posts in group "Psy Eyes"

Там кстати CEO Shopify ввёл для программеров обязательное умение пользоваться AI-инструментами для разработки. Также менеджеры не смогут нанимать больше людей, пока не обоснуют почему текущую задачу не может решить AI.

На этой волне вот вам интервью с профессиональным вайбкодером.

У него есть ещё видос, где Senior Engineer пробует вайбкодинг, но оно менее забавно.
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Runway: уже выкатили Turbo версию Gen-4.

Выдаёт 10 секундное видео за 30 сек.

С релиза базовой модели прошла уже неделя. Делитесь впечатлениями и тестами в комментах.

Твит
Сайт
Сконвертировал часть Telegram подарков на TON и выставил на продажу на Fragment.

Владельцы получат скидку 10% при тренировке лоры в Wan. Опробуем гейтинг.

Минты:
1) Jingle Bells #37993 (SOLD)
2) Jingle Bells #38012
3) Jingle Bells #38014 (SOLD)
4) Jingle Bells #38015 (SOLD)
5) Jingle Bells #38016
6) Jingle Bells #38017
7) Jingle Bells #38018 (SOLD)
8) Jingle Bells #38020 (SOLD)
9) Jingle Bells #38021 (SOLD)
10) Jingle Bells #38023 (SOLD)
11) Jingle Bells #38024
12) Jingle Bells #38025
13) Jingle Bells #38026 (SOLD)
14) Jingle Bells #38027 (SOLD)
15) Jingle Bells #38028 (SOLD)
16) Jingle Bells #38029
17) Jingle Bells #38046 (SOLD)
18) Jingle Bells #38047 (SOLD)
19) Jingle Bells #38048 (SOLD)
20) Jingle Bells #9006
21) Lunar Snake #93385

Позже, когда порешаю с брендингом, выпущу свои коллекционки на TON. Это даст больше свободы к пришиванию функционала. И вторичку никто не отменял.
У Nvidia появился конкурент на рынке видюх. Причём работает как в консьюмерском сегменте так и в серверном. И совместим со многими фичами Nvidia, хотя дешевле.

И это не AMD, Intel, или китайский .

На днях выложу пост.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Натренировал Wan на своём компе по фоткам с собой.

Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.

Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.

Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.

Что по скоростям:

На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.

Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин

Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек

Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.

На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.

Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.

Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.

Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.

Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.

Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.

Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.

🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
Babylon.js: до версии V 8 обновился бесплатный опенсорсный фреймворк для разработки 3D-графики, игр, интерактивных сцен и визуализаций в вебе.

Что нового:

* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.

Анонс
Сайт
Гитхаб
Кстати в Recraft тоже можно делать мокапы.

А ещё они добавили стили на векторное лого. Чтобы воспользоваться:

* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.

Сайт Recraft
Твит
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.

Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.

Сайт Freepik
Сайт Packshot
Runway: выкатили Gen-4.

Обещают генерацию стабильных миров с консистентными персонажами.

Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.

Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.

Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.

На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.

Анонс
Сайт
"Нейросети отнимают у людей работу"

По-моему, они их спасают.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!

Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.

Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.

InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.

Flora: добавили стили для смешивания рефов.

AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.

SuperSplat: обновили экспорт в HTML Viewer.

LeX-Art: модель для генерации качественного текста на картинках.

Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.

LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.

OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.

ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.

Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).

Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.

Luma: теперь версии контента группируются в ветку.

Pika: выкатили фичу для генерации селфи с молодым собой.

Kling: обновили сайт и добавили возможность генерить аудио под видосы.

🎸 ЗВУК 🎸

Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.

Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.

Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).

🤖 ЧАТЫ 🤖

LMStudio: добавлена поддержка мульти-GPU.

Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.

DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.

DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.

OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.

Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.

Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).

Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.

Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.

Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения

На втором видео с помощью плагина добавили сплат в реальный футаж.

Гитхаб
Сайт
Твит
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.

Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.

Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).

Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).

Демо
Сайт
Гитхаб
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.

Рабочий процесс:

* Задайте GPT-4o запрос на получение изображения (например, 3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)

* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.

Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.

Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.

- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.

- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".


Как оно в деле можно почитать тут.

Твит
Сайт
Ну и ещё на тему игр.

В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.

Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.

Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает, какой промт что писать, можно так в начале и застрять.

Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.

Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.

Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры

Records

23.04.202517:12
5.6KSubscribers
31.01.202523:59
300Citation index
04.09.202423:59
10.2KAverage views per post
15.03.202516:19
837Average views per ad post
23.11.202423:59
5.55%ER
04.09.202423:59
240.71%ERR

Popular posts Psy Eyes

24.03.202519:09
Riffusion: развивается и быть может даже не даст заскучать Suno и Udio.

Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен

Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).

Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.

И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.

Плейлист с примером замененных элементов.

Сайт
Твит
28.03.202514:06
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.

Рабочий процесс:

* Задайте GPT-4o запрос на получение изображения (например, 3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)

* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.

Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.

Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.

- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.

- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".


Как оно в деле можно почитать тут.

Твит
Сайт
03.04.202515:42
Натренировал Wan на своём компе по фоткам с собой.

Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.

Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.

Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.

Что по скоростям:

На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.

Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин

Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек

Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.

На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.

Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.

Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.

Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.

Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.

Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.

Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.

🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
31.03.202516:02
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.

Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.

Сайт Freepik
Сайт Packshot
24.03.202512:51
Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт

Твит
31.03.202517:08
Кстати в Recraft тоже можно делать мокапы.

А ещё они добавили стили на векторное лого. Чтобы воспользоваться:

* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.

Сайт Recraft
Твит
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!

Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.

Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.

InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.

Flora: добавили стили для смешивания рефов.

AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.

SuperSplat: обновили экспорт в HTML Viewer.

LeX-Art: модель для генерации качественного текста на картинках.

Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.

LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.

OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.

ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.

Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).

Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.

Luma: теперь версии контента группируются в ветку.

Pika: выкатили фичу для генерации селфи с молодым собой.

Kling: обновили сайт и добавили возможность генерить аудио под видосы.

🎸 ЗВУК 🎸

Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.

Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.

Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).

🤖 ЧАТЫ 🤖

LMStudio: добавлена поддержка мульти-GPU.

Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.

DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.

DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.

OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.

Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.

Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).

Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.

Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
28.03.202517:58
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.

Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения

На втором видео с помощью плагина добавили сплат в реальный футаж.

Гитхаб
Сайт
Твит
25.03.202517:31
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.

Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.

Самим можно попробовать на странице с их доками. На русском пашет, я потестил.

Демо
Сайт
Твит
07.04.202518:46
Runway: уже выкатили Turbo версию Gen-4.

Выдаёт 10 секундное видео за 30 сек.

С релиза базовой модели прошла уже неделя. Делитесь впечатлениями и тестами в комментах.

Твит
Сайт
Kling: обновили Elements, создание видео по нескольким объектам на рефах.

Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения

Также генерация через кейфреймы теперь работает с расширением видео.

Сайт
Твит
Meshy: в превью режиме запустили V5 своего генератора 3D.

В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.

В честь запуска дают 50% скидку на подписку, промокод MESHY5.

Сайт
28.03.202517:04
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.

Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.

Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).

Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).

Демо
Сайт
Гитхаб
24.03.202513:55
Synclabs: тизерят V2 своей липсинк модели.

Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.

Чтобы ввалиться в бету нужно написать им в личку в твиттере.

Твит
27.03.202517:50
Листать твиттер сейчас Гиблое дело, ну и коль речь зашла про игры.

Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.

Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?

Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.

Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.

Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.

Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.

Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.

И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.

Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.

Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.

Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.

Игра Project Prismatic
Log in to unlock more functionality.