Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Psy Eyes avatar
Psy Eyes
Psy Eyes avatar
Psy Eyes
10.04.202510:24
Там кстати CEO Shopify ввёл для программеров обязательное умение пользоваться AI-инструментами для разработки. Также менеджеры не смогут нанимать больше людей, пока не обоснуют почему текущую задачу не может решить AI.

На этой волне вот вам интервью с профессиональным вайбкодером.

У него есть ещё видос, где Senior Engineer пробует вайбкодинг, но оно менее забавно.
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
03.04.202515:42
Натренировал Wan на своём компе по фоткам с собой.

Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.

Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.

Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.

Что по скоростям:

На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.

Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин

Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек

Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.

На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.

Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.

Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.

Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.

Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.

Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.

Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.

🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
31.03.202515:05
Runway: выкатили Gen-4.

Обещают генерацию стабильных миров с консистентными персонажами.

Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.

Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.

Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.

На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.

Анонс
Сайт
28.03.202517:04
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.

Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.

Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).

Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).

Демо
Сайт
Гитхаб
Kling: обновили Elements, создание видео по нескольким объектам на рефах.

Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения

Также генерация через кейфреймы теперь работает с расширением видео.

Сайт
Твит
25.03.202520:15
Крутые подписчики на линии!

Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.

Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:

Регулировка силы ветра лорой (нано-Ван 1.3B)

В промпте нет слов о мехе, типа - "мех колышется на ветру", но при увеличение веса лоры, мех начинает отрабатывать ветер.
(Начало без лоры. в конце вес 4, с перебором)

Мораль: каких-то знаний физики вообще может не быть, но их можно принести лорой.
07.04.202518:46
Runway: уже выкатили Turbo версию Gen-4.

Выдаёт 10 секундное видео за 30 сек.

С релиза базовой модели прошла уже неделя. Делитесь впечатлениями и тестами в комментах.

Твит
Сайт
31.03.202518:07
Babylon.js: до версии V 8 обновился бесплатный опенсорсный фреймворк для разработки 3D-графики, игр, интерактивных сцен и визуализаций в вебе.

Что нового:

* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.

Анонс
Сайт
Гитхаб
"Нейросети отнимают у людей работу"

По-моему, они их спасают.
28.03.202514:06
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.

Рабочий процесс:

* Задайте GPT-4o запрос на получение изображения (например, 3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)

* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.

Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.

Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.

- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.

- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".


Как оно в деле можно почитать тут.

Твит
Сайт
Stepfun: дали доступ на сайте к своему видеогенератору Step-Video-TI2V. Переводите в браузере страницу на инглиш.

Модель может принимать на вход одновременно и картинку разных размеров и текст на английском или китайском. Выдаёт максимум 102 кадра за 3+ минуты. Text-2-video генерит 960х540 при 25fps. Лучше всего себя показывает в аниме стиле.

Есть рульки контроля камеры, только они не совсем интуитивные. И стандартные: шаблоны стиля + улучшение промта.

Эту же модель они недавно выложили в опенсорс, но она слишком жирная, чтобы её локально запекать.

По российском симке заходит. И что интересно код приходит в телеге через недавно запущенный Telegram Gateway. Значит тема работает, и китайские братья о ней знают.

Сайт
Хаггинг
25.03.202517:31
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.

Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.

Самим можно попробовать на странице с их доками. На русском пашет, я потестил.

Демо
Сайт
Твит
Сконвертировал часть Telegram подарков на TON и выставил на продажу на Fragment.

Владельцы получат скидку 10% при тренировке лоры в Wan. Опробуем гейтинг.

Минты:
1) Jingle Bells #37993 (SOLD)
2) Jingle Bells #38012
3) Jingle Bells #38014 (SOLD)
4) Jingle Bells #38015 (SOLD)
5) Jingle Bells #38016
6) Jingle Bells #38017
7) Jingle Bells #38018 (SOLD)
8) Jingle Bells #38020 (SOLD)
9) Jingle Bells #38021 (SOLD)
10) Jingle Bells #38023 (SOLD)
11) Jingle Bells #38024
12) Jingle Bells #38025
13) Jingle Bells #38026 (SOLD)
14) Jingle Bells #38027 (SOLD)
15) Jingle Bells #38028 (SOLD)
16) Jingle Bells #38029
17) Jingle Bells #38046 (SOLD)
18) Jingle Bells #38047 (SOLD)
19) Jingle Bells #38048 (SOLD)
20) Jingle Bells #9006
21) Lunar Snake #93385

Позже, когда порешаю с брендингом, выпущу свои коллекционки на TON. Это даст больше свободы к пришиванию функционала. И вторичку никто не отменял.
31.03.202517:08
Кстати в Recraft тоже можно делать мокапы.

А ещё они добавили стили на векторное лого. Чтобы воспользоваться:

* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.

Сайт Recraft
Твит
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!

Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.

Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.

InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.

Flora: добавили стили для смешивания рефов.

AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.

SuperSplat: обновили экспорт в HTML Viewer.

LeX-Art: модель для генерации качественного текста на картинках.

Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.

LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.

OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.

ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.

Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).

Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.

Luma: теперь версии контента группируются в ветку.

Pika: выкатили фичу для генерации селфи с молодым собой.

Kling: обновили сайт и добавили возможность генерить аудио под видосы.

🎸 ЗВУК 🎸

Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.

Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.

Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).

🤖 ЧАТЫ 🤖

LMStudio: добавлена поддержка мульти-GPU.

Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.

DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.

DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.

OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.

Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.

Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).

Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.

Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
27.03.202519:14
Ну и ещё на тему игр.

В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.

Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.

Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает, какой промт что писать, можно так в начале и застрять.

Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.

Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.

Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры
26.03.202516:46
Ideogram: выпустили генератор картинок Ideogram 3.

Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные.

Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции.

Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление.

Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры. Даже холст (Canvas) свой есть.

Определённо камень в огород Recraft. Подписка $20/мес.

Сайт
Анонс
25.03.202516:43
Reve: новый генератор изображений, забравшийся в лидербор txt-2-img моделей. При этом проект в превью режиме.

Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.

На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.

На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.

Детективное расследование кто стоит за проектом здесь.

Дают 20 бесплатных генераций.

Сайт
03.04.202516:25
У Nvidia появился конкурент на рынке видюх. Причём работает как в консьюмерском сегменте так и в серверном. И совместим со многими фичами Nvidia, хотя дешевле.

И это не AMD, Intel, или китайский .

На днях выложу пост.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
31.03.202516:02
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.

Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.

Сайт Freepik
Сайт Packshot
28.03.202517:58
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.

Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения

На втором видео с помощью плагина добавили сплат в реальный футаж.

Гитхаб
Сайт
Твит
27.03.202517:50
Листать твиттер сейчас Гиблое дело, ну и коль речь зашла про игры.

Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.

Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?

Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.

Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.

Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.

Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.

Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.

И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.

Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.

Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.

Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.

Игра Project Prismatic
AI Илона Маска — Grok — теперь официально в Telegram. Я писал про него здесь.

Доступен бесплатно в боте @GrokAI владельцам премиумов.

Лимиты не указываются. Сам он говорит, что ограничен только 4096 символами в посте телеги.

Grok
Твит
Ну, и пока мы недалеко отошли от LTX.

Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.

В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.

Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.

Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.

Гитхаб
Хаггинг
Shown 1 - 24 of 111
Log in to unlock more functionality.