
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Psy Eyes
Креатив + AI + Web3... и мемы
Личная страница @AndreyBezryadin
Личная страница @AndreyBezryadin
Рейтинг TGlist
0
0
ТипПубличный
Верификация
Не верифицированныйДоверенность
Не провернныйРасположение
ЯзыкДругой
Дата создания каналаГруд 14, 2019
Добавлено на TGlist
Трав 24, 2024Прикрепленная группа

Psy Eyes ♦️ Чат
609
Рекорды
21.04.202523:59
5.5KПодписчиков31.01.202523:59
300Индекс цитирования04.09.202423:59
10.2KОхват одного поста15.03.202516:19
837Охват рекламного поста23.11.202423:59
5.55%ER04.09.202423:59
240.71%ERR24.03.202519:09
Riffusion: развивается и быть может даже не даст заскучать Suno и Udio.
Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен
Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).
Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.
И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.
Плейлист с примером замененных элементов.
Сайт
Твит
Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен
Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).
Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.
И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.
Плейлист с примером замененных элементов.
Сайт
Твит
28.03.202514:06
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
Как оно в деле можно почитать тут.
Твит
Сайт
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D
)* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.
- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.
- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".
Как оно в деле можно почитать тут.
Твит
Сайт
03.04.202515:42
Натренировал Wan на своём компе по фоткам с собой.
Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.
Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.
Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.
Что по скоростям:
На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.
Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин
Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек
Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.
На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.
Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.
Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.
Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.
Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.
Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.
Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.
🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.
Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.
Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.
Что по скоростям:
На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.
Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин
Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек
Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.
На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.
Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.
Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.
Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.
Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.
Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.
Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.
🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
31.03.202516:02
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
24.03.202512:51
Topaz: представили софт для апскейла изображений Gigapixel 8.3.
Что нового:
* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.
* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.
* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.
Апкейлить можно как локально, так и с обработкой в облаке.
Сайт
Твит
Что нового:
* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.
* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.
* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.
Апкейлить можно как локально, так и с обработкой в облаке.
Сайт
Твит
31.03.202517:08
Кстати в Recraft тоже можно делать мокапы.
А ещё они добавили стили на векторное лого. Чтобы воспользоваться:
* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.
Сайт Recraft
Твит
А ещё они добавили стили на векторное лого. Чтобы воспользоваться:
* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.
Сайт Recraft
Твит


30.03.202518:18
Дайджест:
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
28.03.202517:58
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
25.03.202517:31
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.
Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.
Самим можно попробовать на странице с их доками. На русском пашет, я потестил.
Демо
Сайт
Твит
Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.
Самим можно попробовать на странице с их доками. На русском пашет, я потестил.
Демо
Сайт
Твит


24.03.202517:41
Meshy: в превью режиме запустили V5 своего генератора 3D.
В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.
В честь запуска дают 50% скидку на подписку, промокод
Сайт
В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.
В честь запуска дают 50% скидку на подписку, промокод
MESHY5
.Сайт
28.03.202517:04
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
22.03.202515:02
Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
24.03.202513:55
Synclabs: тизерят V2 своей липсинк модели.
Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.
Чтобы ввалиться в бету нужно написать им в личку в твиттере.
Твит
Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.
Чтобы ввалиться в бету нужно написать им в личку в твиттере.
Твит
Войдите, чтобы разблокировать больше функциональности.