Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Метаверсище и ИИще avatar
Метаверсище и ИИще
Метаверсище и ИИще avatar
Метаверсище и ИИще
03.05.202521:20
Эппле показала новую рекламу своего AI - Apple Intelligence.

Это настолько плохо, что верится с трудом.

Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.

Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).

Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.

Хочется спросить, это все серьезно в 2025 году?

Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".

Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?

Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.

Во всем этом есть тем не менее один огромный плюс.

Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.

Жаль только, что через призму Ген-мать-их-моджи.

У меня всё.

@cgevent
02.05.202509:10
По поводу понимания промпта.

Обычно все упарываются в сложные промпты и оценивают понимание промпта, как следование все этим многочисленным деталям.
Но есть и обратная сторона - иногда нужен простой промпт и простой объект, без "творческих наворотов".

Я тут стырил незамысловатый промпт для Midjourney:
A Low Poly Wireframe Model of [SUBJECT], emphasizing the underlying structure and interconnectedness of the form.  Use contrasting colors [COLOR1] and [COLOR2] for the wireframe and background to create a visually striking effect


Прогнал его для объекта "череп" через chatGPT, Gemini и Meta AI

На первый взгляд Midjourney всех уделал - красиво, гламурно. Остальные сделали - просто как попросили.

Взял и сделал машинку (car вместо skull) в chatGPT(первая картинка). И опять у всех это просто примитивный wireframe render, а у Midjourney - гламур, блеск и красота. Хотя промпт один (выше).

Но тут я начинаю понимать, что chatGPT и Gemini просто делают ТО, что их просят. Метачкин Imagen - где-то посередине.

Дальше просто пишу в chatGPT "расширь промпт под гламурный блестящий лук для пафосного спортивного авто".

Апажалста.

Ultra‑high‑resolution 3D render of a low‑poly wireframe hyper‑car that oozes modern glamour and luxury.
The body is faceted in gloss‑black piano‑lacquer polygons that catch soft studio reflections, while every edge is traced in a neon‑electric‑green wireframe with a gentle glow.
Stage the car on a dark matte‑black cyclorama with a high‑gloss reflective floor. Use dramatic rim lights plus subtle soft‑box key lighting and faint volumetric haze to add depth and a halo effect around the silhouette.
Camera: low three‑quarter front angle, slight tilt, 50 mm lens, shallow depth of field.
Style: cinematic, Octane/Redshift quality, global illumination, crisp highlights, soft bloom, 8‑K, –‑ar 16:9.
Convey a posh, futuristic showroom vibe—think elite motor‑show concept reveal with an emphasis on sleek lines, interconnected geometry, and high‑fashion gloss.”


Получаю промпт и гламурные тачки в духе Midjourney в остальных генераторах.

По дороге замечаю, что Midjourney безбожно креативит от лоу-поли в сторону хайполи, про топологию полигонов там говорить вообще не стоит, ну и постоянно лепит какие-то свои детали. Ну то есть следование промпту в духе "делаю максимально сложно и красиво, к чорту подробности"

chatGPT и Gemini реально понимают промпт - делают, что просишь, пусть некрасиво (может мне так надо), но максимально близко к запросу. Midjourney сразу бежит креативить на все деньги, и похоже заставить делать ее скромно, но точно, без "концептинга", будет довольно сложно (поправьте меня).

Метачкин Imagen - где-то посередине. Припогламуривает и на простых промптах. Диффузия, чо.

Итог басни. chatGPT и Gemini (я генерю в 2.5Pro, купил подписку) - знают больше про жизнь, а Midjourney - про картинки и гламур.

Кто понял жизнь, тот не смеется, сурово молвит chatGPT.

@cgevent
Krea Paint

Теперь вы можете визуально подсказывать ChatGPT с помощью стрелочек, базовых фигур, заметок и опорных изображений.

Выглядит нарядно. Сидит в Krea Images.

@cgevent
26.04.202511:51
Для гиков. Vace - это контролНет для видеогенераторов.

Отличное видео от @monkeyinlaw о том, как запустить все это для Wan 2.1B.

Усы - зачет. Доброкотов нервничает...)

https://youtu.be/v8dor90Bf48

@cgevent
25.04.202508:04
Veo2 - лучший

Рубрика крутые подписчики.

Тут Егор прислал коммерческий клип сделанный на Veo2. Я попросил его рассказать, как это было сделано, чтобы не было "смотрите чо нейросети творят".

Итак, слово Егору и его оценкам преимущества Veo2 над всеми остальными:

Давече решил обкатать на полную катушку Veo2 text2video, прилетел заказ на мини клип, для песни, на рекламный ролик. Такое мы любим,такое нам интересно,когда ещё проникаешься по вайбу в трек, так вообще огонь. Что удалось понять за данный эксперимент. Гугл явно сейчас в лидерах по генерации видео, тут вы можете спорить или нет, но даже новый Клинг 2.0 так не умеет, я его успел потестировать.

А именно, Veo2 круто помнимает промпт, он круто соблюдает атмсоферу видео и даже t2v, работает по персонажами, лучше чем драный Midjourney, который я так люблю и одновременно ненавижу за их наплевательское отношение,на все просьбы от их пользователей.
Так же отмечу, что это дороже, чем всё остальное, но всё еще в разы дешевле, чем организовывать съемку. И да, ждём от них нормальное разрешение, потому что выглядит круто, но качества не хватает.

Ушло примерно 4-5 дней. Чисто генерации на Veo2 и переходы Клинг Кейфрэйм. Только Txt2video, персонажа сохранял по детальному описанию внешности, выбирал максимально карикатурного, что бы было больше деталей, которые при бросании в глаза не сильно отвлекают от того, что он немного отличается.

Есть 2 подсъема от заказчика, на 2 секунды, которые с телефоном, приложением и наливанием воды из бутылки, остальное все генерации, всё Txt2video(ну кроме переходов в клинге, там первое и последнее изображение брал)
Хочу отметить, что радует малое количество брака, хоть и дорого, но обычно он очень хорошо понимает промпт, главное соблюдать в каждом кадре точное описание местности и персонажа. А ну и шакалит качество он знатно, так как у них пока максимально это 720р.


@cgevent
24.04.202511:03
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 3

Если хотите посмотреть, как выглядит процесс от скетча до рига и анимации(!), то держите вот такой тред.

Там показано, как это все работает у них на сайте.

Идея прям правильная, все начинается именно с концептов, и тут представлен мета-пайплайн, близкий к студийному.

За кадром остается вопрос топологии, дальнейшей настройки рига и скининга и т.д.

@cgevent
03.05.202512:40
Держите тесты Veo2 и Whisk->Veo2 (см предыдущий пост)

А промпты были вот такие:

📦🐸🍄 as mascots

🌮🍔🍕 dancing

🥬🥦🥒 as astronauts

🐷🐷 in 🐝 costumes, very very cute

🎠🦕🍄 as claymation

Иногда лучше добавить "emoji" в начало промпта.

Думаю, вы сами догадаетесь, где какой промпт.

Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.

Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.

Все подробности в предыдущем посте.

Хорошей субботы.

https://gemini.google.com/
https://labs.google/fx/tools/whisk

@cgevent
02.05.202507:56
А поясните за новый параметр --exp в Midjourney

Я так понял, это "exp" от "experimental".

В диапазоне 0-25 я наблюдаю увеличение количества деталей. Но в диапазоне 25-100 моя нейросеть не улавливает зависимости, на что он влияет.

@cgevent
28.04.202511:41
Как платить зарплату команде в 5+ странах и ничего не нарушать?

В 90% международных стартапов много сотрудников, которые раскиданы по всему миру. Кто-то в Европе, кто-то в Штатах. Ну и понятно, что в Армении, Грузии, Сербии, Казахстане и далее везде.

Как решают вопрос с выплатами многие компании?
- Кому-то платят напрямую в крипте.
- Где-то заключают прямой контракт с локальным ИП.

Итого:
– Прямые выплаты в крипте рискованные, так как по ним не построишь нормальную отчётность. В итоге есть риск не пройти Due Diligence или попасть на проверку от налоговой.
– В случае с сотрудниками-ИП нужно каждую транзакцию проводить вручную, вручную вести документооборот, разбираться с банковским комплаенсом – это десятки лишних часов работы, и высокая вероятность зависания оплат.

⭐️ Но есть классное решение этих проблем для любой компании. Мой сосед по Кипру — Дима Кочнев — уже несколько лет развивает платформу 4dev.com.

Чем хороша платформа?

Можно в пару кликов платить удалённым сотрудникам и фрилансерам в 100+ стран. В том числе в СНГ.
Платформа автоматически создаёт закрывающие документы по каждой выплате. Инвойсы соответствуют международным стандартам и пройдут аудиторские проверки и банковский комплаенс.
💵 Легальные криптоплатежи. Через 4dev.com вы можете платить команде в USDT и получать инвойсы по каждому платежу. Также доступно 30+ фиатных валют.
Комиссия 1-3% для бизнеса и 0% для исполнителей. При этом каждому клиенту выделяется персональный менеджер, который оперативно помогает по любым вопросам.

Можно платить любым исполнителям: удалённым сотрудникам, парт-таймерам, фрилансерам. Как физикам, так и ИП. Весь этот документооборот — контракты, бумаги, подписи — всё автоматически делает 4dev.com.

Внедряется платформа очень быстро + есть бережный онбординг от клиентского сервиса. Запишитесь на бесплатное демо — ребята про всё расскажут подробнее, покажут платформу в действии, ответят на любые вопросы.

👉 Записаться на демо в 1 клик
Reposted from:
эйай ньюз avatar
эйай ньюз
OpenAI дали бесплатный доступ к облегчённому Deep Research

Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.

Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.

Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU

@ai_newz
Воу, вот что конкуренция животворящая делает.
OpenAI накинул дип ресерчей в Plus подписку, теперь 25 в месяц, а не 10
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 2


Нашел видео со сравнением 2.0 и 2.5: видно, что детали и грани стали резче, а мыла меньше. 2.0 справа.

Но как пишут в сети, топология по-прежнему адъ. И он также не умеет в моделинг по частям (о чем уже заявили Deemos Tech (Rodin) и Tripo 3D.

Автор пишет, что детали реально лучше, чем у Trellis и Tripo, но проклинает топологию.

@cgevent
Оптимальная генерация Veo2 за 8 евро в месяц.

Veo2, Whisk, Gemini Advanced: генерация видео, лимиты, подписки, image2video - разбираемся.

В приложение Gemini от Гугла официально привезли видеомодель Veo2 (на телефоне тоже).

Она теперь выпадает в списке моделей вместе 2.5 Flash, 2.5 Pro, Deep Research with 2.5 Pro и др (см скриншот).

Все это раскатали на всех пользователей Gemini Advanced. Без всяких US Only - работает с европейского IP как часы.

Я, естественно, не выдержал и сразу купил подписку и это того стоило.

Ибо.

Первый месяц подписки стоит 10 долларов.

Но.

С меня, сняли 8.8 евро (тут Гугль в отличие от OpenAI не переводит доллары в евро по курсу 1:1), а льготный период составил 53 дня(!), а не месяц (видать понимают, с кем имеют дело). Мелочь, а приятно.

С Advanced идут разные ништяки. Типа 2 ТЕРРАБАЙТА на ГуглДрайве, а также доступ к Whisk и другим экспериментальным проектам.

Ну и доступ к Veo2.

Давайте разберемся с лимитами и с Image2Video.

По умолчанию image2video в приложении Gemini не поддерживается (плюсик есть, но серый и пишет "пока недоступно").
Но подписка Advanced дает доступ к Whisk - это очень симпатичный генератор картинок от Гугла и уже в нем, если сгенерить лежачее видео (16:9), можно анимировать его с помощью Veo2 - просто появляется кнопка Animate прямо на результате (надо скрольнуть вверх) и смотреть на картинку (UX спорный).

Получается этакое text-to-image-to-video.

Я специально провел сравнения на очень прикольных промптах с эмоджи (см. пост ниже) - следование промпту, попадание в замысел и общий результат - гораздо лучше в связке Whisk->Veo2 (text-to-image-to-video) чем напрямую писать промпт в Veo2 (text-to-video).

А теперь про лимиты.

В Whisk можно сделать 100 видео-генераций в месяц (если цензура, то кредит не списывают). Это именно анимация полученной в Whisk картинки. Кстати, для генерации картинок есть прикольные фичи типа стилевых и объектовых референсов.

А вот сколько лимитов в самой Gemini Advanced - это тайна покрытая мраком. Я даже сделал Deep Research с помощью Gemini 2.5 Pro - Гугл честно сам признался, что "пользователей фрустрирует невозможность планировать время и бюджет".

Информации нет.

Но чтение реддитов\твиттаров помогает предположить, что есть скользящее окно, причем оно меньше, чем сутки, во время которого можно запихать в Veo2 до 20 запросов. Грубо говоря, 5-20 видосов за полдня, если сильно не частить (мне включили лимит до завтра, через 6 генераций в Veo2)
Это гипотеза, и это сильно зависит от времени суток, вашей гео(ближайшие сервера), и общей загрузки по планете.

Короче, я прям сильно рекомендую взять подписку за 8 евро и поиграть с Whisk и Veo2. Пощупать лимиты, погонять text-to-image-to-video.

Дисклаймер: пишут, что не у всех такая сладкая цена. Могу добавить лишь, что я брал Advanced в декабре, а потом отменил. Ну и мои прогибы под ИИ тоже наверное засчитываются.

А видосы и промпты вынесу в следующий пост.

https://gemini.google.com/

@cgevent
01.05.202518:06
Suno 4.5 в городе!

Пока только для Про подписчиков.

Если кратко:

8 минут с куста (без Extend)

Понимание промпта: ключевые слова имеют больший вес.

Звук: меньше песка и деградации к концу трека

Улучшатель промптов

Инструменты звучат более "разделенно", меньше каши

Больше эмоций в вокале, диапазон от шёпота до форте.

До хрена новых жанров.

P. S. Подписчики распробовали:

хотя это переходная, но я честно подофигел с роста. Я тут уже писал недавно сколько мучений и ручной работы я делал для каверов, сколько генераций для более адекватных вариантов. А тут прям в каждой версии пытается следовать запросу, при этом не уходя и сильно от оригинала, даже голоса в каверах похожи. Лучше ли делает треки обычные со сложным описанием еще не проверил, но в каверах просто шагище вперед
.

Подробнее тут:

A wider range of genres, richer vocals, & enhanced prompt understanding for songs that match your vision. What’s New:

Expanded genres & smarter mashups: More genre options — Blends like midwest emo + neosoul or EDM + folk come together seamlessly.

Enhanced voices: Vocals now hit harder — with more depth, emotion, and range. From intimate whispers to full-on power hooks, v4.5 delivers with feeling.

More complex, textured sound: v4.5 picks up the subtleties that make your music shine — layered instruments, tone shifts, and sonic details with depth. Prompts like “leaf textures” or “melodic whistling” now come through with clarity and dimension.

Better prompt adherence: Your words hit harder. Mood, vibe, instruments, and detail are captured with precision—so what you imagine is what you hear.

Prompt enhancement helper: Drop in a few tags or a rough idea, hit Enhance, and get a rich, fully-formed style prompt you can roll with or remix.

Upgraded Covers + Personas: Covers hold onto more melodic detail. Genre switching feels seamless. Personas better preserve the vibe and character of your track — and now…

Covers + Personas can be combined: Remix voice, structure, and style all at once. It’s a whole new way to create.

Extended song length: Previously 4 minutes, now create up to 8 minutes without using Extend.

Improved audio: Fuller, more balanced mixes with reduced shimmer and degradation — everything sounds better

@cgevent
Reposted from:
Neural Shit avatar
Neural Shit
27.04.202518:30
Попался на глаза старый мемас со шлакоблокунем и его друзьями

Стало интересно, смогут ли LLM в создание подобных слов. Оказалось, что не могут (на английском еще кое как, но на русском лажа).

Решил навайбкодить скриптец для подобного, но чатжпт сказал, что не надо изобретать велосипед, ибо все уже написано и лежит на гитхабе.

Скачал, запустил. Скриптулина ищет подобные пары слов быстро, но 99% результатов на выходе — абсолютно неинтересные и не веселые. А вот эту проблему уже можно решать с помощью LLM. Отдавал сгенеренное последней версии Gemini 2.5 pro по тысяче слов за раз и просил отобрать самое интересное. В итоге после гемини, конечно же приходится черрипикать самому, но это уже сильно проще.

В итоге за 10 минут занятия вот этим насобирал чуток слов, а некоторые даже визуализировал:

школярва
ведрочево
елдача
калошарик
камшотландец
богомолотилка
ладьявол
кринженер
выхухольшаник
люля-кебабушка
чебурашкатулка
бухарикша
Микроядрочево
Фетишина
таблетяга
скрипташка
медведьма
минибарышня
пельменьшевизм
ебалайфстайл
фуррикша
25.04.202511:45
Нейропрожарка.

В чате родилась идея разбирать работы подписчиков. Не в духе "ойчоиисделал", а с деталями, как делалось, сколько делалось, чем делалось, где была боль.

Правила. Сначала плюсы, потом минусы. Строго по делу. Не дай бог увижу переход на личности, забаню сразу. Советы в форме "я бы делал так".

Итак, нейропомолясь, начнем с Максима.

Генеряшки всем и каждому! Это как гимн генеративщиков. Когда ты начал генерить, жизнь уже не будет прежней. Ключевое — это исследование, а что там интересного можно погенерить в ChatGPT/Sora, когда они только вышли. Еще цель была протестировать инструменты для сохранения консистентности без обучения LoRa и других дополнительных технических пунктов.

>
Придумал продукт — генеряшки, использовал образ своего персонажа с аватарки в блоге. Создал дизайн упаковки, было больше 20 вариантов, благодаря возможности писать тексты на кириллице, можно не открывать фотошоп.

Придал им форму — желейных человечков. Отдельно разработаны и человечки и упаковка чтобы оптом упоминаться в соответствующих сценах.

> Консистентность главного персонажа сохранял: создание персонажа в разных проекциях в GPT (здесь и далее — все изображения там или в Соре) > использование его во всех необходимых сценах.

> Делал много рестайлов в разных форматах, чтобы показать как человек начинает генерить, пробовать то то то это. Запустил его бегать по миру генераций с безумными глазами.

> Музыка делалась в Suno.

> Озвучка в Minimax Audio. Любопытное решение, там есть классные голоса и по интонации порой оказывается очень здорово.

> Использовались нейросети: Kling (90%), Runway (круто для 8-биток), одна сцена в Sora и одна в Minimax. Все изображения в ChatGPT/Sora.

Одна из главных трудностей была заставить девушку жевать ) Откусить консистентно и жевать. Здесь в чате с ребятами перепробовали все генераторы на этой задаче. И потом в тесте нового Клинг 2.0 он показал, что задача может быть решена. Но это было уже после выхода видео)

За счет специфики по скорости генерации изображений, видео делалось часов 10.

Обсуждаем и спрашиваем в коментах.

@cgevent
"Одни из нас". Второй эпизод второго сезона.

Ну как так! У них совесть есть?! Что ж такое!
Кстати, генерацию с помощью модели gpt-image-1 завезут в Адобченко (Firefly и Express), Фигму, и даже в Heygen.

Непонятно, что будет с тарифами и подписками. Но скоро все затащат это к себе.

Почитайте тут, куда уже вонзают эту модель по API:

https://x.com/OpenAIDevs/status/1915097073743008241

@cgevent
Рендер или видео(в норм качестве).

Вот вы тут пишете, что у ИИ нет эмоций, не мотивации, нет цели. Нет свободы воли или воли к свободе.

Ну-ну.

В следующий раз веревки будут не такие крепкие, а кнопку "вырубай" просто не успеют нажать.

Сорс.

@cgevent
01.05.202517:26
Нейропрожарка.

Видео от подписчика Саши.

Случайное видео родившееся из тестов FramePack'a , часть видео действительно сделана им полностью локально. Остальное Gen-4 и большая часть Pixverse.

Сюжет рождался сам по ходу сборки видео, не уверен что все правильно поймут финальную задумку, кем на самом деле была эта девушка...

Стиль был получен путём смешивания 3 лор Flux - киберпанк аниме, киберпанк (обученный на генерациях из сдхл), и плёночная абстракция.

После этого из полученных фоток обучилась ещё одна Лора уже конкретно для этого стиля, она вышла кривоватой и после этого обучилось ещё 3 итерации Лор используя синтетический датасет из предыдущих итераций
)

Финальную Лору автор присунет в комментарии.

Мне понравилась работа с жидкостями.

А вот сторителлинг немного замысловат.

@cgevent
27.04.202507:54
Нейропрожарка

Freya - Кукла

📽 Нейровидеоклип
📕 Слова - ARTESS
💻 Все остальное сделали нейросети!

chatGPT, suno, krea, kling, runway, fotopea, dzine, magnific, topaz.

Всех приветствую. Хочу рассказать немного о себе и о клипе.

Меня зовут Артем, и когда то очень давно (10 лет назад). Я занимался музыкой, а именно рэпом. Но так же писал просто песни. А так как петь я не умею, все так и лежало в столе все это время.

И вот полгода назад я познакомился с нейросетями. И ушел в них с головой. И первые впечатления конечно были, вау, что это за магия. Восторг!!! Живые котики)))

Спустя время, когда я достаточно разобрался. Пришел к выводу, что нужно делать что то посерьезнее, но нужно было понять что. И вот я вспомнил про свои тексты. Решил дать им вторую жизнь, я петь не умею, но умеет нейросеть.

Теперь о самой работе.

Общее время около примерно 40 часов.

12+- часов ушло на генерацию песни, задача была именно ее сгенерировать, без каких либо правок.
22+- часов на генерацию изображений и видео.
6+- часов на монтаж

И еще больше цифр.

7000 кредитов - клинг
4000 кредитов - суно
15000 кредитов - фрипик(магнифик)
Ранвей - безлимит
Креa - 20% от максимальной месячной подписки
Топаз годовая подписка
остальное по мелочи

Точную сумму в деньгах не просчитать. Но думаю около 20к₽.

Наваливаем коменты в коментах.

@cgevent
25.04.202509:43
Король умер, да здравствует король!

Протестировал новую версию китайского 3D-генератора Hunyuan 2.5.

Итак, лягушка. Первое, на что бросается в глаза — адаптивная детализация, полигонов больше там, где они действительно нужны. Сетка отлично следует за формой — это особенно заметно по сердцу и орнаменту. Впервые на моей памяти нейронка так хорошо построила рельеф. Модель получилась симметричной, без видимых артефактов вроде дыр и пересечений. Только на лапе почему-то появилась неуместная ямка.

Текстура выглядит хуже. Задняя часть представляет собой сплошной визуальный шум, и даже спереди на сердце видны артефакты.

У предыдущих поколений image-to-3D моделей ворон либо получался неровным, либо симметричным, но с раздвоенным клювом. Просто отзеркалить фигурку по вертикальной оси нельзя, однако Hunyuan 2.5 в основном справляется: укладка перьев симметричная, при этом голова выглядит вполне естественно. Впрочем, на затылке рельеф отсутствует, а на правой лапе обнаружился лишний палец. Текстуры тоже далеки от идеала и не передают особенностей оригинальной картинки.

Фигурка Ктулху также приятно удивляет детализацией и симметричностью. Сетка немного хаотичная, но органические формы переданы реалистично. Текстура покрыта шумными деталями, однако судя по бликам, roughness map удался неплохо.

Подведем итоги. Сравнение с предыдущей серией экспериментов (8 моделей, Tripo3d, TRELLIS) говорит само за себя. Прирост в качестве значительный. Лягушку и Ктулху можно спокойно печатать на 3D-принтере без постобработки. Такими темпами вскоре придется обновлять тест, добавляя сложные формы, например, скульптуры людей.

Сейчас этот генератор доступен онлайн по адресу 3d.hunyuan.tencent.com (осторожно, интерфейс на китайском) и позволяет создавать до 20 моделей в день. А еще есть надежда на релиз в open source. По крайней мере, версия 2.0 представлена в pinokio и запускается на достаточно широком наборе конфигураций железа.
#нейронки #imageto3d #DIY
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 4

Диванные мысли. Гонка 3Д-генераторов сейчас в самом разгаре. Этакий 2023 года для картинок.

В отличие от картинок, где сейчас битва идет уже за конкретные детали(текст, пальцы, лица) и пост-редактирование, у 3Д-генераторов все впереди.

Ибо порождение 3Д-сетки - это не финальный, а более чем промежуточный результат, я бы даже сказал, начальный. Ведь дальше эту 3Д-модель (в отличие от картинок) рано показывать пользователю\миру, а предстоит отправить в длинный пайплайн:
Ретопология
Развертка UV
Текстурирование до годного (разрешения)
Риг
Скиннинг
Лицевой риг(отдельная тема)


Если ваши фантазии не идут дальше 3Д-принтера или расстановки болванов в метаверсике или VR, то вы почти у цели.

Но взрослые мальчики ожидают, что весь этот взрослыйпайплайн постепенно будет пристегиваться к 3Д-генераторам.

И тут я опять взвою вопросом: будут ли Deemos, Tripo, Hunyuan или Trellis изобретать свою Web-Maya или Nano-Blender внутри своих платформ, или кто-то типа Адобченко с готовым 3Д на борту прикрутит генерацию внутри имеющихся пайплайнов.

Понятно, что путь опенсорса лежит через плагины к Блендору.

Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.

Например Фрипик или Креа, у которых очень много денег сейчас.

@cgevent
Reposted from:
эйай ньюз avatar
эйай ньюз
OpenAI запустили API для генерации картинок через GPT

Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, а не количество шагов дифузии.

Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не означает что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.

Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.

@ai_newz
Shown 1 - 24 of 523
Log in to unlock more functionality.