Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Николаевский Ванёк
Николаевский Ванёк
Инсайдер UA
Инсайдер UA
Метаверсище и ИИще avatar

Метаверсище и ИИще

技术
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置Росія
语言其他
频道创建日期Серп 10, 2017
添加到 TGlist 的日期
Лист 11, 2023
关联群组

"Метаверсище и ИИще" 群组最新帖子

Это вам за то, что не молитесь.
Tencent Hunyuan Image 2.0 Realtime генерация
Krea Lipsync.

Похоже в Креа завозят липсинк.
Не свой, аггрегируют модель из Hedra.
На входе картиночка и звук\текст.
Надо тестировать разрешение и длительность.
Если нет 720р и длительности выше минуты, то проще в Хедре делать.

@cgevent
#исследования Некоторое время назад команда Google Research в коллаборации с другими лабораториями опубликовали в Nature исследование, в котором попытались найти сходства между паттернами активации нейронов в реальном мозге во время восприятия и производства речи и внутренними представлениями (эмбеддингами) трансформерной модели, распознающей речь (speech-to-text).

Несмотря на то что мозг и трансформерная модель имеют совершенно разную природу, исследователи обнаружили удивительно стойкую корреляцию. Кроме того, в дальнейшем это позволило предсказывать активность мозга по получаемым эмбеддингам.

Когда человек воспринимает речь, сначала активируются слуховые области коры (например, верхняя височная извилина), и эта активность хорошо предсказывается акустическими эмбеддингами (speech embeddings) модели.

Когда начинается осмысление сказанного, активируются языковые области, такие как область Брока, активность которых хорошо предсказывается языковым эмбеддингами (language embeddings).

При намерении произнести какую-то фразу, наоборот, сначала наблюдается активность в области Брока, которую можно так же предсказать по языковым эмбеддингам.

Затем активируется моторная кора, которая отвечает за подготовку артикуляции — хорошо прогнозируемая акустическими эмбеддингами модели.

Наконец, после произнесения слова, активируются слуховые области, когда человек слышит собственную речь — и это снова соответствует акустическим эмбеддингам.

В блоге Google Research есть хорошие анимации, наглядно объясняющие всю последовательность.
https://openai.com/index/introducing-codex/

— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount.
🌟 Поддержать канал
И поздравить нейродеда
Уюхуху, Неродед-сорокет!

Ни разу не закупал рекламу, не участвовал в папках, шмапках, аппках, рос органикой, и вот достукался.

Я не загоняю этим каналом пользователей на свои курсы, сайты, проекты, а пишу по двум причинам:

1. Чтобы на забыть. Написал про что-то - лучше запомнил.

2. Мне нравится писать. Я могу позволить себе писать с ошибками, как гопник, а могу писать грамотно (у меня та самая врожденная грамотность, а на деле особый вид памяти). Есть чувство языка, которое приносит мне, и надеюсь вам, удовольствие.

Если вам тоже нравится, можете размахнуться и со всей дури жбакнуть по кнопке Донат.
Либо криптой или Тонами.
Либо звездами, по моде.

В коменты наваливаем позитив.

А я продолжу...

@cgevent
KeySync: Автодубляж.

На входе НЕ картинка, на входе видео с речью на любом языке. И аудио-файл на другом языке.
На выходе - переозвучка с попаданием в губы.
Основная фишка - уменьшение ошибок и потерь в эмоциях при переозвучке.

Код есть, все есть. Демо тоже, но у меня не завелось.

Авторы из Польши во главе с Антоном Бигдатым.

https://antonibigata.github.io/KeySync/

@cgevent
Нейродедовость

Промпт: A stylized figure of a [SUBJECT] made of glowing, abstract red and orange energy particles, with radiant and bright illumination effects, set against a deep, dark background. The subject appears translucent and ethereal, with dynamic lighting, shimmering, and a sense of cosmic elegance in portrait mode

Подставляете вместо subject любую нейрохрень. Можете потом забрать раскучерявленный промпт из chatGPT и кормить его в другие генераторы.

Фас - Gemini\Imagen3
3/4 - chatGPT

Люблю частицы.
И большого Лебовскаго.

@cgevent
А вот и первые ласточки применения ИИ в новой нормальной рекламе.

Гугл кормит свои видосы в Гемини.
Она смотрит, где юзер больше всего залипает, так называемые Пиковые Точки.

В каждом видео есть моменты, которые требуют наибольшего внимания, и зрители часто переходят сразу к этому разделу или вскоре уходят. Эти моменты также были бы самым идеальным местом для показа рекламы и получения наибольшего охвата, поэтому YouTube вводит «Peak Points».

Гемини теперь знает про вас не только что вы смотрите, а как вы смотрите и на что вы смотрите. И ну вставлять рекламу.

1Xbet такие: жалкие плагиаторы.

https://9to5google.com/2025/05/15/youtube-ads-gemini-peak-points-placement/

@cgevent
Manus: Думающий генератор картинок.

Про Мануса не написал только ленивый - это самый распиаренный AI Agent (не путать с ассистентом), которому можно поставить задачу и он пойдет решать ея в интернетик. Есть уже опенсорсные аналоги, ибо это по сути оркестратор API вызовов разных нейросеток (в основном платных) и платить вам придется по любому.

Очень грубое отличие агента от ассистента состоит в том, что агент делает НЕСКОЛЬКО действий в ответ на поставленную задачу(промпт), не спрашивая у вас мнения, какие действия и в какой последовательности предпринять. "Сам решает" какие апи вызовы дергать, и, главное, в какой последовательности.

Вот держите черри-пикнутое демо работы Мануса, включающее действия по генерации картинок. То есть картиники здесь генерятся НЕ по промпту, и НЕ по команде "сгенери картинку, тварь", а как внутренний этап решения более общей задачи.

Тут 4 задачи и все довольно разные. Подбор мебели из Икеи по входной фотке (генерация картинки с мебелью, как часть задачи), маркетинговая стратегия нового продукта (внутри происходит дизайн и генерация бутылки, потом дизайн и генерация постеров, все как промежуточные этапы), третий кейс самый прикольный - вот четыре фотки моего разного барахла(4 единицы), которое я хочу продать в интернетике - Манус берет фотки, генерит по ним описания и новые фотки, и создает веб-страницу, ибо юзер попросил продать всю эту шнягу. Генерация картинок, часть процесса. Последний кейс банальный - книжка с картинками на заданную тему. Там Манус сам решает за картинки, промпты, частоту, объем текста.

Я посмотрел покадрово три раза. Не увидел, что они используют для генерации картинок. В принципе неважно, суть басни в том, что он САМ решает, что генерить, как генерить, где генерить, пишет промпты, валидирует, возможно генерит заново. Думает в общем.

За сам Манус: его сейчас открыли для всех, 1000 кредитов за новый акк, и 300 в день. Но это ни о чем. Он очень дорогой и очень медленный. Юзеры пишут, что задача может решаться 16 дней, а счет приходит на тысячи и тысячи кредитов.

Все как у людей, все как у людей. Долго, дорого, с ошибками.

Но это пока. Стоимость аренды Мануса уже приближается к стоимость работы фрилансера с Фивера. Пройдет год и разница в цене будет 1:100. Вот тогда поговорим.
https://manus.im/

@cgevent
Сегодня в 18:00 по мск openAI будет троллить программистов и Гугл.

1. Почему программистов.
Потому что они пишут в своем твитторе: "это для разработчиков и тех, кто собирается ими стать".

2. Почему Гугл.
Потому что они постоянно делают лайфстрим с чем-то очень эффектным как раз накануне Google I/O или накануне гугловых анонсов.

@cgevent
Пурдюбик кубик.

Это дикое сломо. В реальности робат собирает кубик Рубика за, внимание 0.103 секунды ИЗ ЛЮБОГО положения граней. С помощью computer vision.

Посмотрите момент вначале и в конце.

Итак.

Студенты Университета Purdue построили робота Purdubik's Cube, который собрал(решив по дороге) кубик Рубика за 0,103 секунды, установив 21 апреля 2025 года мировой рекорд Гиннесса.
Робот использует комп. зрение и алгоритмы для решения кубика в режиме реального времени, а не только заранее запрограммированные движения.

Ну, за рекорды.

@cgevent
11labs сделала очень забавный и простой продукт.

SB-1 Infinite Soundboard.

Это типа драм-машинки, только вы можете генерить звуки промптами и добавлять их на кнопки.

А потом смешивать их.

Бесконечный источник закадровых шумов.

https://elevenlabs.io/sound-effects/soundboard

@cgevent
转发自:
Neural Shit avatar
Neural Shit
Это вам за то что не молитесь

记录

16.05.202523:59
40K订阅者
12.04.202523:59
300引用指数
11.05.202513:43
17.1K每帖平均覆盖率
25.01.202523:59
14.6K广告帖子的平均覆盖率
09.02.202523:59
25.84%ER
11.05.202513:42
43.11%ERR
订阅者
引用指数
每篇帖子的浏览量
每个广告帖子的浏览量
ER
ERR
ЛИП '24ЖОВТ '24СІЧ '25КВІТ '25

Метаверсище и ИИще 热门帖子

14.05.202513:06
Держите довольно ловкую скачивалку видосов и аудиосов с ютюба, тиктока и даже твиттора.

Это web app, ничего устанавливать не надо. Работает в браузере и не вываливает на вас рекламу казино.

https://cobalt.tools/

@cgevent
22.04.202521:35
Anthropic вчера опубликовал, а сегодня на хабре перевели отличный гайд по использованию агентов в программировании, чтобы не ругаться на тупой chatgpt или Claude, когда он вам пол-проекта перепишет :)
Например там про то, чтобы план составить сначала:
https://habr.com/ru/articles/902422/
Это вам за то, что не молитесь.
转发自:
Neural Shit avatar
Neural Shit
Это вам за то что не молитесь
Krea.ai, что ты делаешь, прекрати!

Krea Stages - вытаскиваем из картинки 3д, генерим 3д, и трансформируем 3д.

И даже деформируем!

Да, вам не почудилось. Это паранейроавториг.

Поглядите на зайца-побивальца.

Может пора эксгумировать Метаверс?

@cgevent
HeyGen Avatar IV - это просто огнищще.

На входе ОДНА фотка и ваш текст.

Всё.

Похоже тема липсинка близка к закрытию.

Но это еще не все. Оно работает с анимационными персонажами, и даже с животными! Как они это сделали, не понимаю.

И да, русский поддерживается.

https://x.com/HeyGen_Official/status/1919824467821551828

@cgevent
转发自:
Data Secrets avatar
Data Secrets
12.05.202519:22
Китайский агент Manus с сегодняшнего дня открыт для всех без листа ожидания

Про самого агента и его особенности мы писали вот тут. Напоминаем, что это реально автономный и универсальный ИИ-агент, который по сути представляет из себя Cursor, Operator и Deep Research в одном флаконе.

Кроме того, агент частично бесплатный: каждый день они выдают по 300 кредитов на пользователя (это примерно одна задача средней сложности), а при регистрации единовременно начисляют 1000 кредитов.

Пробуем первыми тут

P.S. Для входа нужно включить VPN, а затем верифицировать номер телефона. С российскими номерами тоже работает, если выбрать в списке стран Казахстан.
27.04.202507:54
Нейропрожарка

Freya - Кукла

📽 Нейровидеоклип
📕 Слова - ARTESS
💻 Все остальное сделали нейросети!

chatGPT, suno, krea, kling, runway, fotopea, dzine, magnific, topaz.

Всех приветствую. Хочу рассказать немного о себе и о клипе.

Меня зовут Артем, и когда то очень давно (10 лет назад). Я занимался музыкой, а именно рэпом. Но так же писал просто песни. А так как петь я не умею, все так и лежало в столе все это время.

И вот полгода назад я познакомился с нейросетями. И ушел в них с головой. И первые впечатления конечно были, вау, что это за магия. Восторг!!! Живые котики)))

Спустя время, когда я достаточно разобрался. Пришел к выводу, что нужно делать что то посерьезнее, но нужно было понять что. И вот я вспомнил про свои тексты. Решил дать им вторую жизнь, я петь не умею, но умеет нейросеть.

Теперь о самой работе.

Общее время около примерно 40 часов.

12+- часов ушло на генерацию песни, задача была именно ее сгенерировать, без каких либо правок.
22+- часов на генерацию изображений и видео.
6+- часов на монтаж

И еще больше цифр.

7000 кредитов - клинг
4000 кредитов - суно
15000 кредитов - фрипик(магнифик)
Ранвей - безлимит
Креa - 20% от максимальной месячной подписки
Топаз годовая подписка
остальное по мелочи

Точную сумму в деньгах не просчитать. Но думаю около 20к₽.

Наваливаем коменты в коментах.

@cgevent
25.04.202508:04
Veo2 - лучший

Рубрика крутые подписчики.

Тут Егор прислал коммерческий клип сделанный на Veo2. Я попросил его рассказать, как это было сделано, чтобы не было "смотрите чо нейросети творят".

Итак, слово Егору и его оценкам преимущества Veo2 над всеми остальными:

Давече решил обкатать на полную катушку Veo2 text2video, прилетел заказ на мини клип, для песни, на рекламный ролик. Такое мы любим,такое нам интересно,когда ещё проникаешься по вайбу в трек, так вообще огонь. Что удалось понять за данный эксперимент. Гугл явно сейчас в лидерах по генерации видео, тут вы можете спорить или нет, но даже новый Клинг 2.0 так не умеет, я его успел потестировать.

А именно, Veo2 круто помнимает промпт, он круто соблюдает атмсоферу видео и даже t2v, работает по персонажами, лучше чем драный Midjourney, который я так люблю и одновременно ненавижу за их наплевательское отношение,на все просьбы от их пользователей.
Так же отмечу, что это дороже, чем всё остальное, но всё еще в разы дешевле, чем организовывать съемку. И да, ждём от них нормальное разрешение, потому что выглядит круто, но качества не хватает.

Ушло примерно 4-5 дней. Чисто генерации на Veo2 и переходы Клинг Кейфрэйм. Только Txt2video, персонажа сохранял по детальному описанию внешности, выбирал максимально карикатурного, что бы было больше деталей, которые при бросании в глаза не сильно отвлекают от того, что он немного отличается.

Есть 2 подсъема от заказчика, на 2 секунды, которые с телефоном, приложением и наливанием воды из бутылки, остальное все генерации, всё Txt2video(ну кроме переходов в клинге, там первое и последнее изображение брал)
Хочу отметить, что радует малое количество брака, хоть и дорого, но обычно он очень хорошо понимает промпт, главное соблюдать в каждом кадре точное описание местности и персонажа. А ну и шакалит качество он знатно, так как у них пока максимально это 720р.


@cgevent
03.05.202521:20
Эппле показала новую рекламу своего AI - Apple Intelligence.

Это настолько плохо, что верится с трудом.

Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.

Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).

Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.

Хочется спросить, это все серьезно в 2025 году?

Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".

Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?

Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.

Во всем этом есть тем не менее один огромный плюс.

Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.

Жаль только, что через призму Ген-мать-их-моджи.

У меня всё.

@cgevent
05.05.202506:46
Месть джунов: Revenge of the junior developer

Интернет взрывается вот такой статьей про вайбкодинг:


И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.

А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.

Ниже саммари:

1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.

3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.

https://sourcegraph.com/blog/revenge-of-the-junior-developer

Я бы заменил слово джуниоры на просто "люди с новым мышлением".

@cgevent
07.05.202510:56
HeyGen Avatar IV - вот держите версию с животными. Это же просто космос.

Я помню был такой фильм "Кошки против собак" и Женя Вендровский рассказывал в конце нулевых, как они мучились, чтобы заставить тварей говорить (у них челюсти не подходят для этого). Риг был на миллион, а бюджет на графику и того дороже.

А сейчас - апажалста!

Версия в 4K для любителей кино:
https://www.youtube.com/watch?v=dpbP3Kj79ig

@cgevent
OpenAI обновили документацию про то, какую модель оптимально использовать в том или ином случае.

GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.

GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.

o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.

o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.

o3 - самый мощный движок для сложного, многоступенчатого анализа.

o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.

https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits

Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.

@cgevent
Новая опенсорсная и очень эмоциональная модель для озвучки(TTS).

Dia - это модель преобразования текста в речь с 1,6 млрд параметров, созданная в Nari Labs.

Есть код:

https://github.com/nari-labs/dia

На взрослых GPU может выдавать реалтайм. Жрет 10GB, но разрабы обещают кванты.

Разрабов, кстати, 1.5 человека. Один на парт тайме.

Есть неофициальное демо, официальное висит.

https://huggingface.co/spaces/mrfakename/dia-1.6b

@cgevent
Офигенный пример из нового Gemini 2.5 (I/O Edition)

- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.

Поглядите на эти анимации.

Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.

I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.

@cgevent
登录以解锁更多功能。