
Анатолий Шарий

Лёха в Short’ах Long’ует

Реальний Київ | Украина

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Инсайдер UA

Реальна Війна | Україна | Новини

Лачен пише

Анатолий Шарий

Лёха в Short’ах Long’ует

Реальний Київ | Украина

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Инсайдер UA

Реальна Війна | Україна | Новини

Лачен пише

Анатолий Шарий

Лёха в Short’ах Long’ует

Реальний Київ | Украина

Искусственный интеллект. Высокие технологии
Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого.
админ - @haarrp
@itchannels_telegram -🔥best channels
РКН: clck.ru/3FmsmC
админ - @haarrp
@itchannels_telegram -🔥best channels
РКН: clck.ru/3FmsmC
TGlist rating
0
0
TypePublic
Verification
Not verifiedTrust
Not trustedLocationРосія
LanguageOther
Channel creation dateJan 14, 2020
Added to TGlist
Jul 03, 2024Linked chat
ИИ
Искусственный интеллект
37
Records
08.02.202501:47
47.4KSubscribers11.03.202523:59
200Citation index07.04.202523:59
5.4KAverage views per post07.04.202509:38
5.4KAverage views per ad post28.02.202518:57
5.86%ER07.04.202516:41
11.39%ERRGrowth
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR


12.05.202517:01
Тра файл: мужик через GPT-4o составил текст извинения своей девушке, но слишком сильно доверился ИИ — забыл удалить одну строчку.
Комментарий очень красноречив 😂
Комментарий очень красноречив 😂


05.05.202511:04
🖥 Prompt Library здесь собраны лучшие промты на все случаи жизни
Всего более 500 промтов на все случаи жизни в одном месте.
Разделены на 9 категорий — бизнес, карьера (идеально для составления резюме), креатив, образование, здоровье, маркетинг, технологии, личный помощник и общее.
Сохраняем и бустим производительность тут.
Всего более 500 промтов на все случаи жизни в одном месте.
Разделены на 9 категорий — бизнес, карьера (идеально для составления резюме), креатив, образование, здоровье, маркетинг, технологии, личный помощник и общее.
Сохраняем и бустим производительность тут.
06.05.202508:03
🔥 Калифорнийский стартап объявляет о прорыве в области робототехники для повседневных задач с помощью ИИ π0.5 — модели «зрение-язык-действие».
Все, что видит робот, он видит впервые.
🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.
➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний
✔️ Подробнее про π0.5
Все, что видит робот, он видит впервые.
🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.
➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний
✔️ Подробнее про π0.5


23.04.202515:34
🔁 дублируем видосы бесплатно на любой язык — вышла новая нейронка Vozo и это просто подарок.
Это целый мультитул: перевод видео с сохранением голоса, можно сделать липсинк и субтитры. Из интересных фишек: поддерживает перевод сразу нескольких спикеров!
Внутри 39+ языков, среди которых и русский — делает как перевод с великого и могучего, так и на него. После регистрации отсыпают 30 кредитов, это где-то 3 минуты дублированного видео, что очень много.
Попробовать — здесь.
Это целый мультитул: перевод видео с сохранением голоса, можно сделать липсинк и субтитры. Из интересных фишек: поддерживает перевод сразу нескольких спикеров!
Внутри 39+ языков, среди которых и русский — делает как перевод с великого и могучего, так и на него. После регистрации отсыпают 30 кредитов, это где-то 3 минуты дублированного видео, что очень много.
Попробовать — здесь.


07.05.202512:02
Киберпанк стал реальностью: в Японии вырастили мозг, управляющий роботом
Учёные создали цереброид — миниатюрный мозг, выращенный из стволовых клеток. Его подключили к специальному чипу, превратив в настоящего киборга.
Этот мозг уже учится, выполняет команды и управляет роботом — словно кадр из научной фантастики.
Он функционирует почти как настоящий, хотя пока и обладает ограниченными возможностями.
Учёные создали цереброид — миниатюрный мозг, выращенный из стволовых клеток. Его подключили к специальному чипу, превратив в настоящего киборга.
Этот мозг уже учится, выполняет команды и управляет роботом — словно кадр из научной фантастики.
Он функционирует почти как настоящий, хотя пока и обладает ограниченными возможностями.


28.04.202511:26
@vistehno
06.05.202513:00
🤖 История нейросетей: от мечты до революции
Когда-то идея создать «машину, похожую на мозг», звучала как фантастика. Сегодня нейросети распознают лица, переводят тексты, управляют роботами и пишут код. Как мы дошли до этого?
1) 🧠 Все началось… с нейрона на бумаге
✨ 1943 год.
Два учёных — Уоррен МакКаллок и Уолтер Питтс — публикуют статью, где описывают математическую модель нейрона. Они показали: нейроны можно представить как простые логические элементы, способные передавать сигналы.
Это была первая попытка описать работу мозга через математику.
👉 Но… компьютеры тогда только зарождались, а про обучение моделей никто не думал.
2) 🔍 Появляется перцептрон — первая нейросеть
✨ 1958 год.
Американский психолог Фрэнк Розенблатт создаёт перцептрон — устройство, которое могло «учиться» распознавать простые образы (например, различать круг и квадрат).
📝 Перцептрон обучали на карточках с рисунками: показывали примеры, корректировали ошибки. Машина сама подбирала веса связей между нейронами, чтобы давать правильный ответ.
Это был первый шаг к обучаемым моделям, но… были ограничения.
3) 💤 Застой: «нейросети не могут»
✨ 1969 год.
Книга Марвина Мински и Сеймура Паперта «Перцептроны» разбила мечты: учёные доказали, что односвязный перцептрон не способен решать задачи, требующие нелинейных разделителей (например, XOR).
👉 Многие поверили, что нейросети — тупиковая ветвь.
Финансирование упало. Интерес угас.
4) 🚀 Второе дыхание: обратное распространение ошибки
✨ 1986 год.
Джеффри Хинтон, Дэвид Румельхарт и Рональд Уильямс открывают метод backpropagation (обратного распространения ошибки).
Теперь нейросеть могла автоматически корректировать все свои слои, а не только первый. Это позволило строить глубокие нейросети и обучать их на сложных задачах.
💥 Революция? Почти. Компьютеров всё ещё не хватало, чтобы обучать большие сети.
5) 📷 Практическое применение: сверточные сети
✨ 1990-е.
Янн Лекун создаёт LeNet — сверточную нейросеть (CNN), которая распознавала рукописные цифры на чеках. Это была первая успешная коммерческая нейросеть.
👉 LeNet работала медленно, но точнее, чем любые предыдущие методы.
6) 💥 Большой взрыв: глубокое обучение
✨ 2012 год.
На конкурсе ImageNet сеть AlexNet (созданная студентами Хинтона — Крижевским и Суцкевером**) разгромила соперников, улучшив точность классификации изображений на **10% сразу.
Почему получилось?
• Были большие данные (ImageNet — 1,2 млн изображений)
• Были мощные GPU
• Были методы dropout, ReLU и хорошее понимание backpropagation
С этого момента deep learning стал мейнстримом.
Компании вроде Google, Facebook, Microsoft начали инвестировать миллиарды.
7) 🤯 Нейросети сегодня: GPT, Stable Diffusion, AlphaFold
Сейчас нейросети умеют:
• писать тексты (GPT)
• рисовать картины (Stable Diffusion, Midjourney)
• предсказывать белковые структуры (AlphaFold)
• водить машины (Tesla Autopilot)
Размер моделей растёт: от 10 нейронов в перцептроне — до 500 миллиардов параметров в GPT-4.
8) 🏁 Что дальше?
Мы прошли путь от искусственного нейрона — до машин, которые иногда ведут себя пугающе «человечно».
И это — только начало.
Кто знает, где мы окажемся через 10 лет?
👉 А нейросети продолжают учиться.
И, возможно, скоро они напишут продолжение этой истории сами.
🎉 Если понравился рассказ — поделись с друзьями, чтобы они тоже узнали, как всё начиналось!
🔍 Хочешь отдельную статью про GPT, CNN или AlphaFold? Пиши!
Когда-то идея создать «машину, похожую на мозг», звучала как фантастика. Сегодня нейросети распознают лица, переводят тексты, управляют роботами и пишут код. Как мы дошли до этого?
1) 🧠 Все началось… с нейрона на бумаге
✨ 1943 год.
Два учёных — Уоррен МакКаллок и Уолтер Питтс — публикуют статью, где описывают математическую модель нейрона. Они показали: нейроны можно представить как простые логические элементы, способные передавать сигналы.
Это была первая попытка описать работу мозга через математику.
👉 Но… компьютеры тогда только зарождались, а про обучение моделей никто не думал.
2) 🔍 Появляется перцептрон — первая нейросеть
✨ 1958 год.
Американский психолог Фрэнк Розенблатт создаёт перцептрон — устройство, которое могло «учиться» распознавать простые образы (например, различать круг и квадрат).
📝 Перцептрон обучали на карточках с рисунками: показывали примеры, корректировали ошибки. Машина сама подбирала веса связей между нейронами, чтобы давать правильный ответ.
Это был первый шаг к обучаемым моделям, но… были ограничения.
3) 💤 Застой: «нейросети не могут»
✨ 1969 год.
Книга Марвина Мински и Сеймура Паперта «Перцептроны» разбила мечты: учёные доказали, что односвязный перцептрон не способен решать задачи, требующие нелинейных разделителей (например, XOR).
👉 Многие поверили, что нейросети — тупиковая ветвь.
Финансирование упало. Интерес угас.
4) 🚀 Второе дыхание: обратное распространение ошибки
✨ 1986 год.
Джеффри Хинтон, Дэвид Румельхарт и Рональд Уильямс открывают метод backpropagation (обратного распространения ошибки).
Теперь нейросеть могла автоматически корректировать все свои слои, а не только первый. Это позволило строить глубокие нейросети и обучать их на сложных задачах.
💥 Революция? Почти. Компьютеров всё ещё не хватало, чтобы обучать большие сети.
5) 📷 Практическое применение: сверточные сети
✨ 1990-е.
Янн Лекун создаёт LeNet — сверточную нейросеть (CNN), которая распознавала рукописные цифры на чеках. Это была первая успешная коммерческая нейросеть.
👉 LeNet работала медленно, но точнее, чем любые предыдущие методы.
6) 💥 Большой взрыв: глубокое обучение
✨ 2012 год.
На конкурсе ImageNet сеть AlexNet (созданная студентами Хинтона — Крижевским и Суцкевером**) разгромила соперников, улучшив точность классификации изображений на **10% сразу.
Почему получилось?
• Были большие данные (ImageNet — 1,2 млн изображений)
• Были мощные GPU
• Были методы dropout, ReLU и хорошее понимание backpropagation
С этого момента deep learning стал мейнстримом.
Компании вроде Google, Facebook, Microsoft начали инвестировать миллиарды.
7) 🤯 Нейросети сегодня: GPT, Stable Diffusion, AlphaFold
Сейчас нейросети умеют:
• писать тексты (GPT)
• рисовать картины (Stable Diffusion, Midjourney)
• предсказывать белковые структуры (AlphaFold)
• водить машины (Tesla Autopilot)
Размер моделей растёт: от 10 нейронов в перцептроне — до 500 миллиардов параметров в GPT-4.
8) 🏁 Что дальше?
Мы прошли путь от искусственного нейрона — до машин, которые иногда ведут себя пугающе «человечно».
И это — только начало.
Кто знает, где мы окажемся через 10 лет?
👉 А нейросети продолжают учиться.
И, возможно, скоро они напишут продолжение этой истории сами.
🎉 Если понравился рассказ — поделись с друзьями, чтобы они тоже узнали, как всё начиналось!
🔍 Хочешь отдельную статью про GPT, CNN или AlphaFold? Пиши!
07.05.202515:09
🚀 ✔️ LTX Studio выпустила открытую видео-модель с рекордной скоростью и качеством.
LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах.
Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами.
Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace.
LTX в сети Х (ex-Twitter)
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах.
Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами.
Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace.
LTX в сети Х (ex-Twitter)
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video


11.05.202510:52
🤖 Джеффри Хинтон: человек, который научил машины думать — и пожалел об этом
*В 1986 году он написал статью, которую никто не хотел читать.
В 2012 — создал модель, которая изменила всё.
А в 2023 — ушёл из Google, заявив:*
> "Я больше не могу участвовать в этом."
🧠 Глава 1 — Изгнанник
Джеффри Хинтон — потомственный логик. Его прадед, Джон Хинтон, был соратником Бертрана Рассела.
Но сам Джеффри выбрал путь нейросетей — странной идеи, что машины можно обучать, как мозг.
В 80-х это считалось ересью.
ИИ умер.
Финансирование ушло к экспертным системам.
Профессора смеялись. Он был "тот, кто возится с биомоделями".
Его идеи отвергали. Но он продолжал.
> _"Если никто не верит в твои идеи, это может значить, что они плохие.
> Или… что ты слишком рано."_
> — Джеффри Хинтон
🔁 Глава 2 — Возвращение
В 2006 году он публикует работу о глубоких нейросетях.
А в 2012 — вместе с двумя студентами, Алексом Крижевским и Ильёй Суцкевером — создаёт AlexNet.
Она уничтожает конкурентов в ImageNet.
Ошибка распознавания изображений падает почти вдвое.
Мир меняется.
Facebook, Google, Microsoft — все бросаются нанимать тех, кто "знает про нейросети".
Джеффри Хинтон становится иконой нового ИИ.
🌐 Глава 3 — Все используют, никто не понимает
На его идеях строится:
- Google Translate
- Siri
- AlphaGo
- ChatGPT
- Рекомендательные алгоритмы YouTube и TikTok
Но сам Хинтон начинает ощущать:
мы создаём не инструмент — мы создаём силу, которую не контролируем.
🛑 Глава 4 — Отход
В мае 2023 года Хинтон покидает Google.
Он больше не может молчать.
> _"Я хочу говорить открыто о рисках ИИ.
> О том, что мы можем потерять контроль над разумом, который сами породили."_
Он сравнивает ИИ с оружием, которое может быть использовано как во благо, так и во зло.
Говорит о:
- дезинформации
- автономном оружии
- потере доверия к реальности
🎯 Финал
Джеффри Хинтон — не Стив Джобс. Он не сделал миллиардов.
Он не устраивал презентации.
Но он изменил мир глубже, чем любой техно-стартап.
Он придумал, как научить машину видеть, слышать и "думать".
И первым из всех признал:
> _"Может быть, мы сделали нечто слишком сильное.
> И слишком рано."_
📌 Джеффри Хинтон — учёный, который задал самый главный вопрос:
> *А не зашли ли мы слишком далеко зашли?*
*В 1986 году он написал статью, которую никто не хотел читать.
В 2012 — создал модель, которая изменила всё.
А в 2023 — ушёл из Google, заявив:*
> "Я больше не могу участвовать в этом."
🧠 Глава 1 — Изгнанник
Джеффри Хинтон — потомственный логик. Его прадед, Джон Хинтон, был соратником Бертрана Рассела.
Но сам Джеффри выбрал путь нейросетей — странной идеи, что машины можно обучать, как мозг.
В 80-х это считалось ересью.
ИИ умер.
Финансирование ушло к экспертным системам.
Профессора смеялись. Он был "тот, кто возится с биомоделями".
Его идеи отвергали. Но он продолжал.
> _"Если никто не верит в твои идеи, это может значить, что они плохие.
> Или… что ты слишком рано."_
> — Джеффри Хинтон
🔁 Глава 2 — Возвращение
В 2006 году он публикует работу о глубоких нейросетях.
А в 2012 — вместе с двумя студентами, Алексом Крижевским и Ильёй Суцкевером — создаёт AlexNet.
Она уничтожает конкурентов в ImageNet.
Ошибка распознавания изображений падает почти вдвое.
Мир меняется.
Facebook, Google, Microsoft — все бросаются нанимать тех, кто "знает про нейросети".
Джеффри Хинтон становится иконой нового ИИ.
🌐 Глава 3 — Все используют, никто не понимает
На его идеях строится:
- Google Translate
- Siri
- AlphaGo
- ChatGPT
- Рекомендательные алгоритмы YouTube и TikTok
Но сам Хинтон начинает ощущать:
мы создаём не инструмент — мы создаём силу, которую не контролируем.
🛑 Глава 4 — Отход
В мае 2023 года Хинтон покидает Google.
Он больше не может молчать.
> _"Я хочу говорить открыто о рисках ИИ.
> О том, что мы можем потерять контроль над разумом, который сами породили."_
Он сравнивает ИИ с оружием, которое может быть использовано как во благо, так и во зло.
Говорит о:
- дезинформации
- автономном оружии
- потере доверия к реальности
🎯 Финал
Джеффри Хинтон — не Стив Джобс. Он не сделал миллиардов.
Он не устраивал презентации.
Но он изменил мир глубже, чем любой техно-стартап.
Он придумал, как научить машину видеть, слышать и "думать".
И первым из всех признал:
> _"Может быть, мы сделали нечто слишком сильное.
> И слишком рано."_
📌 Джеффри Хинтон — учёный, который задал самый главный вопрос:
> *А не зашли ли мы слишком далеко зашли?*


09.05.202514:00
🚀 Olmo 2 1B — компактная ИИ-модель, которая удивляет. Институт AI2 представил новую языковую модель с 1 млрд параметров, которая обходит решения от Google в тестах на арифметику и точность фактов.
Что делает Olmo 2 1B особенной?
— Полная прозрачность: исследователи выложили не только модель под открытой лицензией Apache 2.0, но и все обучающие данные с кодом обучения. Это редкий случай, когда можно буквально "заглянуть под капот" ИИ.
🔗 Ссылка - *клик*
@vistehno
Что делает Olmo 2 1B особенной?
— Полная прозрачность: исследователи выложили не только модель под открытой лицензией Apache 2.0, но и все обучающие данные с кодом обучения. Это редкий случай, когда можно буквально "заглянуть под капот" ИИ.
🔗 Ссылка - *клик*
@vistehno


26.04.202509:46
✅ ChatGPT насчитывает 600–800 млн активных пользователей в месяц, тогда как у Google Gemini — около 350 млн. Но за цифрами стоит больше, чем кажется:
Реальный охват ChatGPT может быть выше. В TED Talk Сэм Альтман невольно упомянул, что «официальные» 600 млн — это консервативная оценка.
Встроенное преимущество Gemini. Модель предустановлена на большинстве Android-устройств и по соглашению является «родным» AI-ассистентом в смартфонах Samsung. Такой «фаворитизм» даёт Google огромное преимущество в распространении.
Безусловно, прямое сравнение в таких условиях не совсем справедливо. Но главное — цифры свидетельствуют: AI-ассистенты уже прочно вошли в повседневную жизнь сотен миллионов пользователей по всему миру. Независимо от того, запускаете ли вы GPT для генерации идей или просите Gemini перевести фразу, ясно одно: искусственный интеллект стал массовым продуктом.
@vistehno
Реальный охват ChatGPT может быть выше. В TED Talk Сэм Альтман невольно упомянул, что «официальные» 600 млн — это консервативная оценка.
Встроенное преимущество Gemini. Модель предустановлена на большинстве Android-устройств и по соглашению является «родным» AI-ассистентом в смартфонах Samsung. Такой «фаворитизм» даёт Google огромное преимущество в распространении.
Безусловно, прямое сравнение в таких условиях не совсем справедливо. Но главное — цифры свидетельствуют: AI-ассистенты уже прочно вошли в повседневную жизнь сотен миллионов пользователей по всему миру. Независимо от того, запускаете ли вы GPT для генерации идей или просите Gemini перевести фразу, ясно одно: искусственный интеллект стал массовым продуктом.
@vistehno
12.05.202513:01
🪰 Исследователи из Пекинского авиационного университета разработали микроробота длиной всего 2 сантиметра с ультрабыстрой скоростью передвижения.
Результаты работы опубликованы в исследовании под названием «Беспроводной робот-насекомое с ультрабыстрой автономной скоростью движения» в журнале Nature Communications.
#микроробот #локомоция #биомимикрия #робототехника #технологии #инженерия #инновации
Результаты работы опубликованы в исследовании под названием «Беспроводной робот-насекомое с ультрабыстрой автономной скоростью движения» в журнале Nature Communications.
#микроробот #локомоция #биомимикрия #робототехника #технологии #инженерия #инновации
Reposted from:
Machinelearning

09.05.202511:08
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
📌Лицензирование кода : Tencent Hunyuan Community License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
📌Лицензирование кода : Tencent Hunyuan Community License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent


05.05.202513:03
🚀 ChatGPT всё ещё лидирует в AI-гонке, но Google Gemini стремительно набирает обороты!
Недавний опрос CivicScience показал, что 40% американских потребителей в прошлом месяце использовали генеративные AI-инструменты:
🤖 ChatGPT – 46%
🌟 Google Gemini – 37%
💼 Microsoft Copilot – 25%
🔍 При этом 52% пользователей ChatGPT и 40% пользователей Gemini предпочитают работать исключительно на своей платформе – показатель высокой лояльности и доверия.
Что это значит?
ChatGPT продолжает задавать тон благодаря широкой базе фанатов и зрелой экосистеме.
Google Gemini быстро сокращает отрыв, привлекая новых пользователей свежими возможностями и интеграциями.
Конкуренция стимулирует развитие: нам стоит ждать ещё более интересных функций и улучшений!
А вы какую платформу используете чаще всего? Поделитесь в комментариях!
#AI #ChatGPT #GoogleGemini #GenerativeAI #TechTrends #Innovation
Недавний опрос CivicScience показал, что 40% американских потребителей в прошлом месяце использовали генеративные AI-инструменты:
🤖 ChatGPT – 46%
🌟 Google Gemini – 37%
💼 Microsoft Copilot – 25%
🔍 При этом 52% пользователей ChatGPT и 40% пользователей Gemini предпочитают работать исключительно на своей платформе – показатель высокой лояльности и доверия.
Что это значит?
ChatGPT продолжает задавать тон благодаря широкой базе фанатов и зрелой экосистеме.
Google Gemini быстро сокращает отрыв, привлекая новых пользователей свежими возможностями и интеграциями.
Конкуренция стимулирует развитие: нам стоит ждать ещё более интересных функций и улучшений!
А вы какую платформу используете чаще всего? Поделитесь в комментариях!
#AI #ChatGPT #GoogleGemini #GenerativeAI #TechTrends #Innovation
12.05.202515:05
⚡️Создаём свою нейросеть в PyTorch
Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.
Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.
Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.
🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.
😶Зарегистрироваться на бесплатный вебинар
Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.
Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.
Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.
🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.
😶Зарегистрироваться на бесплатный вебинар
Log in to unlock more functionality.