ИИ-агент с визуальной навигацией.
Вчера в одном из чатов обсуждали ИИ, который живет в VR Chat, способен видеть окружение, перемещаться и взаимодействовать с живыми пользователями.
Оказалось фейком (напишу позже). Но мы — те, кто делает сказку былью.
За пару часов собрал вот такой эксперимент. Смотрите видео.
Справа — чат, как в ChatGPT, c ИИ можно общаться.
Слева — цифровой мир и аватар, которым ИИ может управлять, задействуя несколько инструментов: vision (ИИ может посмотреть на мир), а также поворот и перемещение.
Удивительно (или нет?), но это заработало. Даю ИИ команду — найди синий шар. Он начинает осматриваться, находит шар, и идет к нему! Говорю — найди красный. Находит! Не сразу, но находит! Все полностью автоматически, я пишу только одно первое сообщение.
В целом, если добавить еще кучу костылей (память, интеншены), а также голосовой чат и взаимодействие с внешним сервисом (Spatial, VR Chat, etc) — получится агент, способный реально жить в виртуальном мире.
И тратить больше денег, чем самая требовательная девушка: дорого это все. Каждый запрос в районе 1-2 центов (я спользовал Claude Sonnet 3.7), а запросов десятки.
По дешевым нейронкам положняк такой:
- gpt-4o-mini — уже через десяток шагов забывает задачу
- gemini flash — теряет ориентацию в пространстве
4o и gemini 2.5 работают, но заметно хуже sonnet 3.7.
Любопытно что Соннет, кажется, имеет какой-то spatial understanding — я гонял еще более сложные тесты, и если из контекста не удалять картинки (обычно оставляю 3-4 последние для экономии), то она запоминает мир и потом может находить объекты быстрее, за меньшее количество шагов. И даже может ответить где объект: типа, «он сзади меня» (!!!)
Спрашивайте ваши вопросы.
🔴 @reptiloidnaya × #ai