Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
лазер Оккама avatar

лазер Оккама

современная философия. иногда российская и зарубежная академия в целом. иногда история философии. болеем метафилософской, метаметафизической и любой 'мета' болезнью профессионально
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置
语言其他
频道创建日期Серп 26, 2022
添加到 TGlist 的日期
Жовт 25, 2024
关联群组

记录

07.04.202523:59
1K订阅者
22.10.202423:59
0引用指数
31.10.202423:59
3.6K每帖平均覆盖率
26.10.202423:59
3.6K广告帖子的平均覆盖率
10.02.202504:35
19.12%ER
24.01.202519:22
87.77%ERR

лазер Оккама 热门帖子

Трехсторонний тест Тьюринга — done (правда пока 5-минутный)

31 марта на arXiv появилось исследование когнитивных ученых из Калифорнийского университета в Сан-Диего. Хотя оно еще не получило освещение в СМИ, событие можно назвать знаковым. Впервые в истории AI не просто прошел, но превзошел людей в классическом трехстороннем тесте Тьюринга: GPT-4.5 в 73% случаев признавали человеком.

А разве раньше машины не проходили тест?
До этого модели справлялись только с упрощенным, двухсторонним тестом. Это когда судья взаимодействует либо с человеком, либо с машиной, а не сразу с обоими. Оригинальная задумка Тьюринга — это трехсторонний тест, где два собеседника видны одновременно. В таком формате проще угадать, кто есть кто, так как появляется возможность сравнивать и опираться на несколько гипотез. (Также Тьюринг подразумевал, что тест будет 5-минутным.)

Предыдущие исследования (2023-2025) показывали, что LLM проходит двухсторонний формат примерно с 50% вероятностью. А в трехстороннем формате машины уверенно провалились даже в двух последних исследованиях (2025): судьи в 90% случаев угадывали, кто тут машина, а кто нет.

Как проводили
В эксперименте тестировались:
🔴GPT-4.5
🔴LLaMa-3.1
🔴GPT-4o
🔴ELIZA (алгоритмический чат-бот, созданный в 1960-е)
Последние два добавили для оценки уровня случайных угадываний.

Участвовали 126 студентов психологического факультета UCSD и 158 респондентов с сайта Prolific. Они проводили 5-минутные текстовые диалоги на платформе, имитирующей мессенджер. В одних раундах как судьи, в других — как «человеческие» участники.

Испытывали два режима:
♦️PERSONA — модель получала промт на имитацию молодого человека, знакомого с интернет-культурой («используй сленг, делай опечатки»)
♦️NO-PERSONA — без промта

Результаты
Процент случаев, когда LLM принимали за человека:
✅GPT-4.5-PERSONA — 73%
✅LLAMA-PERSONA — 56%
❎GPT-4.5-NO-PERSONA — 36%
❎LLAMA-NO-PERSONA — 38%
❎GPT-4o-NO-PERSONA — 21%
❎ELIZA — 23%

Тест Тьюринга устарел? 
Настроение вокруг ситуации примерно такое:
В 1950-е тест Тьюринга был блестящим вызовом и отличной идеей, но сейчас мы ушли настолько далеко, что тест ничего не доказывает. Это все равно, что судить ракету SpaceX по тому, насколько хорошо она имитирует лошадь.


На мой взгляд (я солидарен с авторами), это немного глупая точка зрения. Во-первых, это лишь один из показателей, позволяющих оценивать силу AI, который нужно рассматривать вместе с другими. Как указывал Нед Блок, никакой отдельный тест на наличие интеллекта не является решающим. Во-вторых, тест показывает социальную заменяемость AI. Это имеет большие следствия для экономики и занятости, угрожает сферам, связанным с коммуникацией: журналистике, образованию и т.д.

Симулированные люди
Деннет (2023) и другие авторы указывают на проблему counterfeit people. Люди все чаще будут проводить время с симулированными людьми. Whichever entities, контролирующие этих симулированных людей, имеют влияние на мнение и поведение человеческих агентов.

Как социальные медиа заменяют привычные взаимодействия, а counterfeit деньги понижают значимость и нужность настоящих денег, так и симулированные люди могут подрывать значение настоящего человеческого взаимодействия.

Кроме того, симулированные люди способны манипулировать и обманывать. Так что, по-видимому, придется учиться стратегиям (если таковые вообще будут), позволяющим понять, какой агент перед вами находится.

Заканчивают авторы статью поэтичным высказыванием Брайана Кристиана (2011):
Нет, я считаю: хотя год, когда компьютеры впервые пройдут тест Тьюринга, безусловно, войдет в историю как эпохальный, это не конец.
Нет, я уверен: то, за чем действительно стоит наблюдать — это тест Тьюринга следующего года.
Выражусь стереотипно — когда мы, люди, поверженные на полу ринга, будем обязаны подняться.
Когда научимся, как лучше быть другом, художником, учителем, родителем, как лучше любить.
Когда вернем себе звание «человек».
Станем человечнее, чем когда-либо.
Я хочу присутствовать, когда это произойдет.
登录以解锁更多功能。