
Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Реальний Київ | Украина

Реальна Війна

Україна Online: Новини | Політика

Телеграмна служба новин - Україна

Резидент

лазер Оккама
современная философия. иногда российская и зарубежная академия в целом. иногда история философии. болеем метафилософской, метаметафизической и любой 'мета' болезнью профессионально
关联群组

лазер Оккама Chat
7
记录
07.04.202523:59
1K订阅者22.10.202423:59
0引用指数31.10.202423:59
3.6K每帖平均覆盖率26.10.202423:59
3.6K广告帖子的平均覆盖率10.02.202504:35
19.12%ER24.01.202519:22
87.77%ERR

04.04.202517:23
Трехсторонний тест Тьюринга — done (правда пока 5-минутный)
31 марта на arXiv появилось исследование когнитивных ученых из Калифорнийского университета в Сан-Диего. Хотя оно еще не получило освещение в СМИ, событие можно назвать знаковым. Впервые в истории AI не просто прошел, но превзошел людей в классическом трехстороннем тесте Тьюринга: GPT-4.5 в 73% случаев признавали человеком.
А разве раньше машины не проходили тест?
До этого модели справлялись только с упрощенным, двухсторонним тестом. Это когда судья взаимодействует либо с человеком, либо с машиной, а не сразу с обоими. Оригинальная задумка Тьюринга — это трехсторонний тест, где два собеседника видны одновременно. В таком формате проще угадать, кто есть кто, так как появляется возможность сравнивать и опираться на несколько гипотез. (Также Тьюринг подразумевал, что тест будет 5-минутным.)
Предыдущие исследования (2023-2025) показывали, что LLM проходит двухсторонний формат примерно с 50% вероятностью. А в трехстороннем формате машины уверенно провалились даже в двух последних исследованиях (2025): судьи в 90% случаев угадывали, кто тут машина, а кто нет.
Как проводили
В эксперименте тестировались:
🔴GPT-4.5
🔴LLaMa-3.1
🔴GPT-4o
🔴ELIZA (алгоритмический чат-бот, созданный в 1960-е)
Последние два добавили для оценки уровня случайных угадываний.
Участвовали 126 студентов психологического факультета UCSD и 158 респондентов с сайта Prolific. Они проводили 5-минутные текстовые диалоги на платформе, имитирующей мессенджер. В одних раундах как судьи, в других — как «человеческие» участники.
Испытывали два режима:
♦️PERSONA — модель получала промт на имитацию молодого человека, знакомого с интернет-культурой («используй сленг, делай опечатки»)
♦️NO-PERSONA — без промта
Результаты
Процент случаев, когда LLM принимали за человека:
✅GPT-4.5-PERSONA — 73%
✅LLAMA-PERSONA — 56%
❎GPT-4.5-NO-PERSONA — 36%
❎LLAMA-NO-PERSONA — 38%
❎GPT-4o-NO-PERSONA — 21%
❎ELIZA — 23%
Тест Тьюринга устарел?
Настроение вокруг ситуации примерно такое:
На мой взгляд (я солидарен с авторами), это немного глупая точка зрения. Во-первых, это лишь один из показателей, позволяющих оценивать силу AI, который нужно рассматривать вместе с другими. Как указывал Нед Блок, никакой отдельный тест на наличие интеллекта не является решающим. Во-вторых, тест показывает социальную заменяемость AI. Это имеет большие следствия для экономики и занятости, угрожает сферам, связанным с коммуникацией: журналистике, образованию и т.д.
Симулированные люди
Деннет (2023) и другие авторы указывают на проблему counterfeit people. Люди все чаще будут проводить время с симулированными людьми. Whichever entities, контролирующие этих симулированных людей, имеют влияние на мнение и поведение человеческих агентов.
Как социальные медиа заменяют привычные взаимодействия, а counterfeit деньги понижают значимость и нужность настоящих денег, так и симулированные люди могут подрывать значение настоящего человеческого взаимодействия.
Кроме того, симулированные люди способны манипулировать и обманывать. Так что, по-видимому, придется учиться стратегиям (если таковые вообще будут), позволяющим понять, какой агент перед вами находится.
Заканчивают авторы статью поэтичным высказыванием Брайана Кристиана (2011):
31 марта на arXiv появилось исследование когнитивных ученых из Калифорнийского университета в Сан-Диего. Хотя оно еще не получило освещение в СМИ, событие можно назвать знаковым. Впервые в истории AI не просто прошел, но превзошел людей в классическом трехстороннем тесте Тьюринга: GPT-4.5 в 73% случаев признавали человеком.
А разве раньше машины не проходили тест?
До этого модели справлялись только с упрощенным, двухсторонним тестом. Это когда судья взаимодействует либо с человеком, либо с машиной, а не сразу с обоими. Оригинальная задумка Тьюринга — это трехсторонний тест, где два собеседника видны одновременно. В таком формате проще угадать, кто есть кто, так как появляется возможность сравнивать и опираться на несколько гипотез. (Также Тьюринг подразумевал, что тест будет 5-минутным.)
Предыдущие исследования (2023-2025) показывали, что LLM проходит двухсторонний формат примерно с 50% вероятностью. А в трехстороннем формате машины уверенно провалились даже в двух последних исследованиях (2025): судьи в 90% случаев угадывали, кто тут машина, а кто нет.
Как проводили
В эксперименте тестировались:
🔴GPT-4.5
🔴LLaMa-3.1
🔴GPT-4o
🔴ELIZA (алгоритмический чат-бот, созданный в 1960-е)
Последние два добавили для оценки уровня случайных угадываний.
Участвовали 126 студентов психологического факультета UCSD и 158 респондентов с сайта Prolific. Они проводили 5-минутные текстовые диалоги на платформе, имитирующей мессенджер. В одних раундах как судьи, в других — как «человеческие» участники.
Испытывали два режима:
♦️PERSONA — модель получала промт на имитацию молодого человека, знакомого с интернет-культурой («используй сленг, делай опечатки»)
♦️NO-PERSONA — без промта
Результаты
Процент случаев, когда LLM принимали за человека:
✅GPT-4.5-PERSONA — 73%
✅LLAMA-PERSONA — 56%
❎GPT-4.5-NO-PERSONA — 36%
❎LLAMA-NO-PERSONA — 38%
❎GPT-4o-NO-PERSONA — 21%
❎ELIZA — 23%
Тест Тьюринга устарел?
Настроение вокруг ситуации примерно такое:
В 1950-е тест Тьюринга был блестящим вызовом и отличной идеей, но сейчас мы ушли настолько далеко, что тест ничего не доказывает. Это все равно, что судить ракету SpaceX по тому, насколько хорошо она имитирует лошадь.
На мой взгляд (я солидарен с авторами), это немного глупая точка зрения. Во-первых, это лишь один из показателей, позволяющих оценивать силу AI, который нужно рассматривать вместе с другими. Как указывал Нед Блок, никакой отдельный тест на наличие интеллекта не является решающим. Во-вторых, тест показывает социальную заменяемость AI. Это имеет большие следствия для экономики и занятости, угрожает сферам, связанным с коммуникацией: журналистике, образованию и т.д.
Симулированные люди
Деннет (2023) и другие авторы указывают на проблему counterfeit people. Люди все чаще будут проводить время с симулированными людьми. Whichever entities, контролирующие этих симулированных людей, имеют влияние на мнение и поведение человеческих агентов.
Как социальные медиа заменяют привычные взаимодействия, а counterfeit деньги понижают значимость и нужность настоящих денег, так и симулированные люди могут подрывать значение настоящего человеческого взаимодействия.
Кроме того, симулированные люди способны манипулировать и обманывать. Так что, по-видимому, придется учиться стратегиям (если таковые вообще будут), позволяющим понять, какой агент перед вами находится.
Заканчивают авторы статью поэтичным высказыванием Брайана Кристиана (2011):
Нет, я считаю: хотя год, когда компьютеры впервые пройдут тест Тьюринга, безусловно, войдет в историю как эпохальный, это не конец.
Нет, я уверен: то, за чем действительно стоит наблюдать — это тест Тьюринга следующего года.
Выражусь стереотипно — когда мы, люди, поверженные на полу ринга, будем обязаны подняться.
Когда научимся, как лучше быть другом, художником, учителем, родителем, как лучше любить.
Когда вернем себе звание «человек».
Станем человечнее, чем когда-либо.
Я хочу присутствовать, когда это произойдет.
登录以解锁更多功能。