Модель GPT-4.5 в исследовании UCSD убедительно прошла упрощённый тест Тьюринга

Коротко (TL;DR)

•GPT-4.5 в 73% случаев принимали за человека в текстовом чате
•LLaMa-3.1-405B показала 56% точности в аналогичном тесте
•Исследователи подчеркивают необходимость прозрачности ИИ-интерфейсов

Чому це важливо

Результаты указывают на рост способности ИИ воспроизводить человеческое поведение в диалогах, что может повлиять на доверие к онлайн-взаимодействиям и требует новых стандартов идентификации ИИ-систем.

Технические детали

В эксперименте использовалась трёхсторонняя схема: судьи одновременно общались с человеком и ИИ-моделью в режиме реального времени. Оценка проводилась исключительно на основе содержания переписки. При наличии заданного «персонажа» GPT-4.5 была признана человеком в 73% случаев, что на 17% выше, чем у LLaMa-3.1-405B (56%).

Контекст и предыстория

Классический тест Тьюринга проверяет способность алгоритма имитировать человеческий диалог. В данном исследовании он рассматривается как поведенческий индикатор, а не строгий критерий «разумности». Авторы отмечают, что добавление персонализированного контекста значительно повышает убедительность ответов.

Влияние на индустрию

Результаты могут повлиять на сферы, где важна скорость идентификации собеседника: от клиентской поддержки до политических коммуникаций. Исследователи предупреждают, что различение человека и ИИ в текстовом чате становится статистически ненадёжным. Они призывают к более чёткой маркировке ИИ-систем в интерфейсах.

Ограничения исследования

Модели не демонстрируют понимания или сознания — речь идёт о воспроизведении социально правдоподобных паттернов речи. Авторы подчеркивают, что вопрос прозрачности становится социально-инфраструктурным, а не техническим.