Технические детали
В эксперименте использовалась трёхсторонняя схема: судьи одновременно общались с человеком и ИИ-моделью в режиме реального времени. Оценка проводилась исключительно на основе содержания переписки. При наличии заданного «персонажа» GPT-4.5 была признана человеком в 73% случаев, что на 17% выше, чем у LLaMa-3.1-405B (56%).
Контекст и предыстория
Классический тест Тьюринга проверяет способность алгоритма имитировать человеческий диалог. В данном исследовании он рассматривается как поведенческий индикатор, а не строгий критерий «разумности». Авторы отмечают, что добавление персонализированного контекста значительно повышает убедительность ответов.
Влияние на индустрию
Результаты могут повлиять на сферы, где важна скорость идентификации собеседника: от клиентской поддержки до политических коммуникаций. Исследователи предупреждают, что различение человека и ИИ в текстовом чате становится статистически ненадёжным. Они призывают к более чёткой маркировке ИИ-систем в интерфейсах.
Ограничения исследования
Модели не демонстрируют понимания или сознания — речь идёт о воспроизведении социально правдоподобных паттернов речи. Авторы подчеркивают, что вопрос прозрачности становится социально-инфраструктурным, а не техническим.
