Без малого три четверти века назад британский математик Алан Тьюринг придумал тест, чтобы ответить на вопрос «Могут ли машины мыслить?» Его работа на многие годы стала одной из самых известных и обсуждаемых в сфере искусственного интеллекта. Не удивительно, что ученые решили прогнать современный ИИ через этот тест и посмотреть, что получится. Их статья наделала немало шума, особенно когда ссылку на обсуждение обнародовал широко известный создатель криптовалюты Ethereum Виталик Бутерин с комментарием «Как по мне, GPT-4 прошел тест Тьюринга». Но, что важнее, — пройдем ли его все мы?
Великий провидец
Статью «Вычислительные машины и разум» Тьюринг опубликовал в 1950 году, на рассвете компьютерной эры, основы которой, собственно, он сам и заложил своими теоретическими работами.
Первые ЭВМ были громоздкими и по нынешним меркам весьма маломощными. Это не помешало Тьюрингу мысленно устремиться в будущее и задаться вопросом: смогут ли эти неуклюжие машины когда-нибудь думать? И если смогут, как это доказать?
Для решения задачи он предложил мысленный эксперимент с участием двух человек и одного компьютера, который назвал “игрой в имитацию». Человек «следователь» находится в комнате, оборудованной средством текстовой связи с другим человеком и компьютером («свидетелями»), причем каждый из «свидетелей» утверждает, что он человек (очевидно, что один правдиво, а другой нет). Сможет ли «следователь», задавая любые пришедшие ему в голову вопросы, за пять минут переписки по ответам правильно определить, кто человек, а кто (или что?) компьютер?
По мнению Тьюринга этот эксперимент позволяет перевести бессмысленный с его точки зрения вопрос «Может ли машина мыслить?» в гораздо более практическую плоскость: «Сможет ли компьютер, оснащенный необходимыми быстродействием, памятью и программами, показать удовлетворительные результаты, играя в имитацию?»
Это выводит расплывчатое понятие “мышления» за скобки задачи, судьей становится «следователь». Если он поверит компьютеру, значит тот сумел изобразить мыслительную деятельность человека лучше, чем другой «свидетель» — человек. Как именно при этом «думал» компьютер и думал ли вообще (или просто исполнял сложную программу) — это уже совсем другой вопрос. C практической точки зрения для нас разницы нет.
Этот мысленный эксперимент и был назван «тестом Тьюринга». Просто поразительно, как почти 75 лет назад Тьюринг сумел предвидеть и сформулировать задачу, практически идеально подходящую для того, что мы сейчас называем искусственным интеллектом.
Еще поразительнее, что великий математик даже не побоялся сделать предсказание: «Я полагаю, что примерно через 50 лет… программируемый компьютер сможет играть в имитацию так хорошо, что у среднего “следователя» не будет более 70% шансов правильно провести идентификацию «свидетелей».
Песни про тест
Как выяснилось, с временным интервалом Тьюринг несколько просчитался, но на таких горизонтах прогнозирования это, право, пустяки. И вот, новые продвинутые ИИ уже здесь. Казалось бы, есть готовая методика и целевые показатели — бери и делай исследования. Однако до последнего времени серьезных попыток проверить современные ИИ на тесте Тьюринга, на удивление, не было.
The Washington Post в 2022 году написала статью с хайповым заголовком «ИИ от Google прошел знаменитый тест», правда основывалось это утверждение на единственном случае — публичном заявлении программиста Google Блейка Лемуана о том, что чат-бот LaMDA, который он тестировал, — разумное существо. Что, похоже, больше говорит о мыслительных способностях самого Лемуана, нежели о мыслительных способностях ИИ.
В конце 2023 года Сэм Альтман, гендиректор OpenAI (компания, создавшая самый продвинутый ИИ GPT) написал в соцсети Х: «Хороший знак, свидетельствующий о стойкости и приспособляемости людей к технологическим изменениям: тест Тьюринга просвистел мимо (went whooshing by), и все в основном занялись своими делами». Пост набрал 2 млн просмотров, его даже поддержал Илон Маск, (который с Альтманом тогда дружил, хотя чуть позже поругался), однако никаких доказательств, что тест действительно где-то “просвистел», глава OpenAI не привел.
А между тем, прохождение теста Тьюринга, несмотря на критику методики, могло бы стать не менее, а то и более знаковым событием в сфере ИИ, чем, например, победа суперкомпьютера IBM Deep Blue над действующим чемпионом мира по шахматам Гарри Каспаровым в 1997 году.
И вот, наконец, за дело взялись ученые из Калифорнийского университета в Сан-Диего, опубликовавшие в мае статью под названием «Люди не могут отличить GPT-4 от человека в тесте Тьюринга». Тест пройден?
Тюнинг Тьюринга
Начать с того, что проводился все-таки не классический тест, а его «облегченный» вариант — человек-«следователь» беседовал только с одним «свидетелем» — человеком или машиной. И по завершении 5-минутного диалога должен был вынести свой вердикт — с кем же он говорил.
Всего было набрано 500 добровольцев, которых случайным образом поделили на пять групп. Одна группа стала «свидетелями», которым приказали всячески убеждать «следователя» в своей человеческой сущности. Остальные четыре группы пошли в «следователи», которым опять-таки в случайном порядке было поручено «допросить» одного из четырех свидетелей — GPT-4, GPT-3,5, ELIZA или человека.
Кто такая ELIZA? Это один из первых простых чат-ботов, написанный в середине 60-х годов сотрудником Массачусетского технологического института Джозефом Вайценбаумом. Программист взял за основу методику психотерапевтов: программа просто искала в фразе человека ключевое слово, а потом возвращала его обратно в виде простого предложения или вопроса. Даже близко не сопоставимая по сложности с современными ИИ, ELIZA показала себя на удивление неплохо — люди охотно с ней разговаривали, иногда даже раскрывая интимные подробности своей жизни.
Результаты исследования ученых из Калифорнийского университета получились примечательными: «следователи» приняли GPT-4 за человека в 54% случаев, GPT-3,5 — в 50%, ELIZA — в 22% и, наконец, в человеке человека опознали 67% испытуемых.
Именно GPT-4 и GPT-3,5 дали исследователям повод написать хайповый заголовок: результат, статистически близкий к 50% говорит о том, что фактически люди не могут четко отличить ИИ от человека — с тем же успехом можно было принимать решение, бросая монетку, на что и указал Виталик Бутерин.
Сам Тьюринг ставил критерий прохождения теста — более 30% ошибочных опознаний, а тут получается, что GPT-4 принимали за человека в 54% случаев. Выходит, тест пройден?
Минутку, напоминает Тоби Орд, философ и футуролог из Оксфордского университета, в оригинальном тесте «следователь» говорит одновременно и с машиной, и с человеком, а человек, как показал эксперимент, опознается с вероятностью 67%, значит, и процент верного опознания ИИ будет не меньше. С учетом статистической погрешности можно сказать, что порог «не более 70% верных ответов» хотя и близок, но еще не перейден, поэтому классический тест Тьюринга GPT-4 бы провалил, полагает он.
Однако не будем забывать, что некоторые люди просто от природы не очень хорошие «следователи». Даже простейшая ELIZA получила свои 22% «человечности», что совсем немало. Плюс, в реальной жизни, в отличие от эксперимента, перед человеком обычно не стоит задача «разоблачить» собеседника как ИИ.
В итоге, как я недавно писал, многие уже вовсю пользуются ИИ для создания неотличимых от людей дипфейков, как с благими намерениями, так и не очень. В некотором смысле все мы «следователи» и проходим гигантский глобальный тест прямо сейчас. Такого масштабного эксперимента сразу над всем человечеством не мог вообразить даже сам Алан Тьюринг.