Почти как люди: пройдем ли мы тест Тьюринга?
Без малого три четверти века назад британский математик Алан Тьюринг придумал тест, чтобы ответить на вопрос «Могут ли машины мыслить?» Его работа на многие годы стала одной из самых известных и обсуждаемых в сфере искусственного интеллекта. Не удивительно, что ученые решили прогнать современный ИИ через этот тест и посмотреть, что получится. Их статья наделала немало шума, особенно когда ссылку на обсуждение обнародовал широко известный создатель криптовалюты Ethereum Виталик Бутерин с комментарием «Как по мне, GPT-4 прошел тест Тьюринга». Но, что важнее, — пройдем ли его все мы?
Великий провидец
Статью «Вычислительные машины и разум» Тьюринг опубликовал в 1950 году, на рассвете компьютерной эры, основы которой, собственно, он сам и заложил своими теоретическими работами.
Первые ЭВМ были громоздкими и по нынешним меркам весьма маломощными. Это не помешало Тьюрингу мысленно устремиться в будущее и задаться вопросом: смогут ли эти неуклюжие машины когда-нибудь думать? И если смогут, как это доказать?
Для решения задачи он предложил мысленный эксперимент с участием двух человек и одного компьютера, который назвал “игрой в имитацию». Человек «следователь» находится в комнате, оборудованной средством текстовой связи с другим человеком и компьютером («свидетелями»), причем каждый из «свидетелей» утверждает, что он человек (очевидно, что один правдиво, а другой нет). Сможет ли «следователь», задавая любые пришедшие ему в голову вопросы, за пять минут переписки по ответам правильно определить, кто человек, а кто (или что?) компьютер?
По мнению Тьюринга этот эксперимент позволяет перевести бессмысленный с его точки зрения вопрос «Может ли машина мыслить?» в гораздо более практическую плоскость: «Сможет ли компьютер, оснащенный необходимыми быстродействием, памятью и программами, показать удовлетворительные результаты, играя в имитацию?»
Это выводит расплывчатое понятие “мышления» за скобки задачи, судьей становится «следователь». Если он поверит компьютеру, значит тот сумел изобразить мыслительную деятельность человека лучше, чем другой «свидетель» — человек. Как именно при этом «думал» компьютер и думал ли вообще (или просто исполнял сложную программу) — это уже совсем другой вопрос. C практической точки зрения для нас разницы нет.
Этот мысленный эксперимент и был назван «тестом Тьюринга». Просто поразительно, как почти 75 лет назад Тьюринг сумел предвидеть и сформулировать задачу, практически идеально подходящую для того, что мы сейчас называем искусственным интеллектом.
Еще поразительнее, что великий математик даже не побоялся сделать предсказание: «Я полагаю, что примерно через 50 лет… программируемый компьютер сможет играть в имитацию так хорошо, что у среднего “следователя» не будет более 70% шансов правильно провести идентификацию «свидетелей».
Песни про тест
Как выяснилось, с временным интервалом Тьюринг несколько просчитался, но на таких горизонтах прогнозирования это, право, пустяки. И вот, новые продвинутые ИИ уже здесь. Казалось бы, есть готовая методика и целевые показатели — бери и делай исследования. Однако до последнего времени серьезных попыток проверить современные ИИ на тесте Тьюринга, на удивление, не было.
The Washington Post в 2022 году написала статью с хайповым заголовком «ИИ от Google прошел знаменитый тест», правда основывалось это утверждение на единственном случае — публичном заявлении программиста Google Блейка Лемуана о том, что чат-бот LaMDA, который он тестировал, — разумное существо. Что, похоже, больше говорит о мыслительных способностях самого Лемуана, нежели о мыслительных способностях ИИ.
В конце 2023 года Сэм Альтман, гендиректор OpenAI (компания, создавшая самый продвинутый ИИ GPT) написал в соцсети Х: «Хороший знак, свидетельствующий о стойкости и приспособляемости людей к технологическим изменениям: тест Тьюринга просвистел мимо (went whooshing by), и все в основном занялись своими делами». Пост набрал 2 млн просмотров, его даже поддержал Илон Маск, (который с Альтманом тогда дружил, хотя чуть позже поругался), однако никаких доказательств, что тест действительно где-то “просвистел», глава OpenAI не привел.
А между тем, прохождение теста Тьюринга, несмотря на критику методики, могло бы стать не менее, а то и более знаковым событием в сфере ИИ, чем, например, победа суперкомпьютера IBM Deep Blue над действующим чемпионом мира по шахматам Гарри Каспаровым в 1997 году.
И вот, наконец, за дело взялись ученые из Калифорнийского университета в Сан-Диего, опубликовавшие в мае статью под названием «Люди не могут отличить GPT-4 от человека в тесте Тьюринга». Тест пройден?
Тюнинг Тьюринга
Начать с того, что проводился все-таки не классический тест, а его «облегченный» вариант — человек-«следователь» беседовал только с одним «свидетелем» — человеком или машиной. И по завершении 5-минутного диалога должен был вынести свой вердикт — с кем же он говорил.
Всего было набрано 500 добровольцев, которых случайным образом поделили на пять групп. Одна группа стала «свидетелями», которым приказали всячески убеждать «следователя» в своей человеческой сущности. Остальные четыре группы пошли в «следователи», которым опять-таки в случайном порядке было поручено «допросить» одного из четырех свидетелей — GPT-4, GPT-3,5, ELIZA или человека.
Кто такая ELIZA? Это один из первых простых чат-ботов, написанный в середине 60-х годов сотрудником Массачусетского технологического института Джозефом Вайценбаумом. Программист взял за основу методику психотерапевтов: программа просто искала в фразе человека ключевое слово, а потом возвращала его обратно в виде простого предложения или вопроса. Даже близко не сопоставимая по сложности с современными ИИ, ELIZA показала себя на удивление неплохо — люди охотно с ней разговаривали, иногда даже раскрывая интимные подробности своей жизни.
Результаты исследования ученых из Калифорнийского университета получились примечательными: «следователи» приняли GPT-4 за человека в 54% случаев, GPT-3,5 — в 50%, ELIZA — в 22% и, наконец, в человеке человека опознали 67% испытуемых.
Именно GPT-4 и GPT-3,5 дали исследователям повод написать хайповый заголовок: результат, статистически близкий к 50% говорит о том, что фактически люди не могут четко отличить ИИ от человека — с тем же успехом можно было принимать решение, бросая монетку, на что и указал Виталик Бутерин.
Сам Тьюринг ставил критерий прохождения теста — более 30% ошибочных опознаний, а тут получается, что GPT-4 принимали за человека в 54% случаев. Выходит, тест пройден?
Минутку, напоминает Тоби Орд, философ и футуролог из Оксфордского университета, в оригинальном тесте «следователь» говорит одновременно и с машиной, и с человеком, а человек, как показал эксперимент, опознается с вероятностью 67%, значит, и процент верного опознания ИИ будет не меньше. С учетом статистической погрешности можно сказать, что порог «не более 70% верных ответов» хотя и близок, но еще не перейден, поэтому классический тест Тьюринга GPT-4 бы провалил, полагает он.
Однако не будем забывать, что некоторые люди просто от природы не очень хорошие «следователи». Даже простейшая ELIZA получила свои 22% «человечности», что совсем немало. Плюс, в реальной жизни, в отличие от эксперимента, перед человеком обычно не стоит задача «разоблачить» собеседника как ИИ.
В итоге, как я недавно писал, многие уже вовсю пользуются ИИ для создания неотличимых от людей дипфейков, как с благими намерениями, так и не очень. В некотором смысле все мы «следователи» и проходим гигантский глобальный тест прямо сейчас. Такого масштабного эксперимента сразу над всем человечеством не мог вообразить даже сам Алан Тьюринг.