Опять дипфейк: Йоханссон возмущена поступком OpenAI

Скарлетт Йоханссон узнала свой голос в последней версии ChatGPT / Фото: Samir Hussein/WireImage

На прошлой неделе разразился скандал: известная голливудская актриса Скарлетт Йоханссон заявила, что компания OpenAI без разрешения использовала ее голос для озвучки своего новейшего ИИ — ChatGPT-4o. Основатель OpenAI Сэм Альтман оправдывается тем, что это не голос Скарлетт, и компания никогда не собиралась копировать ее голос, но, похоже, это не совсем правда. В общем, снова проявила себя в полный рост так называемая проблема «дипфейков» — созданных с помощью ИИ «двойников» конкретного человека. Пока правительства только задумываются о регулировании этой сферы, новой технологией уже вовсю пользуются все подряд — от политиков до преступников.

Злой близнец

В 1919 году основатель психоанализа доктор Зигмунд Фрейд написал небольшую статью «Жуткое» (Das Unheimliche), в которой исследовал природу того, что вызывает в человеке не просто страх, а именно ощущение какой-то глубинной неправильности, «жути». Он полагал, что особенно жутким нам кажется нечто на первый взгляд знакомое, но обладающее незнакомыми свойствами. Это может быть неживое, обладающее признаками живого — Фрейд приводил в пример искусно сделанную куклу-автомат, чем по сути предвосхитил появление таких фильмов как «Бегущий по лезвию» и многих других художественных произведений, исследующих грань между человеком и роботом. Другой пример жуткого — двойник человека, его внешняя полная копия, однако ведущая себя совершенно иначе. Этот мотив тоже широко использовался в кино и литературе, отмечает доктор Ксавьер Рейес из Манчестерского университета в подкасте «Видение двойника: происхождение «злого близнеца» в готическом ужасе и Голливуде».

Помимо глубинных психологических причин, беспокойство людей относительно цифровых двойников вполне объяснимо и на рациональном уровне: никому не хочется, чтобы созданная с помощью технологий ваша полная цифровая копия заявила что-то предосудительное или просто противоречащее вашим принципам, а то и приняла участие в киберпреступлении. Для актеров и артистов это еще и прямая угроза их благосостоянию, поскольку внешний вид, голос, жесты — это часть образа, который, собственно, и является основным источником их заработка.

Неспроста в конце 2023 г. американские Ассоциация киноактеров и Федерация артистов телевидения и радио (SAG-AFTRA) устроили забастовку, требуя от голливудских киностудий урегулировать вопросы использования цифровых двойников. «Если мы не выступим прямо сейчас, мы все окажемся в беде, мы все окажемся под угрозой того, что нас заменят машины», — сказала президент SAG-AFTRA Фрэн Дрешер. Забастовка завершилась подписанием соглашения между артистами и киностудиями, но было ясно, что это не последний спор такого рода. Самый свежий скандал разыгрался на прошлой неделе.

«Она» или не она?

События развивались стремительно: 13 мая компания OpenAI объявила о запуске новой версии своего знаменитого ИИ — GPT-4o. Буква «о» в названии обозначает латинский префикс omni- то есть «все-». Таким образом в компании хотели подчеркнуть, что многим знакомый GPT теперь способен и понимать, и воспроизводить все средства коммуникации — текст, аудио, картинки и видео. Разумеется, там много других улучшений — быстродействие, производительность и так далее, но для нашей истории главное то, что среди прочего GPT-4o был снабжен приятным женским голосом по имени «Скай».

А неделю спустя популярная голливудская актриса Скарлетт Йоханссон выступила с заявлением: «Я была шокирована, разгневана и не могла поверить, что господин Альтман будет пытаться создать голос, который настолько пугающе похож на мой, что мои ближайшие друзья и новостные агентства не смогли отличить его».

Вскоре гендиректор OpenAI Сэм Альтман ответил: «Голос Скай не принадлежит Скарлетт Йоханссон, и он никогда не предназначался для того, чтобы напоминать ее голос… Из уважения к госпоже Йоханссон мы приостановили использование голоса Скай в наших продуктах. Нам жаль, госпожа Йоханссон, что мы не смогли наладить общение».

Впрочем, некоторые детали, приведенные в заявлении Йоханссон, позволяют усомниться в полной искренности Альтмана. Как выяснилось, еще в сентябре прошлого года он обращался к актрисе с предложением стать голосом GPT. «Он сказал мне, что, по его мнению, озвучив GPT-4, я помогу преодолеть разрыв между технологическими компаниями и творческими людьми, а потребителям — чувствовать себя более комфортно в условиях сейсмического сдвига, который происходит в отношениях человека с ИИ. Он сказал, что чувствует — мой голос успокоит людей», — пишет Йоханссон. Она отказалась «по личным причинам». Второй раз Альтман связался с ее агентом за два дня до презентации новой версии GPT-4o и попросил пересмотреть решение, однако прежде чем актриса успела ответить, голос Скай стал достоянием общественности. И, наконец, в день презентации GPT-4o, вечером 13 мая, Альтман опубликовал в сети Х единственное слово: her (она). Пост набрал больше 20 млн просмотров. Некоторые из вас уже заметили совпадение, «Она» называется популярный фильм 2013 г., в котором одинокий мужчина влюбляется в свою умную компьютерную систему по имени Саманта (тогда это еще считалось фантастикой). По странному (или совсем не странному) совпадению, Саманту озвучивала именно Скарлетт Йоханссон.

Пока что актриса не грозит OpenAI судом (в отличие, например, от двух актеров озвучки, которые подали к стартапу Lovo иск на $5 млн за незаконное использование голосов), но через адвоката потребовала точно и подробно описать процесс создания голоса Скай.

«В наше время, когда мы все боремся с дипфейками, чтобы сохранить свой облик, облик своей работы и своей индивидуальности, заданные мной вопросы требуют абсолютно ясного ответа. Я надеюсь, это поможет решить проблему благодаря прозрачности процессов и принятию соответствующего законодательства, которое обеспечит защиту прав личности», — заключает актриса.

Санкционированные и нет

Пока неповоротливые государства еще только задумываются о регулировании в сфере дипфейков, предприимчивые люди уже вовсю на них зарабатывают. Журнал Wired в прошлый понедельник опубликовал большую статью об индийском предпринимателе по имени Девендра Сингх Джадун, который построил успешный бизнес по созданию дипфейковых видео и аудио для индийских политиков. В 2020 г. во время локдаунов и пандемии он от скуки завел Инстаграм The Indian Deepfaker и начал экспериментировать, с помощью программы DeepFaceLab вставляя лица актеров из одних фильмов в другие. Аккаунт стал популярным и вскоре к Джадуну стали обращаться с заказами: сделать шуточный поздравительный ролик на день рождения, поместив лицо юбиляра в популярный фильм, или даже «оживить» покойных родителей, чтобы они «поздравили» молодоженов со свадьбой. Но настоящий успех пришел к нему в этом году — в Индии, «самой большой демократии мира», в июне грядут всеобщие выборы. Джадун, сам в прошлом политик, прекрасно знал, сколько времени, сил и денег требуют постоянные предвыборные разъезды и встречи с избирателями. С помощью так называемых «санкционированных дипфейков» (т.е. сделанных по просьбе того человека, который в них изображается) он позволяет политикам через аудио- и видеозвонки напрямую обращаться к миллионам избирателей, причем на множестве разных языков, что особенно важно для огромной страны, в которой 22 официальных языка и более 700 региональных. Wired оценивает рынок санкционированных дипфейков в Индии в $60 млн.

Разумеется, на технологию обратили внимание и мошенники. В мае, например, стало известно, что жертвой несанкционированных дипфейков стала британская транснациональная проектно-инженерная компания Arup (построившая среди прочего знаменитый Сиднейский оперный театр в Австралии). Мошенники поддельным письмом якобы из головного офиса попросили сотрудника гонконгского подразделения сделать срочный перевод на $25 млн. Клерк усомнился в подлинности письма, и тогда ему устроили видеозвонок с «финансовым директором» и другими «коллегами». Все они, как позже оказалось, были дипфейками, но настолько качественными, что сотрудник Arup им поверил и перевел деньги преступникам. Дополнительные подробности компания не сообщает, ссылаясь на то, что полиция Гонконга все еще ведет расследование. Но уже понятно, что дипфейки меняют мир прямо у нас на глазах, а нам придется как-то научиться жить с этими «близнецами», как добрыми, так и злыми.