Возвращение Вавилонской башни: что обещают сервисы по клонированию голоса

Разработчики официально опирались на голливудские стереотипы, вроде фильма «Она», где Хоакин Феникс влюблялся в операционную систему / Фото: кадр из «Она»

В Youtube все чаще стали мелькать рекламные ролики с предложением сервисов по клонированию и коррекции собственного голоса. Молодой человек служивого вида расписывает открывающиеся возможности по продвижению бизнеса, раскрытию внутреннего «я» в Инстаграме и гарантирует возврат денег. Это слегка напоминает классический фильм Дэвида Финчера «Игра» (1997) с тамошним приглашением к величайшему в вашей жизни розыгрышу.

Данная отсылка к кинематографу не нужно с ходу расценивать как бессильную авторскую реакцию гуманитария на торжество технологий — в кои-то веки это оправданная аналогия. На прошлой неделе компания OpenAI представила новую скоростную модель ChatGPT-4o с обновленным голосовым помощником, который, в частности, умеет распознавать эмоции, считывать движения тела пользователя, испытывать смущение и разве что не краснеть. При этом разработчики вполне официально опирались на голливудские фантастические стереотипы недавнего прошлого, вроде фильма «Она», где Хоакин Феникс влюблялся в операционную систему, разговаривающую голосом Скарлетт Йохансон. Глава OpenAI Сэм Альтман сравнил запуск ChatGPT-4o с волшебством.

Стартап на миллиард

Рынок синтеза речи развивается активно и достаточно давно (первый сервис по имитации любых голосов стартовал еще в апреле 2017 года – то был монреальский стартап Lyrebird). В последние месяцы негласное место лидеров гонки заняла польская компания-разработчик ElevenLabs. Это, разумеется, не единственный стартап в этой сфере. Их довольно много и каждый специализируется на чем-то своем — например, MURF лучше всего передает афро-американский акцент.

Однако именно ElevenLabs считается сегодня наиболее перспективной историей, поскольку их синтезированные голоса звучат реальнее, чем собственно человеческие. Американский журнал The Atlantic в этом месяце опубликовал большой репортаж из лондонского офиса разработчиков – компания весом в $ 1 млрд. занимает одну комнату с парой столов и мини-холодильником.

ElevenLabs позволяют модифицировать собственный голос (его можно омолодить, состарить или придать ему британский, допустим, акцент) или же выбрать из сотен имеющихся в библиотеке (их уже называют речевым Spotify) и заговорить голосом условного «Джованни». Все это предлагается делать на 29 языках. Алгоритм при озвучании сам считывает контекст и интонирует в зависимости от того, читаете вы новости или Шекспира.

Невыносимый голос робота

Компания Elevenlabs существует два года, ее активность как аудиоимперии проявлялась в самых неожиданных областях — например, в прошлом году дети, убитые во время стрельбы 2018 года в школе города Паркленд, заговорили воссозданными голосами в социальной рекламе за реформу оружейного законодательства. Основатели компании – Матеуш «Мати» Станишевский и Петр Дабковский — в одном из ранних интервью говорили, что их всегда раздражал механический тембр робота, который использовался во всех тогдашних голосовых помощниках, типа GPS.

В материале The Atlantic один из основателей прямо признался, что толчком к проекту послужил невыносимый монотонный дубляж иноязычных фильмов, которые он смотрел в детстве. История, конечно, скорее из времен советских перестроечных видеосалонов – однако основателям ElevenLabs нет и тридцати лет. Как бы там ни было, ElevenLabs поставили своей целью очеловечить цифровую речь до полного и окончательного вочеловечивания и даже сверхчеловечивания. Как заметила автор The Atlantic, ознакомившись с собственным голосовым клоном – это я, но с бОльшей помпой.

Подобная глобальная и недорогая (от $22) опция онлайн-озвучки открывает значительные перспективы в самых разных областях. Люди, страдающие боковым амиотрофическим склерозом, получают возможность восстановить речь, писатели смогут выпускать аудиоверсии своих текстов без посторонней помощи – не говоря уже про мгновенный дубляж фильмов, образовательные подкасты или комедийные шоу (надо признать, по комикам-пародистам нанесен серьезный удар).

Зловещая убедительность

Число одиннадцать в нумерологии означает переход на высшую ступень эволюции. Неизвестно, вкладывали ли создатели ElevenLabs данный смысл в название компании, но они определенно метят на эту самую ступень. Их высшая цель, по собственному признанию, состоит в том, чтобы стереть языковые барьеры между людьми. Разумеется, вышеуказанное разрушение барьеров сопряжено с многочисленными побочками – в диапазоне от фальшивых банковских транзакций до сексуальных разводок, от имитации детской мольбы до приказов о введении войск. Всякий уважающий себя киберпреступник готов теперь, должно быть, воскликнуть вслед за героем гайдаевской комедии: «Ах, какое полезное изобретение!». Если даже сегодня достаточно искушенные люди вовсю ведутся на банальный и, в общем-то, довольно неуклюжий телефонный пранк, то что же будет завтра, когда голоса предположительных абонентов станут совершенно неотличимы?

The Atlantic как раз упирает на «зловещую убедительность», с которой твой собственный голос теперь может озвучивать вещи, доселе тебе не свойственные. Десять лет назад в политическом лексиконе активно гуляло понятие пост-правда, которое подразумевало примат субъективности и эмоциональной убедительности над фактической стороной дела. Теперь эта эмоциональная субъективность усилится в разы – алгоритм может сделать любую речь сколь угодно плаксивой или приказной, тем самым отправляя нас в эру некоей гиперправды.

Разумеется, Elevenlabs бесконечно пекутся о защите пользовательских данных, вводят запреты на клонирование голосов тех или иных селебрити и повышают плату за аккаунты, но очевидно, что сам факт существования технологии подразумевает ее использование в любых подручных целях. В конце концов, в 2023 году одной из первых реакций на продукцию ElevenLabs стал фейк актрисы Эммы Уотсон, зачитавшей «Майн Кампф».

Волшебство и архетипы

На прошедшей неделе в мире ИИ произошло еще одно знаковое событие. Конфликт основателя OpenAI Сэма Альтмана с его главным научным сотрудником Ильей Суцкевером закончился уходом последнего из компании. Это можно воспринять как своеобразную победу бизнесмена над ученым – Суцкевер выступал против коммерциализации проекта, взывал к ответственности и более осторожному внедрению инновационных технологий в повседневность. В определенном смысле триумф ElevenLabs тоже следует рассматривать в русле восторжествовавшей тенденции – создатели компании обмолвились о том, что в существующей конкурентной ситуации у них нет времени на то, чтоб взвешивать дальнейшие риски по эксплуатации продукта.

Есть подозрение, что Альтман не случайно использует слово «волшебство» и голливудские аллюзии в новом чат-боте тоже не с потолка взялись. Это похоже на продуманную установку, взывающую к архаическим пластам сознания. Стычка Альтмана и Суцкевера весьма показательна и отсылает нас в глубь веков и к схватке архетипов. Если ученые выступают за продуманное будущее и формульный прогресс с учетом последствий, то капиталисты отстаивают авантюрное безумие и в данном скорее пребывают на стороне мифов, культов и прочей фабрики грез (см. давнюю работу Вальтера Беньямина «Капитализм как религия»). Вообще, стоит отметить, что число алармистских публикаций о том, как ИИ вот-вот выйдет из-под контроля и уничтожит человечество, значительно сократилось в медийном поле по сравнению даже с прошлым годом – есть ощущение, что wow-эффект от развития соответствующих технологий все же затмевает страхи и возражения. В некотором смысле цель ElevenLabs — это восстановление Вавилонской башни c ее единым языком, и какая может быть ответственность у подобного акта волшебства?

Характерно, что именно голос помещен во главу угла, что тоже вполне соответствует иным архаическим ритуалам – так, в некоторых древних обычаях шут, или так называемый архимим, сопровождавший похоронную процессию, подражал речам покойного. Американский нейропсихолог Оливер Сакс писал: «Слуховые галлюцинации характерны для всех культур. Во все времена и во всех странах люди слышали голоса и часто придавали им огромное значение – боги в древнегреческих мифах часто говорят со смертными, как и единый Бог в религиях монотеистических. В этом отношении голоса считались более важными, ибо голосом можно дать объяснение или отдать недвусмысленный приказ, что невозможно сделать с помощью одних лишь зрительных образов».

Теперь, конечно, с верификацией божеств возникают определенные сложности. Но волшебство на то и волшебство, что не может ничего гарантировать – тут уж хотите верьте, хотите нет.