Новая эра ИИ: что стоит за бесплатным GPT-4o от OpenAI

Опубликовано
GPT-4o поглощает не только данные пользователей, но и сведения третьих лиц, раскрытые в ходе взаимодействия с сервисом ИИ. Фото: shutterstock.

Чем платит пользователь за якобы бесплатные сервисы с искусственным интеллектом? На этот вопрос в своей колонке для Project Syndicate отвечают профессор права в Университете Гонконга Анжела Хуюэ Чжан и профессор менеджмента Лондонской школы бизнеса Алекс Янг.

С запуском GPT-4o OpenAI вновь показала себя как самую инновационную компанию в мире искусственного интеллекта. Этот новый мультимодальный инструмент ИИ, который бесшовно обрабатывает текст, голос и картинки значительно быстрее предыдущих версий, тем самым существенно улучшая пользовательский опыт. Но, возможно, самым привлекательным аспектом GPT-4o является то, что он бесплатен — или, по крайней мере, кажется таким.

Платить за подписку на GPT-4o не нужно. Вместо этого пользователи платят своими данными. Как черная дыра, GPT-4o увеличивается в массе, поглощая любой материал, который приближается слишком близко. ИИ аккумулирует каждую частичку информации, введенную пользователем, будь то текст, аудио или изображение.

GPT-4o поглощает не только данные пользователей сами по себе, но и данные третьих лиц, раскрытые в ходе взаимодействия с сервисом ИИ. Допустим, вы хотите получить краткое содержание статьи из New York Times. Делаете скриншот и загружаете его в GPT-4o. Он читает скриншот и генерирует запрашиваемое краткое содержание в течение нескольких секунд. Для вас взаимодействие на этом заканчивается. Но теперь у OpenAI есть весь авторский материал из этого скриншота и он может использовать эту информацию для обучения и улучшения своей модели.

Так делает не только OpenAI. За последний год многие компании, включая Microsoft, Meta, Google и X (ранее Twitter), без лишнего шума обновили свои политики конфиденциальности, добавив туда разрешение использовать все введенные данные для обучения генеративных моделей ИИ. Хотя ведущие компании в области ИИ уже столкнулись с многочисленными исками в США за несанкционированное использование защищенного авторским правом контента для этой цели, их аппетит к данным остается ненасытным. В конечном счете, чем больше они получают, тем лучше они могут сделать свои модели.

Проблема для ведущих компаний в области ИИ, что высококачественные данные для обучения все реже встречаются. В конце 2021 года OpenAI настолько отчаянно нуждалась в данных, что, как сообщается, расшифровала более миллиона часов видео с YouTube, тем самым нарушив правила платформы. (Google, материнская компания YouTube, не предприняла юридических мер против OpenAI, возможно, чтобы избежать ответственности за собственный сбор данных с видео, права на которые принадлежат их создателям.)

С новым GPT-4o компания OpenAI пробует другой подход, используя большую растущую базу пользователей, привлеченную обещанием бесплатного сервиса, для краудсорсинга огромного количества мультимодальных данных. Этот подход отражает известную бизнес-модель техплатформ, таких как поисковые системы или социальные сети: не брать с пользователей платы за услуги, а извлекать прибыль из отслеживания приложений и сбора данных — то, что профессор Гарварда Шошана Зубофф назвала «надзорным капитализмом».

Конечно, пользователи могут запретить OpenAI использовать их «чаты» с GPT-4o для обучения модели. Но если вы сделаете это в настройках, то ИИ автоматически отключит историю ваших чатов и вы лишитесь доступа к прошлым запросам. Нет очевидной причины, по которой эти две функции должны быть связаны. Единственная — так вас пытаются отговорить от отказа в обучении модели.

OpenAI делает акцент только на этом способе, но если юзер хочет отказаться от использования его данных для обучения модели, не теряя при этом историю чатов, существует другой способ. Правда, придется выполнить большое количество действий на портале конфиденциальности OpenAI. Проще говоря, компания сделала так, чтобы отказ оборачивался необходимостью долго разбираться, надеясь, что пользователи этого делать не будут.

Даже если пользователи соглашаются на использование их данных для обучения ИИ, для защиты от нарушения авторских прав этого согласия недостаточно: пользователи отдают данные, которые им могут не принадлежать. Их взаимодействие с GPT-4o таким образом имеет побочные эффекты для создателей контента, которым они делятся — то, что экономисты называют «внешними эффектами». В этом смысле согласие значит мало.

Хотя краудсорсинг OpenAI может привести к нарушениям авторских прав, привлечь компанию или подобные ей к ответственности будет нелегко. Результаты, созданные ИИ, редко выглядят как данные, с помощью которых их обучили. Правообладателям трудно определить, использовался ли их контент для обучения модели. Более того, компания может заявить о незнании: пользователи предоставили контент, когда взаимодействовали с сервисом, поэтому как компания может знать, откуда они взяли этот контент?

Креаторы и издатели уже используют методы, чтобы защитить свой контент от поглощения черной дырой обучения ИИ. Некоторые внедрили технологические решения для блокировки сбора данных. Другие обновили свои соглашения, чтобы запретить использование их контента для обучения ИИ. В прошлом месяце Sony Music — один из крупнейших музыкальных лейблов в мире — отправил письма более 700 компаниям, занимающимся генеративным ИИ, и стриминговым платформам с предупреждением не использовать его контент без однозначного разрешения.

Но до тех пор, пока OpenAI может использовать лазейку «предоставленных пользователем» данных, такие усилия будут напрасны. Единственный надежный способ решения проблемы внешних эффектов GPT-4o — это ограничить возможности компаний из области ИИ собирать и использовать данные, которыми делятся с ними их пользователи.

Copyright: Project Syndicate, 2024.

www.project-syndicate.org 

Читайте также