Будущее все ближе, верят пользователи новой мультимодальной версии GPT-4o от компании OpenAI. Теперь нейросеть может генерировать человеческий голос, считывать видео и фото, шутить, смущаться, быстрее переключаться с языка на язык, писать коды и справляться с таблицами и уравнениями.
На сайте компании OpenAI вышла презентация новой версии нейросети GPT-4o. Буква «о» в названии означает omni («всесторонний»), то есть теперь это мультимодальный сервис, который превосходит своих предшественников и работает сразу с текстом, звуком и картинками. У модели производительность на уровне GPT Turbo, но она лучше воспринимает аудио и картинки. Пока основные функции GPT будут бесплатно доступны всем пользователям.
GPT-4o – это универсальный голосовой помощник, который реагирует на голос в среднем за 320 миллисекунд, почти как в настоящем разговоре. Нейросеть может правдоподобно генерировать человеческую речь, воспроизводить различные интонации, считывать эмоции собеседника, смущаться, шутить, смеяться и выражать мнение. Например, на демонстрации нейросеть радуется за мужчину по имени Роки, идущего на собеседование, и мягко критикует его внешний вид.
Новые возможности нейросети произвели на зрителей большое впечатление – многие комментаторы вспомнили фильм «Она» 2013 года с актером Хоакином Фениксом в главной роли. По сюжету герой влюбляется в свою голосовую помощницу Саманту, работающую на основе искусственного интеллекта. Кажется, теперь фантастика на наших глазах превращается в реальность.
Нейросеть может распознавать фото и видео, которые пользователь показывает ей или снимает в режиме реального времени. GPT-4o комментирует их, делится эмоциями и задает вопросы. Так, на видео нейросеть умиляется собаке и дает питомцу ласковые прозвища.
Новая модель доступна более чем на 50 языках и может переключаться с языка на язык и переводить качественнее и быстрее на 50%, как рассказывают на сайте OpenAI. Составлять таблицы, решать сложные математические задачи и писать коды с новой версией GPT тоже стало проще. Блогер DenisSexyIT поделился видео, где показал, насколько быстро нейросеть справляется с программированием.
GPT-4o может генерировать аудио, видео, обычные и 3D-картинки по запросу пользователя, пересказывать текст, сочинять стихи и тому подобное.
У новой модели контекстное окно в 128 тыс. токенов, это значит, что нейросеть может «держать в уме» объем информации равный примерно двум романам «Великий Гэтсби» Фицджеральда, сравнивают блогеры.