Microsoft представил нейросеть VASA для генерации видео. Искусственный интеллект реалистично оживил Мону Лизу

Опубликовано 18 апреля 2024 17:08

(обновлено 26 июня 2024 17:29)

Рената Гиматдинова

В Microsoft показали новую нейросеть VASA, которая генерирует видео на основе картинки и аудиодорожки. Искусственный интеллект создает реалистичные цифровые портреты, которые не отличишь от настоящих, и оживляет «Мону Лизу».

Компания Microsoft представила новый фреймворк под названием VASA. Это нейросеть, которая может генерировать видео по картинке и аудиодорожке. По задумке разработчиков VASA оживляет портреты так, чтобы они смотрелись максимально реалистично и естественно.

Наша первая модель, VASA-1, способна не только воспроизводить движения губ, точно синхронизированные со звуком, но и передавать мимику и естественные движения головы, которые делают портрет подлинным и живым, — говорится в заявлении компании.

VASA создает видео в формате 512х512 со скоростью 40 кадров в секунду. Microsoft обещает, что их методика генерации роликов вскоре позволит делать цифровые аватары, которые будет сложно отличить от настоящих людей — они будут также реалистично говорить и двигаться. Пока VASA недоступна для общего пользования, но можно посмотреть примеры.

Модели моргают, совершают едва заметные, но свойственные живому человеку движения мимики, смотрят по сторонам. Зрители отмечают, что аватары в самом деле выглядят очень реалистично.

Пользователь VASA может управлять ракурсом, наклоном и поворотом головы, приближать и удалять портрет.

VASA генерирует видео и по художественным изображениям. Особое внимание зрителей привлек оживленный портрет Моны Лизы кисти Леонардо Да Винчи.

Microsoft предупреждает, что все изображения, кроме Моны Лизы, были сгенерированы с помощью tyleGAN2 и DALL-E-3. Также компания отметила, что VASA не должна быть использована для нанесения вреда кому-либо.