ИИ заставил Мону Лизу заговорить

Ученые создали инструмент, позволяющий вложить любые слова в уста изображенного человека.

Исследователи из Института интеллектуальных вычислений Alibaba Group показали в действии новое приложение искусственного интеллекта Emote Portrait Alive. Программа берет одну фотографию лица человека и саундтрек, в котором кто-то говорит или поет, объединяет их и получает анимированную версию снимка. Изображенный на нем человек или персонаж может петь и говорить что угодно, пишет TechXplore. 

Новое ИИ-приложение оживляет фотографии людей и добавляет речь.
Новое ИИ-приложение оживляет фотографии людей и добавляет речь.Источник: arXiv, 2024

Уже создавались ИИ-инструменты, способные превращать обычные фотографии в анимированные. В новом проекте команда Alibaba пошла дальше, добавив звук. Ученые не использовали 3D-модели или ориентиры лица. Вместо этого они применили диффузионное моделирование, основанное на обучении ИИ на больших наборах данных аудио- или видеофайлов. Для создания приложения понадобилось около 250 часов таких данных.

Путем прямого преобразования аудиосигнала в видеокадры исследователи создали приложение, которое фиксирует тонкие жесты человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение лица как человеческое. Видео точно воссоздает вероятную форму рта при артикуляции слов и предложений, а также подходящую мимику.

Ученые опубликовали несколько видеороликов, демонстрирующих довольно точную работу инструмента. Разработчики уверены, что их приложение превосходит другие решения по реалистичности и выразительности. Длина готового видео определяется длиной исходной звуковой дорожки. 

ИИ заставил Мону Лизу заговорить

В видеороликах исходное изображение показано рядом с его анимированной версией, которая что-то говорит или поет голосом другого человека. Таким способом ученые оживили Мону Лизу, заставив ее произнести монолог, а Одри Хепберн спела песню. 

ИИ заставил Одри Хепберн спеть песню

Команда признает, что такое приложение нужно ограничивать и контролировать для предотвращения неэтичного использования технологии.

Впрочем, бурное развитие ИИ не остановить. Не так давно OpenAI, компания-разработчик ChatGPT, анонсировала новую нейросеть. Она тоже работает с текстовыми запросами, но в ответ выдает реалистичные видео. Смотрите, что умеет новый функционал.