Исследователи из Института интеллектуальных вычислений Alibaba Group показали в действии новое приложение искусственного интеллекта Emote Portrait Alive. Программа берет одну фотографию лица человека и саундтрек, в котором кто-то говорит или поет, объединяет их и получает анимированную версию снимка. Изображенный на нем человек или персонаж может петь и говорить что угодно, пишет TechXplore.
Уже создавались ИИ-инструменты, способные превращать обычные фотографии в анимированные. В новом проекте команда Alibaba пошла дальше, добавив звук. Ученые не использовали 3D-модели или ориентиры лица. Вместо этого они применили диффузионное моделирование, основанное на обучении ИИ на больших наборах данных аудио- или видеофайлов. Для создания приложения понадобилось около 250 часов таких данных.
Путем прямого преобразования аудиосигнала в видеокадры исследователи создали приложение, которое фиксирует тонкие жесты человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение лица как человеческое. Видео точно воссоздает вероятную форму рта при артикуляции слов и предложений, а также подходящую мимику.
Ученые опубликовали несколько видеороликов, демонстрирующих довольно точную работу инструмента. Разработчики уверены, что их приложение превосходит другие решения по реалистичности и выразительности. Длина готового видео определяется длиной исходной звуковой дорожки.
В видеороликах исходное изображение показано рядом с его анимированной версией, которая что-то говорит или поет голосом другого человека. Таким способом ученые оживили Мону Лизу, заставив ее произнести монолог, а Одри Хепберн спела песню.
Команда признает, что такое приложение нужно ограничивать и контролировать для предотвращения неэтичного использования технологии.
Впрочем, бурное развитие ИИ не остановить. Не так давно OpenAI, компания-разработчик ChatGPT, анонсировала новую нейросеть. Она тоже работает с текстовыми запросами, но в ответ выдает реалистичные видео. Смотрите, что умеет новый функционал.