
Систему ИИ разработали специалисты Института интеллектуальных вычислений Alibaba. Название EMO расшифровывается как Emote Portrait Alive. Разработчики обучили диффузионную модель на 250 часах видеороликов, в том числе отрывков фильмов и выступлений музыкантов.
Предыдущие модели схожих нейросетей опирались на 3D-модели лиц, чтобы создать движение мышц. EMO сразу преобразовывает звуковой сигнал в видео, длительность которого зависит от загруженного аудиотрека. Технология позволяет сделать анимацию более реалистичной. «Результаты экспериментов показывают, что EMO способна создавать не только убедительные видео с разговорами, но и ролики с пением в различных стилях, значительно превосходя существующие современные методики по выразительности и реалистичности», — отметили исследователи.
Пока что технология находится на ранней стадии разработки. В Alibaba не рассказали, когда EMO смогут воспользоваться все желающие.
Ранее по китайскому телевидению начали показывать ИИ-мультфильмы. Это первый анимационный сериал, разработанный нейросетью, который получил такую широкую аудиторию.