Создана нейросеть, заставляющая фотографии петь

29 февраля 2024

Новая технология преобразовывает звук сразу в видео. Результат оказался очень правдоподобным.

Китайская компания Alibaba представила нейросеть EMO, которая позволяет анимировать фотографию и заставить изображенного на ней человека петь или говорить. Об этом пишет VentureBeat.

Систему ИИ разработали специалисты Института интеллектуальных вычислений Alibaba. Название EMO расшифровывается как Emote Portrait Alive. Разработчики обучили диффузионную модель на 250 часах видеороликов, в том числе отрывков фильмов и выступлений музыкантов.

Предыдущие модели схожих нейросетей опирались на 3D-модели лиц, чтобы создать движение мышц. EMO сразу преобразовывает звуковой сигнал в видео, длительность которого зависит от загруженного аудиотрека. Технология позволяет сделать анимацию более реалистичной. «Результаты экспериментов показывают, что EMO способна создавать не только убедительные видео с разговорами, но и ролики с пением в различных стилях, значительно превосходя существующие современные методики по выразительности и реалистичности», — отметили исследователи.

Пока что технология находится на ранней стадии разработки. В Alibaba не рассказали, когда EMO смогут воспользоваться все желающие.

Ранее по китайскому телевидению начали показывать ИИ-мультфильмы. Это первый анимационный сериал, разработанный нейросетью, который получил такую широкую аудиторию.

Андрей Бритенков

Создана нейросеть, заставляющая фотографии петь

Читайте Hi-Tech Mail.ru в Google Новости