Читай по губам: новый алгоритм заставит вас сказать на видео все, что нужно

Пока что существует только его демо-версия, но она уже впечатляет.
Сергей Ульянов
Демонстрация работы нейросети Lalamu: Волан-де-Морт говорит голосом Гомера Симпсона. Видео: Lalamu Studio

Разработчики из Lalamu Studio представили необычную и пугающую нейросеть. 

Что она делает?

Алгоритм изменяет речь и мимику любого человека на любом видео. Пользователь может загрузить свою аудио- и видеодорожку или выбрать их из пресетов, а также написать свою реплику.

Lalamu сгенерирует ролик, где изображаемые люди произносят написанный текст. Причем движение губ на картинке будет синхронизировано с репликой. 

Что дальше?

Пока что проект находится в демо-версии и работает с некоторыми ограничениями — по качеству выдаваемого видео, например. Однако разработчики обещают вскоре пофиксить этот аспект и добавить несколько новых функций:

  • обработку нескольких видео- и аудиодорожек единовременно;
  • просмотр и редактирование итогового ролика в реальном времени — сейчас нейросеть выдает готовое видео, на процесс обработки которого вы не можете повлиять; 
  • увеличение количества поддерживаемых языков.

Дата появления финальной версии Lalamu пока неизвестна. Напомним, ранее мы рассказывали о Drag GAN — революционном алгоритме изменения фотографий, который в интернете уже назвали «фотошопом будущего».