Инженеры Microsoft создали нейросеть, которая заставляет фотографии двигаться и говорить. ИИ-модель называется VASA-1. Уже запущен официальный сайт нейросети с многочисленными примерами работ.
Для создания видео VASA-1 нужны только одна фотография человека и аудиодорожка с его голосом. Алгоритмы точно передают эмоции, улавливая тонкие нюансы, что делает ролики слишком реалистичными. Обещано, что ИИ-люди в кадре будут без роботипичных движений и застывшей мимики.
Пользователь может изменить настроение оживленной фотографии, например, сделать его веселым для блога или спокойным для проведения подкаста. Также можно настроить направление взгляда изображенного на снимке человека.
Чтобы голова правдоподобно вращалась, VASA-1 разделяет лицо на отдельные части, словно мышцы, которые отвечают у нас за движение определенных участков. На данный момент нейросеть поддерживает фотографии разрешением до 512×512 пикселей, а ролики генерируются с частотой до 45 к/с при том условии, если нейросеть запущена на ПК с графикой NVIDIA RTX 4090.
Microsoft боится, что чрезмерная реалистичность VASA-1 может стать не только главным преимуществом, но и главным недостатком нейросети. В компании считают, что ИИ-модель может породить множество фейков в интернете (реклама казино и скам-сервисов от знаменитостей, дипфейк-порнография с участием звезд и многое другое).
«Мы не планируем выпускать онлайн-демо-версию, API, сервис, дополнительные сведения о реализации или любые связанные с этим [VASA-1] предложения, пока не будем уверены, что технология будет использоваться ответственно и в соответствии с надлежащими правилами», — сообщили исследователи Microsoft.
Ранее в сети появилась услуга клонирования самого себя. Узнать ее цену можно тут.