VALL-E может анализировать тон, высоту и эмоциональный окрас спикера, чтобы искусственный голос вообще не отличался от настоящего. Нейросеть разбивает слова человека на отдельные части и анализирует каждую из них. Затем эти фрагменты сопоставляются с теми, что есть в базе данных VALL-E (более 60 000 часов речи).
Послушать работу алгоритмов можно на видео. Слева – голос человека, справа – результаты VALL-E:
В чем плюсы
Эту нейросеть можно использовать в кино, например, для озвучки актеров, которых нет в живых. Также можно «воскрешать» голоса исполнителей, чтобы выпускать новые песни с их участием.
Еще VALL-E стал бы отличным инструментом для дикторов и тех, кто озвучивает аудиокниги.
В чем минусы
Появление нейросети от Microsoft может вызвать огромную волну мошеннических схем. Злоумышленник может заполучить голос вашего близкого, а затем «оцифрованный» спикер будет звонить вам, представляясь знакомым человеком. Идеальная схема для вымогательства.
Также с VALL-E может появиться много «пиратского» голоса. Например, голос знаменитого актера могут использовать в других проектах, на которые он не подписывался.
Что в итоге
К счастью (или к сожалению), Microsoft не выпустила нейросеть в открытый доступ. Сейчас эта наработка остается внутри компании. Microsoft не уточнила, как ее будут использовать в дальнейшем. Также неясно, зачем вообще было создавать этот ИИ-алгоритм. Пока VALL-E работает только с английским языком.
Смотрите также
Ранее с помощью нейросети Midjourney удалось показать, как бы выглядела легендарная рождественская комедия «Один дома», если бы ее снимал Алексей Балабанов в России. Получилось очень атмосферно. Смотрите:
Также мы писали, как генерировать шедевры в нейросети Midjourney самому: пошаговая инструкция.