ИИ от Google заговорил человеческим голосом. Отличить невозможно

Google запустил новую систему преобразования текста в речь, которую он называет Tacotron 2. Система работает с потрясающей точностью, генерируя искусственный голос, неотличимый от голоса реального человека.

Это не преувеличение: Tacotron 2 является вторым поколением технологии и состоит из двух нейронных сетей. Первая из них преобразуют текст в специальную спектрограмму (ее вы увидите на рисунке ниже), а вторая, WaveNet, «читает» эту диаграмму и интерпретирует ее, создавая голос, неотличимый от человеческого.

Спектрограмма восклицания "Whoah". Изображение: Google
Спектрограмма восклицания "Whoah". Изображение: Google

Новая система не звучит как «голос робота» и может даже верно произносить слова в зависимости от семантики.

Принцип работы системы. Изображение: Google
Принцип работы системы. Изображение: Google

Сейчас система обучается всем нюансам английского языка и может говорить только одним женским голосом. Система может не только читать текст, но также и выделять в речи определенные места: если какое-то слово будет выделено строчными буквами, она сделает на нем дополнительный акцент.

Послушать, как звучит Tacotron 2, а также сравнить его с человеческим голосом можно здесь.