Это не преувеличение: Tacotron 2 является вторым поколением технологии и состоит из двух нейронных сетей. Первая из них преобразуют текст в специальную спектрограмму (ее вы увидите на рисунке ниже), а вторая, WaveNet, «читает» эту диаграмму и интерпретирует ее, создавая голос, неотличимый от человеческого.
Новая система не звучит как «голос робота» и может даже верно произносить слова в зависимости от семантики.
Сейчас система обучается всем нюансам английского языка и может говорить только одним женским голосом. Система может не только читать текст, но также и выделять в речи определенные места: если какое-то слово будет выделено строчными буквами, она сделает на нем дополнительный акцент.
Послушать, как звучит Tacotron 2, а также сравнить его с человеческим голосом можно здесь.