, Источник: Секрет Фирмы

Говорить как Путин, чихать как Собчак. Как российская нейросеть учится клонировать голоса

Со сцены Театра на Таганке звучит низкий голос с хрипотцой. Это — Владимир Высоцкий. «Сегодня 6 ноября 2019 года. И мы находимся на малой сцене Театра на Таганке. Мне очень приятно находиться в такой компании. Тимур, я очень люблю твои фильмы, и мне нравится то, что ты сегодня так присматриваешься к театру и начал именно с Театра на Таганке. Это очень правильный выбор», — говорит он режиссёру Тимуру Бекмамбетову.
Источник изображения: Секрет Фирмы

Хотя актёр умер в 1980 году, за десять лет до того, как Бекмамбетов снял свой первый фильм, эта речь — не склейка и не монтаж. Голос Высоцкого звучит так реалистично благодаря искусственному интеллекту Vera Voice, который умеет синтезировать голоса знаменитостей. «Секрет фирмы» поговорил с сооснователем стартапа Stafory (сооснователь проекта Vera Voice — совместного предприятия с Тимуром Бекмамбетовым) Владимиром Свешниковым о том, как появилась нейросеть и где будет применяться новая технология.

Всё началось с Веры

Сооснователь стартапа Stafory Владимир Свешников долго совершенствовал бизнес в сфере HR (Human Resources, подбор персонала. — Прим. «Секрета»). Сперва это был маркетплейс, где с одной стороны были работодатели, а с другой — фрилансеры. Но операторы кол-центра часто болели, прогуливали и не выполняли план.

Вот даёшь им задание обзвонить 100 человек, а они делают 80 или 50 звонков. Потом слушаешь звонки, а они обзванивают не так — не по твоему скрипту, задают вопросы, которые не нужно задавать. И, собственно, робот эту проблему решил: он не болеет, не прогуливает и работает тупо по скрипту. Ни шага влево-вправо.
Владимир Свешников
Сооснователь стартапа Stafory

Робот Вера звонила и проводила интервью с соискателями. «Мы были одними из первых, кто стал делать автоматизированные звонки в России. Люди реагировали хорошо, для них это была новая технологичная штука. Был вау-эффект, суперпозитивные отзывы — но прошло два года, и количество людей, которые бросали трубку, выросло больше чем на 25%», — рассказывает Свешников.

Во время загрузки произошла ошибка.

Разработчики стали задумываться — почему так происходит? Стали анализировать звонки и поняли, что люди бросают трубку, когда слышат голос робота. На рынке есть всего несколько стандартных голосов, которые используют все. Люди слышат эти голоса и думают: так, это спам, это реклама, это банк, это коллекторы.

«Мы стали думать, как бы отстроиться от этой истории. Мы-то звоним по работе. Говорить сразу „Привет, это по работе“ — даже на слове „привет” могут бросить трубку.

Мы хотели создать уникальный голос, который бы ассоциировался только с нашими кейсами по поиску работы. Чтобы кандидат поднял трубку, услышал голос робота и понял: о, это по работе звонят, надо послушать. И никому этот голос не отдавать», — рассказывает Владимир Свешников.

$1,2 млрд — за четыре года

Специалисты по Data Science (наука о методах анализа данных. — Прим. «Секрета») данных серьёзно подошли к этой задаче. Они изучили ещё не реализованные проекты и научные исследования по синтезу речи, выбрали самые интересные и придумали, как их доработать.

«Мы посмотрели с точки зрения бизнеса: кажется, здесь есть рынок. Он растёт достаточно неплохо — ему предсказывают рост $1,7 млрд к 2023 году. Сейчас он составляет в районе $500 млн. Мы решили в формате стартапа быстро попробовать простые голоса. Какое-то качество у нас сразу получилось — и оно нас сильно вдохновило», — рассказывает Владимир Свешников.

Собчак, Познер и Путин — в одном флаконе

Проект синтеза голосов Vera Voice официально стартовал 28 октября. В первом видео нейросеть копирует речь Владимира Путина, Ксении Собчак и Владимира Познера. Во втором — говорит голосом Владимира Высоцкого.

«Уважаемые граждане России. Дорогие друзья. Сегодня я хотел бы рассказать вам об одной перспективной технологии. Наши инженеры обучили нейронную сеть говорить разными голосами», — рассказывает о проекте Vera Voice голос, почти неотличимый от голоса президента Путина.

Во время загрузки произошла ошибка.

Многие не поверили, что разработчики синтезировали голоса. «Есть много версий. Что Тимур Бекмамбетов собирается делать новый фильм и это реклама его нового фильма. Что мы просто пиарим своего робота. Что мы нарезали речь Путина из кусков выступлений — а Собчак и Познеру просто заплатили. Второе видео — с голосом Высоцкого. Тут уже меньше конспирологических теорий», — рассказывает Владимир Свешников.

Как FaceApp — только с голосами

Сперва у стартаперов была идея сделать приложение — как FaceApp или Prisma. Казалось, это идеальный вариант для масс-маркета. «Мы делали фокус-группу, давали людям побаловаться, потом смотрели, что они там синтезируют. Чаще всего они синтезировали ужасно некрасивые вещи — с матом и оскорблениями. В одном из первых комментариев к нашему видео на Youtube пользователь просит озвучить голосом Путина фразу „Я устал, я ухожу”», — говорит Владимир Свешников.

Фейки против реальности

Если, к примеру, голосом Ксении Собчак или Владимира Познера скажут какую-то глупость, это не так страшно — в основном люди подумают, что это фейк, говорит Владимир Свешников. Но другое дело, если люди захотят использовать чужой голос в каких-то конкретных целях.

«Получается, что голосом Навального можно позвать кого-то на митинг или устроить беспорядки — а потом людей арестуют. Это может повлечь реальные негативные последствия для конкретного человека. Понятно, что потом когда-нибудь разберутся — а может, и нет. И мы решили не выходить с этой технологией на массовый рынок», — объясняет Владимир Свешников.

Как работает нейросеть?

Разработчики собирают аудио из разных источников и загружают их в сервисы разметки. Затем в работу вступают асессоры: они выбирают кусочки идеальной речи без шумов и соотносят их с расшифрованным текстом. «Всё происходит онлайн. Это легко масштабировать. Мы можем завтра нанять 100 асессоров — и за пару недель сделать голоса всех знаменитостей России», — говорит Владимир Свешников.

Нейросеть слышит последовательность звуков, а потом пытается максимально точно её воспроизвести. «Модель зависит от символов — она учится синтезировать не слова, а последовательность символов. Она отлично улавливает интонацию, но может говорить абсолютно любое слово. У нас Ксения Собчак говорит про рекуррентные сверточные нейронные сети — не уверен, что она или другие спикеры произносили эту фразу хоть раз в жизни», — объясняет Владимир Свешников.

Дыхание Собчак

Сетку учат не только говорить, но и кашлять и зевать. «У нас есть модель с кучей спецсимволов, через слеш ставим кашель, через амперсанд (символ &, заменяющий, как правило, союз «и». — Прим. «Секрета») — зевок. Вдохи мы не вырезали ни у одного из спикеров. Но они неконтролируемые: модель их ставит там, где считает нужным.

Допустим, после каждого пятого слова Собчак делает вдох — я сейчас утрирую, конечно, там более сложная зависимость. Даже комментарий был в YouTube, что наша нейросеть — это фейк, потому что Собчак вздыхает. Понятно, что нейронная сеть не может вздыхать. Но с другой стороны — это тоже звук», — объясняет Владимир Свешников.

«Май нэйм из прэзидэнт»

Кинематограф — один из самых перспективных рынков для синтеза голосов. Технологией синтеза голосов уже заинтересовался Netflix. «К примеру, есть сериал, и его нужно перевести на кучу языков. Было бы круто не нанимать дублеров, а чтобы те же Бред Питт и Анджелина Джоли заговорили на русском», — говорит Владимир Свешников.

Но ближайшее время переводчики и дублеры точно не останутся без работы. Если обучить ИИ голосу на иностранном языке, он всё равно не сможет синтезировать речь на русском. «Голос Путина может зазвучать и на английском языке. Но только если написать слова кириллицей. Ну то есть: «Хэллоу, май нэйм из прэзидэнт». Но говорить русская модель будет с диким русским акцентом», — рассказывает Владимир Свешников.

Вера для билингвов

В планах Stafory — научить нейросеть справляться и с такой задачей. «Если найдём какой-то бизнес-кейс, то обязательно сделаем. Нужны примеры голосов — желательно публичных людей, которые говорят на русском и тут же на английском. Можно сетку обучать, что есть спикер, а у него есть такая переменная как language (язык. — Прим. „Секрета“). Если таких спикеров будет много, теоретически сможем кого угодно научить», — говорит Свешников.

Пока что Stafory сконцентрировалась на озвучке фильмов и рекламы. «У нас есть контракт с „Кубиком в кубе”. Делаем голос Руслана Габидуллина, думаю, в ближайшее время зарелизим. Уже есть три или четыре проекта, которые готовы его голос использовать. Обсуждаем нюансы», — рассказывает Свешников. По его словам, стартап ведёт переговоры со многими знаменитостями: некоторые из них обращаются сами, на других есть запросы от бизнеса. О ком именно идёт речь — пока не известно.

Поднять инвестиции

Точную сумму вложений в нейросеть назвать сложно, потому что стартаперы одновременно работали над Vera Voice и роботом Верой. «Но вообще это достаточно затратно. Речь идёт о десятках миллионов рублей. Во-первых, деньги нужны на серьёзных специалистов. Простому программисту с улицы будет тяжело разобраться: там несколько моделей нейронных сетей, и нужно понимать, что такое звук, волна, какие у неё характеристики», — рассказывает Владимир Свешников.

С появлением робота Вера стартап начал привлекать инвестиции. «Мы сами начинали делать маркетплейс. Тогда своих денег было миллиона два рублей. Мы несколько раз подавали заявки в разные российские акселераторы. Нас не взяли в акселератор в Карелии и в Дагестане. Во ФРИИ нас взяли далеко не сразу. А когда на нас всё же обратили внимание и мы стали активно работать над продуктом, дело пошло. Сначала получили два миллиона от ФРИИ. Потом — 15 млн, 50 млн и ещё 226 млн (от фонда и частного инвестора)»,— говорит он.

Нет значит нет

Стартап Stafory использует голос только с согласия его обладателя. Есть маркетплейс, на котором можно заказать озвучку любым голосом, — и если человек не против, текст будут озвучивать его голосом.

«Мы понимаем, что, скорее всего, появятся такие же чуваки, как мы, которые будут менее замороченными на тему морали и рисков. Они просто решат хайпануть, срубить денег и набрать пользовательскую аудиторию. Поэтому мы подготовили инструмент, который будет определять фейки. Можно будет зайти на сайт, загрузить аудио и понять, фальшивое оно или нет», — объясняет Владимир Свешников.

Классификатор, который умеет отличать фейки от оригиналов, работает на машинном обучении. «В сеть грузится куча синтезированных и оригинальных аудио, и она должна понимать, где синтез, а где оригинал. Загрузишь синтез с металлическим звоном — значит, нейросеть будет пропускать аудио без шумов», — объясняет Владимир Свешников.

Твой голос — мой голос

Пока российские законы никак не регулируют право собственности на синтезированный голос. «Нам достаточно сложно заключать контракты с селебрити и продавать голоса — потому что нет норм, которые бы это регулировали», — рассказывает Владимир Свешников. И это проблема, которую надо решать.

Есть два важных вопроса, которые предстоит решить законодателям:

Стартап Stafory планирует выступить с инициативой о регулировании рынка синтезируемых голосов.

Vera Voice в Голливуде

Ближайшие планы — выйти на рынок США. «В России клонированием голоса занимаемся мы и Сбербанк (он синтезировал голос Грефа и Станиславского). В США таких сервисов, конечно, больше: это и Amazon, и Google, и стартап Dessa, который делал голос Джо Рогана. Это известный комик, который брал интервью у Маска, когда тот курил траву. Они сделали его голос, очень круто получилось», — рассказывает Владимир Свешников.

Нейросеть Vera Voice может успешно конкурировать с американскими сетками. Только потребуется меньше данных, меньше времени и меньше затрат — а качество будет таким же, отмечает Свешников. «Их нейросети обучаются на восьми часах, минимум — на четырёх часах. А у нас Путин получился на двух. Кажется, что мы знаем, как сделать и на одном часе. Возможно, у нас получится сделать голос и на 10 минутах», — говорит он.

«Купи-ка кока-колу, Вова»

В чём основные плюсы синтеза голоса? Можно озвучить какой-то большой текст или динамическую рекламу. «Для увеличения дохода от рекламы, круто делать персонифицированную рекламу голосом знаменитости. Наша технология это позволяет. Условно, я послушал песню Шнура на Spotify, а в конце песни Шнуров мне говорит: „Слушай, а купи-ка кока-колу, Вова“. И я такой: „Опа!”»,— говорит Владимир Свешников.

Есть и социальное направление — для людей, у которых серьёзные проблемы с голосом. «Например, Стивен Хокинг — все мы знаем голос его робота. А могли бы просто знать голос Стивена Хокинга. Настоящий. У нас, кстати, есть запрос сделать голос робота Стивена Хокинга», — говорит Владимир Свешников.

Синтез ждёт перемен

Ещё одна сфера, где может применяться технология синтеза голосов, — это музыка для кафе. «У нас ребята баловались с синтезом. Перепевали песни всякими голосами. Но получается достаточно плохо. Сетка же не умеет петь. Какую-то гласную, например „е“, просто пишем несколько раз. Это звучит ужасно.

Но если в сетку поставить Pipeline, который синтезирует речь, и ещё одну сетку, которая будет учитывать ноты и тональность, — и через всё это прогнать какие-то песни, то можно научить нейросеть петь. У нас уже просили, чтобы Путин спел „Перемен!”», — говорит Владимир Свешников.

Стартап победителей

Сейчас стартап работает над контролируемым синтезом, который учитывает шесть базовых эмоций: счастье, удивление, страх, отвращение, гнев и печаль. Особенно это поможет при озвучивании аудиокниг и рекламных роликов.

«В случае с песнями когда-нибудь мы получим какой-то суперконтролируемый голос, и он начнет выигрывать на Евровидении. Уже сейчас нейросети побеждают в гейм-индустрии — в „Доте“ (Dota2) и в го.

Думаю, что с песнями будет то же самое. Нейросети могут участвовать в рэп-баттлах. Будет в шоубизнесе не группа такая-то, а стартап такой-то, который генерирует рэп», — прогнозирует Владимир Свешников.

После стольких лет? Всегда

Актёры, которые умерли, cмогут «сниматься» в кино и конкурировать с живыми. В США есть целая индустрия, которая использует голоса умерших актёров и знаменитостей. Специальные агентства создают образы, озвучивают цитаты. В России эта индустрия только зарождается.

«Есть у нас договорённости по голосу Высоцкого — с Театром на Таганке. Мы делаем комнату, в которую можно будет зайти и поговорить с Высоцким. Мы его голос уже релизили в театре. Все были очень удивлены, что голос Высоцкого зазвучал со сцены спустя столько лет», — говорит Свешников.

Планируется, что комнату откроют 25 июля — в день, когда будет 40 лет со дня смерти Высоцкого. А пока комнату готовят, низкий голос с хрипотцой звучит со сцены:

«То, что на Таганке сегодня идут спектакли по пьесам Пряжко, Ауг и Житковского, — это здорово! Современная драма должна быть на сцене всегда. А вот относительно всей этой сегодняшней дискуссии — про скринлайф, про зелёные экраны, Facebook как альтер эго, голограммы и прочие технические приблуды — нет у меня пока позиции. Но то, что я вот сейчас звучу как живой — а я и есть живой, — явно впечатляет. Удачных находок в работе. Ваш Володя».

Редактор: Анастасия Целых, «Секрет Фирмы»

Это тоже интересно:

«Идеальный колл-центр — тот, которого не существует». Большое интервью о спамерах

Накрашенные парни покорили весь мир. Что такое K-pop, и почему он популярен?

Дмитрий Медведев считает, что скоро часть профессий отдадут роботам. Как это будет

Контент недоступен
Обзоры новинок
Подробности о главных премьерах
Обнаружили ошибку? Выделите ее и нажмите Ctrl+Enter.
Подпишитесь на нас