История голосовых помощников: как роботы стали человекоподобными и перестали раздражать

В 99% случаев человек даже не догадывается, что разговаривает с роботом. Как голосовые помощники прошли путь от простых программ до сложных систем — рассказал коммерческий директор разработчика голосовых помощников Neuro.net Александр Лошкарев.
Hi-Tech Mail

Согласно исследованию Anketolog.ru, 88% опрошенных россиян регулярно сталкиваются с ответами голосовых помощников при обращении в компании. Еще 64% респондентов отметили, что роботы звонят им сами. Что касается темпов роста рынка разговорного ИИ в России, то в 2020 году он составлял $76 млн. Прогнозируется, что в 2025 году рынок выйдет на объем $561 млн.

Во многом таких показателей вендоры разработки достигают благодаря внедрению технологий, направленных на развитие человекоподобности голосовых ассистентов. Благодаря таким практикам люди все чаще принимают робота за человека, а он в свою очередь эффективнее справляется с поставленными задачами: подтверждает записи, отрабатывает претензии или верифицирует абонентов. Но голосовые помощники прошли долгий путь, прежде чем их стали путать с людьми.

Голосовой помощник
Источник: Midjourney

Как голосовые ассистенты научились общаться

Первый голосовой помощник появился в 1961 году. Компьютер IBM Shoebox распознавал цифры от 0 до 9 и 6 голосовых команд («плюс», «минус», «итог», «промежуточный итог», «неверно» и «выключено»). Компьютер преобразовывал голос диктора в задачи и выполнял сложные математические расчеты.

Спустя 11 лет в 1972 году в университете Карнеги — Меллона исследователи сыграли в шахматы против компьютера, используя только голос. Разработанная учеными система распознавала 1000 голосовых команд.

В 1990 году компания Nuance Communications представила Dragon Dictate, первую программу по распознаванию голоса для обычных пользователей. Ее можно было купить за 9 тыс. долларов — за эти деньги человек получал пишущую машинку, работающую по голосу. Программа перерабатывала речь в текст со скоростью 40 слов в минуту и отправляла получившееся сообщение принтеру на печать. Базовый словарный запас программы составлял 30 тыс. слов.

Пишущая машинка, работающая по голосу
Источник: Midjourney

В 1997 году от той же компании вышло ПО Dragon NaturallySpeaking, которое по-прежнему доступно для скачивания. Скорость транскрибации человеческой речи увеличилась до 100 слов в минуту. Сама же программа стала стоить дешевле — $695.

В 2011 году случился самый настоящий прорыв в сфере голосовых помощников и ИИ в целом. Суперкомпьютер Watson от IBM победил в американской версии «Своей игры» («Jeopardy!») двух рекордсменов шоу. Компьютер не имел доступа к интернету, а отвечал на вопросы, используя знания, полученные путем индексации большого числа текстов. С тем, чтобы Watson мог понимать человеческую речь, IBM помогла уже известная нам Nuance Communications.

В том же году Apple представила первого персонального голосового помощника Siri. Алгоритм распознавания речи снова написала Nuance Communications. Интеграция голосового ассистента со смартфоном по-настоящему раскрыла потенциал робота. Если сначала Siri могла помочь с вводом текста, то дальше функционал программы расширился. Как Siri, так и появившиеся позже Google Ассистент или Alexa от Amazon с развитием технологий в сфере ИИ стали лучше понимать человеческую речь и быстрее обучаться на основе взаимодействия с пользователем.

Персональные ассистенты стали неотъемлемой частью смартфонов благодаря своей способности понимать контекст и персонализировать ответы. Сейчас они могут отвечать на вопросы, сообщать о погодных изменениях, ставить напоминания, музыку и управлять умным домом. Помимо этого, еще одним достижением разработчиков голосовых ассистентов стала интеграция в браузеры голосового поиска, который стал распространенным методом получения информации.

Роботы голосовые помощники
Источник: Midjourney

Какую же роль играют голосовые помощники в бизнесе? Сегодня голосовые роботы помогают не только решать задачи исходящего голосового обзвона и входящей клиентской линии, но и полностью оптимизировать бизнес-процесс.

Плюсы от внедрения голосовых помощников:

  1. Стоимость работы ИИ в несколько раз дешевле стоимости работы живого оператора.
  2. Роботы никогда не устают — могут успешно работать во время пиковой нагрузки и легко масштабироваться.
  3. Роботы поддерживает технологию биометрии голоса и элементы встроенной речевой аналитики, что помогает определять голос, пол, возраст пользователя и эффективно работать с возражениями.
  4. Робота легко обучить новым скриптам с помощью NLU (Natural Language Understanding — понимание естественного языка и обработка его искусственным интеллектом).

В отдельных случаях возможна интеграция голосовых ассистентов в существующий контакт-центр. В нашей компании Neuro.net был такой опыт работы. У крупного ритейлера стартовала массовая рекламная кампания с 1,5 млн абонентов. Компания понимала, что собственный контакт-центр не справится с такой нагрузкой. Поэтому ритейлер принял решение прибегнуть к помощи голосовых роботов.

Робот голосовой ассистент
Источник: Midjourney

Клиент опасался, что робот будет отвечать не так, как отвечают живые операторы. Чтобы сохранить лояльность абонентов, мы заложили вариативность робота, предусмотрев ответы на часто задаваемые вопросы. Продуманный скрипт помог сделать робота неотличимым от реальных операторов. Для этого также применили такие решения, как рандомную подставку офферов в случае отказа абонента от первичного предложения и случайное воспроизведение разными голосами дикторов при каждом новом контакте с абонентом.

Как результат, ключевые показатели остались на уровне контакт-центра, как если бы весь центр составляли живые операторы. Конверсия в продажу составила 15%, конверсия по дозвону — 82%, индекс NPS сохранился на самом высоком уровне.

Как работают голосовые помощники

Колонка с голосовым помощником
Источник: Midjourney

Голосовые помощники работают на основе технологии синтеза и распознавания речи. Внутри них находится движок, который включает нейросеть, обученную различным сценариям диалога. При этом алгоритмы машинного обучения помогают голосовым помощникам улучшаться, извлекая уроки из предыдущих взаимодействий и лучше понимая различные акценты и особенности речи.

Этапы работы голосового помощника:

  1. Пользователь дает голосовую команду роботу.
  2. Робот преобразует команду в текст.
  3. Робот анализирует получившийся текст для определения контекста сообщения и намерений пользователя.
  4. Робот отвечает на команду пользователя.

Интересно, что благодаря скачку в развитии генеративного ИИ голосовые помощники стали более персонализированными. Роботы получили возможность запоминать контекст беседы с пользователем.

Чтобы выполнить свою задачу в диалоге с пользователем — привести его к целевому действию — голосовой помощник использует заранее записанные скрипты. От правильно написанных сценариев зависит значительная часть успеха в работе голосового ассистента.

Робот сводит звук
Источник: DALLE 3

Критерии хороших скриптов:

  • все скрипты индивидуальны и разрабатываются под каждого клиента отдельно;
  • отличным подспорьем при написании сценария является получение аудиозаписей «живых» операторов;
  • эти записи помогают заложить в голосовых помощников ответы на неочевидные вопросы, которые абоненты задают операторам;
  • под каждый конкретный случай необходимо выбрать подходящих диктора, скорость речи и интонацию;
  • скрипт необходимо дорабатывать, чтобы он продолжал работать и показывать целевую конверсию.

Самые известные примеры голосовых помощников

Колонки
Источник: Midjourney

Когда заходит разговор о голосовых роботах, на ум сразу приходят персональные голосовые ассистенты. Первым, как мы уже сказали, был Siri от Apple. На год позднее в 2012 году Google представил своего голосового помощника Google Ассистента. Оба решения предоставляли схожий функционал: отправка сообщений, создание записей в календаре, управление приложениями и ответы на вопросы. Роботы активизировались голосовыми командами «Hey Siri» или «OK Google». Среди менее известных голосовых помощников можно также вспомнить Cortana от Microsoft и Bixby от Samsung.

В 2014 году Amazon запустил тренд на применение разговорного ИИ в масштабах умного дома, выпустив ассистента Alexa. Тренд подхватили Google и Apple, представившие Google Home и Apple HomePod.

В России есть свои виртуальные ассистенты. В Почту Mail.ru и VK интегрирован голосовой помощник Маруся. Алиса от Яндекса есть во множестве гаджетов: от колонок и телевизоров до смартфонов и компьютеров. Свой виртуальный ассистент Салют доступен в приложениях Сбера.

Перспективы развития голосовых помощников

Будущее голосовых роботов выглядит многообещающе. Уже сейчас общемировой рынок генеративного ИИ оценивается в 11,3 миллиарда долларов. Эксперты прогнозируют, что к 2025 году он вырастет до 22 миллиардов.

В будущем возможности голосовых помощников будут расширяться. Благодаря достижениям в областях синтеза речи и машинного обучения роботы станут незаменимыми в здравоохранении и образовании.