Как работают быстрые команды в умных колонках SberBoom и почему это удобно

Умные колонки SberBoom стали еще умнее и самостоятельнее. Теперь не обязательно звать ассистента по имени «Салют». Для простых действий достаточно одной фразы, как при общении с человеком. Рассказываем, как работают быстрые команды в умных колонках SberBoom и почему это удобно.
Автор Hi-Tech Mail
Какие команды бывают
Как это работает
Как обучали модель
Как это заняло 6 МБ
Почему это удобно
Какие команды бывают
Как это работает
Как обучали модель
Как это заняло 6 МБ
Почему это удобно
Еще
Умные колонки SberBoom и SberBoom Home
Умные колонки SberBoom и SberBoom HomeИсточник: sberdevices.ru

В привычном использовании умных колонок чтобы дать команду, нужно сначала активировать ассистента с помощью так называемого споттерного слова. Например, мы говорим колонке SberBoom «Салют, включи музыку», и она начинает слушать и выполнять команду.

Но произносить споттерное слово «Салют» перед каждой командой утомляет. Особенно для частых и простых запросов, где оно нередко кажется лишним. Чтобы решить эту проблему, разработчики придумали быстрые команды: они убирают необходимость говорить споттерное слово для самых частых сценариев.

Какие быстрые команды есть в умных колонках SberBoom

Теперь колонки SberBoom могут выполнить множество команд без споттерного слова. Это ускоряет взаимодействие с колонкой и экономит время. Так можно:

  • Управлять воспроизведением музыки — например, «следующий трек», «пауза», «выключи».
  • Настраивать громкость. Причем можно сказать не просто «громче», «тише», но и указать точное значение, например, «громкость 8», «громкость 50%».
  • Управлять через экран навигацией в умном телевизоре Sber или ТВ-приставке SberBox: «открой/нажми», «домой», «назад», «левее», «выше» и так далее.
  • Управлять умным домом. Включать и выключать умный свет, менять его цвет и яркость (например, «включи красный свет с яркостью 1%»). Управлять устройствами Sber и брендов-партнеров.
  • Включать и выключать Bluetooth.

Колонка понимает синонимы. Сказали «Назад!», «Предыдущий!» или «Прошлый!» — она выполнит одно и то же действие. Разработчики учли спам-команды — те, которые часто приходится говорить подряд не один раз. Например, «громче громче громче» — это спам-команды. Их теперь можно говорить с минимальными паузами. Это делает взаимодействие более естественным.

Как это работает: магия — внутри

Обычно, когда пользователь произносит споттерное слово, запрос передается в «облако» для расшифровки. Там речь автоматически распознается, текст обрабатывается, вызывается соответствующий навык или функция.

Умная колонка SberBoom
Умная колонка SberBoomИсточник: Hi-Tech Mail

Главная особенность быстрых команд в SberBoom — это их локальная обработка, что стало возможным благодаря трем встроенным ML-моделям:

  1. Модель распознавания речи, преобразующая голос в текст. Она не дожидается конца фразы, а начинает преобразовывать звук в текст сразу, как вы начали говорить.
  2. Модель определения намерений, выделяющая команду и ее параметры. Анализирует поток текста от первой модели и определяет, чего именно хочет пользователь.
  3. Модель предсказания конца команды, которая фиксирует момент, когда пользователь закончил говорить. Она решает, закончили вы говорить или просто сделали паузу, чтобы подумать. Как только она фиксирует «договорил», цепочка замыкается.

Поскольку обработка происходит локально, многие быстрые команды работают без подключения к Wi-Fi.

сбербум
Источник: sberdevices.ru

Все три ML-модели, управляющие быстрыми командами, занимают на колонке всего 6 мегабайт — меньше по размеру, чем некоторые фотографии со смартфона или музыкальные файлы. Такая компактность позволяет быстро запускать алгоритмы при ограниченных ресурсах устройства.

Как обучали модель

Модели обучали на большом массиве аудиозаписей. Чтобы колонка понимала, что вы закончили говорить, ей «скормили» множество записей, где люди отдавали команды, а затем вручную отмечали конец фразы.

Умные колонки SberBoom Home и SberBoom Mini 2
Умные колонки SberBoom Home и SberBoom Mini 2Источник: Hi-Tech Mail

Обучение также включало изучение множества вариантов произношения команд и синонимов, чтобы колонка быстро и точно «понимала» разные варианты одной и той же задачи. После этого модель вычисляла закономерности и опиралась на них, чтобы самой прогнозировать конец запроса. Теперь колонка научилась тонко чувствовать эту границу.

Как в 6 мегабайт поместился целый мир

Самый поразительный факт для технических энтузиастов. Весь этот «мозговой трест» из трех нейросетей занимает на флеш-памяти колонки всего около 6 мегабайт. Это меньше, чем вес одной песни в хорошем качестве или современной фотографии с телефона!

Ключ здесь в сверх фокусе и прицельном обучении МL-моделей. Нейросети обучали как на наборе быстрых команд, так и на командах, которые можно ошибочно принять за них, чтобы обучить чувствовать разницу. Кроме того, часть аудиокоманд для обучения смешали с записями музыки или ТВ-трансляции. Результат: колонка научилась определять быстрые команды даже при фоновом шуме. И, разумеется, быстро выполнять их.

Умные колонки SberBoom и SberBoom Home
Умные колонки SberBoom и SberBoom HomeИсточник: sberdevices.ru

Почему быстрые команды это удобно

Быстрые команды в умных колонках SberBoom совершили качественный скачок в эволюции голосовых помощников. Колонка становится более органичной частью домашней экосистемы и работает именно так, как этого ждешь: быстро, ненавязчиво и по делу. Это и есть главный признак зрелой технологии — когда она не требует к себе внимания, а просто служит вам, делая жизнь немного проще и комфортнее.

Подготовлено Hi-Tech Mail