
В привычном использовании умных колонок чтобы дать команду, нужно сначала активировать ассистента с помощью так называемого споттерного слова. Например, мы говорим колонке SberBoom «Салют, включи музыку», и она начинает слушать и выполнять команду.
Но произносить споттерное слово «Салют» перед каждой командой утомляет. Особенно для частых и простых запросов, где оно нередко кажется лишним. Чтобы решить эту проблему, разработчики придумали быстрые команды: они убирают необходимость говорить споттерное слово для самых частых сценариев.
Какие быстрые команды есть в умных колонках SberBoom
Теперь колонки SberBoom могут выполнить множество команд без споттерного слова. Это ускоряет взаимодействие с колонкой и экономит время. Так можно:
- Управлять воспроизведением музыки — например, «следующий трек», «пауза», «выключи».
- Настраивать громкость. Причем можно сказать не просто «громче», «тише», но и указать точное значение, например, «громкость 8», «громкость 50%».
- Управлять через экран навигацией в умном телевизоре Sber или ТВ-приставке SberBox: «открой/нажми», «домой», «назад», «левее», «выше» и так далее.
- Управлять умным домом. Включать и выключать умный свет, менять его цвет и яркость (например, «включи красный свет с яркостью 1%»). Управлять устройствами Sber и брендов-партнеров.
- Включать и выключать Bluetooth.
Колонка понимает синонимы. Сказали «Назад!», «Предыдущий!» или «Прошлый!» — она выполнит одно и то же действие. Разработчики учли спам-команды — те, которые часто приходится говорить подряд не один раз. Например, «громче громче громче» — это спам-команды. Их теперь можно говорить с минимальными паузами. Это делает взаимодействие более естественным.
Как это работает: магия — внутри
Обычно, когда пользователь произносит споттерное слово, запрос передается в «облако» для расшифровки. Там речь автоматически распознается, текст обрабатывается, вызывается соответствующий навык или функция.

Главная особенность быстрых команд в SberBoom — это их локальная обработка, что стало возможным благодаря трем встроенным ML-моделям:
- Модель распознавания речи, преобразующая голос в текст. Она не дожидается конца фразы, а начинает преобразовывать звук в текст сразу, как вы начали говорить.
- Модель определения намерений, выделяющая команду и ее параметры. Анализирует поток текста от первой модели и определяет, чего именно хочет пользователь.
- Модель предсказания конца команды, которая фиксирует момент, когда пользователь закончил говорить. Она решает, закончили вы говорить или просто сделали паузу, чтобы подумать. Как только она фиксирует «договорил», цепочка замыкается.
Поскольку обработка происходит локально, многие быстрые команды работают без подключения к Wi-Fi.

Все три ML-модели, управляющие быстрыми командами, занимают на колонке всего 6 мегабайт — меньше по размеру, чем некоторые фотографии со смартфона или музыкальные файлы. Такая компактность позволяет быстро запускать алгоритмы при ограниченных ресурсах устройства.
Как обучали модель
Модели обучали на большом массиве аудиозаписей. Чтобы колонка понимала, что вы закончили говорить, ей «скормили» множество записей, где люди отдавали команды, а затем вручную отмечали конец фразы.

Обучение также включало изучение множества вариантов произношения команд и синонимов, чтобы колонка быстро и точно «понимала» разные варианты одной и той же задачи. После этого модель вычисляла закономерности и опиралась на них, чтобы самой прогнозировать конец запроса. Теперь колонка научилась тонко чувствовать эту границу.
Как в 6 мегабайт поместился целый мир
Самый поразительный факт для технических энтузиастов. Весь этот «мозговой трест» из трех нейросетей занимает на флеш-памяти колонки всего около 6 мегабайт. Это меньше, чем вес одной песни в хорошем качестве или современной фотографии с телефона!
Ключ здесь в сверх фокусе и прицельном обучении МL-моделей. Нейросети обучали как на наборе быстрых команд, так и на командах, которые можно ошибочно принять за них, чтобы обучить чувствовать разницу. Кроме того, часть аудиокоманд для обучения смешали с записями музыки или ТВ-трансляции. Результат: колонка научилась определять быстрые команды даже при фоновом шуме. И, разумеется, быстро выполнять их.

Почему быстрые команды это удобно
Быстрые команды в умных колонках SberBoom совершили качественный скачок в эволюции голосовых помощников. Колонка становится более органичной частью домашней экосистемы и работает именно так, как этого ждешь: быстро, ненавязчиво и по делу. Это и есть главный признак зрелой технологии — когда она не требует к себе внимания, а просто служит вам, делая жизнь немного проще и комфортнее.
Подготовлено Hi-Tech Mail



