В VK Звонках появились субтитры и текстовая расшифровка

Платформа для видеовстреч получила ряд полезных обновлений. Новые возможности уже доступны всем пользователям.
Пользователям VK Звонков стали доступны текстовая расшифровка встреч и автоматические субтитры в реальном времени. Фото: пресс-служба ВКонтакте
Пользователям VK Звонков стали доступны текстовая расшифровка встреч и автоматические субтитры в реальном времени. Фото: пресс-служба ВКонтакте

Платформа VK Звонки представила новые возможности на основе машинного обучения и нейросетей. Функция расшифровки автоматически переводит звуковую дорожку встречи в текст, который можно найти в чате звонка после его окончания, а автосубтитры дублируют речь участников звонка в ходе встречи. 

Особенности использования опций

Текстовую расшифровку может включить любой пользователь группового звонка, при этом участники встречи получат уведомление о ее начале. После окончания встречи файл с текстом придет в чат звонка и будет сохранен в специальном разделе в профиле пользователя, запустившего функцию. В файле расшифровки автоматически расставляются тайм-коды и имена говорящих.

Автоматические субтитры тоже может включить любой желающий. Они будут демонстрироваться во время речи каждого спикера в реальном времени. При этом субтитры будут видеть только те участники, которые самостоятельно их включили. 

Нейросеть умеет определять разных спикеров и разделять речь на предложения. Текстовую расшифровку можно запустить вместе с субтитрами и записью звонка. Новые функции также доступны в сессионных залах и в звонках от имени сообщества.

Автоматический перевод аудио в текст работает с речью на русском. Позже появится поддержка других языков. Кроме того, в ближайших планах платформы запуск новых функций в звонках один на один и возможность администратора настраивать, кто из участников встречи может запускать расшифровку. 

Как это работает

Перевод речи в текст использует собственные нейросетевые разработки ВКонтакте, которые соцсеть применяет для расшифровки голосовых сообщений и создания автосубтитров в видео.

Чтобы качество расшифровки было на высшем уровне, аудиопоток проходит несколько этапов обработки. Сначала запись очищается от фоновых звуков с помощью интеллектуального шумоподавления. Затем нейросеть распознает слова, формирует из них текст и делит речь на предложения в соответствии с конкретным спикером. Нейросети постоянно совершенствуются и учатся в том числе на актуальной разговорной речи и сленге. 

Зачем это нужно

Новые возможности будут особенно полезны тем, кто использует VK Звонки для делового общения — когда нужно быстро расшифровать интервью, отправить ключевые тезисы после встречи или рассказать об итогах звонка коллегам, которые не смогли присутствовать.

Субтитры выручат в ситуации, когда важно соблюдать тишину: например, в общественном месте, если под рукой нет наушников. Кроме того, это шаг к формированию доступной цифровой среды для слабослышащих пользователей: они смогут участвовать во встречах без ограничений.