В VK Видео улучшили распознавание речи на 25%

Платформа внедрила усовершенствованные алгоритмы искусственного интеллекта для автоматического распознавания речи и создания субтитров в видеоматериалах. Точность анализа и расшифровки повысилась на 25%, а нейросети теперь способны понимать тысячи новых слов, включая мемы, имена собственные, акронимы и специализированные термины.

Новые алгоритмы машинного обучения позволяют генерировать текстовые субтитры, синхронизированные с видео. Они проходят многоэтапную обработку, начиная с фильтрации фонового шума и заканчивая преобразованием речи в текст. Затем включаются модели пунктуации и нормализации, чтобы получить удобочитаемый текст. Наконец, ИИ синхронизирует текст с аудиодорожкой. Эти улучшения делают субтитры доступными и понятными как в профессиональных, так и в любительских видео.

VK Видео
VK Видео

В ближайшем будущем нейросети научатся разделять речь разных участников на отдельные реплики, что облегчит восприятие и чтение субтитров.

Популярность субтитров продолжает расти. За последний месяц доля пользователей, использующих эту функцию в веб-версии, увеличилась на 28%. Сейчас субтитрами пользуется 11% всей аудитории VK Видео. Эта функция особенно полезна для людей с нарушениями слуха и тех, кто предпочитает просматривать видео без звука.

О том, как пользователи VK Видео смогут влиять на происходящее на экране, мы подробно рассказали здесь