В Санкт-Петербургском Федеральном исследовательском центре РАН разработали алгоритм и приложение для смартфона на его основе, которое поможет голосовым помощникам и программам, использующим голосовые команды и ввод, точнее считывать речь пользователя по губам.
Как это работает?
Приложение разработано на основе нейросетевой модели, умеющей распознавать несколько сотен часто используемых программ по аудиовизуальным сигналам. Ученые также говорят о том, что разработанная нейросеть может не только воспринимать аудиовизуальный сигнал, но и самостоятельно решать, какие данные (аудиальные или визуальные) будут наиболее точны при распознавании.
Тесты программы проводились с участием водителей шумных большегрузных автомобилей одной из российских логистических компаний, на смартфоны которых было установлено приложение. Результаты тестирования показали, что при совмещении двух видов считывания информации эффективность работы алгоритмов действительно повышается: распознавание команд при чтении по губам составила 60-80%, а по двум сигналам — более 90%.
В каких отраслях эта технология будет применяться?
Разработанная технология — крайне перспективна. Она может применяться в большинстве отраслей, в которых используются голосовые помощники: от сферы услуг до тяжелой промышленности. В будущем количество сфер, где подобные технологии будут использоваться, только вырастет.
Уже сейчас исследование получило поддержку в виде гранта Российского научного фонда. Разработанное ПО имеет свидетельство о государственной регистрации, а результаты проекта были опубликованы в материалах международной конференции European Signal Processing Conference, научного сообщества, специализирующегося на теории и применении обработки различных сигналов.