Те, кто использовал наушники с функцией шумоподавления, знают, как важно периодически слышать определенные звуки окружающей среды. Например, кому-то может потребоваться блокировать звук автомобильных гудков, когда они находятся в помещении, но не во время прогулки по оживленным улицам. Однако пользователи не могут выбирать, какие звуки будут подавляться их наушниками с шумоподавлением.
Команда исследователей из Вашингтонского университета разработала алгоритмы глубокого обучения, которые позволяют пользователям выбирать, какие звуки фильтруются через их наушники в режиме реального времени.
Систему назвали «семантическим слухом». Наушники передают записанный звук на подключенный смартфон, который подавляет все звуки окружающей среды. С помощью голосовых команд или приложения владельцы наушников могут выбрать, какие звуки они хотят включить. Выбирать нужно из 20 категорий: сирены, детский плач, речь, пылесос и щебетание птиц. Через наушники будут воспроизводиться только выбранные звуки.
Современные наушники с шумоподавлением не могут достичь такого уровня интеллекта в реальном времени, чтобы точно распознавать звуки и отделять их от других окружающих шумов. Это происходит потому, что звук должен быть синхронизирован с тем, что мы видим. Например, нельзя услышать разговор через две секунды после того, как люди начали говорить. Для этого требуются особые алгоритмы обработки звука, которые срабатывают очень быстро, за доли секунды.
Из-за нехватки времени система семантического слуха должна обрабатывать звуки на устройстве вроде смартфона, а не на более надежных облачных серверах. Кроме того, поскольку звуки с разных направлений доходят до ушей людей в разное время, технология сохраняет эти задержки и другие пространственные сигналы. Это позволяет воспринимать звуки в окружающей среде более осмысленно.
Систему протестировали в условиях офиса, улицы и парков. Она смогла извлечь сирены, щебетание птиц, сигналы тревоги и другие звуки, удаляя при этом все остальные шумы. Когда 22 участника оценили аудиовыход системы по целевому звуку, они сказали, что в среднем качество улучшилось по сравнению с исходной записью.
В некоторых случаях система с трудом различала звуки с общими свойствами, например, вокальную музыку и человеческую речь. Исследователи отмечают, что обучение моделей на большем количестве реальных данных улучшит эти результаты.
Кстати, не так давно нейросети дописали песню The Beatles. Послушайте ее.
Смотрите на другие изобретения в сфере технологий. Они поразили всех в 2023 году: