Как конвертировать звуковой файл в текст

Распознаем речь при помощи микрофона и без него

Зачем может понадобиться конвертировать звуковой файл в текст? Например, если вы записали диалог с кем-то и вам нужно сделать из этого текстовое интервью. Ведь гораздо проще поправить уже набранный текст, чем вбивать его самостоятельно. Или же у вас есть файл с речью на иностранном языке, а вы плохо разбираете, о чем там говорят. В таком случае текстовую информацию воспринимать гораздо проще. Кроме того, так можно сделать субтитры для видео.

Фото: Depositphotos
Фото: Depositphotos

К слову, в этом материале мы расскажем только об автоматических способах перевода аудио в текст. Однако эту задачу можно поручить фрилансеру или компании, специализирующейся на таких услугах. Разумеется, это стоит денег, и цена зависит от сложности, качества и длительности записи. Такой процесс переноса звуковой информации в текстовый вид называется транскрибация.

Кроме того, важно понимать, что автоматическая обработка может выдавать некачественный текст. Его нужно дорабатывать и править самостоятельно.

Google Docs

Этот способ подразумевает, что у вас есть микрофон, так как именно с его помощью и будет осуществляться набор текста. Суть в том, что вы активируете голосовой набор в Google Docs или другом текстовом редакторе, который поддерживает такую функцию. Затем просто включаете нужный файл, а программа начинает распознавание и набор текста. Можно включить запись на том же устройстве или на другом, например смартфоне.

Чтобы включить голосовой набор откройте меню «Инструменты» и выберите «Голосовой ввод». Можно также нажать сочетание клавиш Ctrl + Shift + S. Теперь останется только разрешить доступ браузера к микрофону и воспроизвести файл.

Активировать микрофон можно в настройках Windows 10. Нажмите Win + I и выберите «Система». Далее «Звук» и «Параметры конфиденциальности для микрофона». Разрешите приложениям доступ к микрофону.

Если микрофона у вас нет, то можно обойтись и без него. О том, как это сделать читайте в конце нашего материала.

Специализированные сервисы

К сожалению, специализированные онлайн-сервисы для автоматической транскрибации в основном платные. Кроме того, многие из них не поддерживают русский язык. Все их можно разделить на два вида. Некоторые, как и Google Docs, используют микрофон, другие же обрабатывают сам файл без начитки.

Сервис на английском языке, но с русскоязычными файлами работает
Сервис на английском языке, но с русскоязычными файлами работает

Второй способ, конечно, удобнее. Нужно просто загрузить звуковой файл и скачать уже готовый текстовый документ, который можно отредактировать. Например, сервис vocalmatic.com предоставляет 30 минут обработки бесплатно. Нужно только зарегистрироваться.

Субтитры на YouTube

Способ не совсем удобный, но рабочий и бесплатный. Суть в том, чтобы загрузить нужное видео или звуковой файл на видеохостинг и затем скопировать автоматически сгенерированные субтитры.

Загрузите видео на свой аккаунт и подождите пока оно обработается, а субтитры станут доступны. Теперь откройте видео и нажмите на три точки под ним. Далее выберите «Посмотреть расшифровку видео». Появится дополнительная панель с субтитрами. Можно просто выделить их и скопировать в текстовый документ.

Как распознать речь без микрофона

Если микрофона нет или по каким-либо причинам использовать его невозможно, есть вариант с так называемым виртуальным аудиокабелем. В этом случае звук передается напрямую от приложения к приложению, что убирает потери и фоновые шумы. Таким образом, даже в Google Docs можно распознавать речь без микрофона.

Скачайте бесплатную версию программы с сайта vac.muzychenko.net, распакуйте и установите ее. У вас в списке появится звуковое устройство Line 1 (Virtual Audio Cable).

Для Windows 10 нажмите Win + I и выберите «Система» и далее «Звук». Выберите в качестве устройства ввода и вывода Line 1 (Virtual Audio Cable). Теперь можно запустить файл в проигрывателе и он будет передаваться в микрофон. При этом слышать вы ничего не будете, так как вывод настроен на виртуальный кабель. Зато программа будет воспринимать это как обычный ввод через микрофон, только без посторонних шумов и в отличном качестве.

Это тоже интересно:

Контент недоступен