В России создали первое ПО для генерации музыки и песен с помощью ИИ

Первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей разработали специалисты Новосибирского государственного технического университета. Об этом ТАСС сообщил руководитель проекта Егор Антонянц.
нейросеть
Источник: Image by Freepik

Разработка предназначена для задач, где важна автономная генерация музыкальных композиций, вокальных партий и звуковых эффектов по текстовым описаниям без привязки к облачным сервисам. По словам разработчиков, система обеспечивает полный цикл создания аудиопродукции — от текстового запроса до экспорта в широко используемые форматы WAV, MP3 и FLAC — и при этом работает на потребительском оборудовании с объемом видеопамяти менее 6 ГБ.

«Ключевая особенность нашего решения — это полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Мы дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты, что позволяет избежать эффекта смешения характеристик и добиться более точного соответствия запросу», — отметил Антонянц.

В отличие от базовых решений, ориентированных на англоязычных пользователей, новый инструмент адаптирован для работы с русскоязычными запросами и показывает конкурентоспособные результаты. Так, значение средней субъективной оценки MOS составило 4,1 из 5 баллов, что сопоставимо с показателями ведущих коммерческих платформ.

«Технически обработка строится в несколько этапов: языковая модель формирует семантический “каркас” композиции с использованием “цепочки рассуждений”, диффузионный трансформер выполняет акустический синтез в латентном пространстве, а модуль экспорта обеспечивает конвертацию в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять и загружать пресеты параметров генерации, предпрослушивать результаты и экспортировать треки без привлечения сторонних редакторов», — рассказал разработчик проекта Артур Хусаинов.

Создатели ПО подчеркнули, что в дальнейшем планируется расширение системы: добавление поддержки пространственного аудио для задач виртуальной реальности, реализация интеграции с MIDI-контроллерами для живого взаимодействия и адаптация программного обеспечения для промышленных сценариев — от создания звуковых ландшафтов для видеоигр до автоматизированного озвучивания фильмов, прямых трансляций, подкастов и рекламных роликов.