Sesame выпустила базовую модель впечатляюще реалистичного голосового помощника

Клонирование голоса занимает меньше минуты, а табуированных тем для Sesame не существует. Оставили ссылку на демоверсию в статье.
Автор Hi-Tech Mail
Голосовой помощник Sesame
Голосовой помощник SesameИсточник: Sesame

Компания Sesame выпустила новую модель искусственного интеллекта CSM-1B, которая стала основой для голосового помощника Maya. На платформе можно протестировать демоверсию. Это мощный алгоритм, способный воспроизводить разные голоса и обрабатывать текстовые и аудиоданные. Разработчики сделали его доступным для всех под лицензией Apache 2.0, что позволяет использовать его в коммерческих целях без строгих ограничений.

В CSM-1B задействованы передовые технологии кодирования звука, превращающие речь в цифровые токены для точного воспроизведения голосов. Подобные методы применяют Google и Meta в своих разработках. Основой модели стал алгоритм Llama от Meta*, к которому добавлен специальный аудиодекодер. В Sesame уточняют, что CSM-1B — это базовый генератор голосов, а для Maya используется его доработанная версия.

Модель CSM-1B для голосового помощника Maya
Модель CSM-1B для голосового помощника MayaИсточник: Sesame

Разработчики не раскрывают, какие данные брались за основу для обучения системы. Однако известно, что модель может работать не только с английским, но и с другими языками, хотя точность остается под вопросом. У Sesame нет строгих мер безопасности, лишь рекомендации не использовать модель для обмана или подделки голосов без разрешения. Несмотря на это, тестирование показало, что голос можно клонировать всего за минуту и затем генерировать любые фразы, включая монологи на спорные темы.

Эксперты Consumer Reports предупреждают, что многие современные системы клонирования голоса плохо защищены от мошенничества. Подобные технологии могут использоваться для создания поддельных новостей или телефонных афер.

Sesame недавно стала известна благодаря реалистичным голосовым ассистентам Maya и Miles. Их речь звучит естественно, с паузами и изменением интонаций, а пользователей впечатляет возможность перебивать ассистента в разговоре и его умение имитировать звуки дыхания, допускать непроизвольные ошибки и смеяться, как в обычной беседе.

«Она способна воспроизводить множество голосов, но не была настроена на какой-либо конкретный голос. Модель имеет некоторую способность к неанглийским языкам из-за загрязнения данных в обучающем наборе, но, скорее всего, с ними она справится не очень хорошо», — подчеркивает Sesame в GitHub и CSM-1B Hugging Face.

Стартап привлек инвестиции от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо голосовых технологий, Sesame разрабатывает «умные» очки с искусственным интеллектом, предназначенные для повседневного ношения. Эти устройства будут работать на основе собственных алгоритмов компании.

Ранее мы писали о новой нейросети для врачей от Microsoft.

*Meta признана экстремистской и запрещена в России