Новая модель разговорной нейросети одновременно восхищает и пугает пользователей

Модель добавляет в разговор с пользователем, неприсущие машине, реакции: звуки дыхания, непроизвольные ошибки и смешки.
Автор новостей
Новая модель разговорной речи от Sesame AI
Новая модель разговорной речи от Sesame AIИсточник: techspot

Исследователи из Sesame AI запустили новую модель разговорной речи (CSM). Этот продвинутый голосовой ИИ обладает феноменальными качествами, похожими на человеческие, которые мы уже видели у таких компаний, как Google (Duplex) и OpenAI (Omni). Модель имеет два голоса: «Майлз» (мужской) и «Майя» (женский), и ее реализм очаровал почти всех, тестировавших ее пользователей. 

Технология Sesame использует мультимодальный подход, обрабатывающий текст и аудио в одной модели, обеспечивая более естественный синтез речи. Метод похож на голосовые модели OpenAI, но несмотря на близкое к человеческому качество, в отдельных тестах, система все еще испытывает трудности с разговорным контекстом, темпом и потоком. Соучредитель компании Брендан Ирибе признает, что их голосовая нейросеть все еще нуждается в доработке, но сохраняет оптимизм, что компания закроет все недочеты в ближайшее время.

Реакции на технологию были разные, от удивления и восторга до беспокойства и обеспокоенности. CSM создает атмосферу максимально естественного разговора, привнося в него, неприсущее машине поведение: звуки дыхания, непроизвольные ошибки, смешки и случайные самокоррекции. Эти тонкости добавляют модели реализма и дают собеседнику уверенность в том, что он разговаривает с реальным человеком. Некоторые пользователи даже отмечали формирование у них эмоциональных связей с машиной. 

Однако не все отреагировали на демо положительно. Марк Хахман из PCWorld отметил, что женская версия напомнила ему бывшую девушку. Чат-бот задавал ему вопросы, как будто пытаясь установить «близость», что вызывало у него крайнее чувство дискомфорта.

Кроме этого, как и в случае с любой мощной технологией, преимущества такой «человеческой» голосовой модели сопряжены с рисками. Возможность генерировать гиперреалистичные голоса может привлечь мошенников, промышляющих голосовым фишингом, когда преступники выдают себя за близких или авторитетных лиц.

Однако, по заверению разработчиков, текущая демоверсия Sesame не клонирует голоса и предназначена, главным образом, для обслуживания клиентов и работы в техподдержке.

Читайте также нашу статью о том, как Anthropic выпустил свою «самую умную» модель ИИ.