Третий — не лишний: как искусственный интеллект участвует в человеческих коммуникациях

3 сентября 2024

Искусственный интеллект прорывается в повседневные коммуникации и обрастает функционалом, который позволяет ему конкурировать в эффективности с живыми людьми. Рассказываем о том, как это происходит и какие функции он выполняет для посредничества и помощи людям в коммуникациях.

Об эксперте: Дмитрий Крюков — руководитель направления гибридных коммуникаций МТС Линк, экосистемы сервисов бизнес-коммуникаций. Вместе с командой развивает десктопное приложение и модуль для переговорных комнат Линк Rooms, а также внедряет в сервисы инструменты на основе искусственного интеллекта.

Как ИИ проникает в онлайн-коммуникации

За последние несколько лет искусственный интеллект произвел революцию в корпоративном секторе, показав, что может и без человека создавать тексты, изображения и видео, анализировать данные и писать программные коды. Если с популярным ChatGPT все понятно, то возникает следующий вопрос: а кто еще, кроме генеративных нейросетей, способен помогать в процессе делового общения?

Цифровые помощники умеют отвечать на входящие письма, запросы, готовить проекты документов и маркетинговые рассылки. Искусственный интеллект раскрывает свой потенциал не только «на письме», но и активно применяется во время видеозвонков.

Согласно статистике Exploding Topics, 77% международных компаний уже применяют искусственный интеллект в бизнесе или рассматривают его использование. Более 50% мировых предприятий планируют внедрить эту технологию в 2024 году. Inclient со ссылкой на Forbes сообщает, что чаще всего ИИ применяется для общения с клиентами (56% случаев), борьбы с киберпреступностью (51%), а также управления товарными запасами (40%) и бухгалтерского учета (30%). И это только основные примеры в бизнесе, перечень на этом не заканчивается.

ИИ для видеоконференций: невидимый помощник

В современных платформах для онлайн-конференций предусмотрена функция шумоподавления, чтобы посторонние звуки в офисе, дома или в общественном месте не мешали участникам слышать друг друга. За это свойство в программах также отвечает ИИ. В сервисах для встреч и вебинаров алгоритмы способны подавлять посторонние шумы и фокусироваться только на голосе говорящего. Нейронная сеть обучается на разных бытовых шумах — например, на звуке дрели или закипающего чайника — и учится отделять их от голоса спикера.

Мало кто из пользователей задумывается, что классическое размытие фона или замена его другим изображением — тоже дело ИИ. Искусственный интеллект определяет главный объект изображения и оставляет его нетронутым, изменяя все вокруг. Нейтральный виртуальный фон с изображением офиса или логотипа поможет добавить солидности, а развлекательный с картинкой пляжа — поднять настроение в неформальной беседе.

Будьте добры, помедленнее, я записываю

На продвинутых платформах для видеоконференцсвязи доступны функции обработки естественного языка. Сюда входит расшифровка, саммари встреч, субтитры, перевод и видеохайлайты.

В среднем люди могут удерживать внимание на сложных задачах не более 20−45 минут — а онлайн-конференции часто длятся дольше. Зато ИИ за это время концентрацию точно не потеряет. Он поможет вернуться к встрече уже постфактум без необходимости тратить время на пересмотр всего видео — а то и вовсе устроить себе «день без встреч». Иными словами, это практика от выгорания.

Один из способов сократить время на изучение материалов встречи — вместо просмотра записи прочитать текстовую расшифровку, сгенерированную ИИ. А в начале 2024 года мы в МТС Линк первыми в России представили возможность подведения итогов мероприятий на основе искусственного интеллекта. Участники автоматически получают краткое содержание онлайн-встречи: нейросеть выделяет основные темы обсуждения и выводы, к которым пришли участники. Благодаря этой возможности освобождается время секретаря и других коллег, в чьи задачи входит протоколирование встреч.

Кроме того, мы представили функцию видеохайлайтов, с помощью которой можно выделить ключевые фрагменты прошедших звонков и сформировать из них короткий ролик с основными тезисами обсуждения. Решение основано на классификаторе текстов на базе машинного обучения, разработанном MTS AI.

Такие платформы, как Clipchamp от Microsoft, позволяют создавать субтитры к видеороликам на разных языках. Технология автоматически формирует расшифровку звука вне зависимости от диалекта и акцента. Таким образом можно записывать обращения к иностранным коллегам и партнерам. В программе доступны различные функции для редактирования видео с помощью ИИ.

Автоматические субтитры на русском языке доступны в видеоплеере VK. В их основе лежат собственные технологии платформы по распознаванию речи, алгоритмов машинного обучения и технологий интеллектуального шумоподавления. Текст генерируется вместе со знаками препинания, распределяется по кадрам, подпись появляется точно в момент произнесения фразы.

Перевод видео с английского и даже китайского языка доступен в Яндекс Браузере. В основе технологии — нейросети, которые работают практически как синхронные переводчики. Для обучения этому искусственного интеллекта был собран колоссальный объем данных, в том числе нейросеть училась трансформировать иностранную речь в текст, учитывать тон и контекст.

Технология будущего: цифровые аватары

Генеративный ИИ в сочетании с машинным обучением и обработкой естественного языка способен создавать цифровые аватары. Это не просто движущаяся картинка, а сложная программа, которая воспроизводит стиль общения и поведения реального прототипа, обучаясь на его цифровом следе. В корпоративном обучении «живой чат-бот» может освобождать время тренеров от записи видео, «подменяя» их, как это делают дублеры в кино.

Среди преимуществ цифровых аватаров — их доступность 24/7. Это привлекательный способ распространить стейтмент компании на всех сотрудников независимо от ее размера. Цифровой аватар способен освежить внутренние коммуникации за счет новизны и уникальности — и существенно сократить затраты по времени для спикеров.

Разумеется, встает вопрос об этичности такой технологии. Цифровой аватар, используемый с разрешения и по согласованию с тем, кого он изображает, не несет вреда, но что если образ главы компании попадет к мошенникам? В Гонгконге был случай, когда злоумышленники создали дипфейк и от лица финансового директора крупной организации выманили через сотрудника 25 миллионов долларов.

Сейчас в МТС Линк мы тестируем цифровые аватары, которые просто помогают разрядить обстановку и добавить живости, когда участник не может или не хочет включать камеру. Если говорить об аватарах, которые выглядят как настоящий человек, то эта история в проработке. Мы рассматриваем возможность добавить такую опцию в нашу платформу для организации обучения МТС Линк Курсы, чтобы клиенты могли экономить время и силы на запись обучающих материалов, просто давая текст нового блока аватару на «начитку».

Диджитал-секретарь

В мессенджерах с активной перепиской часто возникает проблема: как быстро прочитать все реплики, понять, какие из них относятся к делу, а какие нет, и усвоить нужную информацию. Решением этой задачи может стать функционал на базе искусственного интеллекта, который сможет генерировать краткий пересказ длинных бесед. Мы тестируем эту возможность в корпоративном мессенджере.

Цифровые помощники — более продвинутые версии чат-ботов, которые способны не только общаться устно или письменно, но и обрабатывать более сложные взаимодействия в диалоговом режиме. В отличие от чат-ботов, они интегрируются с несколькими источниками данных, извлекают из них информацию и помещают в контекст. Они обладают расширенным пониманием и обработкой естественного языка и благодаря этому способны понимать сложные предложения, разделять их на части и выдавать более сложные ответы. Так, например, работает Siri от Apple.

ИИ в коммуникациях: перспективы и риски

В ближайшем будущем стоит ожидать коммерциализации моделей ИИ общего назначения. Нейросети постоянно развиваются, обретая возможности, которые превосходят человеческие — и вскоре их применение станет, что называется, «базой», стандартом, а не особым конкурентным преимуществом. Выигрывать будут компании, предоставляющие пользователям наиболее удобный опыт взаимодействия с помощью ИИ.

Что касается рисков, связанных с внедрением искусственного интеллекта, в первую очередь стоит говорить о кибербезопасности. Восприимчивость нейросетей к вредоносному влиянию извне все еще велика: если о кибератаках речь идет уже в меньшей степени, то все еще остаются риски социальной инженерии. Интеграция моделей ИИ в корпоративную систему должна сопровождаться проверенными механизмами защиты и тестирования. При этом ориентироваться следует на продукты и системы отечественной разработки, поскольку они обеспечат лучшую совместимость ПО и техники, а также проявят большую устойчивость в кризисные периоды.

Вопрос этики возникает всегда, когда речь заходит об использовании искусственного интеллекта. Например, в корпоративном секторе это прежде всего касается сбора данных, отслеживания цифрового следа сотрудников. Чтобы такие действия не рассматривались как вмешательство в личную жизнь, нужно всегда предупреждать сотрудников о том, какие сведения собираются и для чего они используются (или не используются), а также обезличивать подобную информацию.

Еще один этический вопрос лежит в поле авторского права: так, американская газета The New York Times первой среди СМИ в 2023 году подала в суд на компанию Open AI (которой принадлежит ChatGPT) за обучение чат-ботов на ее статьях. По мнению NYT, боты таким образом начинали конкурировать с газетой, ничего не вкладывая в контент, используя чужие уникальные произведения.

А в Китае в начале 2024 года суд впервые одобрил авторское право на сгенерированное с помощью ИИ (Stable Diffusion) изображение. Он признал, что результат, полученный через перевод текста в картинку, является произведением искусства и имеет право на защиту авторских прав за счет оригинальности и интеллектуального вклада владельца.

Дмитрий Крюков