Российские ученые нашли способ улучшить работу чат-ботов

Теперь на подготовку данных для обучения нейросети нужно в три раза меньше времени и в два раза меньше денег.
Чего хочет пользователь: ученые МФТИ придумали, как улучшить работу чат-ботов
Чего хочет пользователь: ученые МФТИ придумали, как улучшить работу чат-ботовИсточник: Freepik

Разработчики лаборатории нейронных систем и глубокого обучения Исследовательского центра прикладных систем ИИ МФТИ предложили новый полуавтоматизированный алгоритм разметки данных для искусственного интеллекта. «Репетиторами» для языковой модели стали краудсорсеры (разметчики на фрилансе), а также ChatGPT. Проект представлен в международном научном журнале ACL Anthology.

Зачастую чат-боты ошибаются из-за того, что не могут точно определить, чего хочет пользователь. Как правило, это связано с тем, что выразить мысли словами пользователь чат-бота может по-разному, а диалоговая система на основе языковой модели внутри чат-бота не знает, как на какие-то из запросов реагировать. Причиной может быть недостаточное количество примеров, на которых обучалась языковая модель или недостаточное качество этих примеров.

В основе любой системы искусственного интеллекта, как правило, лежат закономерности, «выученные» моделью из обучающих данных — большого количества примеров, — подобно тому, как обнаруживает и обобщает различные закономерности человек. Если примеров слишком мало, модель не сможет на них чему-нибудь «научиться» — как человек не освоит арифметику, если дать ему лишь пару примеров вроде «2+2=4» и «5×5=25». Если данные для обучения некачественные, то модель также может просто не найти какие-нибудь правильные закономерности, либо найти неверные закономерности — например, как если бы человек учился арифметике на примерах, среди которых было бы множество некорректных, вроде «3+3=33» и «5+5=55».

Для подготовки и разметки данных для обучения в виде, пригодном для обучения моделей искусственного интеллекта, необходимы специалисты — аннотаторы. Они выполняют роль репетитора: тщательно готовят и разбирают примеры, которые позволяют обучать модели. Этот процесс называется разметкой или аннотацией данных, отмечают исследователи.

Пример схемы разметки
Пример схемы разметкиИсточник: пресс-служба МФТИ

Для одной из прикладных задач, с которой столкнулись специалисты МФТИ, требовалось разработать модель, позволяющую более качественно определять запросы и пожелания пользователей. Чтобы создать «умного ассистента» с точки зрения лингвистики, нужно научиться не только определять значения отдельных слов, но и проводить анализ структуры фраз и внутренней логики языка, понимать контекст в диалоговых данных.

Аннотация данных, особенно применительно к сложным типам разметки (например, таким как разметка реплик в диалоговых данных в соответствии с теорией речевых функций), да еще с условием, чтобы соблюдалось постоянство разметки, — трудоемкая задача, требующая длительной монотонной и внимательной работы аннотаторов.

Как следствие, разметка данных представляет собой долгий (порой доходящий до нескольких месяцев) и дорогой процесс. Даже компания OpenAI, создатель ChatGPT, столкнулась с необходимостью снизить расходы путем аутсорсинга разметки данных компании Sama. По материалам, полученным TIME, в конце 2021 года OpenAI заключила с Sama три контракта на аннотацию данных на общую сумму около двухсот тысяч долларов США, а работы выполнялись сотрудниками кенийского подразделения Sama в течение нескольких месяцев. 

Чтобы снизить стоимость разметки, можно вместо профессиональных лингвистов привлекать краудсорсеров (разметчиков на фрилансе). Однако в процессе краудсорсинга качество разметки не просто проконтролировать, особенно на сложных в разметке данных. Трудности заключаются в следующем:

  1. Краудсорсеры могут выбирать ответы случайным образом, что необходимо дополнительно отслеживать;
  2. Даже если несколько разметчиков приходят к одному и тому же мнению, это не гарантирует высокого качества данной аннотации;
  3. Чтобы оценить качество выполненной работы, необходимо также привлекать обученных разметчиков или экспертов в рассматриваемой области.

Таким образом, хотя это и дешевле, чем разметка лингвистами, краудсорсинг — сложный процесс, требующий контроля и использования дополнительных инструментов для постоянного оценивания работы разметчиков.

Что придумали российские специалисты

Ученые исследовательского центра прикладных систем искусственного интеллекта МФТИ предложили оригинальный способ решения проблемы длительности и высокой стоимости разметки — создали полуавтоматизированную систему для разметки диалоговых данных. Для этого они попробовали сымитировать человеческую разметку лингвистических данных для обучения специализированных моделей с помощью другой нейросетевой модели — ChatGPT. 

Для составления данной системы были привлечены опытные эксперты-лингвисты, которые разработали схемы аннотаций. Эти инструкции улучшили качество обработки сообщений. Поскольку большинство лингвистических теорий описывают довольно субъективные категории (зависящие от интерпретации одного человека), простые методы работы с большими языковыми моделями не дают желаемых результатов для решения задачи. По этой причине требуются более креативные подходы к аннотации таких данных: более подробные инструкции для модели, включающие иллюстративные примеры, дробление задачи на более мелкие подзадачи. 

Интерфейс разметки в процессе краудсорсинга
Интерфейс разметки в процессе краудсорсингаИсточник: пресс-служба МФТИ

«Мы сравнили разметку дискурса в диалогах экспертов, краудсорсеров и больших языковых моделей. Пришли к выводу, что c помощью большой языковой модели можно добиться качества обработки информации, сравнимого с краудсорсерами. Это потребовало разработки многоступенчатой иерархической схемы для разметки. В таком случае эксперты требуются только для предварительной разметки и разработки этой иерархической схемы разметки», — прокомментировала Мария Молчанова, исследователь и аналитик лаборатории нейронных систем и глубокого обучения МФТИ.

По словам эксперта, у подхода несколько преимуществ. Во-первых, он намного быстрее и дешевле, чем краудсорсинг. Во-вторых, модель размечает данные более консистентно (обеспечивая последовательность, постоянство разметки подобных данных), чем краудсорсеры и эксперты. В-третьих, вероятность, что подобные или даже одинаковые реплики в одинаковом контексте будут размечены одинаково, у системы выше, чем в случае разметки людей.

Разработанный алгоритм разметки может иметь широкое применение для аннотации лингвистических данных. Описанный подход был успешно апробирован для разметки диалоговых данных, на которых далее обучались модели управления диалогом с пользователем диалоговой системы в рамках научных исследований лаборатории. Аналогичный подход к разметке диалогов хорошо зарекомендовал себя и в работе над одним из научно-исследовательских проектов с ПАО Сбербанк, являющимся индустриальным партнером ИЦ прикладных систем ИИ МФТИ.

«Эксперты тратят в среднем 14,5 минут на аннотацию одного диалога, в то время как краудсорсеры затрачивают 29 минут на ту же работу. Время, необходимое для выполнения задачи с помощью ChatGPT, всегда разное, тем не менее, в среднем, небольшой диалог может быть аннотирован за 10 минут. Что же касается стоимости, то аннотирование с помощью ChatGPT варьируется в зависимости от длины древовидной структуры конкретного диалога от $ 0,03 до $ 0,07, в то время как работникам краудсорсинга необходимо платить от $0,12 до $ 0,22 за аннотацию одного диалога», — уточняет исследователь Лаборатории нейронных систем и глубокого обучения Лидия Остякова. 

Выводы

Теперь создавать языковые модели стало проще — разработанная в стенах МФТИ методология позволит в разы сократить и время, и стоимость аннотации данных, которые необходимы для дальнейшего обучения языковых моделей, с помощью системы, облегчающей процесс разметки. Автоматизация труда аннотаторов позволяет готовить достаточное количество качественных обучающих данных для дальнейшего прикладного применения. 

Ранее чат-бот ChatGPT впервые получил человекоподобное тело.