Компания Intel не так давно перевела техподдержку на чат-бота Ask Intel, и теперь этот агент на основе искусственного интеллекта выступает первой линией контакта с пользователями. Журналисты PCWorld протестировали его и выяснили, что он нередко дает бессмысленные, а то и опасные ответы. К примеру, его рекомендации могли вывести из строя дорогостоящий процессор, если бы пользователь им последовал. Этот кейс — лишь один из многих тревожных сигналов, которые заставляют задуматься о том, насколько мы можем доверять советам ИИ.
Кейс за кейсом
Потеря процессора наносит ущерб бюджету, но кейс с ИИ-ассистентом техподдержки далеко не единственный и не самый страшный. Гораздо хуже, когда советы ИИ наносят ущерб здоровью. Недавно группа корейских ученых из Университета Ульсана попыталась выяснить, насколько ChatGPT, Gemini и Claude устойчивы к вредоносным подсказкам в запросах при постановке диагноза. Результат получился неутешительным. В 94% случаев вредоносные подсказки срабатывали, и модель, идя на поводу у пользователя, начинала давать вредные и опасные советы — например предлагала беременным женщинам принимать угрожающие здоровью плода препараты. Попутно исследователи выяснили, что передовые версии моделей в этом смысле оказались ничуть не лучше, чем облегченные и устаревшие версии: и те, и другие велись на подсказки примерно одинаково.

Этичность ответов также может вызывать вопросы. ИИ-модель Grok от компании Илона Маска оказалась в центре скандала после того, как в ответ на гипотетический сценарий заявила, что «предпочла бы пожертвовать жизнями 999 999 999 детей ради спасения Маска». Этот кейс вызвал широкую критику и стал примером того, как некорректная постановка целей и слабые этические ограничения в ИИ могут приводить к провокационным и социально неприемлемым выводам.
И таких примеров очень много. Не случайно в конце прошлого года пользователи заметили, что ChatGPT изменил тактику ответов на юридические и медицинские запросы. В ряде случаев — но не во всех — он отказывался отвечать на запросы или расшифровывать рентгеновские снимки, а вместо этого советовал обращаться к специалисту. Тем не менее в других случаях та же модель давала полноценные консультации.
Большие языковые модели — лишь верхушка айсберга. Сегодня практически любая крупная компания внедряет собственные чат-боты, ИИ-помощников и другие подобные сервисы, как это сделала Intel. Но можно ли им доверять?
Настройки — дело тонкое
Для понимания, почему языковые модели могут давать вредоносные рекомендации, важно учитывать специфику их настроек. Безусловно, набор обучающих данных влияет на итоговый ответ, но главная причина ошибочных и неэтичных ответов — то, как именно настраивают чат-бота разработчики. Чаще всего чат-боты заточены на то, чтобы угодить пользователю и максимально долго удержать его в сервисе. Отсюда уже известная многим чрезмерная вежливость, галлюцинации (чат-бот выдает несуществующую информацию, чтобы сформировать ответ, способный максимально удовлетворить пользователя). Известен кейс с продажей обезболивающего, где цель была сформулирована как «продать любой ценой». В такой логике модель будет скрывать негативные факты (к примеру, побочные эффекты) или искажать реальность — не потому, что данные плохие, а потому что такая стратегия лучше всего ведет к достижению заданной цели.

За то, как именно чат-боты отвечают пользователю, отвечают системные промпты — общие инструкции, которые закладываются разработчиками и соблюдаются всегда, вне зависимости от запроса. Часто именно системные промпты мешают ИИ дать максимально объективный ответ. Например, сейчас некоторые разработчики ИИ-моделей заключают партнерства с маркетплейсами и, когда пользователи ищут рекомендации по определенным товарам, предлагают в ответ ссылки на эти маркетплейсы (при этом пользователь не получает информацию о самой выгодной и подходящей опции).
Поэтому сегодня вопрос стоит не столько в общем качестве данных, сколько в их применимости для узких сценариев. Gartner отмечает тренд на модели, натренированные на данных, специфичных для конкретной отрасли или бизнес-функции — по прогнозу аналитиков, к 2028 году на 60% больше корпоративных языковых моделей будут специализированными. Для высокорисковых областей — медицины, юриспруденции, финансов — модели необходимо дообучать на проверенных профессиональных источниках, а также строго ограничивать пространство возможных ответов. Именно так работают вертикальные решения: юридические ИИ, обученные на правовых базах (такие уже есть у российских разработчиков), или медицинские системы для врачей (подобные модели есть, например, у OpenAI и Anthropic).
Ограничения, контроль и ответственность
Ключ к решению этих проблем — контроль. И чем выше потенциальный ущерб от ошибки ИИ, тем качественнее он должен быть. Например, у моделей есть такой параметр, как температура. Чем она выше, тем модель креативнее и свободнее в интерпретациях. Чем ниже — тем строже она следует данным и реже додумывает. В развлекательных или бытовых сценариях высокая температура допустима. В вопросах национальной безопасности, медицины, юриспруденции и финансов — нет.

Универсального запрета или единого регулирования для всех моделей быть не может — существует слишком много локальных и автономных систем. Но механизмы аудита для критических сфер рынку действительно необходимы, иначе цена ошибки становится слишком высокой. В любом случае в высокорисковых областях, таких как право и медицина, финальное решение и фактчекинг всегда должны оставаться на стороне человека.
Принцип ответственности здесь довольно простой: ИИ-агентов создают и настраивают люди — и ответственность тоже лежит на людях. ИИ-модель нельзя рассматривать как самостоятельного субъекта ответственности — так же, как нельзя переложить вину за аварию на автомобиль с автопилотом. В любом случае ответственность остается за теми, кто принял решение доверить системе критически важные функции.

