Инновационный метод делает ИИ умнее, удаляя ошибки до начала обучения

Новый метод может значительно повысить точность и надежность систем машинного обучения.
Автор новостей
Даже одна ошибка в данных, на которых обучается нейросеть, может привести к опасным ошибкам уже самой языковой модели
Даже одна ошибка в данных, на которых обучается нейросеть, может привести к опасным ошибкам уже самой языковой моделиИсточник: Unsplash

Специалисты из Центра автономии и искусственного интеллекта при Колледже инженерии и компьютерных наук Университета Флориды Атлантик разработали подход, который позволяет автоматически выявлять и удалять ошибки в обучающих данных — еще до того, как модель начнет обучение. Это особенно актуально для таких алгоритмов, как машины опорных векторов (SVM), которые широко применяются в самых разных областях — от диагностики заболеваний и распознавания изображений до анализа текстов и обеспечения безопасности.

Машины опорных векторов строят границу между различными классами данных, опираясь всего на несколько ключевых примеров — так называемые опорные векторы. Проблема в том, что даже единственная ошибка в данных, например, если злокачественная опухоль указана как доброкачественная, может исказить всю модель и привести к опасным ошибкам уже обученной языковой модели. Новый подход к обучению помогает избежать таких сценариев, автоматически определяя и устраняя сомнительные или ошибочные метки еще на этапе подготовки данных.

Основой технологии стал математический метод — анализ главных компонент сложных данных по норме L1. В отличие от традиционных подходов, которые часто требуют ручной настройки параметров и предположений о характере «шума» в данных, этот метод объективно оценивает, насколько хорошо каждый элемент соответствует остальным в своей категории. Те, что выбиваются из общего паттерна, автоматически помечаются как подозрительные и исключаются из обучающей выборки. Такой подход универсален: он не зависит от типа данных или задачи и не требует вмешательства пользователя, что делает его применение удобным и легко масштабируемым.

Новый подход позволяет исключить ошибки в обучающих данных и повысить качество обучения языковых моделей
Новый подход позволяет исключить ошибки в обучающих данных и повысить качество обучения языковых моделейИсточник: futurecdn.net

Метод прошел обширное тестирование как на реальных, так и на синтетических наборах данных с различными уровнями зашумленности. Результаты показали, что очистка данных таким способом стабильно улучшает точность классификации, даже когда исходные данные казались идеальными. Это говорит о том, что скрытый «шум» в разметке, очевидно, встречается чаще, чем принято думать.

Авторы подчеркивают, что новая технология может стать стандартной частью предварительной обработки данных в системах искусственного интеллекта. Ее эффективность была подтверждена, в том числе, на известных наборах данных, таких как Wisconsin Breast Cancer Dataset, где после применения метода наблюдалось значительное улучшение результатов классификации.

Теперь авторы рассматривают возможность применения своей методики не только для борьбы с ошибками в метках, но и для решения других ключевых проблем в сфере обработки данных, в том числе, для снижения предвзятости в выборках и повышения полноты информации. По мере того как ИИ все глубже интегрируется в критически важные сферы — от медицины до финансов и судебной системы — качество данных становится все более важным фактором. И как отмечает декан инженерного колледжа Стелла Баталама, такие инновации не просто делают ИИ точнее, они приближают нас к созданию по-настоящему этичных, надежных и справедливых интеллектуальных систем.

Ранее китайские ученые представили первую в мире систему проектирования микросхем, основанную на искусственном интеллекте.