Ученые придумали, как сделать роботов умнее и эффективнее

Ученые представили новую систему компьютерного зрения, которая может распознавать не только предметы, но и их назначение. Это достижение может приблизить момент, когда роботы смогут сами выбирать нужные инструменты и использовать их так же осмысленно, как человек.
Автор новостей
Компьютерное зрение позволяет отличать предметы, но не позволяет роботу понять их предназначение
Компьютерное зрение позволяет отличать предметы, но не позволяет роботу понять их предназначениеИсточник: Freepik

Современные алгоритмы компьютерного зрения уже неплохо умеют отличать, например, кошку от собаки или чашку от чайника. Но до сих пор им недостает понимания того, зачем этот предмет существует и как он используется. Для понимания приведем наглядный пример: представьте робота на кухне, которому нужно заварить чай. Благодаря компьютерному зрению он может распознать чайник, но не понимает, за какую часть его нужно взять и откуда льется вода.

Новая модель учится видеть функциональное сходство между объектами, даже если они выглядят совсем по‑разному. Например, она способна понять, что носик чайника и горлышко бутылки служат одной цели — наливать жидкость.

«Наша модель может посмотреть на изображения стеклянной бутылки и чайника, распознать носик у каждого, но также понимает, что носик используется для наливания», — объясняет Стефан Стоянов, постдокторант Стэнфорда и один из авторов работы. «Мы хотим создать систему зрения, которая поддержит такого рода обобщение — по аналогии переносить навык от одного объекта к другому для достижения той же функции».

Задача определения функционального соответствия между объектами считается одной из сложнейших в компьютерном зрении. До сих пор системы могли лишь приблизительно определять несколько ключевых точек на предметах. Команда специалистов из Стэнфорда достигла «плотного» соответствия — их модель анализирует каждый пиксель изображения и точно сопоставляет функциональные части разных объектов.

Новая технология компьютерного зрения позволит сделать роботов более эффективными и функциональными
Новая технология компьютерного зрения позволит сделать роботов более эффективными и функциональнымиИсточник: Fertilizer Daily

Ключевым прорывом стало использование обучения с помощью других ИИ-моделей. Чтобы избежать трудоемкой ручной разметки, ученые использовали метод «слабого надзора»: крупные языковые модели помогали автоматически находить функциональные детали — ручки, лезвия, носики, — а эксперты только проверяли результаты. Такой подход заметно ускорил обучение и позволил системе учиться без участия человека в каждой мелочи. «В отличие от традиционного обучения, где люди вручную размечают изображения, невозможно человеку индивидуально выровнять тысячи пикселей между двумя разными объектами», — говорит соавтор технологии Линан Чжао. «Поэтому мы попросили ИИ помочь».

Практическое применение технологии огромно. Домашний робот не будет нуждаться в обучении работе с каждым инструментом — он сможет по аналогии понять, что хлебный нож и нож для масла режут по-разному и служат разным целям. Робот-помощник сможет выбрать мясной тесак вместо хлебного ножа или лопату вместо мастерка, если потребуется. Пока система протестирована только на изображениях, но ее создатели уверены, что их подход изменит траекторию развития компьютерного зрения, делая его менее ориентированным на паттерны и более — на практическое применение.

Ранее стало известно, что стиль нашего общения с нейросетями влияет на ответы.