Представить свою жизнь без зрительного восприятия мира крайне тяжело. По некоторым данным, человек получает до 70% информации посредством зрения, а скорость ее обработки достигает 10 млн бит/сек.
Человеческое зрение несовершенно, если рассматривать только оптическую сторону. Поэтому процесс зрительного поглощения информации состоит из оптической, психологической, физиологической и биохимической составляющих. На каждом этапе обработки визуальных данных возникают ошибки искажения, но наш мозг успешно их исправляет или корректирует, сопоставляя полученные сведения с уже имеющимися в памяти.
Однако зрение — прерогатива не только человека и животного мира или насекомых. Современные технологии позволяют в прямом смысле видеть и электронике. Фотоаппараты, видеокамеры и прочие гаджеты с линзами существует уже давно, но только с развитием нейросетей компьютеры научились не просто видеть, но и анализировать полученную визуальную информацию.
Что же на самом деле представляет собой компьютерное зрение, чем оно отличается от человеческого? В каких сферах деятельности оно полезно или вовсе незаменимо? Отвечаем на эти и другие вопросы простым языком.
Что такое компьютерное зрение
Computer Vision (CV) является областью искусственного интеллекта, которая отвечает за анализ статических и динамических изображений или видеороликов. CV состоит из хардверной (вычислительные системы, приборы фото- и видеофиксации), а также софтверной составляющей — это ПО, позволяющее анализировать и извлекать полезную информацию из увиденного.
Благодаря машинному обучению компьютерное зрение постоянно совершенствуется. Оно приобретает возможность все очнее идентифицировать и классифицировать обнаруженные объекты, включая лица и эмоции.
По данным технологического портала TAdviser, компьютерное зрение в паре с ИИ являются наиболее востребованными направлениями на рынке IT. Согласно прогнозам экспертов, только за 5 лет (2018−2023 гг.) российский рынок в этой сфере увеличится в 5 раз, достигнув отметки 38 млрд рублей. Большая часть придется на системы видеослежения и безопасности — до 32%, промышленность — до 17%, медицины — до 14%, сферы торговли — до 10%.
Зачем нужно компьютерное зрение
Приверженцы теории заговора с их 5G-сетями и чипированием через вакцины уверены: компьютерное зрение нужно для того, чтобы «Большой брат смотрел за тобой». Мы же смотрим на мир здраво и знаем, что эта область IT в первую очередь направлена на улучшение:
- Безопасности. Распознавание лиц является идеальным механизмом для поиска преступников.
- Сервиса. Распознавание лиц ускоряет идентификацию личности, что сокращает время на обслуживание клиента.
- Возможностей человека. CV способно увидеть то, что человек может проигнорировать, не заметить или сделать ошибочные выводы. Например, при анализе рентгенографии в медицине или выявлении брака на производстве.
- Производительности. Можно серьезно сократить время на выполнение рутинных задач. Даже выполняя простую, но монотонную задачу (например, просмотр правильности выкладки товара на полках магазинов), человеку нужно много времени, а компьютер справится за считанные секунды.
- Автономности. IT-гиганты все усерднее развивают беспилотный транспорт (авто, дроны-доставщики, роботы и т. д.). Без CV развитие автономных механизмов попросту невозможно.
Популярные направления развития СМ последних лет
Эксперты рассказали, как именно развивается компьютерное зрение в последнее время:
- GAN — генеративно-состязательная нейронная сеть, которая сама себя проверяет. Она состоит из генератора и дискриминатора, где первый формирует входящие данные, а второй проверяет их на подлинность и классифицирует исходя из имеющейся базы данных.
- Распознавание лиц и образов. Благодаря развитию GAN нейросети научились не только с высокой точностью распознавать человеческие лица, но и генерировать фотографии (deepfake) с людьми, природой и живописью с максимальной правдоподобностью.
- Нейроаватары — генерация анимаций или видео, панорам или даже 3D-сцен на основе нескольких фотографий.
Что такое 3D-сцены?
Дэвид Маккиннон, доктор австралийского Технологического университета в Квинсленде, в 2001 году занялся разработкой программы, которая смогла бы строить трехмерные модели на основе 5−15 фото. В 2009 году Дэвиду удалось достичь своей цели — так появилась программа 3DSee. Для корректной работы ПО необходимо, чтобы все изображения пересекались между собой минимум на 80%. Это был первый этап становления генерации 3D-сцен, так как за счет нейросетей и машинного обучения планируется не только улучшить, но и автоматизировать создание трехмерных моделей.
3D-сцены крайне востребованы в наше время, особенно в сфере строительства, медицины, промышленности и в кинематографе. Представить современное кино с массой спецэффектов без 3D-моделирования, равно как и развитие роботов без 3D-сканеров просто невозможно. Сенсоры позволяют роботам правильно ориентироваться в пространстве, преодолевать препятствия, строить маршруты. Кроме того, 3D-сканеры необходимы и для более точного и безопасного распознавания лиц (тот же Face ID в iPhone), работоспособности виртуальной и дополненной реальности (игры, дизайн интерьера и т. п.).
На конференции OpenTalks AI глава Samsung AI Center Виктор Лемпицкий отметил, что 3D-моделирование крайне актуальное направление в области компьютерного зрения. По его словам, пока что нейронным сетям сложно даются задачи по построению трехмерных объектов с обзором в 360 градусов. Однако через 5−10 лет технологии могут дойти до идеала, тем самым заменив 3D-дизайнеров и аниматоров. Нейросети смогут самостоятельно генерировать объемные здания, интерьер помещений, а также VR- и AR-анимации. Активное развитие гугловской технологии NeRF прямое тому подтверждение.
Дорогу компьютерному зрению!
Где полезно CV? На деле, оно полезно везде. Можно придумать любой сценарий с использованием компьютерного зрения, тем самым повысив эффективность и безопасность рабочих процессов. Вот несколько примеров:
Поиск плагиата. В наше время авторские права высоко ценятся, и даже немного прибегнув к копированию, можно легко нарваться на судебные разбирательства. Если раньше для регистрации товарного знака и логотипа патентоведы вручную искали совпадения по базе для каждого клиента по отдельности, что было крайне дорогим удовольствием, то теперь этим занимается алгоритм Eora Mage. Сейчас процедура поиска плагиата занимает не месяцы, а всего несколько секунд.
Умные весы, бесконтактная оплата, оптимизация процессов. Все больше набирает популярность среди поставщиков товаров ПО для мерчендайзеров, позволяющее быстро оценить ситуацию на полках магазинов. Торговому представителю достаточно сделать фото с расставленным товаром, и программа выдает рекомендации: какого продукта не хватает, актуален ли ценник, есть ли акционные позиции. Также системы компьютерного видения в ритейле активно используются для анализа посещения торговой точки, поведения покупателей, движения очередей для улучшения качества предоставляемых услуг.
В апреле 2021 года стало известно о разработке «умных весов» компанией X5 retail Group. Благодаря компьютерному зрению новый прибор позволит идентифицировать товар при взвешивании на кассе для более быстрого обслуживания клиентов. «Пятерочка» первой обзаведется подобными весами.
В Китае, например, и вовсе развивается оплата улыбкой. Никаких NFC-чипов или мессенджера WeChat больше не требуется — CV позволяет оплатить покупки улыбкой. Первопроходцем еще в 2017 году стала сеть ресторанов быстрого питания KFC, а сейчас в Поднебесной улыбкой оплачиваются покупки в многих крупных супермаркетах.
Безопасность на производстве. Многие рабочие на заводах и в цехах пренебрегают техникой безопасности, но CV может серьезно сократить количество беспечных. Не надел каску, маску, перчатки, очки и т. д. — получи выговор или штраф от начальства. Кроме того, компьютерное зрение способно быстро выявлять специалистов, которые устали либо отвлекаются от рабочего процесса. Это уже не говоря о контроле качества, где CV справляется лучше всех с выявлением брака.
Медицина. Компьютерное зрение является не только отличным помощником врача, помогая анализировать результаты МРТ, КТ, УЗИ и ставить более точные диагнозы — без него невозможно развитие роботов-хирургов. И это не далекое будущее — пандемия коронавируса вынудила отрасль здравоохранения активнее развивать телемедицину и роботизированных медработников.
Улучшение качества снимков рентгена и КТ — нейросети способны убрать лишние шумы, повысить четкость снимков, заодно и уменьшить время нахождения пациента внутри аппарата. Такой подход снижает дозу облучения на 25%. В будущем же компьютеры с ИИ на борту смогут полностью вытеснить КТ и рентген так называемым НДКТ-скринингом. Ему достаточно и 10% данных от КТ для выдачи полноценного результата сканирования. Эту технологию активно внедряют и развивают компании Philips и «Третье Мнение».
Очевидно, что CV применимо повсюду: в смартфонах, в беспилотном наземном и воздушном транспорте, в сельском хозяйстве, образовании, безопасности — везде, где сейчас еще трудится человек. Это не значит, что компьютеры скоро отнимут все рабочие места, ведь человеческие ресурсы можно направить туда, где компьютеру никак не справиться. Хотя для этого нужна воля работодателей, а пока что это является серьезной проблемой.
Компьютерное зрение идеально? Нет
При всех своих преимуществах, обеспечить быструю и бесперебойную работу CV невозможно без надежных серверов и стабильного высокоскоростного подключения к сети интернет. В будущем компьютерное зрение научится распознавать образы с высокой точностью, используя внутренние мощности устройств без подключения к интернету, но пока это невозможно.
Что самое важное, для обмана человеческого зрения нужно работать не с глазами, а с мозгом. Полученную зрительную информацию мы всегда додумываем, достраиваем на основе образов из сформировавшейся за многие годы базы данных. Обмануть компьютерное зрение проще — достаточно создать некорректную картинку, и нейросеть может с легкостью запнуться, не найдя ни одного соответствия в базе. Поэтому специалистам в этой области предстоит еще немало работы.