Всевидящий «Окулус». В России появится новая система контроля за контентом в интернете

Стало известно, что Роскомнадзор нашел исполнителя для проекта по поиску незаконного контента в сети. Сама система получила название «Окулус». Рассказываем, что о ней известно, и делимся мнением специалистов о перспективах реализации проекта.
Источник: Pixabay
Источник: Pixabay

«Фильм ужасов» за 60 миллионов рублей

Впервые об «Окулусе» заговорили еще в 2021 году. Тогда Коммерсантъ обратил внимание на тендер от Главного радиочастотного центра, размещенный на сайте Госзакупок. ГРЧЦ предложил 15 миллионов за разработку техзадания для системы обнаружения в интернете запрещенного контента в фото и видео.

Тогда эксперты предупредили: вмешательство «Окулуса» и его анализа в работу сайтов может существенно замедлить их загрузку для пользователей.

Спустя год о системе вспомнили вновь — на этот раз после того, как на сайте Госзакупок появилась информация о том, что ГРЧЦ нашел исполнителя на проект. Им стала компания ООО «Эксикьюшн Эр Ди Си». По данным системы СПАРК, она была зарегистрирована в 2014 году, специализируется на разработке программного обеспечения, а ее выручка за 2021 год составляет почти 230 миллионов рублей при уставном капитале в 10 тысяч рублей. При этом ранее компания не принимала участия в тендерах. По условиям технической документации, сдать проект компания должна уже через четыре месяца — к 12 декабря. На создание проекта выделено 57,7 млн рублей.

Планируется, что «Окулус» будет работать на основе нейросетей и в режиме реального времени искать противоправный контент в изображениях, видео, публикациях в каналах, адресах сайтов. По заданию система будет проверять две картинки в секунду, опираясь на собственный каталог запрещенной символики, действий и личностей.

Запрещённый контент, который будет выявляться «Окулусом», включает в себя призывы к экстремизму и терроризму, массовым беспорядкам и несогласованным мероприятиям, информацию о суициде и способах изготовления наркотических веществ, пропаганду нетрадиционных сексуальных отношений и неуважение к власти. Работу системы будут поддерживать 48 серверов.

Телеграм-канал ЗаТелеком отмечает, что в попытках придумать наиболее благозвучное имя системе, РКН повторил название фильма ужасов о потусторонней сущности, вселившейся в зеркало и уничтожившей его владельцев. Кроме того, подчеркивается, что «Окулус» — не первая система мониторинга контента, существующая в России. В 2021 году РКН дорабатывал систему мониторинга теле- и радиовещания, чтобы массово выявлять нарушения, сократив выборочный просмотр и прослушивание экспертами.

Источник: Pixabay
Источник: Pixabay

Автоматизированная система мониторинга телерадиовещания работает в России с 2015 года. Она фиксировала перерывы в вещании, рекламу и бегущую строку, следила за наличием маркировки информационной продукции, хранила записи эфиров ТВ и радиостанций. Обновленная система должна была получить функцию транскрибирования звуковой информации в текстовую, для более эффективного выявления нарушений.

Помимо этого, Роскомнадзор уже закупал систему мониторинга нарушений прав субъектов персональных данных в интернете и системы мониторинга сайтов общей стоимостью почти сто миллионов рублей.

У «Окулуса» есть много нюансов — они могут сделать работу системы некачественной и неэффективной

Эксперты, опрошенные Hi-Tech Mail.ru, неоднозначно оценивают перспективы внедрения технологии «Окулус». Виктор Смирнов, директор по развитию бизнеса в области разработки ПО ИТ-компании КРОК, напоминает, что в общем доступе уже существуют готовые нейронные сети и библиотеки для анализа текста. Например, проект Natasha — набор Python-библиотек для обработки текстов на русском языке. То же самое относится и к анализу изображений и видео.

«Учитывая сроки контракта, у исполнителя проекта по разработке системы “Окулус” — Execution RDS — она явно должна быть уже готова. Кроме этого, должна быть обвязка для сбора данных из выбранных источников, а также создано рабочее место оператора. Объём данных, скорее всего, будет значительным и хранить его нужно будет в течение длительного срока. А для этого понадобятся существенные инфраструктурные мощности,» — замечает эксперт.

источник: Unsplash
источник: Unsplash

По мнению Виктора Смирнова, препятствий для эффективности системы не видится, если у исполнителя готовы достаточно эффективные модели для анализа данных. По описанному техническому заданию разработать их за три месяца — невозможно, а 200 000 изображений — это довольно ограниченный объем. Из этого специалист делает вывод, что система направлена на анализ не всего русскоязычного сегмента интернета, а конкретных источников информации, где ожидается наличие противоправного контента.

Никита Назаров, технический директор IT-компании HFLabs, считает, что «Окулус» не сможет обеспечить качественное выполнение поставленных перед системой задач. В первую очередь, уверен эксперт, нужно определить, какой контент является запрещенным.

«Это анализ законодательных актов и распоряжений разных органов власти, сведение всех данных к единому реестру. В техническом задании указан лишь перечень возможных нарушений законодательства, интерпретация и раскрытие каждого из них возложены на подрядчика. Даже если считать, что задача частично решена, на формализацию уйдет до месяца.»

Далее, перечисляет специалист, требуется подготовить датасет: по выявленным на первом этапе критериям нужно собрать на просторах интернета примеры демонстрации запрещенной символики, противозаконных высказываний и инструкций по изготовлению запрещенных препаратов. При этом датасетов должно быть три: видео, картинки, текстовые корпуса. По мнению Никиты Назарова, это — самый сложный этап, который при корректном исполнении должен занять до полугода.

Источник: Unsplash
Источник: Unsplash

«Затем нужно вручную разметить этот датасет на предмет того, что считается запрещенным, а что нет. Например, знак свастики на Рейхстаге — запрещённый контент, а свастика на индуистской статуэтке или храме — необязательно. Все это довольно сложно, так как разметка будет субъективной. Это трудозатратный процесс, на который потребуются месяцы работы — по каждому критерию подрядчик должен предоставить не менее тысячи размеченных изображений.»

Эксперт добавляет, что судя по анонсу проекта, мощность системы должна позволять анализировать не менее 200 тыс. изображений в сутки. Это очень низкий показатель — даже в российской зоне интернета генерируется намного больше контента, а любая система, базирующаяся на машинном обучении, предполагает ошибку — когда что-то хорошее признается плохим и запрещенным.

Постановка допускает 20% ложноположительных и 20% ложноотрицательных срабатываний системы, но дальнейший процесс разбора этих срабатываний в ТЗ не раскрывается — если система будет отправлять найденную “запрещенку” на ручную обработку, то понадобится огромный штат сотрудников, которые будут разбирать сомнительные срабатывания.