Появился способ восстановить «потерянные измерения» на фотографиях. Зачем это нужно?

Исследователи МТИ (Массачусетского технологического института) создали технологию, которая восстанавливает ценные данные из фотографий и видеозаписей, которые были «свернуты» в меньшие измерения. Об этом сообщается на сайте МТИ.

Исследователи изобрели модель «визуальной депроекции», которая использует нейросеть для «изучения» паттернов, которые сопоставляют низкоразмерные проекции с оригинальными многомерными изображениями и видео. Алгоритм использует полученную информацию для воссоздания первоначальных данных из проекции.

Проекцией называют визуальную информацию, которая после обработки камерой объединяет множественные измерения пространства и времени в одно или два. Например, на рентгеновском снимке трехмерная анатомическая структура сжата в плоское изображение. Другой пример, фото звездного неба с большой выдержкой. Звезды, меняя положение в кадре с течением времени, на выходе представляются как размытые полосы в неподвижном снимке.

В одном из экспериментов модель ученых воспроизвела точные кадры, на которых было показано движение людей. Для этого она опиралась на информацию из одиночных одномерных линий, которые соотносились с траекторией движения человека.

По словам исследователей, в пикселях проекции содержатся «подсказки» о многомерной исходной сцене. Цифровые камеры при съемке с длинной выдержкой просто собирают фотоны в каждом пикселе. Во время захвата движения камера принимает среднее значение от пикселя, который получает информацию о движении.

Затем камера применяет эти значения к соответствующим значениям высоты и ширины неподвижного изображения, что создает характерные размытые полосы на траектории объекта. Рассчитав изменения в пикселях, можно воссоздать движение.

Для одного эксперимента исследователи записали 35 видео с 30 людьми, идущими в одном месте. Они сжали все кадры в проекции для обучения и испытаний модели. В итоге алгоритм точно воссоздал 24 кадра походки человека, передав изменение перспективы. Нейросеть поняла, что пиксели, которые становятся темнее и шире, скорее всего, означают приближение человека к камере.

«То, что мы можем восстановить такие детали, похоже на волшебство».
Гуха Балакришнан
Сотрудник лаборатории компьютерных наук и искусственного интеллекта

Читайте также: