Нейросеть представит мир в 3D без посторонней помощи

18 июня 2018

Программисты из лаборатории DeepMind создали алгоритм, который может самостоятельно исследовать сцену и «додумывать», как находящиеся в ней предметы будут выглядеть с незнакомого ракурса.

Ключевое отличие новой программы состоит в том, что для обучения ей не требуется дополнительная информация — нейросеть работает хорошо, даже если разработчики не сообщают, что за объекты находятся в комнате или где они расположены. Статья опубликована в журнале Science.

В основе современных систем машинного зрения лежат глубокие нейронные сети, которым, как правило, требуется большой набор размеченных изображений для обучения. На создание таких наборов уходит очень много времени, так как программистам приходится вручную описывать каждую деталь картинки. В результате многие аспекты сцены оказываются опущены, что ограничивает возможности алгоритмов машинного зрения. Чтобы преодолеть это ограничение, разработчики предложили сделать подход к обучению более «человечным» — они создали среду, в которой агент самостоятельно наблюдает трехмерную сцену с нескольких ракурсов, а затем делает ее рендеринг с другого, произвольного угла обзора.

Авторы новой работы под руководством Али Эслами (Ali Eslami) из Google DeepMind создали фреймворк Generative Query Network (GQN), в котором агент учится воспринимать окружающее пространство, обучаясь только на информации, полученной самостоятельно. GQN состоит из двух элементов — репрезентативной сети и генеративной сети. Когда агент исследует среду, он получает двухмерные изображения сцены, которые передаются репрезентативной сети. Она кодирует содержащуюся в ней информацию и представляет ее в виде вектора. Каждое дополнительное наблюдение позволяет накопить больше данных о находящихся в сцене объектах. Затем генеративная сеть на основе полученной информации предсказывает, как будет выглядеть сцена с нового, ранее не исследованного ракурса, и создает трехмерный рендер.

Так как репрезентативная сеть не знает, с каких именно ракурсов генеративному компоненту придется «представлять» сцену, она максимально достоверно и точно описывает — расположение предметов в комнате, их цвет, где находятся источники освещения и так далее. При этом GQN сама учится понимать, какие детали важны, а также как извлечь их из набора пикселей.

Во время тренировки генеративная сеть узнает о том, как выглядят объекты в сцене, как они расположены по отношению друг к другу и какими свойствами обладает помещение. Кроме того, она умеет обобщать данные — например, если в разных сценах ей встречается небо, то она запомнит, что оно всегда голубое. Этот набор «концептов» позволяет алгоритму описать сцену в абстрактной манере, а генеративной сети — додумать «необходимые» детали.

Разработчики провели несколько экспериментов в виртуальном трехмерном мире, чтобы проверить работу Generative Query Network. Как показали тесты, GQN очень реалистично воспроизводит сцену — она создает довольно качественные изображения без знания о законах перспективы, освещения или окклюзии. Кроме того, алгоритм умеет подсчитывать количество объектов и классифицировать их, даже если они до конца не видны. В итоге предсказания программы выглядят очень естественно и почти неотличимы от оригинала.

Работа GQN пока что несовершенна, так как алгоритм обучался только на искусственно созданных данных. В будущем разработчики намерены использовать реальные сцены, а также сделать рендеры более качественными. Недавно исследователи разработали алгоритм, создающий из двух снятых с близких ракурсов кадров новые снимки с других ракурсов. В отличие от GQN, он не делает снимки с принципиально другого угла обзора, но зато работает с реальными изображениями.

Кристина Уласович.

Читайте также:

Майя Тихонова

Нейросеть представит мир в 3D без посторонней помощи

Читайте Hi-Tech Mail.ru в Google Новости