
ML-подразделение Apple представило модель LiTo, которая восстанавливает трехмерные объекты по одному снимку. В отличие от существующих решений, она сохраняет сложную оптику: отражения, блики и то, как материал меняет вид под разными углами. Это не просто 3D‑сканирование — это перенос физики света в цифровое пространство.
Большинство современных нейросетей, превращающих 2D‑фото в 3D‑модели, отлично справляются с геометрией. Но они почти не понимают оптику. Текстуры получаются «плоскими»: дерево выглядит как раскрашенный картон, стекло — как серая пленка, а металл теряет свой блеск при повороте камеры.
Исследователи из Apple решили эту проблему. Их новая модель LiTo (Light Transport) учится кодировать не только форму объекта, но и его световое поведение — то, как поверхность отражает, преломляет и рассеивает лучи в зависимости от угла обзора и освещения.

Нейросеть одновременно обрабатывает два слоя информации:
- Геометрию — точную форму объекта;
- Световое поле поверхности — компактный набор латентных векторов, описывающих, как объект взаимодействует со светом.
Сначала модель обучают генерировать трехмерные объекты с полной физикой материалов. Затем, с помощью сжатия случайных выборок светового поля, она учится восстанавливать сложные оптические эффекты по одной-единственной фотографии.
В результате LiTo способна «додумать» то, чего не видно на исходном снимке: как заиграют блики на хромированной поверхности, если повернуть объект, или как изменится прозрачность стекла при смене угла.

В своей работе исследователи сравнили LiTo с современной нейросетью TRELLIS. Результаты говорят сами за себя:
- LiTo генерирует объекты с более высокой точностью относительно входного изображения;
- Визуальные эффекты (блики, отражения, анизотропия материалов) сохраняются при любом ракурсе, а не «приклеиваются» к текстуре;
- Модель лучше справляется с объектами, имеющими сложную оптическую природу — стеклянными, металлическими, полированными поверхностями.
Практическое применение LiTo выходит далеко за рамки красивых картинок. Разработчики игр и визуальных эффектов смогут создавать реалистичные 3D‑ассеты в десятки раз быстрее — достаточно одной фотографии реального объекта. Системы дополненной и виртуальной реальности получат возможность переносить физические предметы в цифровую среду с сохранением их оптических свойств. А индустрия электронной коммерции сможет показывать товары в 3D с реалистичными отражениями и бликами, что повышает доверие покупателя.

Apple позиционирует LiTo, как инструмент для «быстрого переноса реальных объектов в цифровые 3D‑модели». И судя по качеству результата, это один из тех случаев, когда машинное обучение перестает быть просто «угадайкой» и становится полноценным инженерным инструментом.
Пока неизвестно, когда модель станет доступна разработчикам, но сам факт ее появления говорит о стратегическом направлении Apple: нейросети должны понимать физику мира, а не только формы.
Читайте также нашу статью о том, как Google выпустила нейросеть для плагиата.

