Криповые ИИ-изображения в прошлом: ученые создали новый способ генерации картинок

Новый метод ученых генерирует более чистые изображения без странных искажений. Правда, пока он генерирует картинки намного дольше популярных инструментов.

Генеративные модели искусственного интеллекта часто допускают ошибки в проработке деталей — неправильно рисуют пальцы рук или искажают симметрию лица. Ученые Университета Райса разработали новый метод генерации изображений с использованием диффузионных моделей, пишет TechXplore. 

Диффузионные модели «обучаются», добавляя слой за слоем случайный шум к изображениям, на которых они тренировались, а затем генерируют новые изображения, удаляя добавленный шум. Примеры таких ИИ-моделей — Stable Diffusion, Midjourney и DALL-E. Все эти инструменты генерируют реалистичные изображения. Но у них есть слабость: они хорошо генерируют только квадратные картинки. 

Если попросить модель вроде Stable Diffusion создать изображение с неквадратным соотношением сторон, например, 16:9, элементы, используемые для построения сгенерированного изображения, начнут повторяться. Это проявляется в виде странных деформаций. У людей может быть шесть пальцев, а машины станут слишком вытянутыми.

Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт был одинаковый: «Фотография кота-спортсмена, объясняющего журналистам свой последний скандал на пресс-конференции».
Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт был одинаковый: «Фотография кота-спортсмена, объясняющего журналистам свой последний скандал на пресс-конференции».Источник: Moayed Haji Ali/Rice University

Проблему усугубляет обучение моделей. Если тренировать ИИ только на изображениях с определенным разрешением, он сможет генерировать изображения только с этим разрешением. Это приводит к переобучению: когда модель хорошо генерирует только данные, похожие на те, что использовались при обучении, и не может сильно отклоняться от этих параметров. Проблема решается обучением на более широком спектре изображений. Но это дорого и требует огромных вычислительных мощностей.

Цифровой шум, используемый моделями диффузии, можно преобразовать в сигнал с двумя типами данных: локальный и глобальный. Локальный сигнал содержит подробную информацию на уровне пикселей, например, форму глаза или текстуру шерсти собаки. Глобальный сигнал содержит скорее общий контур изображения. 

Диффузионные модели обычно объединяют локальную и глобальную информацию. Когда модель пытается дублировать эти данные, чтобы учесть дополнительное пространство в неквадратном изображении, это приводит к визуальным дефектам.

Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт: «Представьте себе портрет милой ученой совы в сине-сером наряде, объявляющей о своем последнем прорывном открытии. Его глаза светло-карие. Его наряд прост, но достоин».
Картинка слева была создана стандартным методом, а картинка справа — ElasticDiffusion. Промт: «Представьте себе портрет милой ученой совы в сине-сером наряде, объявляющей о своем последнем прорывном открытии. Его глаза светло-карие. Его наряд прост, но достоин». Источник: Moayed Haji Ali/Rice University

Новый метод под названием ElasticDiffusion использует другой подход к созданию изображения. Вместо объединения локальных и глобальных сигналов ElasticDiffusion разделяет их на условный и безусловный пути генерации. Вычитая условную модель из безусловной, модель получает оценку, содержащую глобальную информацию об изображении.

Затем безусловный путь заполняет детали изображения в четвертях, а глобальная информация (соотношение сторон и что изображено в общем) остается неизменной. Результат — более чистое изображение независимо от соотношения сторон. Дополнительное обучение не нужно.

Единственный недостаток по сравнению с другими моделями диффузии — это время. ElasticDiffusion требуется в 6-9 раз больше времени для создания изображения. Ученые хотят достичь такой же скорости генерации изображений, как у моделей Stable Diffusion или DALL-E.

Ранее ученые рассказали о том, что создание изображения высокой четкости с использованием искусственного интеллекта может пагубно сказаться на окружающей среде.