Генеративные модели искусственного интеллекта часто допускают ошибки в проработке деталей — неправильно рисуют пальцы рук или искажают симметрию лица. Ученые Университета Райса разработали новый метод генерации изображений с использованием диффузионных моделей, пишет TechXplore.
Диффузионные модели «обучаются», добавляя слой за слоем случайный шум к изображениям, на которых они тренировались, а затем генерируют новые изображения, удаляя добавленный шум. Примеры таких ИИ-моделей — Stable Diffusion, Midjourney и DALL-E. Все эти инструменты генерируют реалистичные изображения. Но у них есть слабость: они хорошо генерируют только квадратные картинки.
Если попросить модель вроде Stable Diffusion создать изображение с неквадратным соотношением сторон, например, 16:9, элементы, используемые для построения сгенерированного изображения, начнут повторяться. Это проявляется в виде странных деформаций. У людей может быть шесть пальцев, а машины станут слишком вытянутыми.
Проблему усугубляет обучение моделей. Если тренировать ИИ только на изображениях с определенным разрешением, он сможет генерировать изображения только с этим разрешением. Это приводит к переобучению: когда модель хорошо генерирует только данные, похожие на те, что использовались при обучении, и не может сильно отклоняться от этих параметров. Проблема решается обучением на более широком спектре изображений. Но это дорого и требует огромных вычислительных мощностей.
Цифровой шум, используемый моделями диффузии, можно преобразовать в сигнал с двумя типами данных: локальный и глобальный. Локальный сигнал содержит подробную информацию на уровне пикселей, например, форму глаза или текстуру шерсти собаки. Глобальный сигнал содержит скорее общий контур изображения.
Диффузионные модели обычно объединяют локальную и глобальную информацию. Когда модель пытается дублировать эти данные, чтобы учесть дополнительное пространство в неквадратном изображении, это приводит к визуальным дефектам.
Новый метод под названием ElasticDiffusion использует другой подход к созданию изображения. Вместо объединения локальных и глобальных сигналов ElasticDiffusion разделяет их на условный и безусловный пути генерации. Вычитая условную модель из безусловной, модель получает оценку, содержащую глобальную информацию об изображении.
Затем безусловный путь заполняет детали изображения в четвертях, а глобальная информация (соотношение сторон и что изображено в общем) остается неизменной. Результат — более чистое изображение независимо от соотношения сторон. Дополнительное обучение не нужно.
Единственный недостаток по сравнению с другими моделями диффузии — это время. ElasticDiffusion требуется в 6-9 раз больше времени для создания изображения. Ученые хотят достичь такой же скорости генерации изображений, как у моделей Stable Diffusion или DALL-E.
Ранее ученые рассказали о том, что создание изображения высокой четкости с использованием искусственного интеллекта может пагубно сказаться на окружающей среде.