Сервис генерации изображений Kandinsky от «Сбера» способен не только генерировать, редактировать, дорисовывать и объединять несколько изображений в одно новое, но и создавать анимацию и видео ролики. Кстати, в нашем рейтинге лучших нейросетей для генерации изображений Kandinsky занял 2 место, сразу после Midjourney.
В статье делимся способами использования нейросети через сайты, чат-боты и приложения. Даем подробную инструкцию, как пользоваться нейросетью Kandinsky и составлять качественные запросы.
Что такое Kandinsky простыми словами
Kandinsky — это нейросеть от «Сбера» для генерации изображений, анимации и видео по текстовым запросам пользователя.
Первая версия этого сервиса появилась в ноябре 2021 года, тогда модель называлась ruDALL-E XL. В ходе многих обновлений и улучшений модели ruDALL-E появилась первая версия нейросети, названная Kandinsky.
В апреле 2023 вышла версия Kandinsky 2.1, получившая широкую популярность пользователей. Тогда версия 2.1 все еще сильно уступала популярным зарубежным аналогам Midjourney и Stable Diffusion — результаты их генераций были более реалистичны и детализированы.
В июле 2023 года Kandinsky обновился до версии 2.2, основной фишкой которой стала генерация фотореалистичных изображений с высоким качеством. Спустя несколько месяцев эта версия была дополнена возможностью генерировать короткие 4-секундные видеоролики по текстовым запросам.
В ноябре 2023 на конференции AI Journey «Сбер» представил новую версию — Kandinsky 3.0 и Kandinsky Video. Самым интересным обновлением стало знакомство нейросети с русской культурой и фольклором. Нейросеть заколлабили с отечественными актерами, знаменитостями, персонажами, героями фильмов и сказок, элементами российской и советской архитектуры, а также с мотивами русских народных промыслов — гжели, жостовской росписи и других.
По состоянию на май 2024 года наиболее актуальной версией нейросети является Kandinsky 3.1.
Полезная информация о нейросети Kandinsky
Функционал | Наличие в Kandinsky 3.0 |
Генерация по текстовому запросу | Да |
Генерация изображения на основе другого изображения по текстовому запросу | Да |
Дорисовка загруженного или сгенерированного изображения | Да |
Отрисовка в разных стилях | Да |
Наличие ленты генераций других пользователей | Нет |
Приватные генерации | Да |
История генераций | Нет |
Лицензия на использование изображений | Только для некоммерческого использования в соответствии с пользовательским соглашением |
Понимание текстовых запросов на русском языке | Да |
Наличие платных тарифов | Нет |
Возможность генераций в браузере | Да |
Возможность генераций через чат-ботов | Да, в Telegram и ВКонтакте |
Создание коротких видео и анимации по текстовому запросу | Да |
Что умеет Kandinsky
Работа сервиса Kandinsky 3.0 происходит в пяти основных форматах. Подробнее о каждом.
Генерация изображений по текстовому запросу. Самый популярный режим для нейросетей. Создание изображения происходит только на основе введенного описания и указанных деталей.
Создание новых изображений на основе загруженных. С помощью нейросети Kandinsky можно слегка изменить исходное изображение, заменить лицо на портрете или внешний облик объекта, сохранив при этом основные детали и стиль загруженной картинки или фото.
Дорисовка деталей у готового изображения. Изображение может быть загруженным пользователем или сгенерированным нейросетью.
Генерация анимации. В сервисе Fusion Brain доступна генерация анимационных роликов. Пользователь может написать текстовый запрос для нескольких сцен, длительностью 4 секунды каждая, добавлять или удалять дополнительные сцены и их описания. Чем больше описано сцен — тем дольше ждать окончания генерации.
Генерация коротких видео. Генерация видео происходит более сложно, чем анимации, у нее пока нет расширенных настроек и для всего видеоролика имеется только одно окно для ввода текстового запроса. Время генерации видео, в среднем, — около 4 минут. Качество видео и соответствие результата запросу пока крайне низкое.
7 способов начать пользоваться Kandinsky
В первую очередь советуем ознакомиться с разделом нейросети Kandinsky на сайте «Сбера». Там перечислены ссылки на всевозможные официальные источники, где можно попробовать генерацию изображений и видео.
Рассмотрим подробнее, что представляет каждый из них.
1. Официальный сайт
Официальной страницей Kandinsky, где можно попробовать работу в самой свежей версии и все его функции, считается сайт Fusion Brain.
Fusion Brain — это портал, где команда института AIRI (научно-исследовательский институт искусственного интеллекта) выкладывает интересные модели нейросетей, чтобы желающие могли попробовать современные инструменты и изучить новую технологию.
Первой нейросетью, выложенной на портал, стал именно Kandinsky. Команда использовала открытый исходный код приложения и создала сайт с удобным интерфейсом.
На сайте можно:
- генерировать изображения по текстовому запросу в графическом редакторе;
- создавать новые изображения на основе загруженного;
- стирать лишние детали изображения ластиком;
- генерировать изображения и анимацию разного качества и ориентации;
- скачивать готовые картинки на компьютер;
- генерировать изображения в разных стилях;
- вводить промты и негативные промты, по-простому — то, что должно быть на изображении и то, чего там быть НЕ должно;
- генерировать анимационные ролики, состоящие из нескольких несвязанных сцен;
- генерировать видео.
Дополнительно стоит отметить, что сервис полностью русскоязычный, интуитивно-понятный и имеет подсказки и горячие клавиши для работы в редакторе.
2. Сайт с урезанным функционалом
Генерация изображений по текстовому запросу также доступна на сайте ruDALL-E, но с урезанным функционалом.
Можно выбрать последнюю версию Kandinsky 3.1 или использовать архивные 2.2, 2.1, ruDALL-E Kandinsky, ruDALL-E Malevich, ruDALL-E Emojich.
Правда, сайт не всегда корректно работает и иногда не отправляет формы с запросом на сервер.
3. VK-бот
Сгенерировать изображение по запросу в выбранной ориентации (1:1, 3:2, 2:3) можно отправив команду чат-боту ВКонтакте.
При использовании этого способа нельзя задать расширенные настройки или загрузить другое изображение для генерации на его основе. Однако нейросеть в чат-боте пригодится, например, для быстрой визуализации идей, подбора картинки-анонса к посту или статье. Версия Kandinsky в чат-ботах не всегда самая актуальная, поэтому качество может быть ниже, чем при генерации через Fusion Brain.
4. Telegram-бот для создания изображений
Оперативно создать изображение можно и в боте мессенджера Telegram Kandinsky by Sber AI. Он появился для версии 2.1 и до сих пор считается актуальным.
На момент публикации статьи бот поддерживает свежую версию 3.1 и архивные 2.2 и 2.1.
Среди вариантов работы чат-бота в Telegram можно отметить:
- умение генерировать изображения по описанию (все версии);
- возможность смешивать изображения в одно (на версии 2.1 и 2.2);
- переносить стиль на изображение (на версии 2.2);
- генерировать вариации изображения (на версии 2.1 и 2.2);
- создавать стикеры (на версии 2.2).
5. Telegram-бот для генерации видео
В мессенджере Telegram также существует отдельный чат-бот для создания видеороликов, он называется Kandinsky Video by Sber AI.
Так как функция генерации видео появилась недавно и доступна не всем пользователям, для использования чат-бота с целью генерации видео необходимо оставить заявку. Только после ее одобрения можно будет протестировать функционал Kandinsky.
6. Приложение «Салют»
Генерировать изображения можно с помощью виртуального ассистента в мобильном приложении «Салют» или на умных устройствах под управлением Салют ТВ по команде «Включи художника».
7. Интегрировать API в свое приложение или сайт
Продвинутые пользователи, имеющие навыки программирования, владельцы собственного сайта или мобильного приложения, могут интегрировать Kandinsky в свой проект.
Для этого необходимо подключить Fusion Brain по API к своему продукту.
Инструкция по использованию нейросети Kandinsky
Инструкция как пользоваться нейросетью Kandinsky от Сбербанка будет отличаться в зависимости от цели назначения.
В чат-ботах и на упрощенных сайтах обычно достаточно просто ввести обычный текстовый запрос и выбрать минимум настроек для получения изображения. В версии же на сайте Fusion Brain настроек и тонкостей гораздо больше — с их помощью можно полностью раскрыть потенциал нейросети.
Рассмотрим подробнее процесс создания изображений, анимации и видео на Fusion Brain.
Как создать картинку
Первым этапом создания картинки нужно выбрать ее качество и разрешение. Отдельного выбора качества на сайте нет, оно будет автоматически изменяться при выборе ориентации. Например, качество стандартной квадратной картинки 1:1 по умолчанию будет 1024×1024 px.
Вторым этапом нужно сделать самое основное — грамотно сформулировать промт, или по-простому — запрос. Вводим запрос в окошко под областью генерации и смотрим первый результат.
Внимательно оцениваем результат, изучаем детали, концентрируем внимание на том, что получилось неудачно. Вписываем это в поле «негативный промт».
Оцениваем еще раз, повторно корректируем ненужные детали негативным промтом и вписываем недостающие детали в обычный промт.
Совершаем эти действия до тех пор, пока результат не приблизится к ожидаемому.
Стоит отметить, что при таких точечных правках объект и его фон в целом остаются такими же, меняются только детали.
Готовое изображение можно скачать на компьютер.
Как редактировать готовое изображение
Редактировать детали картинки можно не только с помощью корректировки промта, но и с использованием инструмента «ластик». Он может понадобиться, если картинка сгенерирована хорошо, но имеет слишком крупный план или основной объект не дорисован, обрезан в ненужном месте.
Передвигаем область генерации в то место, где требуется дорисовка и описываем с помощью запроса что именно там должно быть.
Важный момент: для качественной дорисовки новая область генерации должна захватывать первый рисунок. Чем больше это пересечение и захват, тем больше шансов, что вторая картинка будет продолжением первой.
Дорисовывать детали изображения и продолжать картинку можно до тех пор, пока она не удовлетворит запрос.
Как создать анимацию
Для создания анимации нужно перейти на вкладку «Видео» в Fusion Brain и выбрать в поле «Модель» пункт «Анимация».
Далее стоит определить количество сцен, которые необходимо сгенерировать, и написать запрос для каждой из них. Дополнительной настройкой является указание направления камеры для каждой из сцен.
Важная деталь: чем больше описано сцен для генерации, тем выше будет время ожидания готового результата. В самом начале стоить протестировать свою мысль на одной-двух сценах, чтобы понять соответствует ли результат первоначальной идее.
Созданную анимацию можно скачать на компьютер и использовать, она будет иметь расширение .MP4.
Как создать видео
Процесс создания видео практически идентичен созданию анимации, но имеет меньшее количество настроек.
У видео нет разбивки на сцены и настроек направления камеры. Генерация в среднем занимает около 4 минут, а само видео имеет продолжительность около 8 секунд.
Итоговые ролики в версии Kandinsky 3.0 имеют низкое качество, выходят очень смазанными, пиксельными и напоминают видео из 2000-х, которые передавались через Bluetooth и ИК-порт на телефонах.
Советы, как правильно составлять запрос нейросети
Составление грамотного запроса — самая важная часть работы с нейросетью, без этого понять, как пользоваться Kandinsky в 2024 году, не выйдет. Разберемся подробнее как составлять запрос.
1. Грамотно формулируйте запрос, указывайте важные детали
В самом простом виде запрос должен содержать три составляющих.
Описание объекта. Его внешний вид, детали облика, эмоции (улыбается, плачет, злой).
Для людей — возраст (молодая девушка, пожилой мужчина, ребенок), цвет волос, цвет глаз, наличие веснушек и другие важные детали.
Для животных — порода, вид, тип шерсти, ее цвет.
Для неживых объектов — текстура (гладкий, шершавый, матовый), материал (мрамор, камень, дерево, кожа).
Фон и его детали. Время года (лето, зима), время суток (день, ночь), погодные условия (ясная погода, снегопад), наличие дополнительных объектов (улица с машинами, свет уличных фонарей).
Стиль. Можно выбрать из списка доступных в сервисе стилей или описать свой собственный.
После того как запрос готов, можно генерировать картинку и вносить корректировки в зависимости от полученного результата.
2. Повлиять на результат можно с помощью негативных промтов
Нейросеть, как и человек, может мыслить стереотипно и понимать всю информацию, данную запросом, в буквальном смысле. Например, если написать «лиса», то получится исключительно рыжий зверек, а «помидор» всегда будет красным.
Чтобы преодолеть эти нюансы, стоит вписывать желаемый результат в промт, например «чернобурая лиса», а в негативный промт нежелательный результат, например «рыжая лиса».
3. Писать запросы однозначными, не использовать метафоры и намеки
Нейросети пока не способны распознавать намеки, крылатые выражения и пословицы и другие выразительные фигуры речи. Поэтому в запросах их лучше не использовать. Вместо них нужно давать больше конкретики и четких указаний в запросе.
Примеры изображений, сгенерированных нейросетью Kandinsky
Промт: Красивая молодая девушка в лавандовом поле, красное платье, светлые волосы, плетеная корзинка в руках. Лето, ясная солнечная погода. Реализм, студийное фото, высокая детализация.
Промт: Полосатый серый кот. Деревня, скотный двор. Осень, облачная погода, листопад. Картина маслом, высокая детализация.
Промт: Молодой парень катается на серфинге по волнам. Лето, ясная погода, солнечный свет, яркие краски. Стиль Айвазовский, высокая детализация.
Промт: Ваза с суккулентами и кактусами на окне. Цвета сочные, зеленые, салатовые, бордовые, желтые. Солнечный свет, высокая детализация, студийное фото.
Промт: Машина Peugeot 206 красного цвета. Фон природа, лес. Ясная солнечная погода, лето. Студийное фото, высокая детализация, фотография, высокое разрешение.
Плюсы и минусы нейросети Kandinsky
Разработчики нейросети Kandinsky радуют пользователей постоянными обновлениями функционала, свежими версиями и максимальной приближенностью качества к известным аналогам — зарубежным Midjourney, Dall-E и Stable Diffusion, но типичные недостатки нейросетей не обошли стороной. При генерациях все еще можно получить шесть пальцев, кривые глаза, проблемы с линзами и зеркалами и многие другие типичные «ляпы» нейросетей.
Сравним подробнее плюсы и минусы.
- Плюсы
- Бесплатная нейросеть
- Мультиязычная, понимает запросы на русском языке
- Доступна в России, не нужно заходить с VPN
- Другие пользователи не видят генерации
- Может генерировать изображения во многих стилях, копировать стили художников, рисовать персонажей и персон русской культуры и фольклора
- Можно использовать в чат-ботах «Телеграмм» и «ВК»
- Можно объединять два изображение в одно новое
- Можно генерировать стикеры
- Можно создавать анимацию и видео
- Можно интегрировать к себе на сайт или в приложение
- Простой интерфейс на сайте и в чат-ботах
- Минусы
- Только для некоммерческого использования
- Нет ленты пользовательских генераций
- Не всегда предсказуемое качество итоговых изображений, даже при указании стиля и качества
- Видео создается очень низкого качества
Вопросы и ответы
Есть ли аналоги у Kandinsky?
Среди нейросетей, хорошо работающих в России, понимающих русскоязычные запросы и имеющих простой и понятный интерфейс, как аналог можно выделить «Шедеврум» от «Яндекса». «Шедеврум», так же, как и Kandinsky, имеет лицензию только для некоммерческого использования.
Со свободной лицензией для коммерческого и некоммерческого использования и открытым исходным кодом, доступных из России, можно выделить нейросеть Stable Diffision.
На каких языках работает Kandinsky?
Сервис поддерживает и понимает запросы более чем на 100 языках, включая русский.
Можно ли использовать созданные этой нейросетью картинки в коммерческих целях?
Kandinsky имеет лицензию только для некоммерческого использования. Подробнее с ограничениями и правилами сервиса можно ознакомиться в пользовательском соглашении.