Как пользоваться нейросетью Kandinsky в 2024 году

Kandinsky от «Сбера» — инструмент для генерации реалистичных изображений, способный составить конкуренцию популярным Midjourney и Stable Diffusion. Даем инструкцию, как пользоваться Kandinsky в 2024 году, абсолютно бесплатно и без ограничений.
Что такое Kandinsky
Полезная информация
Что умеет
Как пользоваться
Инструкция
Советы
Примеры
Плюсы и минусы
Вопросы и ответы
Что такое Kandinsky
Полезная информация
Что умеет
Как пользоваться
Инструкция
Советы
Примеры
Плюсы и минусы
Вопросы и ответы
Ещё
Kandinsky
Источник: Hi-Tech Mail.ru

Сервис генерации изображений Kandinsky от «Сбера» способен не только генерировать, редактировать, дорисовывать и объединять несколько изображений в одно новое, но и создавать анимацию и видео ролики. Кстати, в нашем рейтинге лучших нейросетей для генерации изображений Kandinsky занял 2 место, сразу после Midjourney.

В статье делимся способами использования нейросети через сайты, чат-боты и приложения. Даем подробную инструкцию, как пользоваться нейросетью Kandinsky и составлять качественные запросы.

Что такое Kandinsky простыми словами

Kandinsky — это нейросеть от «Сбера» для генерации изображений, анимации и видео по текстовым запросам пользователя.

Первая версия этого сервиса появилась в ноябре 2021 года, тогда модель называлась ruDALL-E XL. В ходе многих обновлений и улучшений модели ruDALL-E появилась первая версия нейросети, названная Kandinsky.

В апреле 2023 вышла версия Kandinsky 2.1, получившая широкую популярность пользователей. Тогда версия 2.1 все еще сильно уступала популярным зарубежным аналогам Midjourney и Stable Diffusion — результаты их генераций были более реалистичны и детализированы.

В июле 2023 года Kandinsky обновился до версии 2.2, основной фишкой которой стала генерация фотореалистичных изображений с высоким качеством. Спустя несколько месяцев эта версия была дополнена возможностью генерировать короткие 4-секундные видеоролики по текстовым запросам.

Пример фотореализма и высокого качества при генерации изображений
Пример фотореализма и высокого качества при генерации изображенийИсточник: Hi-Tech Mail.ru

В ноябре 2023 на конференции AI Journey «Сбер» представил новую версию — Kandinsky 3.0 и Kandinsky Video. Самым интересным обновлением стало знакомство нейросети с русской культурой и фольклором. Нейросеть заколлабили с отечественными актерами, знаменитостями, персонажами, героями фильмов и сказок, элементами российской и советской архитектуры, а также с мотивами русских народных промыслов — гжели, жостовской росписи и других.

Баба Яга, сгенерированная по простейшему промту «Баба Яга» без описания деталей
Баба Яга, сгенерированная по простейшему промту «Баба Яга» без описания деталейИсточник: Hi-Tech Mail.ru

По состоянию на май 2024 года наиболее актуальной версией нейросети является Kandinsky 3.1.

Полезная информация о нейросети Kandinsky

ФункционалНаличие в Kandinsky 3.0
Генерация по текстовому запросу
Да
Генерация изображения на основе другого изображения по текстовому запросу
Да
Дорисовка загруженного или сгенерированного изображения
Да
Отрисовка в разных стилях
Да
Наличие ленты генераций других пользователей
Нет
Приватные генерации
Да
История генераций
Нет
Лицензия на использование изображений
Только для некоммерческого использования в соответствии с пользовательским соглашением
Понимание текстовых запросов на русском языке
Да
Наличие платных тарифов
Нет
Возможность генераций в браузере
Да
Возможность генераций через чат-ботов
Да, в Telegram и ВКонтакте
Создание коротких видео и анимации по текстовому запросу
Да

Что умеет Kandinsky

Работа сервиса Kandinsky 3.0 происходит в пяти основных форматах. Подробнее о каждом.

  1. Генерация изображений по текстовому запросу. Самый популярный режим для нейросетей. Создание изображения происходит только на основе введенного описания и указанных деталей.

Генерация изображения на основе текстового запроса
Генерация изображения на основе текстового запросаИсточник: Hi-Tech Mail.ru
  1. Создание новых изображений на основе загруженных. С помощью нейросети Kandinsky можно слегка изменить исходное изображение, заменить лицо на портрете или внешний облик объекта, сохранив при этом основные детали и стиль загруженной картинки или фото.

Генерация нового портрета на основе загруженного
Генерация нового портрета на основе загруженногоИсточник: Hi-Tech Mail.ru
  1. Дорисовка деталей у готового изображения. Изображение может быть загруженным пользователем или сгенерированным нейросетью.

Исходное сгенерированное изображение рыбака с промтом
Исходное сгенерированное изображение рыбака с промтомИсточник: Hi-Tech Mail.ru
  1. Генерация анимации. В сервисе Fusion Brain доступна генерация анимационных роликов. Пользователь может написать текстовый запрос для нескольких сцен, длительностью 4 секунды каждая, добавлять или удалять дополнительные сцены и их описания. Чем больше описано сцен — тем дольше ждать окончания генерации.

Дорисованные детали на исходном сгенерированном изображении
Дорисованные детали на исходном сгенерированном изображенииИсточник: Hi-Tech Mail.ru
  1. Генерация коротких видео. Генерация видео происходит более сложно, чем анимации, у нее пока нет расширенных настроек и для всего видеоролика имеется только одно окно для ввода текстового запроса. Время генерации видео, в среднем, — около 4 минут. Качество видео и соответствие результата запросу пока крайне низкое.

7 способов начать пользоваться Kandinsky

В первую очередь советуем ознакомиться с разделом нейросети Kandinsky на сайте «Сбера». Там перечислены ссылки на всевозможные официальные источники, где можно попробовать генерацию изображений и видео.

Рассмотрим подробнее, что представляет каждый из них.

1. Официальный сайт

Официальной страницей Kandinsky, где можно попробовать работу в самой свежей версии и все его функции, считается сайт Fusion Brain.

Fusion Brain — это портал, где команда института AIRI (научно-исследовательский институт искусственного интеллекта) выкладывает интересные модели нейросетей, чтобы желающие могли попробовать современные инструменты и изучить новую технологию.

Первой нейросетью, выложенной на портал, стал именно Kandinsky. Команда использовала открытый исходный код приложения и создала сайт с удобным интерфейсом.

Интерфейс графического редактора Fusion Brain
Интерфейс графического редактора Fusion BrainИсточник: Hi-Tech Mail.ru

На сайте можно:

  • генерировать изображения по текстовому запросу в графическом редакторе;
  • создавать новые изображения на основе загруженного;
  • стирать лишние детали изображения ластиком;
  • генерировать изображения и анимацию разного качества и ориентации;
  • скачивать готовые картинки на компьютер;
  • генерировать изображения в разных стилях;
  • вводить промты и негативные промты, по-простому — то, что должно быть на изображении и то, чего там быть НЕ должно;
  • генерировать анимационные ролики, состоящие из нескольких несвязанных сцен;
  • генерировать видео.

Дополнительно стоит отметить, что сервис полностью русскоязычный, интуитивно-понятный и имеет подсказки и горячие клавиши для работы в редакторе.

Горячие клавиши для работы в редакторе Fusion Brain
Горячие клавиши для работы в редакторе Fusion BrainИсточник: Hi-Tech Mail.ru

2. Сайт с урезанным функционалом

Генерация изображений по текстовому запросу также доступна на сайте ruDALL-E, но с урезанным функционалом.

Можно выбрать последнюю версию Kandinsky 3.1 или использовать архивные 2.2, 2.1, ruDALL-E Kandinsky, ruDALL-E Malevich, ruDALL-E Emojich.

Правда, сайт не всегда корректно работает и иногда не отправляет формы с запросом на сервер.

Интерфейс сервиса ruDALL-E
Интерфейс сервиса ruDALL-EИсточник: Hi-Tech Mail.ru

3. VK-бот

Сгенерировать изображение по запросу в выбранной ориентации (1:1, 3:2, 2:3) можно отправив команду чат-боту ВКонтакте.

При использовании этого способа нельзя задать расширенные настройки или загрузить другое изображение для генерации на его основе. Однако нейросеть в чат-боте пригодится, например, для быстрой визуализации идей, подбора картинки-анонса к посту или статье. Версия Kandinsky в чат-ботах не всегда самая актуальная, поэтому качество может быть ниже, чем при генерации через Fusion Brain.

Переписка с чат-ботом ВКонтакте для генерации изображений
Переписка с чат-ботом ВКонтакте для генерации изображенийИсточник: Hi-Tech Mail.ru
Результат генерации в чат-боте ВКонтакте
Результат генерации в чат-боте ВКонтактеИсточник: Hi-Tech Mail.ru

4. Telegram-бот для создания изображений

Оперативно создать изображение можно и в боте мессенджера Telegram Kandinsky by Sber AI. Он появился для версии 2.1 и до сих пор считается актуальным.

На момент публикации статьи бот поддерживает свежую версию 3.1 и архивные 2.2 и 2.1.

Среди вариантов работы чат-бота в Telegram можно отметить:

  • умение генерировать изображения по описанию (все версии);
  • возможность смешивать изображения в одно (на версии 2.1 и 2.2);
  • переносить стиль на изображение (на версии 2.2);
  • генерировать вариации изображения (на версии 2.1 и 2.2);
  • создавать стикеры (на версии 2.2).
Интерфейс и меню чат-бота в Telegram
Интерфейс и меню чат-бота в TelegramИсточник: Hi-Tech Mail.ru

5. Telegram-бот для генерации видео

В мессенджере Telegram также существует отдельный чат-бот для создания видеороликов, он называется Kandinsky Video by Sber AI.

Так как функция генерации видео появилась недавно и доступна не всем пользователям, для использования чат-бота с целью генерации видео необходимо оставить заявку. Только после ее одобрения можно будет протестировать функционал Kandinsky.

Интерфейс чат-бота для генерации видео и запрос на использование
Интерфейс чат-бота для генерации видео и запрос на использованиеИсточник: Hi-Tech Mail.ru

6. Приложение «Салют»

Генерировать изображения можно с помощью виртуального ассистента в мобильном приложении «Салют» или на умных устройствах под управлением Салют ТВ по команде «Включи художника».

Страница android-приложения «Салют» в Google Play
Страница android-приложения «Салют» в Google PlayИсточник: Hi-Tech Mail.ru

7. Интегрировать API в свое приложение или сайт

Продвинутые пользователи, имеющие навыки программирования, владельцы собственного сайта или мобильного приложения, могут интегрировать Kandinsky в свой проект.

Для этого необходимо подключить Fusion Brain по API к своему продукту.

Интеграция своего сервиса по API к Fusion Brain
Интеграция своего сервиса по API к Fusion BrainИсточник: Hi-Tech Mail.ru

Инструкция по использованию нейросети Kandinsky

Инструкция как пользоваться нейросетью Kandinsky от Сбербанка будет отличаться в зависимости от цели назначения.

В чат-ботах и на упрощенных сайтах обычно достаточно просто ввести обычный текстовый запрос и выбрать минимум настроек для получения изображения. В версии же на сайте Fusion Brain настроек и тонкостей гораздо больше — с их помощью можно полностью раскрыть потенциал нейросети.

Рассмотрим подробнее процесс создания изображений, анимации и видео на Fusion Brain.

Как создать картинку

Первым этапом создания картинки нужно выбрать ее качество и разрешение. Отдельного выбора качества на сайте нет, оно будет автоматически изменяться при выборе ориентации. Например, качество стандартной квадратной картинки 1:1 по умолчанию будет 1024×1024 px.

Выбор качества и ориентации изображения
Выбор качества и ориентации изображенияИсточник: Hi-Tech Mail.ru

Вторым этапом нужно сделать самое основное — грамотно сформулировать промт, или по-простому — запрос. Вводим запрос в окошко под областью генерации и смотрим первый результат.

Результат первой генерации
Результат первой генерацииИсточник: Hi-Tech Mail.ru

Внимательно оцениваем результат, изучаем детали, концентрируем внимание на том, что получилось неудачно. Вписываем это в поле «негативный промт».

Результат генерации после указания негативного промта
Результат генерации после указания негативного промтаИсточник: Hi-Tech Mail.ru

Оцениваем еще раз, повторно корректируем ненужные детали негативным промтом и вписываем недостающие детали в обычный промт.

Дополнение негативного промта
Дополнение негативного промтаИсточник: Hi-Tech Mail.ru

Совершаем эти действия до тех пор, пока результат не приблизится к ожидаемому.

Стоит отметить, что при таких точечных правках объект и его фон в целом остаются такими же, меняются только детали.

Конечный результат генерации
Конечный результат генерацииИсточник: Hi-Tech Mail.ru

Готовое изображение можно скачать на компьютер.

Скачивание изображения
Скачивание изображенияИсточник: Hi-Tech Mail.ru

Как редактировать готовое изображение

Редактировать детали картинки можно не только с помощью корректировки промта, но и с использованием инструмента «ластик». Он может понадобиться, если картинка сгенерирована хорошо, но имеет слишком крупный план или основной объект не дорисован, обрезан в ненужном месте.

Исходное изображение для дорисовки деталей
Исходное изображение для дорисовки деталейИсточник: Hi-Tech Mail.ru

Передвигаем область генерации в то место, где требуется дорисовка и описываем с помощью запроса что именно там должно быть.

Важный момент: для качественной дорисовки новая область генерации должна захватывать первый рисунок. Чем больше это пересечение и захват, тем больше шансов, что вторая картинка будет продолжением первой.

Новый запрос и дорисовка области
Новый запрос и дорисовка областиИсточник: Hi-Tech Mail.ru
Вторая дорисовка части изображения
Вторая дорисовка части изображенияИсточник: Hi-Tech Mail.ru

Дорисовывать детали изображения и продолжать картинку можно до тех пор, пока она не удовлетворит запрос.

Результат дорисовки фотореалистичного изображения
Результат дорисовки фотореалистичного изображенияИсточник: Hi-Tech Mail.ru

Как создать анимацию

Для создания анимации нужно перейти на вкладку «Видео» в Fusion Brain и выбрать в поле «Модель» пункт «Анимация».

Подготовка к генерации анимации
Подготовка к генерации анимацииИсточник: Hi-Tech Mail.ru

Далее стоит определить количество сцен, которые необходимо сгенерировать, и написать запрос для каждой из них. Дополнительной настройкой является указание направления камеры для каждой из сцен.

Важная деталь: чем больше описано сцен для генерации, тем выше будет время ожидания готового результата. В самом начале стоить протестировать свою мысль на одной-двух сценах, чтобы понять соответствует ли результат первоначальной идее.

Интерфейс генератора анимации и описание сцен
Интерфейс генератора анимации и описание сценИсточник: Hi-Tech Mail.ru

Созданную анимацию можно скачать на компьютер и использовать, она будет иметь расширение .MP4.

Как создать видео

Процесс создания видео практически идентичен созданию анимации, но имеет меньшее количество настроек.

У видео нет разбивки на сцены и настроек направления камеры. Генерация в среднем занимает около 4 минут, а само видео имеет продолжительность около 8 секунд.

Интерфейс создания видео
Интерфейс создания видеоИсточник: Hi-Tech Mail.ru

Итоговые ролики в версии Kandinsky 3.0 имеют низкое качество, выходят очень смазанными, пиксельными и напоминают видео из 2000-х, которые передавались через Bluetooth и ИК-порт на телефонах.

Советы, как правильно составлять запрос нейросети

Составление грамотного запроса — самая важная часть работы с нейросетью, без этого понять, как пользоваться Kandinsky в 2024 году, не выйдет. Разберемся подробнее как составлять запрос.

1. Грамотно формулируйте запрос, указывайте важные детали

В самом простом виде запрос должен содержать три составляющих.

  • Описание объекта. Его внешний вид, детали облика, эмоции (улыбается, плачет, злой).

Для людей — возраст (молодая девушка, пожилой мужчина, ребенок), цвет волос, цвет глаз, наличие веснушек и другие важные детали.

Для животных — порода, вид, тип шерсти, ее цвет.

Для неживых объектов — текстура (гладкий, шершавый, матовый), материал (мрамор, камень, дерево, кожа).

  • Фон и его детали. Время года (лето, зима), время суток (день, ночь), погодные условия (ясная погода, снегопад), наличие дополнительных объектов (улица с машинами, свет уличных фонарей).

  • Стиль. Можно выбрать из списка доступных в сервисе стилей или описать свой собственный.

После того как запрос готов, можно генерировать картинку и вносить корректировки в зависимости от полученного результата.

2. Повлиять на результат можно с помощью негативных промтов

Нейросеть, как и человек, может мыслить стереотипно и понимать всю информацию, данную запросом, в буквальном смысле. Например, если написать «лиса», то получится исключительно рыжий зверек, а «помидор» всегда будет красным.

Чтобы преодолеть эти нюансы, стоит вписывать желаемый результат в промт, например «чернобурая лиса», а в негативный промт нежелательный результат, например «рыжая лиса».

3. Писать запросы однозначными, не использовать метафоры и намеки

Нейросети пока не способны распознавать намеки, крылатые выражения и пословицы и другие выразительные фигуры речи. Поэтому в запросах их лучше не использовать. Вместо них нужно давать больше конкретики и четких указаний в запросе.

Попытка сгенерировать иллюстрацию к поговорке «Толочь воду в ступе»
Попытка сгенерировать иллюстрацию к поговорке «Толочь воду в ступе»Источник: Hi-Tech Mail.ru

Примеры изображений, сгенерированных нейросетью Kandinsky

Промт: Красивая молодая девушка в лавандовом поле, красное платье, светлые волосы, плетеная корзинка в руках. Лето, ясная солнечная погода. Реализм, студийное фото, высокая детализация.

Генерация девушки с корзинкой в лавандовом поле
Генерация девушки с корзинкой в лавандовом полеИсточник: Hi-Tech Mail.ru

Промт: Полосатый серый кот. Деревня, скотный двор. Осень, облачная погода, листопад. Картина маслом, высокая детализация.

Генерация деревенского кота в технике рисования маслом на холсте
Генерация деревенского кота в технике рисования маслом на холстеИсточник: Kandinsky

Промт: Молодой парень катается на серфинге по волнам. Лето, ясная погода, солнечный свет, яркие краски. Стиль Айвазовский, высокая детализация.

Молодой парень катается на серфинге в стиле картин Айвазовского
Молодой парень катается на серфинге в стиле картин АйвазовскогоИсточник: Kandinsky

Промт: Ваза с суккулентами и кактусами на окне. Цвета сочные, зеленые, салатовые, бордовые, желтые. Солнечный свет, высокая детализация, студийное фото.

Ваза с суккулентами
Ваза с суккулентамиИсточник: Kandinsky

Промт: Машина Peugeot 206 красного цвета. Фон природа, лес. Ясная солнечная погода, лето. Студийное фото, высокая детализация, фотография, высокое разрешение.

Генерация машины определенной марки и модели
Генерация машины определенной марки и моделиИсточник: Kandinsky

Плюсы и минусы нейросети Kandinsky

Разработчики нейросети Kandinsky радуют пользователей постоянными обновлениями функционала, свежими версиями и максимальной приближенностью качества к известным аналогам — зарубежным Midjourney, Dall-E и Stable Diffusion, но типичные недостатки нейросетей не обошли стороной. При генерациях все еще можно получить шесть пальцев, кривые глаза, проблемы с линзами и зеркалами и многие другие типичные «ляпы» нейросетей.

Ляп с человеком-собакой по запросу «Фермер»
Ляп с человеком-собакой по запросу «Фермер»Источник: Hi-Tech Mail.ru

Сравним подробнее плюсы и минусы.

Плюсы
Бесплатная нейросеть
Мультиязычная, понимает запросы на русском языке
Доступна в России, не нужно заходить с VPN
Другие пользователи не видят генерации
Может генерировать изображения во многих стилях, копировать стили художников, рисовать персонажей и персон русской культуры и фольклора
Можно использовать в чат-ботах «Телеграмм» и «ВК»
Можно объединять два изображение в одно новое
Можно генерировать стикеры
Можно создавать анимацию и видео
Можно интегрировать к себе на сайт или в приложение
Простой интерфейс на сайте и в чат-ботах
Минусы
Только для некоммерческого использования
Нет ленты пользовательских генераций
Не всегда предсказуемое качество итоговых изображений, даже при указании стиля и качества
Видео создается очень низкого качества

Вопросы и ответы

Есть ли аналоги у Kandinsky?

Среди нейросетей, хорошо работающих в России, понимающих русскоязычные запросы и имеющих простой и понятный интерфейс, как аналог можно выделить «Шедеврум» от «Яндекса». «Шедеврум», так же, как и Kandinsky, имеет лицензию только для некоммерческого использования.

Со свободной лицензией для коммерческого и некоммерческого использования и открытым исходным кодом, доступных из России, можно выделить нейросеть Stable Diffision.

На каких языках работает Kandinsky?

Сервис поддерживает и понимает запросы более чем на 100 языках, включая русский.

Можно ли использовать созданные этой нейросетью картинки в коммерческих целях?

Kandinsky имеет лицензию только для некоммерческого использования. Подробнее с ограничениями и правилами сервиса можно ознакомиться в пользовательском соглашении.