Содержание статьи
Кандинский»: как пользоваться нейросетью «Сбера»
«Кандинский» и конкуренты
Качество генерации в нейросети Кандинский 3.0 повысилось, картинки стали более четкими и детальными. Реалистично смотрятся природные пейзажи, изображения деревьев, цветов и фруктов, неплохо получаются животные. Правдоподобнее выглядят интерьер и архитектура, линии домов и предметов мебели стали более ровными и правильными, форма куполов почти не искажена.
Ещё несколько функций редактора можно найти в меню в левом верхнем углу. Например, если нажать на иконку с картиной, можно добавить референс. Нейросеть не может значительно изменять загруженные картинки, но может заполнить пустое пространство вокруг. Для этого оптимально подходят картинки в PNG с прозрачным фоном.
Для получения доступа к нейросети теперь требуется регистрация, усилен также контроль за законностью и этичностью создаваемого контента. Были доработаны модели для inpainting- и outpainting-режимов, обеспечивающих плавное преобразование текста в изображение, редактирование отдельных фрагментов, расширение границ картинки и создание панорам. По сравнению с младшими выпусками, Кандинский 3.0 хорошо ориентируется в вопросах отечественной культуры и творчества, выдает корректные результаты по связанным с ними тематикам. Повышена точность распознавания запросов и реалистичность сгенерированных картинок, улучшен функционал по дорисовке и редактированию изображений. Нейросеть научилась также создавать короткие анимации и видео длительностью до 8 секунд, с разрешением 512 х 512 и частотой 30 кадров / с. При создании ролика происходит генерация сотен изображений, плавно переходящих друг в друга, с заданием движения объектов и расположенного за ними фона. Кандинский 3.0 представлен веб-сервисами, мобильными приложениями, программами для компьютера, Телеграм- и ВК-ботами. Воспользоваться нейросетью можно также в сервисе GigaChat и на всех умных устройствах от «Сбера» по команде «Запусти художника». Это интересно: Как сделать постер в стиле Pixar с помощью нейросети
Рассмотрим, какие возможности редактирования изображений есть в новой версии Кандинского. Кандинский позволяет удалять и изменять отдельные детали, добавлять объекты, загруженные с компьютера. Для примера давайте сгенерируем изображение по запросу «Девушка в бальном платье, золотая цепочка с медальоном на шее» и отредактируем его. Кандинский нарисовал целых два медальона – более-менее нормального размера верхний и огромный нижний, свисающий на цепочке на живот. Нижний выглядит неестественно и его нужно удалить, а верхний – отредактировать, сделать тиснение более четким и красивым. Выбираем инструмент «Ластик» и, регулируя его радиус, удаляем нижний медальон и цепочку, на которой он подвешен. Сужаем выделение до области, которую нам нужно перерисовать, задаем команду «Заполнить удаленные части» и нажимаем на кнопку генерации. Видим, что нейросеть заполнила удаленные области, не оставив от злосчастного медальона и следа. Приступаем к работе над верхним медальоном. Поменять его внешний вид можно двумя способами: перерисовать силами самой нейросети либо загрузить уже готовый медальон с компьютера. Чтобы перерисовать, удаляем с помощью ластика, ставим выделение на область перерисовки и даем команду: «Перерисовать медальон». Нейросеть выдала другое изображение. Чтобы добавить собственное изображение медальона, нажимаем на кнопку «Вставить изображение». Меняем размер загруженного медальона, перетягиваем его на нужное место и нажимаем на кнопку «Сохранить». По углам вставленного объекта остались белые области. Удаляем их как обычно с помощью ластика и задаем команду «Заполнить удаленные области». Конечный результат: Полученные изображения можно сохранять на компьютере в формате png.
Веб-сервис обладает более широким функционалом, чем боты. В сервисе – 17 стилей (рисунок карандашом, цифровая живопись, классицизм, 3D рендер, мультфильм, студийное фото, портретное фото, хохлома, аниме, детальное фото, киберпанк, Кандинский, Айвазовский, Малевич, Пикассо, картина маслом, пиксель арт).
Чтобы сгенерировать видео или анимацию, нужно перейти на вкладку «Видео». Для создания анимации выберите соответствующий пункт в списке «Модель», задайте размер (1:1, 9:16, 16:9), опишите сцены, последовательно добавляя их количество, нажмите на кнопку «Создать анимацию». Анимация генерируется около 3 минут, затем ее можно будет просмотреть и скачать на компьютер. Для создания ролика в списке «Модель» выберите пункт «Видео», задайте размер, введите описание и нажмите на кнопку «Создать видео». На генерацию ролика уходит около 4 минут. Как и анимацию, его можно просматривать и скачивать на компьютер. Подробнее в статье –
Теперь проверим работу Телеграм- и ВК-ботов. В Телеграм-боте доступны сразу три версии Кандинского. Вводим команду /model и выбираем Kandinsky 3.0. Нажимаем на кнопку «Генерация по тексту». Вводим запрос, последовательно выбираем стиль (без стиля) и соотношение сторон (1:1), ждем 20-30 секунд. Результат: Для получения картинки в ВК-боте, последовательно нажимаем на кнопки «Новый рисунок», «Создать изображение», вводим промт, выбираем соотношение сторон, ждем около минуты. Если картинка не понравилась, ее можно перерисовать.
Кандинский – это бесплатная нейросеть от Сбера, способная генерировать картинки по текстовому описанию. Работает по сходному с Midjourney принципу, но проще в использовании и предоставляется на полностью бесплатной основе. Работа над нейросетью началась в июне 2022, за прошедший период она несколько раз обновлялась и совершенствовалась. В октябре 2023 года вышла версия 3.0, с улучшенным интерфейсом и расширенным функционалом. По сравнению с предыдущими выпусками, Кандинский 3.0 генерирует более детализированные изображения и качественную обработку фото, может создавать короткие видео и анимации. UPD: сейчас всем пользователям доступна версия Кандинский 3.1.
Где можно работать с «Кандинским»
«Сбер» выпустил свою первую нейросеть для генерации картинок ещё в 2021 году ― она называлась ruDALL-E. Её обучали на миллиарде связок «текст ― изображение». «Кандинский» унаследовал весь этот багаж знаний и прошёл дополнительное обучение ― на новом датасете из 170 млн пар «текст ― изображение». Нейросеть выпустили летом 2022 года, с тех пор уже вышло два обновления: в ноябре 2022 года и в апреле 2023-го.
Если нужно изображение другого размера или формата, нейросеть может достроить своё сгенерированное изображение. Для этого надо сначала создать картинку 768×768 px, а потом подвинуть рамку. «Кандинский» заполнит всё пустое пространство в рамке с учётом исходного сюжета.
По центру ― область для будущего изображения. По умолчанию размер 768×768 px, но его можно уменьшить с помощью фиолетовой рамки. В нижнем левом углу можно выбрать стиль изображения. По центру под этой рамкой ― область для промпта, там же и кнопка «Создать». А скачать получившееся изображение можно с помощью кнопки в верхнем правом углу.
«Кандинский» конкурирует не только с Midjourney: есть и другие ИИ для генерации картинок, в том числе и бесплатные. Попробуем сравнить, как разные сервисы справятся с рисованными и с фотореалистичными иллюстрациями. Возьмём два изображения Midjourney и попробуем повторить их запросы. По возможности будем выбирать подходящую стилистику в меню каждого редактора.
Заходим на официальный сайт Сбера и нажимаем на кнопку «Кандинский 3.0». Система предложит перейти на сервис Fusion Brain, в Телеграм или в ВК. Нажимаем на кнопку с надпись «Fusion Brain». Кликаем по кнопке «Начать». Мы перешли на страницу авторизации, где нужно зарегистрироваться или войти в аккаунт, если он уже есть. При регистрации необходимо указать е-мейл, задать и подтвердить пароль, принять Политику конфиденциальности и Пользовательское соглашение, согласиться на получение рассылок (по желанию). После регистрации п одтверждаем е-мейл, перейдя по ссылке из полученного письма. Откроется окно редактора, в котором можно генерировать изображения по текстовому запросу (промту), вносить в них изменения и скачивать на компьютер. По сравнению с предыдущей версией, внешний вид сервиса немного изменился: слева добавилось вертикальное меню для перехода между редактором изображений (при авторизации загружается автоматически), редактором видео, инструментами API, личным кабинетом (профиль) и просмотром документации. Внизу находится кнопка для переключения языка с русского на английский. В центре окна располагается область для вывода сгенерированного изображения по введенному промту, с возможностью выбирать стиль и задавать негативный промт (описывать элементы, которые не должны присутствовать на картинке). Вверху – набор инструментов: ластик (1), вставка изображения (2), отмена (3) и повтор (4) действий, кнопка для вывода панели управления (5), кнопка для скачивания (6) и масштабирование (7). Панель управления содержит список горячих клавиш для быстрого доступа к основным инструментам и опциям. Проверим, как нейросеть справляется с генерацией изображений. Вводим для примера запрос «Зимний пейзаж, избушка, деревья, снег». Смотрим результат. По умолчанию генерируется изображение без стиля. По желанию можно добавлять стиль – для этого нужно нажать на соответствующий пункт и раскрыть список. Можно воспользоваться одним из готовых стилей или создать собственный. Применим последовательно несколько стилей при том же самом промте. Детальное фото: Картина маслом: Айвазовский: Нейросеть по введенному нами запросу создала качественные изображения, с учетом заданного стиля. Воспользоваться веб-версией нейросети вы можете также на сайте ruDALL-e, выбрав пункт «Кандинский 3.0». Чтобы получить картинку, нужно ввести ее текстовое описание, указать соотношение сторон, разрешение и стиль, затем нажать кнопку «Отправить». Из новшеств сервиса – появилась защита от ботов. Чтобы получить картинку по введенным параметрам, пользователю придется доказать, что он человек, а не робот. Результат генерации по качеству примерно такой же, как и на первом сервисе.
Кандинский 3.0 способен генерировать яркие детализированные изображения в различных стилях, пригодные для многих целей – от оформления публикаций и иллюстрирования книг до создания рекламных баннеров и мультипликационных персонажей. Возможность редактировать картинки расширяет сферу их применения, а уникальность – избавляет от проблем с авторскими правами и дает возможность использовать их как в личных, так и коммерческих целях.