Содержание статьи
Как настроить Stable Diffuison под себя и получать крутые работы
Hypernetworks
Refiner. Помогает увеличивать сложность и детализацию изображения. Нужно выбрать модель за основную и указать уровень обработки изображения именно в сторону характеристик самой модели. Например, если у вас стоит модель 1,5 как основная, но и есть XL, то ее можно указать здесь.
С правой стороны под кнопкой генерации есть возможность указать стили — впоследствии их можно выбирать для определенных изображений. Стили подразумевают направление, в котором будет идти генерация — например, стиль аниме, поп-арт, живопись и многое другое. Вы даже можете создать свой собственный стиль, если сможете дать его развернутое описание.
Взгляните на результаты генерации по одному и тому же промпту — общая стилистика и концепция отличается от изображения к изображению. Автор использовал основную модель Stable Diffusion, а потом добавлял к ней другую модель — например, Waifu Diffusion, чтобы получить нужную стилистику. Источник
Этот раздел включает все настройки пользователей, а также хранит ваши данные, которые вы использовали для обучения или генерации. Также тут можно настроить, куда будут сохраняться файлы, модель или VAE — модель, которая преобразует изображения в процессе генерации.
Sampling Method помогает обозначить, как именно это шум будет обрабатываться до своего преобразования (схождения). Для этого есть множество методов, — некоторые методы помогают улучшить качество и детализацию картинки. Пользователи оценивают лучше всего «DPM++2M Karras», «Euler» и «Euler a», а также «DDIM».
Допустим, вы сгенерировали изображение с девушкой, но захотели добавить к ней определенные детали — например, поменять платье. Тогда вы берете значение Seed, которое отображается у всех сгенерированных изображений внизу, копируете его и вставляете в поле Seed в последующей генерации.
Какие есть разделы и настройки в Stable Diffusion — и как их использовать
Перед тем, как говорить о настройках, стоит проговорить одну вещь. Stable Diffusion существует в двух версиях: онлайновой и десктопной. Онлайновая версия нейросети сильно урезана — там есть буквально несколько важных настроек. Все остальные присутствует только в версии нейросети для ПК.
Если в разделе Txt2img мы генерировали арт по текстовому запросу, то в разделе Img2img мы делаем тоже самое, но на основе другого загруженного изображения. Мы как бы перерисовываем уже существующий арт, подсказывая нейросети, что именно нужно перерисовать.
Script. Последняя настройка, которая позволяет более детально настроить генерацию и рассмотреть разные варианты. Вы выбираете определенный скрипт, указываете настройки, и нейросеть генерирует разные варианты по одному и тому же запросу с учетом настроек.
После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.
После DALL-E 2 компания Сбер выпустила нейросеть ruDALL-E. Она обладает схожим функционалом, однако ее отличительная особенность — это разнообразие стилей российских и советских художников: например, можно сгенерировать изображение в стиле Казимира Севериновича Малевича и Василия Ивановича Сурикова.
Впоследствии пользователь подготавливает набор данных, которые содержат изображения — наборы можно скачивать готовыми, либо же собирать самостоятельно. После этого остается запустить генерацию, и модель будет генерировать результаты на основе данных или изображений, которые вы загрузили.