Содержание статьи
Как установить и использовать Stable Diffusion на Windows
Что такое Stable Diffusion
После DALL-E 2 компания Сбер выпустила нейросеть ruDALL-E. Она обладает схожим функционалом, однако ее отличительная особенность — это разнообразие стилей российских и советских художников: например, можно сгенерировать изображение в стиле Казимира Севериновича Малевича и Василия Ивановича Сурикова.
В основе Stable Diffusion лежит техника латентной диффузии — когда в процессе генерации система находит знакомые формы среди большого пула изображений, а затем фокусируется на них при совпадении с запросом. Как нейросеть узнает формы? Этот «навык» она получает в процессе обучения и тренировки.
Далее выбираем и скачиваем желаемую модель искусственного интеллекта (разные модели обучены создавать картинки в разных стилях). Вы сможете найти модели для подражания различным художественным стилям, для создания фотореалистичных изображений, стиля аниме и многого другого.
После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.
После этого можно запускать нейросеть, кликнув дважды на ярлык, расположенный на рабочем столе. Появится окно с командной строкой, а примерно через минуту перед вами появится рабочий интерфейс, через который вы можете задавать нейронке команды для генерации изображений. Окно командной строки закрывать нельзя, оно необходимо для работы нейросети.
Генеративные нейросети стремительно развиваются. Если ещё совсем недавно всем были известны только DALLE и Midjourney, то сейчас можно найти нейронки под любые задачи. Причём хватает не только вариантов с оплачиваемой подпиской, но и бесплатных. Один из наиболее гибких, многофункциональных и популярных инструментов стала Stable Diffusion (SD). Дело в том, что её можно установить на свой компьютер и генерировать невероятные иллюстрации без затрат. В статье расскажем, как установить Stable Diffusion на Windows, и как пользоваться приложением.
Для примера установим универсальную и известную многим модель Deliberate 2.0. Для начала нужно скачать её. Далее в папке, куда мы установили Easy Diffusion открываем папку models, а в ней — папку stable-diffusion. Копируем в эту папку загруженный файл модели Deliberate 2.0.
Имейте в виду, что базовый интерфейс Stable Diffusion не самый удобный. Если вы устанавливаете официальный софт, то работать придётся через командную строку. Однако прелесть открытого исходного кода в том, что энтузиасты очень быстро создают альтернативные варианты. Также важно понимать, что скорость и качество работы во многом будут зависеть от вашей видеокарты. Если они слабая, то вряд ли вы сможете пользоваться нейросетью полноценно. Рекомендованная видеокарта — NVidia серии RTX 3xxx и объёмом видеопамяти не менее 6 Гб. Именно NVidia рекомендуется потому, что для генерации нейросеть использует ядра CUDA, которые есть только в этих видеокартах.
Как работает нейросеть Stable Diffusion
В апреле 2022 года компания OpenAI выпустила DALL-E 2. Главная особенность этой нейросети — возможность экспериментировать со стилями. Можно сгенерировать картинку в формате реализма, футуризма, а также «примерить» стиль известных художников: например, Винсента ван Гога или Василия Васильевича Кандинского.
На начальном этапе обучения сети сотрудники Stability AI отобрали изображения с метаданными — дополнительной информацией (например, подписью под картинкой на сайте) — и сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета. Большая часть картинок взята с сайтов Getty Images, DeviantArt и Pinterest — благодаря этому Stable Diffusion может применять стили современных художников.
Установка занимает продолжительное время, так что стоит запастись терпением. В конце не забудьте поставить галочку Create Desktop Shortcut, это создаст на рабочем столе ярлык, а галочку Run Easy Diffusion, наоборот, снимите. Приложение нужно будет запускать позднее.
Установить и начать работать с нейросетью Stable Diffusion не так сложно. А вот что касается качественных генераций, то тут есть чему поучиться. Изучив интерфейс и доступные настройки, осваивайте правильное формулирование промтов. Читайте статьи, смотрите чужие работы, обращайте внимание, какими запросами пользователи добиваются нужного художественного эффекта.
Guidance scale отвечает за точность соблюдения запроса в подсказке. Минимальные значения дают нейросети больше свободы, но и меньше предсказуемости для вас. Значения выше 16 подойдут опытным пользователям, которые могут действительно грамотно писать промты. Для обычных пользователей оптимальным будет значение 7-10.
Этап, который следует после обучения ИИ — тренировка. Она проходит по следующему сценарию: сначала нейросеть использует знакомые ассоциации, которые были получены в результате обучения, и анализирует соотношения пикселей определенных цветов в пуле известных ей изображений. После этого она формирует окончательный вариант изображения, которое соответствует запросу. Так же, как и обучение, тренировка Stable Diffusion происходит на постоянной основе.