Содержание статьи
Нейросеть Stable Diffusion: что это такое, как ей пользоваться, гайд для установки на ПК
Mage Space
Далее следует перейти к описанию действий и характеристик объектов. «Не забудьте про место действия и стилистику изображения — можно взять за основу стили популярных живописцев, фотографов и игровых концепт-артов, — посоветовала собеседница «Ленты.ру». — Подсмотреть готовые промпты можно в сообществе PromptoMania — здесь собраны изображения и их подробные описания для работы со Stable Diffusion».
Seed (сид) — число, определяющее начальный шум, от которого зависит финальное изображение. Одинаковый сид + одинаковый промпт = одинаковое изображение. Это значит, что при использовании разных (или рандомизированных) значений сида программа несколько раз выдаст разные изображения даже при одинаковых промптах, а использование одного и того же сида при одинаковых промптах выдаст одинаковые изображения в разные генерации. Это полезно для контроля характеристик, тестирования изменений и смены стиля.
Составим такое описание: a cat made out of metal, ((cyborg)), (intricate details), hdr, ((intricate details, hyperdetailed)), sitting on the table, steampunk, books on the table, medieval windows behind, lancet windows, old library, victorian room, table lamps, stone walls, sun rays, soft light, photorealistic, perfect composition, cinematic shot / кот из металла, ((киборг)), (сложные детали), hdr, ((сложные детали, гипердетализация)), сидит на столе, стимпанк, книги на столе, средневековые окна сзади, стрельчатые окна, старая библиотека , викторианская комната, настольные лампы, каменные стены, солнечные лучи, мягкий свет, фотореалистичный, идеальная композиция, кинематографический кадр.
В апреле 2022 года компания OpenAI выпустила DALL-E 2. Главная особенность этой нейросети — возможность экспериментировать со стилями. Можно сгенерировать картинку в формате реализма, футуризма, а также «примерить» стиль известных художников: например, Винсента ван Гога или Василия Васильевича Кандинского.
В начало описания добавили RAW photo— считается, что с таким ключевым словом нейросеть делает более фотореалистичные изображения. Вместо photo of the cat (фотография кота) поставили close-up portrait of the cat (крупный портрет кота). Обратите внимание на скобки вокруг close-up: с их помощью мы даём понять нейросети, что данный параметр для нас очень важен и на него стоит обратить больше внимания. Чем больше скобок, тем больше «вес» этого параметра в промте. Без скобок Stable Diffusion рисовала недостаточно крупных котиков, а вот с тремя скобками котики стали гораздо ближе к камере.
Этап, который следует после обучения ИИ — тренировка. Она проходит по следующему сценарию: сначала нейросеть использует знакомые ассоциации, которые были получены в результате обучения, и анализирует соотношения пикселей определенных цветов в пуле известных ей изображений. После этого она формирует окончательный вариант изображения, которое соответствует запросу. Так же, как и обучение, тренировка Stable Diffusion происходит на постоянной основе.
В последние годы стремительно развивается генеративный искусственный интеллект — появляется все больше нейросетевых решений, позволяющих создавать картинки и текст. И юзеры этим начинают активно пользоваться: так, почти треть опрошенных художников хоть раз использовали нейросети в творческом процессе. «Лента.ру» рассказывает, как установить на свой персональный компьютер (ПК) и как пользоваться нейросетью Stable Diffusion.
Запускаем установочный файл и начинаем установку. В процессе вас спросят, куда установить нейросеть. Лучше создавать папку для установки в корне диска (например, C:\EasyDiffusion или D:\EasyDiffusion). Так вам точно не придется потом искать установленную нейросеть.
Где и как использовать Stable Diffusion
О проблемах с авторским правом «Ленте.ру» рассказал эксперт по ИИ, основатель и директор проекта BotB2b Виктор Попов. По его словам, команда Stability AI использовала для обучения нейросети картины известных художников, изображения с сайтов-агрегаторов, где авторы продают свои работы или выкладывают в бесплатный доступ.
На втором компьютере стояла довольно старая видеокарта Nvidia GTX 960 на 4 Гб (по производительности она примерно равна GTX 1050Ti), и она работала заметно медленнее. С размером 1024х768 она не справляется, не хватает видеопамяти и задача завершается с ошибкой. Так что на ней генерировали изображения в два раза меньше, 768х512 пикселей. На генерацию четырёх изображений такого размера уходило 6-9 минут.
После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.
Процесс установки не очень быстрый, так что налейте себе чаю с печенькой и ждите. В конце установки не забудьте поставить галочку Create Desktop Shortcut, чтобы установщик создал ярлык для быстрого запуска. А вот запускать нейросеть пока рано, так что галочку Run Easy Diffusion стоит снять.
У нас в тестах нейросети участвовали два компьютера. Большая часть изображений сгенерирована с помощью топовой видеокарты Nvidia RTX 4090 с 24 Гб видеопамяти. На генерацию 12 изображений размером 1024х768 уходило от 40 секунд до 2 минут, а увеличение картинки в четыре раза происходило за 3-4 секунды.
Существует немало разных сборок Stable Diffusion, отличающихся друг от друга интерфейсом и степенью сложностей, с которыми придётся столкнуться при установке. Самыми удобным для начинающего пользователя можно считать Easy Stable Diffusion. Скачать сборки можно с github.com: вот ссылка на Easy Stable Diffusion.
Как генерировать изображения с помощью Stable Diffusion
Сайт для генерации изображений и сообщество для AI-энтузиастов. Нейросетевые художники могут делиться результатами своего творчества и следить за чужими успехами. Предлагает разнообразные стили и возможности настройки промптов. Бесплатно доступны только старые модели, для новых требуется покупка кредитов.
Теперь поместим нашего кота в атмосферное место. Думаю, ему подойдёт старая библиотека. Составляем запрос: «photo of cat, sitting on the table, books on the table, medieval windows behind, lancet windows, old library, table lamps, victotrian room, stone walls, chandeliers, many books, HDR, sun rays, cinematic light, volumetric light, soft light, photorealistic, perfect composition» / фото кота, сидит на столе, книги на столе, средневековые окна позади, стрельчатые окна, старая библиотека, настольные лампы, викторианская комната, каменные стены, люстры, много книг, HDR, солнечные лучи, кинематографический свет, объемный свет, мягкий свет, фотореалистичный, идеальная композиция.
Руководитель группы продуктов факультетов геймдизайна и разработки игр и искусственного интеллекта Университета «Синергия» Сергей Толокольников поясняет с помощью понятной метафоры: «Представьте, что нейросеть берет описание, например, «дом в лесу зимой», и поэтапно, как если бы размытые очертания становились все четче, создает изображение. В основе процесса лежит работа с шумом, который постепенно превращается в детализированную картину».
По мнению эксперта по нейросетям Александра Жадана, Stable Diffusion — это более профессиональный инструмент, в отличие от программ Midjourney, Dalle или Kandinsky. «Если приблизительно сравнивать, то Midjourney, Dalle, Kandinsky — это фотография в хороший солнечный день на последний iPhone, а Stable Diffusion — это снимок на профессиональный фотоаппарат с большим объективом, со штативом и так далее. Как и с фото, у новичка может получиться слишком темный кадр или с точки зрения композиции некрасивый. Поэтому нужен особый подход и настройка».
А для более комфортной и быстрой работы нужны более производительные видеокарты с объёмом памяти от 8 (а лучше от 12) гигабайт. Например, GeForce RTX 3050 на 8GB или GeForce RTX 4070Ti на 12GB. Что касается ноутбуков, то на ноутбуке Lenovo Legion 5 с видеокартой RTX3060 на 6GB Stable Diffusion должна работать довольно шустро (правда, 6 Гб может не хватить для сильного увеличения готовых картинок). А вот MSI Stealth GS77 точно справится с чем угодно: в нём стоит RTX3080Ti 16Gb.
Не стоит сразу пугаться. Примерно через минуту откроется браузер с пользовательским интерфейсом, в котором и происходит общение с нашей нейросетью. Но окно с командной строкой во время работы со Stable Diffusion закрывать нельзя, ядро нашей нейросети работает именно там, а в браузере находится только удобная для работы оболочка.