Содержание статьи
12 бесплатных нейросетей на русском языке
Нейросети для создания презентаций
Нейросети становятся всё совершеннее, входят в нашу жизнь всё чаще и вызывают всё больше споров. В конце марта 2023-го разработчики Midjourney закрыли бесплатный пробный доступ из-за злоупотребления технологией. В этом материале поработаем с бесплатным аналогом Midjourney — нейросетью Stable Diffusion. Где скачать, как установить и как работать со Stable Diffusion — разбираемся на котиках.
Составим такое описание: a cat made out of metal, ((cyborg)), (intricate details), hdr, ((intricate details, hyperdetailed)), sitting on the table, steampunk, books on the table, medieval windows behind, lancet windows, old library, victorian room, table lamps, stone walls, sun rays, soft light, photorealistic, perfect composition, cinematic shot / кот из металла, ((киборг)), (сложные детали), hdr, ((сложные детали, гипердетализация)), сидит на столе, стимпанк, книги на столе, средневековые окна сзади, стрельчатые окна, старая библиотека , викторианская комната, настольные лампы, каменные стены, солнечные лучи, мягкий свет, фотореалистичный, идеальная композиция, кинематографический кадр.
Существует немало разных сборок Stable Diffusion, отличающихся друг от друга интерфейсом и степенью сложностей, с которыми придётся столкнуться при установке. Самыми удобным для начинающего пользователя можно считать Easy Stable Diffusion. Скачать сборки можно с github.com: вот ссылка на Easy Stable Diffusion.
В начало описания добавили RAW photo— считается, что с таким ключевым словом нейросеть делает более фотореалистичные изображения. Вместо photo of the cat (фотография кота) поставили close-up portrait of the cat (крупный портрет кота). Обратите внимание на скобки вокруг close-up: с их помощью мы даём понять нейросети, что данный параметр для нас очень важен и на него стоит обратить больше внимания. Чем больше скобок, тем больше «вес» этого параметра в промте. Без скобок Stable Diffusion рисовала недостаточно крупных котиков, а вот с тремя скобками котики стали гораздо ближе к камере.
Работает она не на удалённом облачном сервере, как Midjourney или DALL-E, а прямо на компьютере пользователя. В этом есть плюсы: не надо оплачивать подписку, не надо ждать в очереди, пока нейросеть создаст картинки для других клиентов и займётся твоим запросом. Есть и минусы: не каждый компьютер подойдёт для запуска и стабильной работы Stable Diffusion. Нужна мощная видеокарта и несколько десятков гигабайт свободного места на диске. Разработчики рекомендуют использовать видеокарту Nvidia серии RTX 3xxx с объёмом видеопамяти не менее 6 Гб.
Теперь нужно выбрать и скачать модель. У нейросетей для генерации картинок существуют разные модели, натренированные для создания изображений в разных стилях. Например, у Midjourney есть стандартная модель Midjourney v4, более свежая Midjourney v5, создающая более фотореалистичные изображения, и модель niji•journey, генерирующая картинки в стиле аниме и манга.
Как сгенерировать изображение в Stable Diffusion онлайн
Не стоит сразу пугаться. Примерно через минуту откроется браузер с пользовательским интерфейсом, в котором и происходит общение с нашей нейросетью. Но окно с командной строкой во время работы со Stable Diffusion закрывать нельзя, ядро нашей нейросети работает именно там, а в браузере находится только удобная для работы оболочка.
Искусственный интеллект может быть помощником, который возьмёт на себя рутинные процессы или быстро визуализирует сложную идею. Мы сделали подборку сервисов на основе ИИ, которые могут быть полезными дизайнерам и другим специалистам, работающим с визуальным и текстовым контентом.
Что может: генерирует тексты разных форматов и на разные темы ― от художественных рассказов и анекдотов до программных кодов. В промпте можно указать не только тематику, но и стиль изложения. Однако полученный текст нужно проверять на смысловые ошибки ― нейросеть может «придумывать» факты.
Stable Diffusion — нейросеть, умеющая генерировать изображения по текстовому запросу (txt2img). У неё открытый исходный код, а значит, любой желающий может использовать её для создания красивых картинок (и даже вносить изменения в код, если умеет программировать).
Запускаем установочный файл и начинаем установку. В процессе вас спросят, куда установить нейросеть. Лучше создавать папку для установки в корне диска (например, C:\EasyDiffusion или D:\EasyDiffusion). Так вам точно не придется потом искать установленную нейросеть.
На втором компьютере стояла довольно старая видеокарта Nvidia GTX 960 на 4 Гб (по производительности она примерно равна GTX 1050Ti), и она работала заметно медленнее. С размером 1024х768 она не справляется, не хватает видеопамяти и задача завершается с ошибкой. Так что на ней генерировали изображения в два раза меньше, 768х512 пикселей. На генерацию четырёх изображений такого размера уходило 6-9 минут.
Что может: за считанные минуты оформить презентацию на основе вашего текста — достаточно загрузить информацию, выбрать тему и оформление. Сервис поддерживает более ста языков. Расширение скачивается на английском языке, после установки можно поменять язык меню на русский.
Теперь поместим нашего кота в атмосферное место. Думаю, ему подойдёт старая библиотека. Составляем запрос: «photo of cat, sitting on the table, books on the table, medieval windows behind, lancet windows, old library, table lamps, victotrian room, stone walls, chandeliers, many books, HDR, sun rays, cinematic light, volumetric light, soft light, photorealistic, perfect composition» / фото кота, сидит на столе, книги на столе, средневековые окна позади, стрельчатые окна, старая библиотека, настольные лампы, викторианская комната, каменные стены, люстры, много книг, HDR, солнечные лучи, кинематографический свет, объемный свет, мягкий свет, фотореалистичный, идеальная композиция.
Rytr
После DALL-E 2 компания Сбер выпустила нейросеть ruDALL-E. Она обладает схожим функционалом, однако ее отличительная особенность — это разнообразие стилей российских и советских художников: например, можно сгенерировать изображение в стиле Казимира Севериновича Малевича и Василия Ивановича Сурикова.
На начальном этапе обучения сети сотрудники Stability AI отобрали изображения с метаданными — дополнительной информацией (например, подписью под картинкой на сайте) — и сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета. Большая часть картинок взята с сайтов Getty Images, DeviantArt и Pinterest — благодаря этому Stable Diffusion может применять стили современных художников.
У Stable Diffusion из-за открытого кода моделей гораздо больше: есть модели для имитации разных художественных стилей, для реализма, для аниме и для создания архитектурных эскизов. Мы будем использовать одну из самых популярных универсальных моделей Deliberate 2.0, её можно скачать здесь.
Что может: разработать структуру презентации по заданной теме, а после одобрения от пользователя — написать материал для слайдов. Можно выбрать тон текста, отредактировать его вручную или с помощью ИИ, а также генерировать простые изображения. Сервис на английском языке, но может составить презентацию на русском.
Нажимаем и ждём, пока Stable Diffusion увеличит нашу картинку. На компьютерах со слабой видеокартой возможны ошибки. На нашем подопытном с GTX 960 4 Гб увеличение работает через раз. Но тут ничего не поделаешь: либо пробовать раз за разом, либо менять железо.
У нас в тестах нейросети участвовали два компьютера. Большая часть изображений сгенерирована с помощью топовой видеокарты Nvidia RTX 4090 с 24 Гб видеопамяти. На генерацию 12 изображений размером 1024х768 уходило от 40 секунд до 2 минут, а увеличение картинки в четыре раза происходило за 3-4 секунды.