Содержание статьи
Нейросети для создания аниме
Waifu Diffusion Bot
StyleGAN — та самая нейросеть, которая генерирует лица несуществующих людей на сайте thispersondoesnotexist.com. Исследователь Gwern Branwen вывел её на новый уровень и научил создавать несуществующие лица персонажей аниме, запустив свой сайт thiswaifudoesnotexist.net. На нём каждые 15 секунд появляется новый персонаж и его история, также генерируемая искусственным интеллектом. Сегодня мы расскажем, как самому обучить нейросеть для создания аниме-лиц с помощью StyleGAN.
StyleGAN стала настоящим прорывом, поскольку предоставляла возможности уровня ProGAN, но работала быстрее. Эта сеть с радикально иной архитектурой минимизирует потребность в медленном прогрессивном росте (возможно, полностью его исключая) и эффективно обучается на изображениях с разным разрешением. Кроме того, она позволяет контролировать генерируемые кадры с помощью механизма передачи стиля.
Функциональность. Нейросеть работает по текстовому запросу. Если написать промпт по‑русски, бот сам переведёт текст на английский. Можно выбирать модель, соотношение сторон, стиль в рамках аниме: например, скетч, акварель или аниме 1980-х годов. После генерации у готового изображения можно убрать фон или увеличить размер.
Это ИИ-сервис на основе Midjourney, который специализируется именно на аниме. С сайта пользователям предлагают перейти в Discord, вся работа проходит там, как раньше это было с бесплатной Midjourney. Однако сейчас сервис Niji Journey полностью платный, для доступа нужно оформить подписку на Midjourney.
Gwern пробовал решить задачу с помощью ряда существующих генеративных сетей: StackGAN / StackGAN ++ & Pixel * NN *, WGAN-GP, Glow, GAN-QP, MSG-GAN, SAGAN, VGAN, PokeGAN, BigGAN 3, ProGAN и StyleGAN. Многие из них начинали либо расходиться после одного или двух дней обучения, либо создавать ограниченный диапазон лиц (или одно лицо), либо просто сходиться к изображениям плохого качества.
Графика в стиле аниме может пригодиться для личных и творческих проектов. Узнаваемые японские персонажи с большими глазами так популярны, что есть много нейросетей, обученных специально для создания таких изображений. Рассмотрим пять онлайн-сервисов и разберёмся, где ещё можно создавать аниме с помощью ИИ.
StyleGAN представлена в 2018 году. Она использует стандартную архитектуру GAN, применяемую в ProGAN, но черпает вдохновение из механизма передачи стиля. StyleGAN модифицирует свою генераторную сеть (генератор), которая создаёт изображение путём его многократного увеличения: 8px → 16px → 32px → 64px → 128px и т. д. При этом на каждом уровне используется комбинация случайных входных данных или «стилевого шума» (“style noise”) с AdaIN. Это указывает генератору, как стилизовать изображения с определённым разрешением: изменить волосы, текстуру кожи и так далее. Систематически создавая такую случайность на каждом этапе процесса формирования изображения, StyleGAN может эффективно выбирать более удачные варианты.
В попытках заставить компьютер рисовать аниме есть что-то забавное — это уж точно интереснее, чем работать со снимками знаменитостей или с датасетом ImageNet! Кроме того, рисунки и аниме отличаются от фотографий, которые сейчас очень часто используются в задачах машинного обучения. Если нейросети научатся генерировать случайные нарисованные изображения, то совсем скоро станет возможна генерация картин и фотографий по их текстовому описанию.
О StyleGAN
Стоит отметить, что лица получаются очень разнообразными: меняется не только цвет волос или глаз, ориентация головы и другие мелкие детали, но и общий стиль. Изображения могут быть похожи на кадр из мультфильма, компьютерную графику, аниме 90-х и 00-х годов и даже на рисунки акварелью или маслом.
Функциональность. Интерфейс лаконичный и простой. Нужно ввести промпт самостоятельно или запросить пример от сервиса. Затем — выбрать одну из моделей: они все заточены под изображения людей, но отличаются детализацией и реалистичностью. После генерации программа выдаёт одно изображение персонажа размером 432×768 px по длинной стороне.
Условия использования. В день можно сделать три картинки и бесплатно их скачать. Если этого количества мало, сервис предлагает перейти к полной версии. Там доступны все те же модели, есть расширенные настройки, но при этом скачивание недоступно бесплатно. Стоимость подписки начинается от 4,9 доллара в месяц. Тарифные планы различаются набором доступных настроек, количеством кредитов и размером итоговых изображений.
Первый успех продемонстрировали сети BigGAN и ProGAN: они показали, что обычные CNN могут научиться генерировать и масштабировать чёткие аниме-изображения. Сеть ProGAN была достаточно мощной, но требовала около 6 недель обучения на GPU. Поэтому ей на смену пришла StyleGAN — более быстрая архитектура, с которой можно обучать объёмные модели на больших наборах данных.
Платные подписки начинаются от 9 долларов. Они дают возможность получать разные пакеты кредитов, а также открывают дополнительные возможности: можно генерировать несколько картинок одновременно, ставить разрешение x2 и пользоваться приоритетной техподдержкой.
Также есть опция Image-to-image: с ней можно загрузить готовую картинку и в запросе написать, что нужно из неё убрать или добавить. В расширенных настройках можно задать, насколько чётко нейросеть будет следовать промпту и сколько шагов выполнит в процессе генерации.
Стоимость одной генерации в кредитах зависит от заданных настроек, количества изображений и их размера. Например, одна картинка по текстовому запросу с дефолтными настройками стоит 6 кредитов. Если вы захотите платную подписку, её стоимость составит от 10 долларов, с ней можно будет создавать более 2000 изображений в месяц.
StyleGAN вносит также ряд дополнительных улучшений: например, в ней используется новый датасет лиц “FFHQ” с изображениями размером 1024 пикселя (выше, чем у ProGAN). Кроме того, сеть демонстрирует меньше потерь и очень интенсивно использует полностью связанные слои для обработки случайного ввода (не менее 8 слоёв из 512 нейронов, в то время как у большинства GAN 1 или 2 слоя). Ещё более поразительным является то, что в StyleGAN не используются методы, которые считались критически важными для обучения других GAN: например, релятивистские потери, распределение шума, расширенная регуляризация и т. д.