Содержание статьи
Генерация аниме с помощью нейросети StyleGAN
Примеры запросов
Anime XL — мощный инструмент для генерации высококачественных аниме-изображений. Однако, чтобы получить наилучшие результаты, важно правильно составлять подсказки (prompts). В этой статье мы рассмотрим рекомендации по использованию тегов и модификаторов для создания впечатляющих картинок.
Стиль аниме становится все более популярным во всем мире, отчасти благодаря успеху культовых аниме-сериалов, таких как Жемчуг дракона, Наруто и Сейлор Мун. Популярность аниме также подпитывается ростом цифровых медиа и потоковых сервисов, которые упростили фанатам доступ к аниме-контенту и обмен им.
Первый успех продемонстрировали сети BigGAN и ProGAN: они показали, что обычные CNN могут научиться генерировать и масштабировать чёткие аниме-изображения. Сеть ProGAN была достаточно мощной, но требовала около 6 недель обучения на GPU. Поэтому ей на смену пришла StyleGAN — более быстрая архитектура, с которой можно обучать объёмные модели на больших наборах данных.
StyleGAN стала настоящим прорывом, поскольку предоставляла возможности уровня ProGAN, но работала быстрее. Эта сеть с радикально иной архитектурой минимизирует потребность в медленном прогрессивном росте (возможно, полностью его исключая) и эффективно обучается на изображениях с разным разрешением. Кроме того, она позволяет контролировать генерируемые кадры с помощью механизма передачи стиля.
StyleGAN — та самая нейросеть, которая генерирует лица несуществующих людей на сайте thispersondoesnotexist.com. Исследователь Gwern Branwen вывел её на новый уровень и научил создавать несуществующие лица персонажей аниме, запустив свой сайт thiswaifudoesnotexist.net. На нём каждые 15 секунд появляется новый персонаж и его история, также генерируемая искусственным интеллектом. Сегодня мы расскажем, как самому обучить нейросеть для создания аниме-лиц с помощью StyleGAN.
Стиль аниме впервые появился в Японии в начале 1900-х годов, когда японские аниматоры начали экспериментировать с различными техниками анимации. Первый аниме-фильм, Кацудо Шашин (1907 г.), представлял собой двухминутный клип, в котором мальчик пишет символы для «кинофильма» на доске, за которым следует короткая анимация точки на доске, которая движется, а затем превращается в кошка.
P.S. Помните, что «нет предела совершенству». Даже если первый результат вас не полностью устроит, не отчаивайтесь! Попробуйте изменить запрос или добавить новые детали. В конце концов, Rome wasn’t built in a day, и создание идеального аниме арта тоже требует практики и терпения.
Стиль аниме относится к отличительному и узнаваемому художественному стилю, который возник в Японии и становится все более популярным во всем мире. Термин «аниме» является японской аббревиатурой слова «анимация» и относится к анимированному контенту, который производится в Японии. Стиль аниме характеризуется использованием ярких цветов, преувеличенными чертами лица и выразительными эмоциями.
Популярность стиля аниме
Стоит отметить, что лица получаются очень разнообразными: меняется не только цвет волос или глаз, ориентация головы и другие мелкие детали, но и общий стиль. Изображения могут быть похожи на кадр из мультфильма, компьютерную графику, аниме 90-х и 00-х годов и даже на рисунки акварелью или маслом.
Gwern пробовал решить задачу с помощью ряда существующих генеративных сетей: StackGAN / StackGAN ++ & Pixel * NN *, WGAN-GP, Glow, GAN-QP, MSG-GAN, SAGAN, VGAN, PokeGAN, BigGAN 3, ProGAN и StyleGAN. Многие из них начинали либо расходиться после одного или двух дней обучения, либо создавать ограниченный диапазон лиц (или одно лицо), либо просто сходиться к изображениям плохого качества.
StyleGAN вносит также ряд дополнительных улучшений: например, в ней используется новый датасет лиц “FFHQ” с изображениями размером 1024 пикселя (выше, чем у ProGAN). Кроме того, сеть демонстрирует меньше потерь и очень интенсивно использует полностью связанные слои для обработки случайного ввода (не менее 8 слоёв из 512 нейронов, в то время как у большинства GAN 1 или 2 слоя). Ещё более поразительным является то, что в StyleGAN не используются методы, которые считались критически важными для обучения других GAN: например, релятивистские потери, распределение шума, расширенная регуляризация и т. д.
В попытках заставить компьютер рисовать аниме есть что-то забавное — это уж точно интереснее, чем работать со снимками знаменитостей или с датасетом ImageNet! Кроме того, рисунки и аниме отличаются от фотографий, которые сейчас очень часто используются в задачах машинного обучения. Если нейросети научатся генерировать случайные нарисованные изображения, то совсем скоро станет возможна генерация картин и фотографий по их текстовому описанию.
StyleGAN представлена в 2018 году. Она использует стандартную архитектуру GAN, применяемую в ProGAN, но черпает вдохновение из механизма передачи стиля. StyleGAN модифицирует свою генераторную сеть (генератор), которая создаёт изображение путём его многократного увеличения: 8px → 16px → 32px → 64px → 128px и т. д. При этом на каждом уровне используется комбинация случайных входных данных или «стилевого шума» (“style noise”) с AdaIN. Это указывает генератору, как стилизовать изображения с определённым разрешением: изменить волосы, текстуру кожи и так далее. Систематически создавая такую случайность на каждом этапе процесса формирования изображения, StyleGAN может эффективно выбирать более удачные варианты.
В последующие десятилетия аниме превратилось в особый стиль под влиянием как традиционного японского искусства, так и западной анимации. Одной из наиболее важных фигур в развитии стиля аниме был Осаму Тэдзука, который создал Astro Boy в 1963 году. В этом культовом аниме-сериале были представлены характерные дизайны персонажей и методы повествования, которые впоследствии определили стиль аниме.