Содержание статьи
Фотореализм в Midjourney: как генерировать в нейросети снимки людей, неотличимые от настоящих
Как генерировать реалистичных людей
Например, детальное описание героя снимка выглядит: gorgeous 30-year-old woman with long brown hair, green eyes. detailed cheekbones, a sly grin. Буквально это переводится как « 30-летняя красивая женщина с длинными темными волосами, зелеными глазами, выраженными скулами и лукавой ухмылкой».
Я далеко не поклонник этой книги, где художник сперва получает способности убивать на расстоянии, а потом на его картинах начинает проявляться лавкрафтовское чудовище. Очень хорошие идеи, но, как по мне, Король Ужаса мог бы развить их и круче. Дьюма-Ки — это название острова, на котором поселился художник. И само то, что название вынесено в заголовок романа, указывает на очевидные странности книги. Вам о чём-нибудь это название говорит? Вот и мне нет. А Kandinsky понял всё как-то по-своему…
Если Кинг в ближайшее время не напишет ужастик про писателя, беседующего с нейросеткой, то человечество много потеряет. Потому что — ну! Ну? Очевидно же, что Kandinsky явно намекает, что надо было развивать сюжет в сторону ацтекской культуры. Да, у Кинга по молодости проклятых индейских кладбищ и вещиц было не меньше, чем указанное уносило жизней, оставляя на каждой странице кровавые брызги чернил от персонажей. ИИ говорит тебе, Кинг, возвращайся к истокам!
Если вы генерируете популярного героя из фильма или сериала, то указывайте имя персонажа, а не актера, чтобы точнее попасть в образ. Например, Уолтер Уайт в запросе сработает лучше, чем Билл Крэнстон. При этом книжных персонажей нейросеть создает скорее по фан-арту , чем по образу актеров из экранизации.
2022 год стал годом нейросетей, рисовавших арты не хуже человека. В 2023 году пришло время фотографий: фотореализм в Midjourney v5 вышел на абсолютно новый уровень. Если раньше нейросетевые фото можно было отличить по косым глазам или восьми пальцам на руке, то теперь ситуация иная.
Для этого добавьте в начале запроса две ссылки на сгенерированные изображения, а затем пропишите обычный запрос. Например, a young blonde woman sitting in american diner, medium shot, blue and pink colors — «молодая блондинка сидит в американской закусочной, средний план, голубые и розовые цвета».
Попытка испытать на нейросетке классику зарубежную выдала более похожие на запрашиваемое варианты, чем те, что были с русской классикой.
На первой картинке конкретно Пип, да еще и теневая фигура сзади. Помести на обложку книги, никто и не скажет, что это нейросетка сделала, напротив, решат — «как глубоко задумано». Над второй картинкой глубоко думали и я, и Kandinsky. Представления не имею, на что мог надеяться человек на переднем плане картины? Судя по окружающему его пейзажу — тупо выжить. Это что-то между Гербертом Уэллсом и «Затерянным миром» Артура Конан Дойля (аналог Парка Юрского периода стопятидесятилетней давности).
Пока все еще можно понять, что перед вами сгенерированное в Midjourney изображение. При внимательном рассмотрении часто видны артефакты и смазанные предметы. Сами фотографии получаются слишком идеальными: как будто бы сделанными на профессиональную камеру и сильно заретушированными в «Фотошопе».
Чтобы понять, как пользоваться Midjourney и как составлять простые запросы, читайте наш гайд. В этом тексте я разберу частный случай: как писать промпты для генерации реалистичных картинок в пятой версии нейросети. Чтобы достичь таких же результатов, обязательно включите v5 — через команду —v5 к промпту или в настройках.
Разбираем запрос
Мы все пляшем вокруг нейросеток, как персонажи мультсериала вокруг инопланетянина: «Он родился!» Впервые человечество столкнулось с интеллектом, который не является человеческим, но при этом является достаточно развитым, чтобы можно было с ним общаться. Мы исследуем не искусственный интеллект, а себя самих: кто мы, чем мы отличаемся от других.
Нейросети обучались на парах «картинка-описание» на английском, поэтому лучше всего воспринимают запросы на «родном» языке. Они понимают другие языки и даже эмодзи, но результаты будут непредсказуемы. Если не знаете английский, пользуйтесь нейросетевым переводчиком DeepL — он учитывает контекст лучше, чем Google Translate.
Вот тут не смогла пройти мимо, захотелось похвастаться: все три генерации блестящи. Глаза Kandinsky даже не всегда делает хорошо (иногда страдает симметричность), но тут, даже если сделать скидку на недостатки сетки, у всех трех барышень очень умный взгляд.
Мне больше всего нравится первая картинка. Лицо юное и взгляд не сфокусирован, но при этом чувствуется упрямый характер девушки.
Детальное описание одежды выглядит так: woman wearing a stunning white lace Gucci gown with a full tulle skirt, intricate lace detailing, long lace sleeves, a high collar, and a fitted bodice adorned with delicate floral appliques. Буквально: «женщина в потрясающем белом кружевном платье „Гуччи“ с юбкой из тюля, сложным кружевом, длинными кружевными рукавами, высоким воротником и приталенным лифом, украшенным нежными цветочными аппликациями».
Как получить консистентную модель. Если вам понравился сгенерированный человек, то его можно «скопировать» в другие генерации. Для этого вам нужно узнать сид изображения — это точка отсчета из шума, откуда Midjourney начинает генерацию. Они случайно присваиваются каждому изображению.
Папа Римский в пуховике «Баленсиага», свидание Илона Маска с американским политиком Александрой Окасио-Кортес, никогда не происходившее разрушительное землетрясение в Канаде 2002 года — многие пользователи решили, что это реальность. Midjourney из-за этого уже вводит ограничения и блокирует некоторые запросы. Но фотореализм в нейросетях, видимо, с нами надолго.
Для этого добавьте в запрос ссылку на картинку, скопируйте запрос, по которому она сгенерировалась, и поменяйте какую-нибудь деталь. Например, я сгенерировала девушку в зимней одежде, а затем изменила время года на лето: одежду я отдельно не прописывала, но нейросеть автоматически поменяла шапку на летнюю шляпку.
Камера. От нее зависит цветокоррекция и атмосфера снимка. Добавляйте к запросу shot on, а затем название камеры или пленки. Цифровые камеры дают резкую контрастность, а пленочные — теплоту и мягкость. Вот какие цифровые камеры можно попробовать: