Как воспользоваться нейросетью

0
23

Как пользоваться Midjourney для гене­рации картинок и правильно состав­лять запросы

Нейросети онлайн для создания видео

В основе Stable Diffusion лежит техника латентной диффузии — когда в процессе генерации система находит знакомые формы среди большого пула изображений, а затем фокусируется на них при совпадении с запросом. Как нейросеть узнает формы? Этот «навык» она получает в процессе обучения и тренировки.

Как сохранить картинку. Можно скачать результат прямо из чата в «Дискорде». На компьютере пункт «Сохранить изображение» будет в меню при клике правой кнопкой мыши — как прямо в чате, так и если открыть в нем картинку отдельно. На смартфоне надо тапнуть на изображение, а когда оно откроется — на три точки в правом верхнем углу, там будет пункт «Сохранить».

—iw. В Midjourney можно загружать картинки в качестве референса — одну или несколько для каждого запроса. И можно указать «вес» — чем больше, тем сильнее картинки будут влиять на результат. Значение по умолчанию — 1 , допустимый диапазон в Midjourney v6 — от 0 до 3, число не обязательно должно быть целым — 0.5 тоже годится.

Что может: генерирует видеоролик с аватарами, которые произносят заданный текст. Можно создать аватар на основе своего фото, настроить стиль речи, жесты, фон. У сервиса можно выбрать русско- или англоязычный интерфейс, а генерировать видео можно на девяти языках.

На начальном этапе обучения сети сотрудники Stability AI отобрали изображения с метаданными — дополнительной информацией (например, подписью под картинкой на сайте) — и сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета. Большая часть картинок взята с сайтов Getty Images, DeviantArt и Pinterest — благодаря этому Stable Diffusion может применять стили современных художников.

Что может: генерирует тексты разных форматов и на разные темы ― от художественных рассказов и анекдотов до программных кодов. В промпте можно указать не только тематику, но и стиль изложения. Однако полученный текст нужно проверять на смысловые ошибки ― нейросеть может «придумывать» факты.

Что может: создавать изображения в разных стилях, совмещать две картинки в одну, редактировать иллюстрации и «дорисовывать» их по краям. Сервис сохраняет созданные изображения только во время сеанса, в следующий раз к ним нельзя будет вернуться ― поэтому лучше сразу скачать понравившиеся варианты.

—cref. Перенос персонажа: можно «переодеть» человека на картинке, поместить его в другую обстановку или создать последовательность сцен с сохранением облика героя. Работает в паре с параметром —cw, который определяет, насколько полно переносить образ. То есть к запросу добавляется конструкция: —cref (прямая ссылка на изображение человека) —cw (от 0 до 100).

SlidesAI

Условия: для работы нужна только учётная запись Google. В бесплатном варианте можно сделать три презентации в месяц, для текста есть ограничение ― 2500 символов. В месяц пользователь получает 10 кредитов, которые нужны для покупки AI-рекомендаций.

Что может: за считанные минуты оформить презентацию на основе вашего текста — достаточно загрузить информацию, выбрать тему и оформление. Сервис поддерживает более ста языков. Расширение скачивается на английском языке, после установки можно поменять язык меню на русский.

—seed. Это числовой код, который присваивается каждой генерации. Его указывают в запросе, когда надо создать несколько картинок с разным сюжетом, но сходным визуальным стилем и композицией. Чтобы узнать seed, отреагируйте на картинку эмодзи с конвертом и посмотрите номер в личном сообщении, которое пришлет бот.

Когда сформулируете запрос, нажмите кнопку «Отправить». Бот начнет генерировать изображение. Вы буквально в прямом эфире увидите, как смутные очертания превращаются в четыре картинки. Обычно генерация занимает не дольше минуты, но все зависит от нагрузки на сервер «Дискорда» и деталей конкретного запроса. Кстати, некоторые параметры заданы ботом изначально — например, скорость генерации. Посмотреть или изменить настройки можно, отправив команду /settings.

ЧИТАТЬ ТАКЖЕ:  Зачем искусственный интеллект нужен человеку

Промпт: «Том и Джерри сидят у камина в ноябре, в стиле ар-нуво, сине-зелёный фон». Нейросеть сделала иллюстрации в заданном стиле и нужных цветах. Правда, нужно следить за деталями: на первой картинке «поплыла» гитара и у Джерри появился второй хвост, а на второй у него кошачьи уши
Изображение: Microsoft Bing / Skillbox Media

Искусственный интеллект может быть помощником, который возьмёт на себя рутинные процессы или быстро визуализирует сложную идею. Мы сделали подборку сервисов на основе ИИ, которые могут быть полезными дизайнерам и другим специалистам, работающим с визуальным и текстовым контентом.

Что может: писать и переводить тексты на разных языках, генерировать идеи, анализировать текстовые материалы, искать ключевые слова, писать код. Можно использовать, чтобы создавать статьи, рекламные тексты, посты, рассылки и тексты других форматов.

Учитывайте весомость каждой части запроса. Те слова, которые идут вначале, сильнее влияют на результат, поэтому основной сюжет лучше указать сразу. Кроме того, можно добавлять «веса» к разным частям запроса через двойное двоеточие: corgi on a motorcycle as Marvel hero::5, cinematic shot::5, epic shot::2. Если пишете подробный запрос, это не требуется.

Как работает нейросеть Stable Diffusion

Под сгенерированными изображениями появятся кнопки «U1, U2, U3, U4» и «V1, V2, V3, V4». Первый параметр — апскейлинг. Выберите наиболее удачную картинку из четырех, и нейросеть выдаст ее отдельно и покрупнее. Второй параметр позволяет создать еще четыре вариации конкретной картинки из коллажа — на случай, если вам нравится результат, но хочется посмотреть, что еще сделает нейросеть в том же духе.

Как устроен дискорд-сервер Midjourney. Главных каналов несколько: в Announcements размещают объявления от разработчиков, в Status сообщают о технических проблемах. Советую заодно ознакомиться с правилами в канале Rules, чтобы не возникало вопросов, если вас вдруг за что-то забанят.

Что может: в режиме реального времени создавать анимацию на основе статичного изображения и преобразовывать текст в речь. То есть можно загрузить фото человека, ввести нужный текст, и D-ID сгенерирует видео, где человек произносит заданную фразу. Сервис с англоязычным интерфейсом, но адаптирован на более ста языков, в том числе русский.

Стало: a confident corgi biker, dressed in a miniature leather jacket, custom-fit helmet with goggles, and a whimsical bandana, striking a pose on a classic Harley-Davidson motorcycle. The scene is set on an open road, cutting through a breathtaking landscape at sunset , with the warm glow of the setting sun illuminating the scene, creating long shadows and a sense of boundless freedom. The composition focuses on the corgi’s adventurous spirit, with a blurred background to emphasize the main subject.

После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.

Нейросетей для генерации качественных изображений становится все больше. Но Midjourney прочно держится в числе лучших. Вот ее преимущества: высокий уровень фотореализма, работа через «Дискорд» на любом устройстве без требований к производительности, возможность доработки изображений и гибкой настройки параметров.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь