Содержание статьи
Как пользоваться нейросетью Stable Diffusion
Нейросети для генерации картинок
Искусственный интеллект может быть помощником, который возьмёт на себя рутинные процессы или быстро визуализирует сложную идею. Мы сделали подборку сервисов на основе ИИ, которые могут быть полезными дизайнерам и другим специалистам, работающим с визуальным и текстовым контентом.
После DALL-E 2 компания Сбер выпустила нейросеть ruDALL-E. Она обладает схожим функционалом, однако ее отличительная особенность — это разнообразие стилей российских и советских художников: например, можно сгенерировать изображение в стиле Казимира Севериновича Малевича и Василия Ивановича Сурикова.
На начальном этапе обучения сети сотрудники Stability AI отобрали изображения с метаданными — дополнительной информацией (например, подписью под картинкой на сайте) — и сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета. Большая часть картинок взята с сайтов Getty Images, DeviantArt и Pinterest — благодаря этому Stable Diffusion может применять стили современных художников.
Это ещё одно приложение для создания иллюстраций. Wombo Dream устроено чуть сложнее Шедеврума, но и результат здесь интереснее, особенно на платном тарифе. Без оплаты тарифа можно сгенерировать картинку, но только за один запрос получаем одно изображение вместо четырёх.
Да, есть полностью бесплатные нейросети, за функции которых вообще не нужно платить. Например, Шедеврум для рисования или Musixmatch для поиска текстов к трекам. Есть условно бесплатные приложения — в них за часть функций платить не нужно, но часть возможностей доступна только на платном тарифе. Например, в Nova Ai можно сделать 3 задания в день. Если нужно больше — только при оплате тарифа.
Что может: в режиме реального времени создавать анимацию на основе статичного изображения и преобразовывать текст в речь. То есть можно загрузить фото человека, ввести нужный текст, и D-ID сгенерирует видео, где человек произносит заданную фразу. Сервис с англоязычным интерфейсом, но адаптирован на более ста языков, в том числе русский.
Здесь задание нужно писать на английском языке — лучше всего максимально подробно описать, что должно быть на картинке. Также можно описать настройки: какое должно быть освещение, качество — 4К или 8К. Ещё здесь есть стили: мультики, комиксы, импрессионизм, флора.
Промпт: «Том и Джерри сидят у камина в ноябре, в стиле ар-нуво, сине-зелёный фон». Нейросеть сделала иллюстрации в заданном стиле и нужных цветах. Правда, нужно следить за деталями: на первой картинке «поплыла» гитара и у Джерри появился второй хвост, а на второй у него кошачьи уши
Изображение: Microsoft Bing / Skillbox Media
Шедеврум
Приложение — находка для блогеров и создателей контента. Искусственный интеллект обрабатывает фото, делая их более качественными и яркими. Здесь можно удалить фон, отфотошопить фотографию, сделать коллаж или добавить рамку. В общем все нужные функции в одном приложении.
Socratic — это приложение, которое помогает в обучении. Здесь пишем вопрос или проговариваем его голосом, а приложение находит обучающие материалы по этой теме или примеры решения задач. Ещё можно сфотографировать вопрос или пример. ИИ распознает его и покажет материалы по этой теме.
С русским языком Nova AI работает лучше, чем ChatGPT — тот часто выдаёт ошибку. А Nova AI справляется с заданиями на русском языке и даже проговаривает их. Правда, в день есть только 3 запроса. Дальше придётся платить — от 7,99 $ в неделю. У ChatGPT нет платных функций, но он ограничен — хорошо работает только на английском языке.
Этап, который следует после обучения ИИ — тренировка. Она проходит по следующему сценарию: сначала нейросеть использует знакомые ассоциации, которые были получены в результате обучения, и анализирует соотношения пикселей определенных цветов в пуле известных ей изображений. После этого она формирует окончательный вариант изображения, которое соответствует запросу. Так же, как и обучение, тренировка Stable Diffusion происходит на постоянной основе.
Условия: для работы нужна только учётная запись Google. В бесплатном варианте можно сделать три презентации в месяц, для текста есть ограничение ― 2500 символов. В месяц пользователь получает 10 кредитов, которые нужны для покупки AI-рекомендаций.
Что может: генерирует видеоролик с аватарами, которые произносят заданный текст. Можно создать аватар на основе своего фото, настроить стиль речи, жесты, фон. У сервиса можно выбрать русско- или англоязычный интерфейс, а генерировать видео можно на девяти языках.
Что может: генерирует тексты разных форматов и на разные темы ― от художественных рассказов и анекдотов до программных кодов. В промпте можно указать не только тематику, но и стиль изложения. Однако полученный текст нужно проверять на смысловые ошибки ― нейросеть может «придумывать» факты.
Что может: создавать изображения в разных стилях, совмещать две картинки в одну, редактировать иллюстрации и «дорисовывать» их по краям. Сервис сохраняет созданные изображения только во время сеанса, в следующий раз к ним нельзя будет вернуться ― поэтому лучше сразу скачать понравившиеся варианты.
Виды приложений-нейросетей
В основе Stable Diffusion лежит техника латентной диффузии — когда в процессе генерации система находит знакомые формы среди большого пула изображений, а затем фокусируется на них при совпадении с запросом. Как нейросеть узнает формы? Этот «навык» она получает в процессе обучения и тренировки.
Что может: писать и переводить тексты на разных языках, генерировать идеи, анализировать текстовые материалы, искать ключевые слова, писать код. Можно использовать, чтобы создавать статьи, рекламные тексты, посты, рассылки и тексты других форматов.
Что может: за считанные минуты оформить презентацию на основе вашего текста — достаточно загрузить информацию, выбрать тему и оформление. Сервис поддерживает более ста языков. Расширение скачивается на английском языке, после установки можно поменять язык меню на русский.
Ещё приложения умеют рисовать: Шедеврум, Wombo Dream. Nova AI вообще умеет многое: подскажет как пройти по нужному маршруту, подберёт рецепт блюда, составит список книг или фильмов по интересам. А Musixmatch подходит для автоматического отображения текстов или переводов к трекам.
В этом приложении можно улучшить качество фото: убрать размытие или шумы. Здесь удобно обрабатывать старые снимки. А ещё тут можно раскрасить чёрно-белое фото, есть функция «повышения привлекательности лица». В Remini можно создать аватар — ИИ нарисует портрет по фото.
Условия: воспользоваться сервисом можно через приложение, а на сайте доступна только лента с чужими публикациями. Количество генераций не ограничено. Также у «Шедеврума» есть правило: нельзя создавать изображения с отсылкой на известных людей — такие промпты блокируются.