Нейросети

Dalle нейросеть как пользоваться

18.08.2022

Содержание

Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Как работает Dall-E

Наконец-то у меня дошли руки до написания мини-обзора по Dall-E 3 (Dalle3) от OpenAI! Если совсем коротко, то данная нейросеть для генерации изображений мне понравилась, это настоящий прыжок на несколько голов выше в сравнении с Dall-E 2. В целом, качество генерации изображений схоже с Midjourney (в чем-то уступает, где-то обгоняет), о которой я уже писал обзор ранее, но стилизацию, шрифты, фирменный стиль известных брендов и текста данная модель отрабатывает на порядок лучше.

Dall-E 3 также отлично знает мемы и поп-культуру , хотя из-за фильтров там не получится сгенерировать популярных персонажей вроде Марио или Чужого. При этом фильтр иногда не срабатывает — нам удалось сгенерировать логотип «Читос», хотя он тоже защищен авторским правом.

Больше не нужно учиться промптингу. Чтобы генерировать картинки в большинстве популярных нейросетей, например Midjourney или Stable Diffusion, нужно изучать их синтаксис. Это означает, что придется учиться составлять запросы по специальной формуле на английском языке и указывать неочевидные дополнительные параметры.

В июле 2022 года DALL-E 2 выпустили для бета-тестирования. В сентябре OpenAI открыла доступ к нейросети для всех желающих. В ноябре компания сделала программное обеспечение нейросети доступным для разработчиков приложений. Тогда она сообщила, что DALL-E используют уже более 3 млн человек, а нейросеть генерирует более 4 млн изображений в день.

Текстовая нейросеть прочитает ваш запрос и перепишет его так, чтобы алгоритм, который генерирует картинки, лучше понял, что вы хотите получить. Из-за этого генерации получаются разнообразнее, а один и тот же запрос может выдавать абсолютно разные результаты.

Шаг 4. Сохраните картинку. По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно. Каждая картинка создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».

В начале 2022 года OpenAI представила Dall⁠-⁠E 2, которая генерировала картинки более высокого качества и поддерживала запросы на русском языке. Нейросеть появилась даже раньше, чем первые версии Stable Diffusion и Midjourney, которые набрали широкую популярность благодаря открытому и бесплатному доступу.

Первую версию DALL-E представили в 2021 году. Спустя год OpenAI презентовала усовершенствованную версию DALL-E 2, которая предлагает более высокое качество изображений и новые возможности их преобразования. Кроме того, она поддерживает запросы на 107 языках, в том числе на русском. DALL-E использует 12 млрд параметров, в то время как DALL-E 2 работает с 3,5 млрд и дополнительными 1,5 млрд параметров для улучшения разрешения.

Какие у Dall-E 3 особенности

Запрещен любой оскорбительный контент. В Dall-E 3 нельзя генерировать сцены, содержащие насилие, ненависть или NSFW-контент. Однако в первые дни после запуска Dall-E 3 в Bing Image Creator пользователи принялись делать картинки «на грани». В генерациях персонажи поп-культуры врезались в башни-близнецы или позировали для обложек эротических журналов. После этого для Dall-E 3 усилили цензуру: теперь там не получится сгенерировать даже удар молотком или гору человеческих костей. Теперь многие жалуются, что алгоритму сделали «лоботомию», и ищут способы обхода ограничений.

Знаменитостей и общественных деятелей сгенерировать тоже не получится — запрос вернется с ошибкой. OpenAI ввела этот запрет «ради безопасности». Судя по всему, компания учла опыт Midjourney: в 2022 году пользователи сгенерировали в этой нейросети Папу Римского в пуховике «Баленсиага» и арест Дональда Трампа. Позже СМИ пришлось объяснять, что это не настоящие снимки.

ЧИТАТЬ ТАКЖЕ: Какие способности дает машинам искусственный интеллект

Шаг 3. Создайте новый чат, вверху выберите GPT-4 , в выпадающем окне нажмите Dall-E 3 и напишите запрос. В чате вы одновременно обращаетесь к GPT-4 и Dall-E 3 , поэтому если вы зададите общий вопрос, то нейросеть ответит текстом. Чтобы началась генерация изображения, попросите нейросеть нарисовать, сгенерировать или придумать картинку.

Dall-E 3 поддерживает русский язык и понимает естественную речь. С ней можно общаться так же , как вы разговариваете с людьми, и вносить правки, если вас не устраивает результат. К примеру, в нейросети сработает как запрос «нарисуй мне фиолетового анимешного кота», так и «фиолетовый кот, аниме» или даже «🐱💜».

Попросите не слишком сильно расширять ваш запрос. Нейросеть превращает любой запрос даже из одного слова в очень детальный параграф текста, который состоит как минимум из трех предложений. Часто это полезно и удобно, но иногда GPT-4 слишком радикально модифицирует запрос, что приводит к неудовлетворительным результатам. В таком случае попросите GPT-4 создать короткий и лаконичный промпт.

Креативные идеи. Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали. Благодаря этому в ней можно сгенерировать практически любую идею. Она постарается понять ваш запрос и переписать его так, чтобы ничего не упустить.

Как Dall⁠-⁠E 3 генерирует картинку

Нейросеть отказывается имитировать стиль художников, живших в последние сто лет. Dall-E 3 не станет генерировать кадр из фильма Уэса Андерсона или картину Сальвадора Дали из-за нарушения авторских прав. При этом нейросеть может имитировать чужой стиль, если описать его словами без упоминания имени художника.

Вероятно, такое решение принято, чтобы избежать судебных разбирательств из-за копирайта. Художники уже подавали в суд на разработчиков Stable Diffusion и Midjourney, потому что работы без их согласия использовали для обучения нейросетей. Кроме того, если художник заметит, что Dall-E 3 все-таки обучалась на его работах, то может обратиться к OpenAI и попросить заблокировать генерацию таких изображений.

Работа нейросети строится на разработках OpenAI, связанных с генераторами текстов. В 2019 году компания создала модель под названием GPT-2, которая могла предсказывать следующее слово в тексте. Она распознавала 1,5 млрд параметров и была обучена на 8 млн веб-страниц. Спустя год вышла усовершенствованная модель GPT-3, которая и стала основой для создания DALL-E. По сути, новая нейросеть — это версия GPT-3 с 12 млрд параметров, обученная генерировать антропоморфных животных и людей, объекты, а также правдоподобно объединять несвязанные концепции и преобразовывать существующие изображения.

Доступ к Dall-E 2 можно было получить только через список ожидания. Это мало кому удавалось, так что в интернете эту версию практически не обсуждали. В сентябре 2022 года нейросеть открыли для всех: Dall-E 2 была доступна на сайте OpenAI и позже в поисковике Bing.

Всего DALL-E состоит из трех нейросетей: CLIP (Contrastive Language–Image Pre-training), GLIDE и нейросети для увеличения разрешения картинки. Первая распознает текст и создает набросок будущего изображения, вторая превращает его в конечное изображение небольшого разрешения, а третья масштабирует картинку и добавляет детали.

DALL-E использует для генерации картинок нейронную сеть на основе преобразователя. Это тип машинного обучения, который понимает контекст и обрабатывает последовательности, чтобы создавать новые изображения по текстовым подсказкам. Модель постоянно обучается на новых данных.

Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Как работает Dall-E

Какие у Dall-E 3 особенности

Как Dall⁠-⁠E 3 генерирует картинку

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА