Содержание статьи
- 1Принять образ Барби и создать цифрового двойника: как женщины развивают нейросети
- 1.1На прошлой неделе пользователей сети покорила нейросеть BaiRBIE.me, которая превращала фотографии пользователей в кукол Барби и Кена. Редакция «Мой портал» сделала подборку других нейросетей, с помощью которых можно развлечься на досуге.
- 1.2ThisPersonDoesNotExist
Принять образ Барби и создать цифрового двойника: как женщины развивают нейросети
На прошлой неделе пользователей сети покорила нейросеть BaiRBIE.me, которая превращала фотографии пользователей в кукол Барби и Кена. Редакция «Мой портал» сделала подборку других нейросетей, с помощью которых можно развлечься на досуге.
Чтобы начать использовать VQGAN+CLIP, нужно уметь хотя бы немного программировать, но все же этот инструмент гораздо доступнее широкой аудитории, чем математические модели той же OpenAI. После публикации VQGAN+CLIP соцсети и форумы наводнили сгенерированные с его помощью изображения. А затем начали появляться программные оболочки для тех, кто программировать не умеет. Например, веб-приложение NightCafe, созданное изначально для переноса стиля (это когда вы даете нейросети запрос вроде «нарисуй героев сериала «Симпсоны» в стиле Ван Гога»), подключило VQGAN+CLIP, чтобы начать генерировать изображения по более сложным запросам.
Canva — не первый графический редактор, в котором используется ИИ. Но у него ниже порог входа, он ориентирован не на профессиональных дизайнеров, а на всех, кому приходится так или иначе работать с изображениями — создавать презентации, подбирать картинки для публикаций в соцсетях, верстать несложные сайты. По состоянию на 2023 год у Canva более 6 млн командных подписчиков и около 125 млн пользователей совокупно.
Для того, чтобы озвучить картинку, нужно загрузить ее в соответствующее окошко на сайте. Нейросеть использует механизм распознавания объектов и базу данных из 52 000 звуковых файлов. Когда искуственный интеллект распознает объект, он добавляет к нему определенный звук. Пользователи могут опробовать нейросеть на живописи, доступной на сайте проекта.
Чтобы превратиться в Барби или Кена, нужно загрузить свою фотографию, на которой хорошо видно лицо, а также выбрать несколько параметров по внешности: цвет волос (светлые, русые, темные или рыжие), цвет кожи (светлая, загорелая или темная) и одну из четырех рас. Результат генерации приходит на адрес электронной почты. Генерация занимает несколько минут, после чего можно либо скачать изображение с вотермаркой, либо заплатить 2 доллара за «чистую» картинку.
В 2020 году Сбер выпустил рекламный ролик, главным героем которого стал персонаж фильма «Иван Васильевич меняет профессию» Жорж Милославский. Образ был создан на основе технологии deepfake компанией с похожим названием DeepCake. Ее соосновательница — выпускница Южно-Уральского университета, долгое время работавшая в рекламе Мария Чмир.
Еще в школьные годы Ширли Мао открыла локальное отделение организации «Women In Tech» — глобального движения, которое поддерживает девушек в STEM. Затем поступила в Массачусетский технологический институт (MIT), где изучала биомеханику и биомедицинские устройства, робототехнику и приборостроение, а также компьютерные науки и искусственный интеллект. Будучи студенткой, Мао вошла в коллектив авторов нескольких статей, посвященных адресной доставке молекул прямиком в клетку (это повышает эффективность и снижает побочные эффекты от применения некоторых лекарств, в том числе использующихся в терапии ВИЧ), и прошла стажировку в Google и Facebook (теперь — Meta, признана в России экстремистской и запрещена).
Это проект на базе искуственного интеллекта, который разработала группа ученых из Японии в 2018 году. Он позволяет превращать изображения в соответствующий звуковой пейзаж, определенный нейронной сетью. Пользователи могут передвигаться по Google Street View и погружаться в воображаемые звуковые ландшафты — они созданы с помощью моделей глубокого обучения. Нейросеть умеет озвучивать случайное место на земле на Google Map, а также озвучивать другие изображения.
С развитием генеративного искусственного интеллекта эту технологию стали брать на вооружение многие создатели дизайнерского ПО, и в 2023-м свою версию представила Canva. Во-первых, благодаря ИИ становится проще обработка изображений (результаты фотомонтажа становятся более реалистичными). Во-вторых, появился встроенный генератор изображений по текстовому описанию.
ThisPersonDoesNotExist
Для того, чтобы воспользоваться нейросетью, нужно загрузить файл с ней в соответствующее окно. Под каждым ообработанным фото будет две иконки: первая — разукрашенное изображение в оригинальном размере, вторая — сравнительная картинка, на которой одна половина снимка чёрно-белая, а другая — цветная. Бесплатно на аккаунт можно загрузить до 50 фото, причем на каждом будет отображаться текст «Создано с помощью Colorize.cc».
Известность она получила в 2023 году, когда удачно воспользовалась хайпом вокруг фильма «Барби». Мао запустила сайт Bairbie.me с простым аттракционом на основе ИИ: пользователь загружает свое фото, выбирает цвет кожи и волос и получает свой портрет в образе куклы Барби или Кена. Бесплатное фото содержит водяной знак; чтобы получить изображение без него, нужно заплатить $1,99.
Для того, чтобы сгенерировать новое лицо, нужно просто обновить страницу. Такой сервис полезен для дизайнеров, разработчиков и исследователей. Также это пример использования нейросетей для выполнения задач без необходимости нанимать моделей и фотографов. Этот проект демонстрирует возможности современных технологий машинного обучения и нейронных сетей в области компьютерного зрения.
По словам самой Мао, она всегда любила рисовать и считала, что изображения — лучший способ объяснять сложные вещи. Интерес к дизайну и биотехнологический бэкграунд Мао объединила, запустив после окончания учебы собственный бизнес — брендинговое агентство для компаний, которые работают в сферах биотеха и искусственного интеллекта.
В 2021 году в развитии и распространении генеративного ИИ произошел скачок. Компания OpenAI представила нейросеть DALL-E, которая создавала изображения по текстовым запросам, и выложила в открытый доступ математическую модель CLIP — она в работе DALL-E занимается проверкой того, насколько получившееся изображение соответствует текстовому запросу. Сам генератор DALL-E опубликован не был, зато широкой аудитории оказался доступен другой, под названием VQGAN. Совместно с CLIP он стал общедоступным инструментом для генерации картинок. Его опубликовала его соавтор, программистка Кэтрин Кроусон.
Одновременно с выходом фильма «Барби» завирусилось веб-приложение Bairbie.me: его пользователи выкладывали в сеть свои фото в образе знаменитой куклы. Создательница приложения — выпускница Массачусетского технологического института Ширли Мао. Рассказываем о ней и о других создательницах проектов, где искусственный интеллект рисует популярные картинки
Сайт, который с помощью нейросети генерирует реалистичное изображение лица человека, которого в реальности не существует. Там нет кнопок, разделов и тому подобного — по умолчанию, когда пользователь открывает сервис, он видит только сгенерированное человеческое лицо. Используются две нейросети: генератор, который создает изображения, и дискриминатор, который определяет, насколько они реалистичны.
Работу DeepCake критиковали — и за недостаточно качественный постпродакшнн, и за этическую неоднозначность самой технологии, которая, только появившись, сразу стала инструментом «черного пиара». На сайте Brask — компании, сооснователем которого Чмир стала в 2020 году, — говорится о приверженности этическим стандартам и «ответственному ИИ». Компания специализируется на создании цифровых масок, полноценных цифровых дублей (как в случае с Брюсом Уиллисом и Жоржем Милославским) и других продуктов, связанных с модификацией видео и аудио (например, потоковый переводчик Rask распознает речь, переводит сказанное с одного языка на другой и озвучивает тем же голосом, каким текст был произнесен изначально).