Содержание статьи
Принять образ Барби и создать цифрового двойника: как женщины развивают нейросети
Кто создал bAIrbie.me
Если зайдете на сайт bAIrbie.me, то сразу увидите надпись, что это «веселый пародийный проект», а снизу — небольшую приписку «Этот сайт не был создан или одобрен компанией Barbie, Mattel или кем-либо, связанным с ними. Тем не менее, это классно». И это просчет Mattel — если бы компания сама запустила такой ресурс, то заработала бы еще немного денег на нем.
В 2021 году в развитии и распространении генеративного ИИ произошел скачок. Компания OpenAI представила нейросеть DALL-E, которая создавала изображения по текстовым запросам, и выложила в открытый доступ математическую модель CLIP — она в работе DALL-E занимается проверкой того, насколько получившееся изображение соответствует текстовому запросу. Сам генератор DALL-E опубликован не был, зато широкой аудитории оказался доступен другой, под названием VQGAN. Совместно с CLIP он стал общедоступным инструментом для генерации картинок. Его опубликовала его соавтор, программистка Кэтрин Кроусон.
Шум вокруг фильма «Барби» породил множество коллабораций и продуктов, так или иначе связанных с картиной. Один из самых интересных и коммерчески успешных примеров — сайт bAIrbie.me, на котором каждый может загрузить фото и получить в ответ фотографию куклы Барби со своим лицом. Идея — простейшая, но она и сработала, потому что ресурс запустился вовремя.
Сколько Мао и ее компании удалось заработать таким образом, неизвестно, но за несколько дней после запуска многочисленные «кукольные» фото заполонили интернет. Популярности сервиса способствовала и маркетинговая кампания фильма (создатели которого никак не связаны с проектом Мао), и внимание знаменитостей: свои фото в виде Барби выложили в соцсетях Тейлор Свифт, Селена Гомес, Кайли Дженнер и другие.
Сделать такую вещь, на самом деле, не очень сложно технически: в интернете полно уже обученных нейросетей для перемены лиц на изображениях, главное было сгенерировать или найти фото кукол Барби и Кенов и отсортировать их по разным параметрам — цвету волос, кожи и расе. Эти параметры пользователь может выбрать, а алгоритм подберет фотографию куклы в нужной выборке и заменит лицо на ваше. Результат придет на почту, которую вы укажете, так что можно отправить даже другу. А для Мао это отличный способ собрать неплохую базу email-адресов.
Несмотря на относительную простоту, задумка Мао оказалась гениальной и гораздо более интересной, чем официальный сервис Mattel, который просто вставлял ваше лицо с фотографии в афишу фильма. Доисторический подход! Сервисом Mattel, по данным компании, воспользовались 13 млн человек с апреля.
Еще в школьные годы Ширли Мао открыла локальное отделение организации «Women In Tech» — глобального движения, которое поддерживает девушек в STEM. Затем поступила в Массачусетский технологический институт (MIT), где изучала биомеханику и биомедицинские устройства, робототехнику и приборостроение, а также компьютерные науки и искусственный интеллект. Будучи студенткой, Мао вошла в коллектив авторов нескольких статей, посвященных адресной доставке молекул прямиком в клетку (это повышает эффективность и снижает побочные эффекты от применения некоторых лекарств, в том числе использующихся в терапии ВИЧ), и прошла стажировку в Google и Facebook (теперь — Meta, признана в России экстремистской и запрещена).
В 2020 году Сбер выпустил рекламный ролик, главным героем которого стал персонаж фильма «Иван Васильевич меняет профессию» Жорж Милославский. Образ был создан на основе технологии deepfake компанией с похожим названием DeepCake. Ее соосновательница — выпускница Южно-Уральского университета, долгое время работавшая в рекламе Мария Чмир.
Ширли Мао: «Какая ты Барби?»
Одновременно с выходом фильма «Барби» завирусилось веб-приложение Bairbie.me: его пользователи выкладывали в сеть свои фото в образе знаменитой куклы. Создательница приложения — выпускница Массачусетского технологического института Ширли Мао. Рассказываем о ней и о других создательницах проектов, где искусственный интеллект рисует популярные картинки
Чтобы начать использовать VQGAN+CLIP, нужно уметь хотя бы немного программировать, но все же этот инструмент гораздо доступнее широкой аудитории, чем математические модели той же OpenAI. После публикации VQGAN+CLIP соцсети и форумы наводнили сгенерированные с его помощью изображения. А затем начали появляться программные оболочки для тех, кто программировать не умеет. Например, веб-приложение NightCafe, созданное изначально для переноса стиля (это когда вы даете нейросети запрос вроде «нарисуй героев сериала «Симпсоны» в стиле Ван Гога»), подключило VQGAN+CLIP, чтобы начать генерировать изображения по более сложным запросам.
Работу DeepCake критиковали — и за недостаточно качественный постпродакшнн, и за этическую неоднозначность самой технологии, которая, только появившись, сразу стала инструментом «черного пиара». На сайте Brask — компании, сооснователем которого Чмир стала в 2020 году, — говорится о приверженности этическим стандартам и «ответственному ИИ». Компания специализируется на создании цифровых масок, полноценных цифровых дублей (как в случае с Брюсом Уиллисом и Жоржем Милославским) и других продуктов, связанных с модификацией видео и аудио (например, потоковый переводчик Rask распознает речь, переводит сказанное с одного языка на другой и озвучивает тем же голосом, каким текст был произнесен изначально).
Создательница bAIrbie не раскрывает статистику сервиса (на сайте даже счетчика посещаемости не стоит), мы предполагаем, что в ближайшие пару месяцев он может сравняться с официальным сервисом Mattel, учитывая, как быстро разлетаются картинки с замененными ИИ лицами Барби.
«Я считаю, что стремление к красоте — это неотъемлемая потребность каждого человека», — говорила Чан. В 2015 году она основала Perfect Corp, которая разрабатывает приложения для «примерки» макияжа. Ее основные клиенты — бьюти-гиганты вроде Estée Lauder, Shiseido, Chanel и Revlon. Сомневающимся потребителям проще решиться на покупку, особенно в интернет-магазине, если они могут посмотреть, как тот или иной косметический продукт будет смотреться на лице.
«Результаты настолько шокируют, что многие, кажется, просто не могут в это поверить, — сказала Кроусон в интервью Vice. — CLIP обучается на 400 млн пар изображение/текст. На таком масштабе мы начинаем видеть способности, которые раньше видели только у людей-художников, например, способность к абстракции или к проведению аналогий».