Как искусственный интеллект видит фото

0
21

Компьютерное зрение: что искусственный интеллект видит в зеркале

Stable Diffusion XL

Популярное мобильное и веб-приложение на основе нейросети, позволяющее обрабатывать изображения, включая портреты, в различных художественных стилях. Можно выбрать конкретные визуальные ориентиры, такие как известные художники или техники создания иллюстраций.

Компьютерная обработка изображений — нетривиальная задача для искусственного интеллекта. Поэтому на этапе машинного обучения, когда электронный «разум» ищет общие черты у объектов на снимках и заполняет свою базу данных, требуется огромное количество изображений. Чтобы сократить время поиска «тренировочных» картинок, исследователи часто хитрят: зеркально отражают часть изображений, увеличивая их число вдвое.

Как же искусственный интеллект реагирует на подобную «аферу»? Понимает ли машина, что перед ней не «Друг», а «Гурд»? Исследователи из Корнельского университета всерьез заинтересовались этими вопросами, ведь Вселенная не симметрична. То, как мы смотрим на нее, имеет значение. Доклад ученых, в котором они назвали довольно необычные способы разоблачения зеркальных изображений искусственным интеллектом, был недавно представлен на престижной конференции по компьютерному зрению.

Машины удивили ученых. Точность, с которой искусственный интеллект распознает отраженные изображения, составила от 60 до 90%. Чтобы обнаружить признаки, по которым машинный алгоритм отличает «перевертыш» от оригинала, группа ученых под руководством Ноя Снейвли, доцента кафедры компьютерных наук в Корнельском университете, создала тепловую карту. Карта отображала области, которые казались «подозрительными» искусственному интеллекту. Некоторые признаки зеркальных изображений были очевидны, другие же оказались настолько неожиданными, что их с трудом различали люди.

Каждый из используемых машиной признаков не выглядит достаточно убедительным в отдельности. Однако ученые убеждены, что в совокупности ряд ключей для анализа вполне надежен. В любом случае, изучение реакции искусственного интеллекта на зеркально отраженные снимки имеет важное значение. Оно поможет выявить погрешности на этапе машинного обучения, а также пригодится для идентификации фальшивых снимков, которыми кишит сегодня Интернет. В будущем же подобные алгоритмы могут уберечь высокоорганизованного робота от «драки» с зеркалом, в котором он увидит и распознает отраженного себя.

Мобильная версия Prisma также предлагает инструменты для улучшения фотографий — удаление объектов, изменение контрастности, фона и освещения. Система автоматически предлагает подходящие функции для каждого снимка, например, для селфи — обработку глаз, бровей или губ.

ЧИТАТЬ ТАКЖЕ:  Как используется искусственный интеллект в медицине

Самой легкой подсказкой был текст. Искусственный интеллект мгновенно определял зеркальные изображения по перевернутым буквам. Тогда исследователи исключили такие снимки из эксперимента. В числе других признаков оказались наручные часы, пуговицы на рубашках, которые, как правило, с левой стороны, телефоны — большинство людей держат девайсы в правой руке, а также другие привычки правшей.

Для преобразования портретов подходит режим объединения двух изображений в одно новое. Также можно загрузить фотографию и ввести дополнительные характеристики, и Kandinsky сгенерирует новый кадр, учитывая исходный файл и текстовый запрос. Эта функция доступна только через официального бота Kandinsky в Telegram. Результаты могут быть неожиданными или забавными в зависимости от исходного изображения и указанных параметров.

Kandinsky

«Хорошо», — сказали ученые и усложнили задачу еще больше. Теперь в распоряжении искусственного интеллекта были только изображения лиц. Области, которые интересовали на этом этапе машину — это определенный участок волос, направление взгляда (по каким-то причинам, большинство людей на портретных фотографиях смотрят влево) и. бороды. «Мы понятия не имеем, какую информацию алгоритм черпает из изображения бороды, — сказал Снейвли, — Возможно, способ расчесывания и бритья каким-то образом выдает в человеке правшу».

Популярная нейросетевая модель Stable Diffusion XL способна дорисовывать и расширять границы существующих изображений, а также преобразовывать одно изображение в другое согласно заданным параметрам. Последняя функция особенно полезна для обработки портретных снимков.

Протестировать возможности Stable Diffusion XL в работе с фотографиями можно через сервис Clipdrop, в котором есть раздел «Reimagine» для преобразования изображений. Нейросеть анализирует загруженный портрет и предлагает три вариации с иными ракурсами и одеждой. Хотя детальная настройка результата невозможна, сохраняются общая цветовая гамма и формы объектов.

Runway ML — это набор нейросетевых инструментов, которые можно обучать и использовать для различных задач, включая преобразование изображений. Сервис способен обрабатывать портреты и генерировать новые версии картинок в разных художественных стилях. Качество результатов во многом зависит от содержания исходного изображения.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь