Как работает распознавание лиц
Строим модель по ключевым точкам
Другой режим работы алгоритма — сопоставление с эталоном. В базе данных уже есть один или несколько векторов, а задача алгоритма — сравнить их с новым вектором, который посчитали только что по картинке с камеры. Тогда алгоритм считает, насколько новый вектор отличается от тех, которые уже лежат в базе данных. Если этот вектор отличается достаточно мало, считаем, что мы распознали лицо.
С помощью этих прямоугольников алгоритм пытается найти на картинке похожие переходы между светлыми и тёмными областями. Если в одном месте программа находит много таких совпадений, то, скорее всего, это лицо человека. Например, вот как с помощью этих примитивов алгоритм находит нос и глаза:
Есть алгоритмы, которые уточняются и узнают вас всё лучше со временем. При каждом распознавании лица они видят, что в вас изменилось с прошлого раза, и уточняют свою модель. Например, вы занесли себя в базу данных с бодуна, а на следующий день пришли огурцом. Алгоритм запомнил вас в обоих состояниях.
Для распознавания лиц ИИ использует методы глубокого обучения (deep learning). В глубоком обучении искусственные нейронные сети применяются для моделирования высокоуровневых абстракций данных. Они получают изображения с высоким разрешением, обрабатывают их и на выходе выводят данные, соответствующие сигнатуре лица, для сравнения и распознавания в реальном времени.
Технология распознавания лиц (биометрическая идентификация) — это процесс идентификации искусственным интеллектом личности человека на основе физических характеристик: формы лица, структуры костей, черт и пропорций, морщин, родинок. Самый простой пример — система Face ID на iPhone. Камера TrueDepth на передней стороне телефона используется, чтобы отсканировать лицо пользователя и создать 3D-модель. Затем система выявляет особенности, такие как форма глаз, носа и т. д., формирует уникальный шаблон лица и сохраняет его в защищенном облачном хранилище. Когда пользователь включает iPhone, Face ID сканирует его лицо и сравнивает с сохраненным шаблоном с помощью алгоритма машинного обучения. Если соответствие подтверждено, то iPhone разблокируется. Для повышения качества работы Face ID применяет нейронную сеть глубокого обучения. Система непрерывно учится и обновляется на основе новых данных, чтобы выдавать более точные результаты.
Технологии распознавания лиц полезны в сфере безопасности, для предотвращения и расследования преступлений, в медицине, маркетинге. Важно: использовать такие системы необходимо с учетом действующего законодательства в отношении конфиденциальности и приватности личных данных.
Что дальше
В июне 2023 года Европарламент предварительно одобрил законопроект о регулировании ИИ — с предложением запретить онлайн-системы распознавания лиц в общественных местах. Кроме того, под запрет подпадают и механизмы распознавания эмоций. Если закон утвердят, их нельзя будет применять работодателям, устанавливать в полиции и в учебных заведениях. Теперь проект обсуждается с Еврокомиссией, далее его передадут в Совет ЕС.
Для повышения точности распознавания и уменьшения ошибок могут быть добавлены дополнительные шаги. Например, тренировочный набор данных с изменением угла съемки, освещения, с добавленными шумами. Также алгоритмы должны регулярно тестироваться и обновляться.
Когда все точки найдены, алгоритм считает вектор — математический результат обработки свойств этих точек. Например, он находит расстояние между глазами, форму носа, толщину губ, форму бровей, расстояния между ними и ещё массу других параметров. В результате получается набор чисел, который называется вектором.
Некоторые алгоритмы используют плоское изображение с камеры. Другие используют лидары — это когда лазерная пушка быстро-быстро стреляет лазером во все стороны и измеряет скорость возвращения лучей. Получается не слишком точная, но в некоторой степени объёмная картинка. Часто её совмещают с изображением основной камеры, чтобы убедиться, что перед нами действительно человек, а не его фотография.
У каждого алгоритма свои коэффициенты совпадения: где-то допустимо совпадение только на 98% и выше — тогда алгоритм не будет вас узнавать, если вы в маске или вокруг плохое освещение. Есть алгоритмы, где совпадение может быть меньше — тогда это менее безопасно, но лучше работает. Есть алгоритмы, которые в одном месте требуют точного совпадения, а в других — менее точного (например, глаза должны совпасть точно, а рот может двигаться). Это уже нюансы настройки и подкрутки конкретного алгоритма.
От того, как будут расставлены эти точки, зависит точность распознавания, поэтому каждая коммерческая компания держит свой метод в секрете. Чем больше точек — тем выше точность, но минимально нужно проставить 68 точек. Если точек будет меньше, алгоритм может не сработать.
Среди уже реализованных примеров распознавания лиц — DeepFace от Facebook. По данным портала TechCrunch, алгоритм способен идентифицировать лица в толпе с точностью почти как у человека: 97,25 % против 97,53 %. Самая популярная платформа с открытым исходным кодом Face++ от китайской компании Megvii распознает лица даже в неидеальных ситуациях. Например, при съемке низкого качества или при ограниченном освещении (ночные концерты, большие скопления людей и пр.). С помощью этой же компании Китай создал свою колоссальную базу данных жителей для социальной системы контроля. Наверное, вы видели похожий сюжет в «Черном зеркале»: с 2021 года каждый гражданин КНР получил стартовый рейтинг в 1000 баллов. Каждый его поступок теперь учитывается системой, которая начисляет или снимает баллы. А от них зависит практически все: покупка билетов, кредиты, частные школы и хорошая работа. Что это: нарушение прав человека или путь в светлое будущее? Пока остается только наблюдать.