Содержание статьи
Методы распознавания образов: от простых до сложных
Анализ границ с нейросетевыми детекторами
Нейросетевые методы часто обеспечивают высокую точность распознавания образов, особенно когда имеется доступ к большим объемам данных для обучения. Они могут быть адаптированы к различным задачам распознавания образов: сегментацию, классификацию, детекцию объектов. Нейросети способны автоматически извлекать сложные признаки из изображений. Это делает их эффективными в распознавании объектов с разнообразными текстурными и геометрическими характеристиками.
Примечание: В нашей статье мы будем рассматривать градиентный спуск в классическом виде, однако следует заметить, что когда речь идет об анализе изображений в виду большой размерности градиентный спуск в изначальном виде может быть невозможен, поэтому приходится использовать приближенные к нему методы, которые руководствуются похожей логикой.
Наиболее известный проект в этой категории — онлайн-сервис для хранения и организации фотографий и видеозаписей Google Photos. Создатели используют методы анализа границ и форм для автоматической категоризации фотографий, выделения объектов (например, лиц) и для поиска изображений по содержанию.
Проект Commercial Texture Analysis Software разработал различное программное обеспечение для анализа текстур с использованием LBP. Эти инструменты применяются, например, для анализа текстур на медицинских изображениях, материалах, а также для контроля качества и анализа характеристик материалов.
Этот тип методов базируется на применении нейросетей различных типов. Они направлены на извлечение основных характеристик или признаков исходных образов и изображений, а также классификацию этих образов и на решение задач оптимизации. Применяются архитектуры сверточные сети (convolutional neural networks — CNN), трансформеры (visual transformers), автоэнкодеры (autoencoders) и ряд других.
После обучения создается каскад классификаторов. Каскад состоит из нескольких этапов (классификаторов), каждый из которых является бинарным классификатором (да/нет). Этапы каскада характеризуются пороговым значением, при котором объект считается обнаруженным или отклоненным. Процесс обнаружения начинается с применения первого этапа каскада к изображению. Если этап не прошел, изображение отклоняется. Если прошел, то изображение передается следующему этапу, и так далее. Когда все этапы каскада успешно пройдены, объект считается обнаруженным.
Для обучения нейросети используется стандартный метод обратного распространения ошибки. Структура сверточных сетей похожа на воронку: от общей картины к деталям. Благодаря свертке нейросеть отсеивает лишнюю информацию и оставляет только ту, которая характеризует объект. Сверточные нейросети решают задачи распознавания и классификации по той же модели, как и человеческий мозг. Первой нейросетью этого типа стала AlexNet, которая оказала значительное влияние на развитие машинного обучения. Разработана учеными Алексеем Крижевским и Ильей Суцкевером — выпускниками аспирантуры Университета Торонто.
Этот метод заключается в поиске конкретного шаблона (детали, фрагмента) внутри большего изображения. Для этого используются различные метрики сходства, такие как кросс-корреляция или сумма квадратов разностей. Алгоритм сравнивает окно большого изображения с шаблоном и находит наилучшее совпадение.
Строительные блоки нейронных сетей
1. Входной слой: Это начальный слой, на котором сеть получает внешние данные. Каждый нейрон в этом слое представляет характеристику или атрибут входных данных. Таким образом, если нейросеть получает на вход фотографию, “нейроны” на входном слое разбивают ее на кусочки, которые потом будут анализироваться.
2. Абстракция : Нейросеть стремится к абстракции, выделяя особенности, которые ей кажутся важными для различения между классами объектов. Это может привести к тому, что изображения становятся все более абстрактными и трудно интерпретируемыми для человеческого восприятия. То, какие именно особенности ей покажутся важными, во многом зависит от данных, на которых нейросеть обучалась. Например, если все мужчины, которых нейросеть “видела”, были в черных очках, то нейросеть первым делом научится распознавать на фотографии черные очки, а остальные признаки, такие как форма лица или волосы на лице, она будет опускать.
На более поздних слоях нейросети, изображения становятся менее похожими на исходные фотографии, потому что на этапе обработки нейросеть сосредотачивается на абстрактных и сложных признаках и понятиях, которые она выучила из тренировочных данных. Вот почему это происходит:
Данные, которые «видит» нейросеть, хранятся в ее весах и смещениях. Обучение нейросети заключается в том, чтобы настроить эти веса и смещения таким образом, чтобы они лучше всего соответствовали задаче классификации или распознавания объектов. Когда нейросеть “видит” какой-то признак, который она уже обучена распознавать, определенная группа “нейронов” в ней “загораются” : подобно связям в мозгу, через которые проходит сигнал. То, насколько сильно нейросеть “реагирует” на какое-то изображение, можно увидеть по значениям функций активаций: чем они больше, тем активнее “нейроны” реагируют на изображения, а значит, они его “узнают” .
Нейронные сети с отобранными вручную признаками могут быть особенно полезны в ряде практических областей, где экспертное знание играет важную роль и имеется ограниченное количество данных. Например, в медицинской диагностике, финансовом анализе, обнаружении аномалий в сфере кибербезопасности и промышленных системах, в контроле качества за продукцией на производстве, в инженерных областях, геологических и геофизических исследованиях.
К недостаткам можно отнести то, что настройка параметров классических методов может быть трудоемкой задачей и требует экспертных знаний для достижения хороших результатов. Классические методы чувствительны к изменениям в условиях съемки. Их производительность может снижаться в сложных сценариях.
Библиотека OpenCV, например, предоставляет реализации каскадов Хаара для обнаружения таких объектов, как улыбки, автомобили, велосипеды на изображениях и в видеопотоке. Это одна из наиболее популярных библиотек для реализации систем компьютерного зрения. Другой аналогичный проект — Dlib. Он включает реализации такого типа классификаторов для задач распознавания лиц.
Ниже вы видите иллюстрацию того, как нейросеть на более поздних слоях “видит” характеристики одного участка фотографии. Сбоку показано значение функции активации каждого выхода. Таким образом, что нейросеть “видит”, что выбранный участок похож на шею человека или нижнюю часть лица.