Что такое inference в нейросетях

0
79

Типы инференса ML моделей

Процесс

Batch Inference — это процесс, при котором модель машинного обучения применяется к большому объему накопленных данных за один раз. В отличие от инференса в реальном времени, пакетный инференс не обрабатывает запросы мгновенно, а скорее выполняет обработку данных в фоновом режиме.

В компаниях, таких как Ozon, Яндекс, Сбербанк и Пятерочка, мы видим примеры применения этих методов для решения конкретных бизнес-задач: от анализа истории покупок для формирования персонализированных рекомендаций до использования асинхронного инференса для эффективной обработки запросов клиентов. Serverless Inference позволяет оптимизировать процессы, снижая затраты на инфраструктуру и обеспечивая гибкость в обработке данных, в то время как Real-Time Inference открывает двери для инновационных решений, таких как системы распознавания лиц для программ лояльности.

Эти технологии продолжают развиваться, и мы можем ожидать, что будущее принесет еще больше инновационных применений машинного обучения в различных отраслях. Понимание и применение этих методов инференса позволяют компаниям не только повышать эффективность своих операций, но и улучшать взаимодействие с клиентами, предлагая им более качественный и персонализированный сервис

Пример использования Real-Time Inference (Инференса в Реальном Времени) в сети магазинов «Пятерочка» может быть связан с системой распознавания лиц для идентификации участников программы лояльности и персонализации предложений клиентам при входе в магазин.

Поскольку OpenVINO обеспечивает два режима вывода, то выделяется два набора показателей производительности. При оценке производительности вывода для режима минимизации времени выполнения одного запроса (latency mode) запросы выполняются последовательно. Следующий запрос выполняется после завершения предыдущего. Для каждого запроса измеряется продолжительность его выполнения. Стандартное отклонение рассчитывается на основе набора полученных длительностей, а те, которые выходят за пределы трех стандартных отклонений относительно среднего времени вывода, отбрасываются. Результирующий набор времен используется для вычисления метрик производительности для latency-режима.

DLI — система для автоматической оценки производительности вывода широко известных нейросетевых моделей на различных аппаратных конфигурациях. Отличие данной системы от существующих состоит в том, что предоставляются результаты вывода большого количества глубоких моделей на аппаратных решениях компании Intel (Intel CPUs, Intel Processor Graphics, Intel Movidius Neural Compute Stick). Полученные результаты позволяют оценить перспективы практического применения моделей. Исходный код системы выложен в открытый доступ на GitHub, что дает возможность стороннему пользователю самостоятельно провести эксперименты по анализу производительности вывода интересующих моделей на имеющемся у него аппаратном обеспечении.

ЧИТАТЬ ТАКЖЕ:  Где используется искусственного интеллекта

Типовые Инструменты для Asynchronous Inference

Asynchronous Inference (Асинхронный Инференс) в контексте моделей машинного обучения (ML) представляет собой подход, при котором запросы на инференс обрабатываются независимо и не требуют мгновенного ответа. Это позволяет системе обрабатывать другие задачи во время ожидания результата инференса.

В заключение, мы видим, что инференс моделей машинного обучения играет важную роль в различных аспектах бизнеса и предоставляет ценные возможности для улучшения пользовательского опыта и повышения эффективности операций. От пакетной обработки больших данных в Batch Inference до мгновенного реагирования на входящие данные в Real-Time Inference, каждый метод предлагает уникальные преимущества и подходит для определенных сценариев использования.

Serverless Inference (Бессерверный Инференс) в контексте моделей машинного обучения (ML) относится к методу выполнения инференса, при котором не требуется постоянно работающий сервер. Вместо этого вычислительные ресурсы выделяются динамически для обработки каждого запроса на инференс

Batch Inference представляет собой мощный метод для обработки больших объемов данных, когда время не является критическим фактором. Это позволяет максимально использовать вычислительные ресурсы и подходит для широкого спектра задач аналитики и обработки данных

Наряду с OpenVINO, система DLI поддерживает вывод с использованием Intel Optimization for Caffe, Intel Optimization for TensorFlow и некоторых других фреймворков. Данные фреймворки, как правило, работают только в одном режиме, аналогичном latency-режиму OpenVINO. Поэтому для них справедливы соответствующие введенные показатели производительности.

Для асинхронного интерфейса есть возможность выполнять запросы параллельно, используя стримы (streams). Стрим — это логическая группа физических потоков. Число стримов является параметром асинхронного режима. По умолчанию количество стримов совпадает с количеством запросов на вывод.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь