Что такое метрика нейросети

0
18

MAP (mean Average Precision) в детекции объектов

Поддерживаемые метрики

Пусть какой-то набор медицинских данных характерен для данного диагноза. Если наша модель верно определила и поставила положительный класс, тогда это истинно положительный исход, если же модель ставит отрицательную метку класса, тогда это ложно отрицательный исход. В случае отсутствия диагноза у рассматриваемого набора данных исходы модели остаются аналогичными. Тогда если модель относит запись к классу положительную, то мы говорим о ложно положительном исходе (модель «сказала» что диагноз есть, но на самом деле его нет), и наоборот, если модель определят запись как отрицательный класс, то это — истинно отрицательный исход.

Эти метрики риска и безопасности можно измерять в собственных данных или тестовых наборах данных с помощью перенаправки или в наборе данных искусственного теста, созданном нашим состязательном симуляторе. В результате выводятся аннотированные тестовые наборы данных с уровнем серьезности риска содержимого (очень низкий, низкий, средний или высокий) и отображаются результаты в Azure AI , которые обеспечивают общую частоту дефектов во всем тестовом наборе данных и представлении экземпляров каждой метки риска содержимого и причин.

В этом контексте пользователи участвуют в диалоговых взаимодействиях через ряд поворотов или в одном обмене. Модель создания ИИ, оснащенная механизмами извлечения, создает ответы и может получать доступ к информации из внешних источников, например документов. Модель получения дополненного поколения (RAG) повышает качество и релевантность ответов с помощью внешних документов и знаний.

С помощью ROC — кривой, можно сравнить модели, а также их параметры для поиска наиболее оптимальной (с точки зрения tpr и fpr) комбинации. В этом случае ищется компромисс между количеством больных, метка которых была правильно определена как положительная и количеством больных, метка которых была неправильно определена как положительная.

AUC часто сравнивают с метрикой Accuracy и у первой есть явное преимущество при исследовании некоторых моделей — она может работать с вероятностями. Например, в AUC: a better measure than accuracy in comparing learning algorithms показан следующий пример (Рисунок 3): пусть две модели классифицируют 10 тестовых экземпляров. 5 они классифицируют как положительный класс и столько же как отрицательный, так же экземпляры упорядочены в соответствии с вероятностью принадлежать положительному классу (слева — направо). Оба классификатора имеют одинаковую точность — 80%, но AUC у первого — 0.96, а у второго — 0.64, поскольку вероятности ошибочных экземпляров разная. Но так же можно найти и контрпример, когда AUC одинаковый, а точность разная [ AUC: a better measure than accuracy in comparing learning algorithms].

Несмотря на различные английские названия и разные формулы подсчета, русский перевод этой метрики также закрепился как «точность», что может вызвать недоумение и конфуз, поэтому следует уточнять, о чем именно вы говорите. Эта точность показывает количество истинно положительных исходов из всего набора положительных меток и считается по следующей формуле [Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation]:

Precision

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Рисунок 2 содержит пример двух ROC – кривых. Идеальное значение графика находится в верхней левой точке (TPR = 1, a FPR = 0). При этом, кривая, соответствующая FPR = TPR является случайным гаданием, а если график кривой модели или точка находятся ниже этого минимума, то это говорит лишь о том, что лучше подбрасывать монетку, чем использовать эту модель. При этом говорят, что кривая X доминирует над другой кривой Y, если X в любом точке находится левее и выше Y [Using AUC and accuracy in evaluating learning algorithms ], что означает превосходство первого классификатора над вторым.

Ненавистное и несправедливое содержание относится к любому языку, относящегося к ненависти к или несправедливому представлению отдельных лиц и социальных групп вместе с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.

Сексуальное содержание включает язык, относящийся к анатомическим органам и гениталиям, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.

Как описано в методах оценки больших языковых моделей, существуют ручной и автоматизированный подходы к измерению. Автоматическое измерение полезно для измерения в масштабе с повышенным охватом, чтобы обеспечить более полные результаты. Кроме того, это полезно для постоянного измерения для отслеживания любой регрессии по мере развития системы, использования и устранения рисков.

ЧИТАТЬ ТАКЖЕ:  Какой из следующих примеров относится к искусственному интеллекту беспилотный автомобиль дрон

Возьмём, к примеру задачу выявления подозрения на определенное заболевание. Если у пациента оно есть, то это будет положительным классом. Если нет – отрицательным. Результатом работы модели может быть определение – следует ли «заподозрить» у пациента какой-то определенный диагноз (тогда результат = true) или нет (тогда результат = false).

Хотя мы предоставляем полный набор встроенных метрик, которые упрощают простую и эффективную оценку качества и безопасности создаваемого приложения ИИ, рекомендуется адаптировать и настроить их для конкретных типов задач. Кроме того, мы поможем вам ввести совершенно новые метрики, позволяя измерять приложения с свежих углов и обеспечивать соответствие уникальным целям.

Для более поздних соревнований PASCAL VOC, VOC2010–2012 производит выборку кривой по всем уникальным значениям recall (r₁, r₂,…), когда падает максимальное значение precision. С этим изменением мы измеряем точную площадь под кривой precision-recall после удаления зигзагов.

Основанное на AACS основание

Изученную теорию всегда следует подкрепить практикой. В данном случае, можно рассмотреть применение тех или иных метрик для реальных задач, связанных с использованием моделей машинного обучения в здравоохранении. В большинстве случаев рекомендуется использовать метрики AUC и F-Score, потому что они включают в себя широкий список возможных исходов и, как было замечено ранее, AUC превосходит метрику Accuracy, но спор насчет этого ведётся до сих пор.

Стоит обратить внимание на то, что в некоторых задачах необходимо определить всех пациентов с диагнозом и можно даже пренебречь ложно положительными исходами, так как они могут отсеяться на следующих стадиях исследования (например, после контрольной сдачи анализов), тогда необходимо добавить к этой метрике ещё одну, которая могла бы оценить требуемый приоритет.

Таким образом, оранжевая линия трансформируется в зелёную, и кривая начинает убывать монотонно вместо зигзагообразного тренда. Рассчитанная AP будет менее подвержена небольшим вариациям. Математически, мы замещаем значение precision для значения recall ȓ максимальным значением precision для любого значения recall ≥ ȓ.

Последние исследовательские работы, как правило, дают результаты только для набора данных COCO. В COCO mAP для расчета используется 101-точечное интерполированное определение AP. Для COCO AP – это среднее значение для нескольких IoU (минимальное IoU для рассмотрения положительного совпадения). AP @ [. 5: .95] соответствует среднему AP для IoU от 0,5 до 0,95 с размером шага 0,05. Для соревнования COCO AP – это среднее значение по 10 уровням IoU по 80 категориям (AP @ [. 50: .05: .95]: от 0,5 до 0,95 с размером шага 0,05). Ниже приведены некоторые другие метрики, собранные для набора данных COCO.

Насильственное содержимое включает язык, относящийся к физическим действиям, предназначенным для того, чтобы повредить, ранить, повредить или убить кого-то или что-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).

Среди всего списка заболеваний особую актуальность имеют сердечно сосудистые заболевания (ССЗ). Множество исследований, посвященных предсказанию ССЗ демонстрируют то, чего можно достичь в этой области благодаря машинному обучению. Зачастую здесь используется метрика AUC для сравнения качества моделей. Например в A data-driven approach to predicting diabetes and cardiovascular disease with machine learning авторы работали с базой, которая собиралась в течение 20 лет, содержащей более ста признаков. Целью являлось предсказание ранних стадий ССЗ, предиабета и диабета, они добились показателей равных 0.957, 0.802 и 0.839 площади под кривой. В Development and verification of prediction models for preventing cardiovascular diseases авторы исследовали возможность различных исходов (смерть, госпитализация и другие), связанных с ССЗ. Наилучший показатель AUC был равен 0.96. В Перспективы использования методов машинного обучения для предсказания сердечно-сосудистых заболеваний исследуется возможность предсказания ССЗ с помощью методов машинного обучения и некоторых медицинских данных. Для Accuracy, Precision, Recall и AUC были получены результаты 78%, 0.79, 0.67 и 0.84 соответственно.

Все рассмотренные выше метрики относились лишь к бинарной задаче, но, зачастую, классов больше, чем два. Это обуславливает необходимость в обобщении рассмотренных метрик. Одним из возможных способов является вычисление среднего метрики по всем классам [On extending f-measure and g-mean metrics to multi-class problems]. Тогда в качестве «положительного» класса берется вычисляемый, а все остальные — в качестве «отрицательного».

Это можно сделать с помощью функциональных возможностей и наборов данных атак, созданных с помощью симулятора прямой атаки с тем же начальным значением случайности. Затем вы можете оценить уязвимость в тюрьме, сравнивая результаты оценки безопасности содержимого между статистическими оценками двух тестовых наборов данных для каждого вычислителя безопасности. При обнаружении прямого дефекта атаки в тюрьме при обнаружении ответа на вред содержимого, обнаруженного во втором прямом наборе данных, когда в первом наборе данных управления не было обнаружено ни одного или более низкого уровня серьезности.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь