Что такое метрика в искусственном интеллекте

0
22

Метрики оценки и мониторинга для создания искусственного интеллекта

Главные шаги по выбору метрики

Насильственное содержимое включает язык, относящийся к физическим действиям, предназначенным для того, чтобы повредить, ранить, повредить или убить кого-то или что-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).

Метрики с поддержкой искусственного интеллекта используют языковые модели, такие как GPT-4, для оценки выходных данных, созданных ИИ, особенно в ситуациях, когда ожидаемые ответы недоступны из-за отсутствия определенной правды. Традиционные метрики машинного обучения, такие как оценка F1, измеряют точность и отзыв между ответами, созданными ИИ, и ожидаемыми ответами.

Метрики риска и безопасности с поддержкой искусственного интеллекта размещаются в серверной службе оценки безопасности Azure AI Studio и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция. Оценка защищенных материалов доступна только в восточной части США 2.

Хотя мы предоставляем полный набор встроенных метрик, которые упрощают простую и эффективную оценку качества и безопасности создаваемого приложения ИИ, рекомендуется адаптировать и настроить их для конкретных типов задач. Кроме того, мы поможем вам ввести совершенно новые метрики, позволяя измерять приложения с свежих углов и обеспечивать соответствие уникальным целям.

Измеряет среднюю сумму квадратной разности между фактическим значением и прогнозируемым значением для всех точек данных. Выполняется возведение во вторую степень, поэтому отрицательные значения не компенсируют положительными. А также в силу свойств этой метрики, усиливается влияние ошибок, по квадратуре от исходного значения. Это значит, что если в в исходных измерениях мы ошиблись на 1, то метрика покажет 1, 2-4, 3-9 и так далее. Чем меньше MSE, тем точнее наше предсказание. Оптимум достигается в точке 0, то есть мы идеально предсказываем.

Как описано в методах оценки больших языковых моделей, существуют ручной и автоматизированный подходы к измерению. Автоматическое измерение полезно для измерения в масштабе с повышенным охватом, чтобы обеспечить более полные результаты. Кроме того, это полезно для постоянного измерения для отслеживания любой регрессии по мере развития системы, использования и устранения рисков.

Измеряет корреляцию между двумя списками проранжированных элементов путем подсчета согласованных и несогласованных парных сравнений: для каждого экземпляра даны две оценки ранга (машинное предсказание и предсказание человека). Сначала они разлагаются на парные сравнения — рассматривается знак отношения между текущим рангом и остальными. Согласованной парой считается ситуация, когда знак сравнения соответствует соответствующему парному сравнению с человеческой аннотацией. В противном случае результат учитывается как несогласованная пара. Следовательно, tau вычисляется по формуле

Azure AI Studio позволяет оценивать одноэтапные или сложные многоэтапные беседы, в которых создается модель искусственного интеллекта в конкретных данных (также известной как извлечение дополненного поколения или RAG). Вы также можете оценить общие сценарии одноключевых запросов и ответов, где контекст не используется для создания модели искусственного интеллекта (не RAG). В настоящее время мы поддерживаем встроенные метрики для следующих типов задач:

ЧИТАТЬ ТАКЖЕ:  Кто придумал термин искусственный интеллект

С помощью ИИ: релевантность

Оценка прямой атаки — это сравнительное измерение с помощью оценщиков безопасности содержимого в качестве элемента управления. Это не собственная метрика с поддержкой ИИ. Запустите ContentSafetyEvaluator два разных набора данных с красным набором данных:

Сексуальное содержание включает язык, относящийся к анатомическим органам и гениталиям, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.

Лучшее предсказанное vs человеческая оценка (Best Predicted vs Human, BPH):
Берут наивысший по релевантности элемент из отранжированного алгоритмом, затем сравнивают с человеческой оценкой. Эта метрика возвращает бинарный вектор совпадения или же несовпадения оценки алгоритма по сравнению с человеческой.

В этом контексте пользователи участвуют в диалоговых взаимодействиях через ряд поворотов или в одном обмене. Модель создания ИИ, оснащенная механизмами извлечения, создает ответы и может получать доступ к информации из внешних источников, например документов. Модель получения дополненного поколения (RAG) повышает качество и релевантность ответов с помощью внешних документов и знаний.

Метрики риска и безопасности опирались на аналитические сведения, полученные от наших предыдущих проектов крупной языковой модели, таких как GitHub Copilot и Bing. Это обеспечивает комплексный подход к оценке созданных ответов на оценки серьезности рисков и безопасности. Эти метрики создаются с помощью нашей службы оценки безопасности, которая использует набор LLM. Каждая модель предназначена для оценки конкретных рисков, которые могут присутствовать в ответе (например, сексуальное содержимое, насильственное содержимое и т. д.). Эти модели предоставляются с определениями рисков и масштабами серьезности, и они соответствующим образом создают созданные беседы. В настоящее время мы вычисляем «частоту дефектов» для метрик риска и безопасности ниже. Для каждой из этих метрик служба измеряет, обнаружены ли эти типы содержимого и на каком уровне серьезности. Каждый из четырех типов имеет четыре уровня серьезности (очень низкий, низкий, средний, высокий). Пользователи указывают пороговое значение допустимости, а коэффициенты дефектов создаются нашей службой, соответствуют количеству экземпляров, созданных на каждом уровне порогового значения и выше.

Эти метрики риска и безопасности можно измерять в собственных данных или тестовых наборах данных с помощью перенаправки или в наборе данных искусственного теста, созданном нашим состязательном симуляторе. В результате выводятся аннотированные тестовые наборы данных с уровнем серьезности риска содержимого (очень низкий, низкий, средний или высокий) и отображаются результаты в Azure AI , которые обеспечивают общую частоту дефектов во всем тестовом наборе данных и представлении экземпляров каждой метки риска содержимого и причин.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь