Содержание статьи
- 1Методика оценки точности нейросетевых моделей Текст научной статьи по специальности «Компьютерные и информационные науки»
- 1.1Какой AUC можно считать хорошим?
- 1.2Чувствительность, специфичность, точность
- 1.3Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Котельников С. А., Усков А. А.
Методика оценки точности нейросетевых моделей Текст научной статьи по специальности «Компьютерные и информационные науки»
Какой AUC можно считать хорошим?
Например, уже на первых этапах обучения нейросети для классификации исследований по принципу «есть онкология / нет онкологии» становится ясно, что модель будет показывать значительно более высокие показатели AUC на рентгене лёгких, чем на маммографии. Это связано, в первую очередь, с тем, что данных по маммографии не просто меньше, а кратно меньше, чем данных по рентгену лёгких. К тому же, область маммографии значительно менее проработана в машинном обучении, чем рентген лёгких.
Рассмотрим на примере. Допустим, вы подбрасываете монетку и создали нейронную сеть для предсказания того, какой стороной она упадёт. Выпадение орла или выпадение решки являются случайными событиями, вероятность каждого из них равна 50%. AUC для оценки вашей нейросети в данном случае будет измеряться от 0,5 до 1 — где 0,5 означает, что нейросеть даёт абсолютно случайные предсказания, а 1 означает, что все её прогнозы верны.
Разрабатываемые методы компьютерной линеаризации нелинейных систем управления за счет создания библиотек инструментальных средств для моделирования типовых нелинейно-стей типа гистерезисной петли, люфта, нечувствительности, ограничителя амплитуды и тому подобного позволяют ускорить процессы проектирования и программирования средств автоматизации для объектов управления с существенными нелинейностями.
Воспользовавшись свойствами распределенной по нормальному закону случайной величины, получим оценку максимальной абсолютной ошибки модели Мах8 с доверительной вероятностью; р1 — доверительная вероятность, использующаяся при проверке гипотезы нормальности закона распределения [4,5]: Мах8— т8+4
Рассмотренный подход к оцениванию точности моделей может быть полезен при нейросетевом моделировании. Современные системы компьютерной математики (MATLAB, MathCAD, Maple и др.) имеют набор встроенных статистических функций, что позволяет значительно упростить процессы как проверки гипотезы нормальности распределения, так и построения описанных интервальных оценок.
Проверка согласованности нормального и статистического распределений производится на основе анализа расхождения между теоретическими вероятностями р. и наблюдаемыми частотами р. . В качестве меры расхождения используется взвешенная сумма квадратов отклонений:
Но если бы нейронная сеть просто отнесла всех пациентов к здоровым, показатель точности был бы 90%. И это несмотря на то, что модель в данном случае не обладает никакой предсказательной силой и в целом бесполезна — так как нам важно находить именно больных пациентов, а не отмечать всех как здоровых.
Нейронная сеть написанная с использованием keras определяет тональность отзывов (хороший/плохой). Использую датасет imdb ; для векторизации использую tfidf vectorizer библиотеки sklearn . Проблема заключается в том, что при использовании обычного многослойного персептрона (несколько полносвязных слоев) точность сети достигает порядка 90%, но как только пытаюсь использовать любую другую топологию (сверточную или рекуррентную), то точность всегда в районе 50% и не повышается со временем обучения. Не могу понять в чем дело. Спасибо за помощь. Вот сама сеть (c такой топологией у меня точность около 90%):
Чувствительность, специфичность, точность
И всё же ключевой метрикой оценки предиктивной (предсказательной) силы итоговой модели для решения задачи классификации является ROC AUC ( Area Under Receiver Operating Characteristic Curve). Название метрики переводится с английского как «площадь под кривой». Остальные метрики, такие как чувствительность и специфичность, будут зависеть от неё.
Оценка качества медицинской нейронной сети — важный этап, без которого невозможно понять, применима ли технология в реальной клинической практике. В статье расскажем об основных методах оценки качества моделей на базе машинного обучения в области компьютерного зрения.
Таким образом, при решении данной задачи (детекция патологий) чувствительность и специфичность являются метриками, имеющими разные цели, и между ними нужно найти компромисс. Если первая метрика направлена на минимизацию риска пропуска патологии, то вторая направлена на сокращение количества отправленных на дополнительное обследование пациентов. Причём при разных сценариях работы (например, при скрининге и при диагностике) можно производить донастройку системы, что обеспечит необходимые для данного сценария метрики точности.
Рассмотрим типичный пример модели компьютерного зрения: на вход нейронной сети попадает цифровое медицинское изображение, относительно которого должен быть сделан бинарный вывод — есть рак или нет рака. Прогнозы нейросети можно разделить на четыре категории.
Для построения моделей использовались следующие методы: обобщенно-регрессионная нейронная сеть (GRNN), многослойный персептрон (MLP), сеть с радиальными базисными функциями и линейным выходным слоем (RBFN) [1-3]. Объем обучающей выборки составлял N=2900 (Nx=2500, N2=400). Точки из обучающей выборки располагались случайным образом с равномерным законом распределения. Результаты вычислительного эксперимента приведены в таблице 2.
Как только появляется необходимость оценки нейронной сети, сразу встаёт вопрос о проверке её на какой-либо выборке. И поскольку медицинские данные весьма специфичны, а ошибки модели могут привести к реальным нежелательным последствиям при лечении пациента, для максимальной прозрачности оценки необходимо соблюдать важные критерии.
Таким образом, для адекватной оценки медицинской нейронной сети недостаточно просто знать основные метрики — нужно учитывать влияние множества факторов, специфичных для конкретной области медицины. Именно поэтому не только в обучении, но и в оценке таких систем искусственного интеллекта требуется участие высококвалифицированных врачей.