Машинное обучение вики
Advertisement

TPR и FPR[]

Рассмотрим случай бинарной классификации (). Пусть - классификатор, который оценивает вероятность принадлежности объекта к положительному классу. Рассмотрим некоторый порог , по которому будем строить предсказание. Отнесем объект x к положительному классу, если , иначе — к отрицательному. Построим для него матрицу ошибок и найдем значения и введем две метрики:

  • True positive rate: .
  • False positive rate: .

TPR полностью совпадает с полнотой, и показывает долю верно предсказанных классов у объектов, относящихся к положительному классу.

FPR — это доля неправильно предсказанных классов среди объектов отрицательного класса.

Кривая ошибок (ROC-curve)[]

Так как TPR и FPR считались для фиксированного порога то их можно представить в виде функций от аргумента : . При этом обе функции монотонно возрастают от до , а значит определена функция:

ROC-кривые для разных методов

(более формально: ).

Которая называется рабочей характеристикой приемника (reciever operation characteristic, ROC). График функции называется ROC-кривой или кривой ошибок.

  • Всегда начинается в и заканчивается в .
  • Как правило, у хорошего классификатора кривая лежит по большей части, либо целиком выше прямой . Это связано с тем что при хорошей классификации надо получать максимальный при минимальном .

см. также AUC-ROC

Метод построения ROC-кривой[]

Пусть классификатор выдает на выборке вероятности соответственно. Отсортируем вероятности в порядке возрастания: , и этим вероятностям соответствуют объекты и метки классов соответственно. Разобьем квадрат на координатной плоскости на клеток по горизонтали и клеток по вертикали (где — количество объектов положительного класса, — количество объектов отрицательного класса). Начнем рисовать ROC кривую из точки и последовательно перебирать метки классов, начиная с до : если то рисуем вертикальный отрезок на одну клетку вверх, иначе горизонтальный отрезок на одну клетку вправо. Очевидно, в таком случае мы закончим ROC-кривую в точке и она будет отображать зависимость .

ROC-кривая для оценивания вероятностей случайным образом[]

DANGER! Это место вызывает
сомнения или непонимание!

Экзамен показал, что здесь, похоже, всё неверно, а спрашивают часто. Якобы где-то решалась на семинарах.

Hard.png

Если классификатор выдает вероятность равную , где - равномерно распределенная на отрезке [0, 1] случайная величина, то ROC-кривая такого классификатора будет совпадать с графиком , то есть для любого порога (если более формально, то это верно только для матожиданий TPR и FPR, так как случайная величина, и если нам ооочень повезет, то разделение может быть идеальным, а ROC-кривая пройдет через точку (0, 1)).

Зафиксируем некий порог . Тогда с вероятностью и с вероятностью . Пусть в выборке объектов положительного класса, и отрицательного. Тогда . А значит

Advertisement