Изменения: AUC-ROC

Версия от 17:30, 6 января 2017

AUC-ROC

При прогнозировании вероятности чем больший мы можем получить TPR при меньшем FPR, тем лучше качество классификатора. Поэтому можем ввести следующую метрику, оценивающую качество работы классификатора, вычисляющего вероятность принадлежности объекта к положительному классу:

$AUC = \int_0^1 TPR ~dFPR$ .

Которая является площадью под графиком ROC-кривой (area under curve, AUC).

$AUC \in [0, 1]$ .
$AUC = 1$ значит классификатор идеально разделяет классы.
классификатор с $AUC = \frac {1}{2}$ эквивалентен случайной величине которая равновероятно^{(но это не точно)} принимает значения $+1$ и $-1$ . Отсюда если $AUC < \frac{1}{2}$ то классификатор $b(x) = 1-a(x)$ предсказывает класс объекта $x$ лучше чем $a(x)$ (здесь имеется ввиду что $a(x)$ и $b(x)$ возвращают вероятность принадлежности к положительному классу).
AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.

Пусть классификатор выдает на выборке $x_1, x_2, \dots, x_N$ вероятности $p_1, p_2, \dots, p_N$ соответственно. Отсортируем вероятности в порядке возрастания: $p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}$ , и этим вероятностям соответствуют объекты $x_{(1)}, x_{(2)}, \dots, x_{(N)}$ и метки классов $y_{(1)}, y_{(2)}, \dots, y_{(N)}$ соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:

$AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]$ . $N^+, N^-$ - количество объектов положительного и отрицательного классов соответственно.

@@ Строка 1: / Строка 1: @@
 == AUC-ROC ==
-При прогнозировании вероятности чем больший мы можем получить [[ROC-кривая#TPR и FPR|TPR]] при меньшем [[ROC-кривая#TPR и FPR|FPR]] тем лучше качество классификатора. Поэтому можем ввести следующую метрику оценивающую качество работы классификатора, оценивающего вероятность принадлежности объекта к положительному классу:
+При прогнозировании вероятности чем больший мы можем получить [[ROC-кривая#TPR и FPR|TPR]] при меньшем [[ROC-кривая#TPR и FPR|FPR]], тем лучше качество классификатора. Поэтому можем ввести следующую метрику, оценивающую качество работы классификатора, вычисляющего вероятность принадлежности объекта к положительному классу:
 <math>AUC = \int_0^1 TPR ~dFPR</math>.
@@ Строка 8: / Строка 8: @@
 * <math>AUC \in [0, 1]</math>.
 * <math>AUC = 1</math> значит классификатор идеально разделяет классы.
-* классификатор с <math>AUC = \frac {1}{2}</math> эквивалентен случайной величине которая равновероятно<sup>(но это не точно)</sup> принимает значения <math>+1</math> и <math>-1</math>. Отсюда если <math>AUC < \frac{1}{2}</math> то классификатор <math>b(x) = -a(x)</math> предсказывает класс объекта <math>x</math> лучше чем <math>a(x)</math>.
+* классификатор с <math>AUC = \frac {1}{2}</math> эквивалентен случайной величине которая равновероятно<sup>(но это не точно)</sup> принимает значения <math>+1</math> и <math>-1</math>. Отсюда если <math>AUC < \frac{1}{2}</math> то классификатор <math>b(x) = 1-a(x)</math> предсказывает класс объекта <math>x</math> лучше чем <math>a(x)</math> (здесь имеется ввиду что <math>a(x)</math> и <math>b(x)</math> возвращают вероятность принадлежности к положительному классу).
 * AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.
 Пусть классификатор выдает на выборке <math>x_1, x_2, \dots, x_N</math> вероятности <math>p_1, p_2, \dots, p_N</math> соответственно. Отсортируем вероятности в порядке возрастания: <math>p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}</math>, и этим вероятностям соответствуют объекты <math>x_{(1)}, x_{(2)}, \dots, x_{(N)}</math> и метки классов  <math>y_{(1)}, y_{(2)}, \dots, y_{(N)}</math> соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:
-<math>AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]</math>.
+<math>AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]</math>. <math>N^+, N^-</math> - количество объектов положительного и отрицательного классов соответственно.