Машинное обучение вики
Метки: Визуальный редактор apiedit
Нет описания правки
Метки: Визуальный редактор apiedit
Строка 1: Строка 1:
 
== AUC-ROC ==
 
== AUC-ROC ==
   
При прогнозировании вероятности чем больший мы можем получить [[ROC-кривая#TPR и FPR|TPR]] при меньшем [[ROC-кривая#TPR и FPR|FPR]] тем лучше качество классификатора. Поэтому можем ввести следующую метрику оценивающую качество работы классификатора, оценивающего вероятность принадлежности объекта к положительному классу:
+
При прогнозировании вероятности чем больший мы можем получить [[ROC-кривая#TPR и FPR|TPR]] при меньшем [[ROC-кривая#TPR и FPR|FPR]], тем лучше качество классификатора. Поэтому можем ввести следующую метрику, оценивающую качество работы классификатора, вычисляющего вероятность принадлежности объекта к положительному классу:
   
 
<math>AUC = \int_0^1 TPR ~dFPR</math>.
 
<math>AUC = \int_0^1 TPR ~dFPR</math>.
Строка 8: Строка 8:
 
* <math>AUC \in [0, 1]</math>.
 
* <math>AUC \in [0, 1]</math>.
 
* <math>AUC = 1</math> значит классификатор идеально разделяет классы.
 
* <math>AUC = 1</math> значит классификатор идеально разделяет классы.
* классификатор с <math>AUC = \frac {1}{2}</math> эквивалентен случайной величине которая равновероятно<sup>(но это не точно)</sup> принимает значения <math>+1</math> и <math>-1</math>. Отсюда если <math>AUC < \frac{1}{2}</math> то классификатор <math>b(x) = -a(x)</math> предсказывает класс объекта <math>x</math> лучше чем <math>a(x)</math>.
+
* классификатор с <math>AUC = \frac {1}{2}</math> эквивалентен случайной величине которая равновероятно<sup>(но это не точно)</sup> принимает значения <math>+1</math> и <math>-1</math>. Отсюда если <math>AUC < \frac{1}{2}</math> то классификатор <math>b(x) = 1-a(x)</math> предсказывает класс объекта <math>x</math> лучше чем <math>a(x)</math> (здесь имеется ввиду что <math>a(x)</math> и <math>b(x)</math> возвращают вероятность принадлежности к положительному классу).
 
* AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.
 
* AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.
 
Пусть классификатор выдает на выборке <math>x_1, x_2, \dots, x_N</math> вероятности <math>p_1, p_2, \dots, p_N</math> соответственно. Отсортируем вероятности в порядке возрастания: <math>p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}</math>, и этим вероятностям соответствуют объекты <math>x_{(1)}, x_{(2)}, \dots, x_{(N)}</math> и метки классов <math>y_{(1)}, y_{(2)}, \dots, y_{(N)}</math> соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:
 
Пусть классификатор выдает на выборке <math>x_1, x_2, \dots, x_N</math> вероятности <math>p_1, p_2, \dots, p_N</math> соответственно. Отсортируем вероятности в порядке возрастания: <math>p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}</math>, и этим вероятностям соответствуют объекты <math>x_{(1)}, x_{(2)}, \dots, x_{(N)}</math> и метки классов <math>y_{(1)}, y_{(2)}, \dots, y_{(N)}</math> соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:
   
<math>AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]</math>.
+
<math>AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]</math>. <math>N^+, N^-</math> - количество объектов положительного и отрицательного классов соответственно.

Версия от 17:30, 6 января 2017

 AUC-ROC

При прогнозировании вероятности чем больший мы можем получить TPR при меньшем FPR, тем лучше качество классификатора. Поэтому можем ввести следующую метрику, оценивающую качество работы классификатора, вычисляющего вероятность принадлежности объекта к положительному классу:

.

Которая является площадью под графиком ROC-кривой (area under curve, AUC).

  • .
  • значит классификатор идеально разделяет классы.
  • классификатор с эквивалентен случайной величине которая равновероятно(но это не точно) принимает значения и . Отсюда если то классификатор предсказывает класс объекта лучше чем (здесь имеется ввиду что и возвращают вероятность принадлежности к положительному классу).
  • AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.

Пусть классификатор выдает на выборке вероятности соответственно. Отсортируем вероятности в порядке возрастания: , и этим вероятностям соответствуют объекты и метки классов соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:

. - количество объектов положительного и отрицательного классов соответственно.