Машинное обучение вики
(добавил шутку от Воронцова. шутка дошла до меня через третье лицо, поэтому передан только общий смысл.)
Метки: Визуальный редактор apiedit
(→‎Релевантность: добавил раздел про релевантность признаков)
Метки: Визуальный редактор apiedit
Строка 2: Строка 2:
   
 
== Релевантность ==
 
== Релевантность ==
Пусть далее F = \{f_1, f_2, \dots, f_n\} -- набор признаков
+
Пусть далее <math>F = \{f_1, f_2, \dots, f_n\}</math> -- набор признаков, <math>y</math> - целевая переменная. <math>\widetilde{F} = F\backslash \{ f_i \}</math>, (<math>i</math> -- фиксировали). Тогда признак <math>f_i</math> является:
  +
* Сильно релевантным: если <math>p(y|\widetilde{F}) \ne p(y|F)</math>, т.е. отсутствие признака изменяет распределение целевой переменной.
  +
* Слабо релевантным: если <math>p(y|\widetilde\{F\}) = p(y|F)</math>, но <math>\exists S \subset \widetilde{F}: p(y|f_i, S) \ne p(y|S)</math>, т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих).
  +
* Нерелевантным: если <math>\forall S \subset \widetilde{F}: p(y|f, S) = p(y|S)</math>. т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной.
  +
Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно).

Версия от 10:05, 22 июня 2017

Как только вы называете признаки фичами, знайте что все труды отечественных ученых в области машинного обучения прошли зря. © К. В. Воронцов

Пусть есть куча признаков: , их очень много, хотим уменьшить их число. Можем применять два метода -- отбор признаков (selection): , где -- набор индексов наиболее оптимальных признаков. Второй метод -- выделение признаков (extraction): , где -- новые признаки полученные на основе старых. В обоих случаях считаем . Далее про первый метод.

Релевантность

Пусть далее -- набор признаков, - целевая переменная. , ( -- фиксировали). Тогда признак является:

  • Сильно релевантным: если , т.е. отсутствие признака изменяет распределение целевой переменной.
  • Слабо релевантным: если , но , т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих).
  • Нерелевантным: если . т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной.

Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно).