Изменения: Отбор признаков

Версия от 10:05, 22 июня 2017

Как только вы называете признаки фичами, знайте что все труды отечественных ученых в области машинного обучения прошли зря. © К. В. Воронцов

Пусть есть куча признаков: $x_1,x_2,\dots,x_n$ , их очень много, хотим уменьшить их число. Можем применять два метода -- отбор признаков (selection): $f(x_{1},x_{2},\dots ,x_{n})=(x_{i_{1}},x_{i_{2}},\dots ,x_{i_{m}})$ , где $i \in [1,n]$ -- набор индексов наиболее оптимальных признаков. Второй метод -- выделение признаков (extraction): $f(x_{1},x_{2},\dots ,x_{n})=(f_{1},f_{2},\dots ,f_{m})$ , где $f_{i},i={\overline {1,m}}$ -- новые признаки полученные на основе старых. В обоих случаях считаем $n\gg m$ . Далее про первый метод.

Релевантность

Пусть далее $F=\{f_{1},f_{2},\dots ,f_{n}\}$ -- набор признаков, $y$ - целевая переменная. ${\widetilde {F}}=F\backslash \{f_{i}\}$ , ( $i$ -- фиксировали). Тогда признак $f_i$ является:

Сильно релевантным: если $p(y|{\widetilde {F}})\neq p(y|F)$ , т.е. отсутствие признака изменяет распределение целевой переменной.
Слабо релевантным: если $p(y|{\widetilde {\{}}F\})=p(y|F)$ , но $\exists S\subset {\widetilde {F}}:p(y|f_{i},S)\neq p(y|S)$ , т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих).
Нерелевантным: если $\forall S\subset {\widetilde {F}}:p(y|f,S)=p(y|S)$ . т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной.

Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно).

@@ Строка 2: / Строка 2: @@
 == Релевантность ==
-Пусть далее F = \{f_1, f_2, \dots, f_n\} -- набор признаков
+Пусть далее <math>F = \{f_1, f_2, \dots, f_n\}</math> -- набор признаков, <math>y</math> - целевая переменная. <math>\widetilde{F} = F\backslash \{ f_i \}</math>, (<math>i</math> -- фиксировали). Тогда признак <math>f_i</math> является:
+* Сильно релевантным: если <math>p(y|\widetilde{F}) \ne p(y|F)</math>, т.е. отсутствие признака изменяет распределение целевой переменной.
+* Слабо релевантным: если <math>p(y|\widetilde\{F\}) = p(y|F)</math>, но <math>\exists S \subset \widetilde{F}: p(y|f_i, S) \ne p(y|S)</math>, т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих).
+* Нерелевантным: если <math>\forall S \subset \widetilde{F}: p(y|f, S) = p(y|S)</math>. т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной.
+Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно).