Kst179 (обсуждение | вклад) (добавил шутку от Воронцова. шутка дошла до меня через третье лицо, поэтому передан только общий смысл.) Метки: Визуальный редактор apiedit |
Kst179 (обсуждение | вклад) (→Релевантность:
добавил раздел про релевантность признаков) Метки: Визуальный редактор apiedit |
||
Строка 2: | Строка 2: | ||
== Релевантность == |
== Релевантность == |
||
− | Пусть далее F = \{f_1, f_2, \dots, f_n\} -- набор признаков |
+ | Пусть далее <math>F = \{f_1, f_2, \dots, f_n\}</math> -- набор признаков, <math>y</math> - целевая переменная. <math>\widetilde{F} = F\backslash \{ f_i \}</math>, (<math>i</math> -- фиксировали). Тогда признак <math>f_i</math> является: |
+ | * Сильно релевантным: если <math>p(y|\widetilde{F}) \ne p(y|F)</math>, т.е. отсутствие признака изменяет распределение целевой переменной. |
||
+ | * Слабо релевантным: если <math>p(y|\widetilde\{F\}) = p(y|F)</math>, но <math>\exists S \subset \widetilde{F}: p(y|f_i, S) \ne p(y|S)</math>, т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих). |
||
+ | * Нерелевантным: если <math>\forall S \subset \widetilde{F}: p(y|f, S) = p(y|S)</math>. т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной. |
||
+ | Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно). |
Версия от 10:05, 22 июня 2017
Как только вы называете признаки фичами, знайте что все труды отечественных ученых в области машинного обучения прошли зря. © К. В. Воронцов
Пусть есть куча признаков: , их очень много, хотим уменьшить их число. Можем применять два метода -- отбор признаков (selection): , где -- набор индексов наиболее оптимальных признаков. Второй метод -- выделение признаков (extraction): , где -- новые признаки полученные на основе старых. В обоих случаях считаем . Далее про первый метод.
Релевантность
Пусть далее -- набор признаков, - целевая переменная. , ( -- фиксировали). Тогда признак является:
- Сильно релевантным: если , т.е. отсутствие признака изменяет распределение целевой переменной.
- Слабо релевантным: если , но , т.е. он не является сильно релевантным, но если из \widetilde{F} повыкидывать еще каких нибудь признаков, то наличие нашего признака изменяет распределение целевой переменной (например сам по себе признак важный но в наборе находится еще один или несколько, сильно с ним коррелирующих).
- Нерелевантным: если . т.е. он не является ни сильно ни слабо релевантным, или что то же самое, для любого несодержащего его подмножества признаков, его добавление к такому подмножеству не влияет на распределение целевой переменной.
Отбор признаков заключается в том чтобы отбросить все нерелевантные и некоторые слабо релевантные признаки, так чтобы в новом множестве все признаки были сильно релевантными (в идеале, на практике это очень сложно).