Машинное обучение вики
Qbrick (обсуждение | вклад)
Метки: Визуальный редактор apiedit
Нет описания правки
Метка: rte-wysiwyg
Строка 8: Строка 8:
 
Корень дерева - вся обучающая выборка.
 
Корень дерева - вся обучающая выборка.
 
# Проверить критерий останова алгоритма. Если он выполняется, выбрать для узла выдаваемый прогноз, что можно сделать несколькими способами.
 
# Проверить критерий останова алгоритма. Если он выполняется, выбрать для узла выдаваемый прогноз, что можно сделать несколькими способами.
# Иначе требуется разбить множество на несколько не пересекающихся. В общем случае задаётся решающее правило Q_t(x), принимающее некоторый диапазон значений. Этот диапазон разбивается на R_t непересекающихся множеств, S_1, S_2...S_{R_t}.
+
# Иначе требуется разбить множество на несколько не пересекающихся. В общем случае задаётся решающее правило $Q_t(x)$, принимающее некоторый диапазон значений. Этот диапазон разбивается на R_t непересекающихся множеств, S_1, S_2...S_{R_t}.
 
# Множество в узле разбивается согласно выбранному правилу, для каждого узла алгоритм запускается рекурсивно.
 
# Множество в узле разбивается согласно выбранному правилу, для каждого узла алгоритм запускается рекурсивно.
   
 
=== Решающие правила ===
 
=== Решающие правила ===
{{TODO}} пояснения
+
{{TODO}} пояснения
   
 
* <math>Q_t(x) = x^{i(t)}</math>
 
* <math>Q_t(x) = x^{i(t)}</math>

Версия от 15:47, 5 января 2017

Sleep
Это незавершённая статья
Автор, вероятно, переобучился и отправился спать.
Вы можете помочь, экстраполировав местную информацию.

Решающее дерево (Decision tree) - решение задачи обучения с учителем, основанный на том, как решает задачи прогнозирования человек.

Идея

Todo

немного Соколовщины и интуиции

Алгоритм построения

Корень дерева - вся обучающая выборка.

  1. Проверить критерий останова алгоритма. Если он выполняется, выбрать для узла выдаваемый прогноз, что можно сделать несколькими способами.
  2. Иначе требуется разбить множество на несколько не пересекающихся. В общем случае задаётся решающее правило $Q_t(x)$, принимающее некоторый диапазон значений. Этот диапазон разбивается на R_t непересекающихся множеств, S_1, S_2...S_{R_t}.
  3. Множество в узле разбивается согласно выбранному правилу, для каждого узла алгоритм запускается рекурсивно.

Решающие правила

Todo

пояснения

  • для выбранных
  • - по сути проверка угла

В целом, взять можно любые, но лучше - интерпретируемые, поскольку их легче настраивать.

Обычно для построения дерева выбирается целое семейство решающих правил. Чтобы найти среди них оптимальное для каждого конкретного узла, требуется ввести некоторый критерий оптимальности. Для этого вводят некоторую меру I(t) измерения того, насколько классы перемешаны в некотором узле t. Эта мера называется критерием информативности.

Затем для каждого варианта решающего правила подсчитывается мера того, насколько перемешаны будут классы при таком разбиении:

, где - на сколько узлов разбивается узел, - текущий узел, - узлы-потомки, получающиеся при выбранном разбиении, - количество объектов обучающей выборки, попадающие в потомок , - попавших в текущий узел.

также называется Information gain, ну то есть сколько информации мы получим при таком разбиении. Ну а для выбора решающего правила требуется взять argmax от неё по всевозможным признакам и параметрам семейства решающих правил.

Критерии останова

Todo

Выбор прогноза в листе

Todo

Методы обработки пропущенных значений

Todo

CART-деревья

Реализация решающего дерева - за подробностями милости просим сюда.

Обобщающая способность деревьев

Для любой обучающей выборки существует дерево, которое не будет допускать на нём ни одной ошибки. Подобрать правильный критерий останова бывает затруднительно, поэтому прибегают к стрижке - строят дерево целиком, а затем начинают обрубать узлы с листов. Подробнее.