Решающее дерево (Decision tree)

Решающее дерево (Decision tree) — решение задачи обучения с учителем, основанный на том, как решает задачи прогнозирования человек. В общем случае — это k-ичное дерево с решающими правилами в нелистовых вершинах (узлах) и некотором заключении о целевой функции в листовых вершинах (прогнозом). Решающее правило — некоторая функция от объекта, позволяющее определить, в какую из дочерних вершин нужно поместить рассматриваем объект. В листовых вершинах могут находиться разные объекты: класс, который нужно присвоить попавшему туда объекту (в задаче классификации), вероятности классов (в задаче классификации), непосредственно значение целевой функции (задача регрессии).

Чаще всего на практике используются двоичные решающие деревья.

Алгоритм построения

В корне дерева — рассматриваем всю обучающую выборку.

Проверить критерий останова алгоритма. Если он выполняется, выбрать для узла выдаваемый прогноз, что можно сделать несколькими способами.
Иначе требуется разбить множество на несколько не пересекающихся. В общем случае в вершине $t$ задаётся решающее правило $Q_{t}(x)$ , принимающее некоторый диапазон значений. Этот диапазон разбивается на $R_t$ непересекающихся множеств объектов, $S_{1},S_{2},\dots ,S_{R_{t}}$ , где $R_t$ — количество потомков у вершины, а каждое $S_i$ — это множество объектов, попавших в $i$ -го потомка.
Множество в узле разбивается согласно выбранному правилу, для каждого узла алгоритм запускается рекурсивно.

Решающие правила

Чаще всего в качестве $Q_{t}(x)$ берут просто один из признаков, то есть $x^{i(t)}$ .

Традиционные разбиения на диапазоны:

$S_{t}(j)=\left\{x\in \mathbb {X} :h_{j}\leq x^{i(t)}\leq h_{j+1}\right\}$ для выбранных $h_{1},\dots ,h_{j+1}$
$S_{t}(1)=\left\{x\in \mathbb {X} :\langle x,v\rangle \leq 0\right\};S_{t}(2)=\left\{x\in \mathbb {X} :\langle x,v\rangle >0\right\}$ — по сути проверка угла.
$S_{t}(1)=\left\{x\in \mathbb {X} :\rho (x,x_{0})\leq h\right\};S_{t}(2)=\left\{x\in \mathbb {X} :\rho (x,x_{0})>h\right\}$ , где расстояние $\rho$ определено в некотором метрическом пространстве (например, $\rho(x, y) = |x - y|$ ).
$S_{t}(1)=\left\{x\in \mathbb {X} :x^{i(t)}\leq h\right\};S_{t}(2)=\left\{x\in \mathbb {X} :x^{i(t)}>h\right\}$ — предикаты, $\langle x,v\rangle$ — скалярное произведение векторов.

В целом, взять можно любые решающие правила, но лучше — интерпретируемые, поскольку их легче настраивать. Особого смысла брать что-то сложнее предикатов нет, так как уже с их помощью можно получить дерево со 100%-й точностью на обучающейся выборке (но при этом и скорее всего переобучиться).

Выбор оптимального решающего правила

Считаем, что решаем задачу многоклассовой классификации или регрессии в $R$ -ичном дереве.

Обычно для построения дерева выбирается целое семейство решающих правил. Чтобы найти среди них оптимальное для каждого конкретного узла, требуется ввести некоторый критерий оптимальности. Для этого вводят некоторую меру $\mathrm {I} (t)$ измерения того, насколько разбросаны объекты (регрессия) или перемешаны классы (классификация) в некотором узле $t$ . Эта мера называется критерием информативности.

Затем для каждого варианта решающего правила подсчитывается мера того, насколько будут разбросаны объекты (регрессия) или перемешаны классы (классификация) при таком разбиении:

$\Delta \mathrm {I} (X_{t},t)=\mathrm {I} (X_{t},t)-\sum _{i=1}^{R}\mathrm {I} (X_{t_{i}},t_{i}){\frac {N(t_{i})}{N(t)}}$ , где $R$ — на сколько узлов разбивается узел, $t$ — текущий узел, $t_{1},\dots ,t_{R}$ — узлы-потомки, получающиеся при выбранном разбиении, $N(t_{i})$ — количество объектов обучающей выборки, попадающие в потомок $i$ , $N(t)$ — попавших в текущий узел, $X_{t_{i}}$ — объекты, попавшие в $t_i$ -ую вершину.

$\Delta \mathrm {I} (X_{t},t)$ также называется Information gain, то есть сколько информации мы получим при таком разбиении. Для выбора решающего правила требуется взять argmax от неё по всевозможным признакам и параметрам семейства решающих правил. При таком взятии мы как раз и получим оптимальное разбиение множества объектов в текущей вершине.

Критерии останова

Лекции Соколова (6 стр.)

Ограничение максимальной глубины дерева.
Ограничение минимального числа объектов в листе.
Ограничение максимального количества листьев в дереве.
Останов в случае, если все объекты в вершине относятся к одному классу.
Требование, что Information gain при дроблении улучшался как минимум

на $s$ процентов.

Стрижка

Для любой обучающей выборки существует дерево, которое не будет допускать на нём ни одной ошибки. Подобрать правильный критерий останова бывает затруднительно, поэтому прибегают к стрижке — строят дерево целиком, а затем начинают обрубать узлы с листов.

Стрижка по валидационной выборке

Лекции Воронцова, 63-я минута.

Рассмотрим бинарное решающее дерево на примере задачи классификации.

Выделим валидационной выборку порядка половины размера тренировочной (или можно, например, разделить выборку на 3 части, 2 из них оставить в качестве тренировочной, одну — в качестве валидационной).

Построим дерево по тренировочной выборке. Пропустим через построенное дерево валидационную выборку и рассмотрим любую внутреннюю вершину $t$ и её левую и правую вершины $L_{t},R_{t}$ . Если до $t$ не дошло ни одного объекта из валидационной выборки, то говорим, что эта вершина (и все её поддеревья) незначимые и делаем из $t$ листовую (ставим в качестве предиката мажоритарный класс в этой вершине по тренировочной выборке). Если до $t$ дошли объекты из валидационной выборки, то рассмотрим следующие 3 величины:

Число ошибок классификации поддеревом из вершины $t$
Число ошибок классификации поддеревом из вершины $L_{t}$
Число ошибок классификации поддеревом из вершины $R_t$

Если в 1) Число ошибок классификации поддеревом из вершины $t$ равно 0, то значит делаем из $t$ листовую с соответствующим прогнозом для класса.

Выберем минимум из трёх вышеприведенных пунктов. В зависимости от того, какое из них минимально, сделаем соответственно следующие действия:

Ничего не делать
Заменить дерево из вершины $t$ деревом из вершины $L_{t}$
Заменить дерево из вершины $t$ деревом из вершины $R_t$

Cost-complexity pruning

Семинары Соколова, стр. 6 – 7.

Обозначим дерево, полученное в результате работы жадного алгоритма, через $T_0$ . Поскольку в каждом из листьев находятся объекты только одного класса, значение функционала $R(T)$ будет минимально на самом дереве $T_0$ (среди всех поддеревьев). Однако данный функционал характеризует лишь качество дерева на обучающей выборке, и чрезмерная подгонка под нее может привести к переобучению. Чтобы преодолеть эту проблему, введем новый функционал $R_{\alpha }(T)$ , представляющий собой сумму исходного функционала $R(T)$ и штрафа за размер дерева:

$R_{\alpha }(T)=R(T)+\alpha |T|(*)$

где $|T|$ — число листьев в поддереве $T$ , а $\alpha>0$ — параметр. Это один из примеров регуляризованных критериев качества , которые ищут баланс между качеством классификации обучающей выборки и сложностью построенной модели. В дальнейшем мы много раз будем сталкиваться с такими критериями. Можно показать, что существует последовательность вложенных деревьев с одинаковыми корнями: $T_{K}\subset T_{K-1}\subset \dots \subset T_{0}$ , (здесь $T_{K}$ — тривиальное дерево, состоящее из корня дерева $T_0$ ), в которой каждое дерево $T_i$ минимизирует критерий $(*)$ для $\alpha$ из интервала $\alpha \in [\alpha _{i},\alpha _{i+1})$ , причем $0=\alpha _{0}<\alpha _{1}<\dots <\alpha _{K}<+\infty$ . Эту последовательность можно достаточно эффективно найти путем обхода дерева. Далее из нее выбирается оптимальное дерево по отложенной выборке или с помощью кросс-валидации.

Выбор прогноза в листе

Самый простой способ — взять самый часто встречающийся класс среди объектов обучающей выборки, попавших в этот лист, для классификации или среднее целевых функций этих объектов для регрессии.

В задачах классификации c $k$ классами в листе $t$ также можно хранить вероятности классов — например, по классической вероятности: $\mathbb {P} (y=y_{i}|x)={\dfrac {\#{X_{t}}}{N(t)}}$ , где $\mathbb {Y} =\{y_{1},y_{2},\dots ,y_{k}\}$ — классы. Более подробно, как в таком случае выбирать класс, описано в обработке пропусков

Если задана матрица штрафов, то есть в случае несимметричных потерь, можно минимизировать штраф и взять в качестве класса в листе $\hat{y}$ :

${\hat {y}}={\underset {y\in \mathbb {Y} }{\operatorname {argmin} }}\sum _{i}\lambda _{y_{i}y}$ , где $\lambda _{y_{i}y}$ — элементы матрицы штрафов.

В регрессии — использовать функцию потерь, то есть:

${\hat {y}}={\underset {y\in \mathbb {Y} }{\operatorname {argmin} }}\sum _{i}L(y,y_{i})$

Выбор функции потерь в общем случае является параметром алгоритма.

Прогнозирование

Для случая отсутствия пропущенных значений. Алгоритм: начиная с корня, применить к новому объекту решающее правило. Таким образом определяется, в какой потомок объект должен "попасть", и рекурсивно запустить этот процесс для него.

Сложность прогнозирования для одного объекта для полностью построенного дерева — $O(h)$ , где $h$ — высота дерева. Вообще говоря, дерево может быть несбалансированным, поэтому оценка в $O(\log N)$ , где $N$ — размер тренировочной выборки, не гарантируется.

Метод обработки пропущенных значений

Пропуск пропущенных значений

Лекции Воронцова, 59-я минута.

Сергей Иванов: Вроде в билетах этого нет, но вполне вопрос.

При обучении дерева объекты с пропущенными значениями у признака, по которому идет разбиение, игнорируются: $\Delta \mathrm {I} (X_{t},t)\approx {\dfrac {\#\{x\in X_{t}:x_{i(t)}{\mbox{not missing}}\}}{N(t)}}\cdot \Delta \mathrm {I} (\{x\in X_{t}:x_{i(t)}{\mbox{not missing}}\},t)$

При построении прогноза при необходимости разбить подвыборку в вершине $t$ по отсутствующему признаку происходит следующая процедура: будем как бы предполагать, что этот признак принимает случайное значение. Определим по обучающей выборке вероятности, с которой новый объект попадёт к каждому потомку — $w_{1},w_{2},\dots ,w_{R},w_{i}={\dfrac {N(t_{i})}{N(t)}}$ . Затем отправим объект независимо к каждому потомку, получим прогнозы $y_{1},y_{2},\dots ,y_{R}$ . В случае регрессии это будут непосредственно значения целевой функции, в случае классификации — вероятности принадлежности какому-то зафиксированному классу $y$ (который, как будет видно ниже, надо перебирать): $y_{i}=\mathbb {P} (y|x,t_{i})$

Дальше можно поступать образом, схожим с выбором прогноза в листе: так, для регрессии можно просто объединить отклики с вероятностями в качестве весов, ${\hat {y}}=w_{1}y_{1}+\dots +w_{R}y_{R}$ .

Пусть $t_0$ — корень дерева. В случае классификации ${\hat {y}}={\underset {y\in \mathbb {Y} }{\operatorname {argmax} }}\mathbb {P} (y|x,t_{0}){\overset {\mbox{def}}{=}}{\underset {y\in \mathbb {Y} }{\operatorname {argmax} }}\sum _{i=1}^{R}w_{i}\mathbb {P} (y|x,t_{i})$

Такой алгоритм работы с пропущенными значениями используется в ID3, C4.5.

Суррогатные разбиения

Находим другой признак, по которому разбиение будет максимально похожим. Выкидываем те объекты, по которому по данному признаку есть пропущенные значения, делаем разбиение. Ищем другой признак (видимо, предполагаем, что по нему нет пропущенных значений, либо сразу выкидывать объекты с пропущенными значениями и по первому приведенному признаку и по второму), берем максимально похожее разбиение на изначальное. Например, можно сравнивать как можно большее пересечение левых и правых поддеревьев (в случае бинарного дерева).

Такой алгоритм работы с пропущенными значениями используется в CART

Работа с категориальными признаками

Эта статья нуждается в структуризации!

Вы можете помочь, кластеризовав информацию в этой статье.
Возможно, следует разбить её на разделы или на несколько статей.

Сергей Иванов: Возможно, часть информации здесь не относится к деревьям; следует вынести в отдельную статью по работе с категориальными признаками

One-hot кодирование

Из вершины $t$ делаем столько детей, сколько уникальных значений у категориального признака.

При таком подходе размер дерева увеличивается $\Rightarrow$ увеличивается риск переобучения.

Перевод категориальных в вещественные

Семинары Соколова, стр. 8

Пусть категориальный признак $x_j$ имеет множество значений $Q=\{u_{1},\dots ,u_{q}\},|Q|=q$ . Разобьем множество значений на дванепересекающихся подмножества: $Q=Q_{1}\bigsqcup Q_{2}$ , и определим предикат как индикатор попадания в первое подмножество: $\beta (x)=\mathbb {I} [x_{j}\in Q_{1}]$ . Таким образом, объект будет попадать в левое поддерево, если признак $x_j$ попадает в множество $Q_1$ , и в первоеподдерево в противном случае. Основная проблема заключается в том, что для построения оптимального предиката нужно перебрать $2^{q-1}-1$ вариантов разбиения,что может быть не вполне возможным.

Оказывается, можно обойтись без полного перебора в случаях с бинарной классификацией и регрессией. Обозначим через $R_{m}(u)$ множество объектов, которые попали в вершину $m$ и у которых $j$ -й признак имеет значение $u$ ; через $N_{m}(u)$ обозначим количество таких объектов. В случае с бинарной классификацией упорядочим все значения категориально- го признака на основе того, какая доля объектов с таким значением имеет класс $+1$ :

${\dfrac {1}{N_{m}(u_{(1)})}}\sum _{x_{i}\in R_{m}(u_{(1)})}\mathbb {I} [y_{i}=+1]\leq \dots \leq {\dfrac {1}{N_{m}(u_{(q)})}}\sum _{x_{i}\in R_{m}(u_{(q)})}\mathbb {I} [y_{i}=+1]$

после чего заменим категорию $u(i)$ на число $i$ , и будем искать разбиение как для вещественного признака. Можно показать, что если искать оптимальное разбиение по критерию Джини или энтропийному критерию, то мы получим такое же разбиение, как и при переборе по всем возможным $2^{q-1}-1$ вариантам. Для задачи регрессии с MSE-функционалом это тоже будет верно, если упорядочивать значения признака по среднему ответу объектов с таким значением:

${\dfrac {1}{N_{m}(u_{(1)})}}\sum _{x_{i}\in R_{m}(u_{(1)})}y_{i}\leq \dots \leq {\dfrac {1}{N_{m}(u_{(q)})}}\sum _{x_{i}\in R_{m}(u_{(q)})}y_{i}$

CART-деревья

Реализация решающего дерева — за подробностями милости просим сюда.