Машинное обучение вики
Advertisement
Добавьте ссылок.png
Эта статья плохо повышает индекс цитируемости
авторов других статей этой вики.


Вы можете помочь, добавив навигационные ссылки.

Сергей Иванов: Здесь намечается статья о регрессии - общая формулировка задачи + сравнение пяти наших методов. Запихнуть в табличку ответы, наверное, не получится, но надо будет расставить ссылки на более подробное разъяснения в других статьях.

Регрессия - частный случай задачи обучения с учителем, при котором целевая переменная принадлежит бесконечному подмножеству вещественной оси.

Сравнение методов регрессии[]

Сравниваются следующие методы регрессии:

  1. kNN
  2. регрессия Надарая-Ватсона
  3. ridge/lasso regression
  4. решающее дерево
  5. kernel ridge regression c RBF-ядром.

Прогноз каких методов зависит линейно от исходных признаков?[]

  1. Зависит по сути лишь от заданного расстояния, которое нелинейно.
  2. Также зависит от расстояния между объектами, а оно нелинейно.
  3. Прогноз зависит линейно от исходных признаков так как это линейная регрессия.
  4. Дерево — кусочно-постоянная функция от исходных признаков, значит нелинейно.
  5. Так как используется kernel trick с RBF-ядром, то мы переходим в другое пространство относительно исходных признаков нелинейным образом, то зависимость нелинейная.

Какие методы используют не все объекты для прогнозирования?[]

  1. Может использовать не все объекты, а только лишь лежащие у разделяющей поверхности.
  2. При выборе определенного ядра (например tophat) может использовать только достаточно близкие объекты.
  3. По идее, мы вообще не используем выборку во время прогнозирования, так что ответ линейная регрессия подходит.
  4. Во время прогнозирования дерево не использует объекты, только лишь ответы на них.
  5. Если некоторые , то соответствующие объекты из обучающей выборки можно не использовать.

Какие методы используют не все признаки для прогнозирования?[]

  1. Использует все признаки, которые используются в подсчете расстояния
  2. Аналогично использует лишь те, что и в расстоянии
  3. Для lasso регрессии не использует те признаки, веса при которых обнулились.
  4. Дерево может использовать не все признаки.
  5. Во время предсказания необходимо считать ядро, которое использует все признаки.

Насколько методы устойчивы к выбросам?[]

  1. Неустойчив к выбросам при достаточно маленьком k.
  2. Устойчив к выбросам при достаточно большом количестве просматриваемых соседей.
  3. Неусточивый к выбросам метод из-за того, что функция потерь — MSE, а она довольно сильно штрафует за ошибку.
  4. Деревья сильно меняются при изменении обучающей выборки, а значит и при добавлении выбросов, следовательно деревья неустойчивы к выбросам.
  5. Аналогично, из-за MSE метод довольно неустойчив к выбросам.

Вычислительная трудоемкость на этапе прогнозирования[]

Advertisement