Машинное обучение вики
Advertisement

Идея[]

При большом размере обучающей выборки поиск ближайших соседей методом перебора становится крайне ресурсоёмким делом. Мы же хотим попытаться структурировать пространство признаков каким-либо образом, чтобы поиск ближайших соседей осуществлялся быстрее.

Важное замечание[]

Везде далее предполагается, что функция расстояния удовлетворяет неравенству треугольника.

KD-trees[]

K-D[imensional] trees — один из способов этого добиться.

Построение[]

Мы разбиваем пространство на -мерные прямоугольники при построении дерева. На каждом шаге мы ищем признак с наибольшим разбросом или стандартным отклонением и ассоциируем с узлом предикат . По этому предикату часть объектов отправляется в левого сына, а часть — в правого. В сыновьях процедура рекурсивно повторяется. То, что разбиение производится по медиане, важно, так как это позволяет поддерживать сбалансированность дерева. Когда в узле становится меньше объектов, чем (количество объектов в листе — это параметр алгоритма, который известен заранее), дальнейшее разбиение этого узла прекращается. Естественно, если процесс выродился (например, все объекты абсолютно одинаковы), процесс прекращается.

В лучшем случае глубина дерева получается , в худшем случае (ХОТЕЛОСЬ БЫ ПРИМЕР).

Поиск соседей[]

При поиске ближайших соседей для мы ищем (спускаясь по дереву от корня) лист, в который попадает наш объект (по предикатам), находим ближайший объект/объекты обычным перебором. Далее мы поднимаемся вверх по дереву, для всех соседних узлов проверяя расстояние. Если оно не больше расстояния или у нас не хватает объектов до искомого количества , то мы должны проверить тот узел. Иначе мы понимаем, что там нет ничего интересного.

DANGER! Это место вызывает
сомнения или непонимание!

что такое соседние узлы при подъеме вверх? Не очень понятен обход при поиске ближайших соседей

Hard.png

Проверка происходит рекурсивно.

При проверке мы имеем в качестве параметра текущего лучшего соседа/соседей, текущее лучшее расстояние и так далее, чтобы учитывать только тех детей проверяемого узла, которые заслуживают внимания.

Если результат проверки показал, что объекты там ближе, чем текущие ближайшие соседи, то мы обновляем ближайших соседей.

Расстояние от точки до прямоугольника[]

Расстояние от точки до прямоугольника получается по формуле , где получается покоординатно по формуле:

Ball trees[]

Это последовательности вложенных (в смысле вложенности множеств объектов, а не геометрическом) последовательностей шаров.

Каждый объект из шара-родителя ассоциируется с каким-либо вложенным шаром.

Каждый шар задаётся центром , множеством своих объектов и радиусом .

Построение[]

Построение производится рекурсивно.

Пусть на данном шаге мы находимся в шаре . Тогда мы строим два вложенных шара следующим образом:

  • Выбираем
  • Выбираем
  • Разделяем множество на две группы:
  • Так мы и получили два шара: .

Поиск соседей[]

Поиск соседей производится полностью аналогично случаю kd-деревьев. В виде предикатов выступает факт попадания в тот или иной шар рассматримваемого объекта .

Расстояние от точки до шара[]

Вспомним неравенство треугольника:

Из этого следует, что

(по определению радиуса шара). Таким образом, в качестве расстояния до шара мы берём .


Todo.png

Добавить про кластеризацию и LSH (это есть в слайдах Китова про оптимизацию kNN). Что-то ещё было у Соколова, потом посмотрю.

Источники[]

Лекции Китова, начиная с 8-го слайда

Advertisement