Машинное обучение вики
Advertisement


Билет 1[]

Методы многоклассовой классификации бинарными классификаторами --- подходы один против всех, каждый против каждого и подход на кодах, исправляющих ошибки.

Билет 2[]

Вывод разложения среднеквадратичной ошибки на смещение и дисперсию. Интуиция. При каких параметрах основных прогнозирующих алгоритмах в их прогнозах преобладает фактор дисперсии, а при каких --- смещения?

Билет 3[]

Фиксированные схемы построения ансамблей, стэкинг моделей. Алгоритмы бэггинга, случайных подпространств, случайного леса и ExtraRandomTrees.

Билет 4[]

Алгоритм градиентного бустинга, его усовершенствование для деревьев в качестве базовых алгоритмов. Shrinkage, subsampling. Особенности шага бустинга для аппроксимации рядом Тейлора 2-го порядка.

Билет 5[]

Вывод алгоритма xgBoost. Чем он превосходит градиентный бустинг?

Билет 6[]

Отбор признаков по корреляции, взаимной информации и relief-критерию.

Билет 7[]

Алгоритм последовательного отбора признаков и его модификации. Алгоритм генетического отбора признаков.

Билет 8[]

Неравенство Иенсена. Когда оно обращается в равенство? Неотрицательность расстояния Кульбака -Лейблера (с док-вом). 3 эквивалентных критерия выпуклости и строгой выпуклости для дважды дифференцируемых функций (без док-ва).

Билет 9[]

Вывод ЕМ-алгоритма в общем случае. Почему он приводит к монотонному неубыванию ф-ции правдоподобия. Что меняется в случае регуляризации и МАР оценки?

Билет 10[]

Вывод ЕМ-алгоритма для моделирования смесями нормальных распределений. Упрощения ковариационной матрицы. Связь с методом К-средних.

Билет 11[]

Вывод ЕМ-алгоритма для тематической модели pLSA. Генеративный процесс порождения коллекции тематической моделью LDA.

Билет 12[]

Кластеризация методом К-средних и К-медоид. Их вычислительная сложность. Иерархическая кластеризация сверху вних.

Билет 13[]

Аггломеративная кластеризация. Его сложность. Расстояния ближайшего соседа, дальнего соседа и усредненное расстояние. Пересчет матрицы попарных расстояний для каждого типа расстояния.

Билет 14[]

Алгоритм сеточной кластеризации и DB-scan.

Билет 15[]

Кластеризация по точкам максимума плотности и метод DENCLUE.

Лекции Китова, стр 65-71

Билет 16[]

Алгоритм спектральной кластеризации. Лапласиан, его неотрицательная определенность.

Лекции Китова, стр 73-конец

Билет 17[]

Оценка качества кластеризации - коэффициент силуэта и индекс Калинского.

Прямая ссылка: Лекции Китова

Билет 18[]

Анализ кластеризуемости данных по энтропии расстояния и статистике Хопкинса. Методы отбора признаков для кластеризации.

Билет 19[]

Многослойный персептрон. Основные ф-ции активации. Активации выходного слоя для задач регрессии и классификации. Идея аппроксимации нейросетями произвольных границ между классами и произвольных гладких функций.

Прямая ссылка: Лекции Китова, до 30 страницы.

Билет 20[]

Алгоритм обратного распространения ошибки (backpropagation algorithm)

Прямая ссылка: Лекции Китова

Билет 21[]

Нелинейное снижение размерности: многомерное шкалирование, Isomap, Maximum variance unfolding.

Билет 22[]

Нелинейное снижение размерности: диффузионные карты, автокодировщик.

Билет 23[]

Нелинейное снижение размерности: локально-линейное вложение (LLE), Laplacian eigenmaps.

Билет 24[]

Baseline-алгоритм для коллаборативной фильтрации. Алгоритмы user-user и item-item. Какой из них применим в онлайн режиме?

Baseline: Лекции Китова, user-user: Лекции Китова, item-item: Лекции Китова.

Билет 25[]

Алгоритм разреженного сингулярного разложения для коллаборативной фильтрации.

Advertisement