.
2. Измерьте (евклидово) расстояние между новой точкой данных и всеми существующими точками. Раз мы сказали, что k равно 5, то нам нужно определить пять соседей, ближайших к нашей точке данных. Для этого мы должны сначала измерить расстояние от нашей новой точки данных до всех точек, которые у нас уже есть.
В науке о данных расстояние может быть измерено несколькими способами. Обычно используется наиболее естественное расстояние – евклидово, то, что многие из нас изучали в школе. Евклидово расстояние – это длина отрезка прямой между двумя точками. Она измеряется путем нахождения разности в координатах двух точек для каждой оси (например, X2‒X1), затем их возведения в квадрат, суммирования результирующих значений и наконец извлечения квадратного корня.
Например, если P1 – наша первая точка данных, а P2 – вторая, как показано на графике (рис. 6.4), то евклидово расстояние будет измеряться по формуле:
Вы, наверное, помните теорему Пифагора из школьной программы, и это точно такой же принцип. Две точки на этом графике являются двумя вершинами прямоугольного треугольника. Гипотенузу можно найти, сначала определив квадрат ее длины: для этого сложите квадраты двух других сторон.
3. Подсчитайте количество точек данных в каждой категории. После того как вы нашли евклидово расстояние между новой точкой данных и каждой из старых точек данных, вы должны ранжировать эти расстояния в порядке возрастания. На данном этапе будет легко определить k-ближайших соседей – это просто первые пять пунктов в вашем списке. Визуально мы можем обвести ближайшие точки данных следующим образом (рис. 6.5):
4. Отнесите точку данных к категории с наибольшим количеством соседей. Мы видим, что для нашей новой точки данных есть три ближайших соседа в категории 1 – страдающих диабетом и только два ближайших соседа в категории 2 – здоровых. Поскольку в категории 1 больше близких соседей, мы отнесем новую точку данных к этой же категории, что означает, что этот конкретный пациент, учитывая его вес и количество выполняемых физических упражнений, подвержен риску развития диабета второго типа. Так мы классифицировали новую точку, модель готова[47].
Многомерные пространства
Что происходит, если у нас более двух переменных для описания точек данных? Что, если в дополнение к весу и количеству физических упражнений у нас также была бы информация о возрасте пациентов и их среднем ежедневном потреблении калорий? Поскольку у нас есть несколько переменных, мы уже не можем рисовать двумерную диаграмму рассеяния. Вместо этого нам нужна четырехмерная диаграмма.