Работа с данными в любой сфере (Еременко) - страница 85

Представить или визуализировать точечную диаграмму 4D практически невозможно, но хорошая новость в том, что k-NN будет работать независимо от этого, поскольку алгоритм основан на подобии, зависящем от расстояния, – и формула, которую мы ввели для расстояния, может быть переписана для любого количества измерений. Просто будет больше элементов под квадратным корнем.

Тестирование

Как бы ни был хорош k-NN для создания точных прогнозов, важно отметить, что результаты применения этого метода не всегда будут правильными. Это совершенно нормально – всегда будет несколько неверных прогнозов и ни один алгоритм не сможет всегда давать правильные ответы. Ключ к созданию хорошей модели состоит в том, чтобы проверить ее несколько раз, изменяя функции (в нашем случае – значение k), пока вы не найдете лучшее решение для своей задачи.

Плюсы и минусы использования алгоритма k-NN

Алгоритм k-NN часто является правильным выбором, потому что он интуитивно понятен и, в отличие от наивного байесовского классификатора, как мы увидим ниже, не разрешает допущения о данных. Однако основным недостатком k-NN является то, что вычисление занимает очень много времени. Необходимость вычислять расстояние до каждой точки в массиве данных чревата тем, что чем больше у вас точек, тем медленнее k-NN будет работать.

Наивный байесовский классификатор

Наивный байесовский классификатор назван в честь теоремы Байеса, которая позволяет математикам выражать вероятность событий таким образом, что любые вновь открытые доказательства могут быть легко включены в алгоритм для динамического обновления значения вероятности. Это увлекательный алгоритм, потому что он позволяет видеть сквозь созданную нашим разумом иллюзию и проливает свет на реальное положение дел.

Чтобы лучше понять наивный байесовский классификатор, мы должны сначала взглянуть на теорему Байеса и ее уравнение. Как только мы разберем эти понятия, переход от теоремы к алгоритму классификации пройдет гладко.

Полицейские проверки и теорема Байеса

Вас когда-нибудь останавливал сотрудник полиции для проверки на алкоголь? Это распространено в Австралии в пятницу и субботу вечером, когда люди возвращаются домой с вечеринок, – австралийская полиция известна привычкой оцепить главную дорогу в самом оживленном месте. Любой, кто едет по этой дороге, независимо от манеры вождения должен остановиться для проверки уровня алкоголя в крови. Это быстрый процесс, так как вам даже не нужно выходить из автомобиля, и он помогает сотрудникам полиции убрать пьяных водителей с улиц. Мы собираемся использовать этот пример, чтобы лучше понять теорему Байеса.