Если еще до проведения анализа мы будем знать, в какие группы попадут наши данные, то тогда лучше пойти по пути классификации, а не кластеризации. В приведенном выше примере клиентов можно рассматривать через записанные о них данные – их обычные маршруты полета, их возможности по тратам, уровень членства в программе для часто летающих клиентов и даже предпочтения мест в салоне. Эти описательные функции могут показаться обширными, но они всего лишь инструменты. Основная цель состоит в том, чтобы классифицировать клиентов так, чтобы они оказались только в одной из двух групп – на данный момент компания не заинтересована в поиске чего-либо еще.
При таком анализе важно также иметь предварительные данные, с помощью которых мы можем следить за характеристиками, которые нас интересуют. Это единственный способ создания алгоритма классификации, то есть используя уже имеющиеся примеры.
Следующие алгоритмы классификации расположены в порядке возрастания сложности. Начнем с дерева решений, так как многие читатели уже знакомы со структурными схемами. Такие схемы используют один и тот же принцип последовательного разделения информации на части, прежде чем представить участнику окончательный ответ. Регрессия по методу случайного леса – это просто расширение алгоритма построения деревьев решений, поскольку в ней используется несколько решающих деревьев для отдельных компонентов массива данных, чтобы обеспечить более точные результаты. Как метод k-ближайших соседей, так и наивные байесовские алгоритмы классифицируют точки данных по группам в соответствии с их относительным расстоянием друг от друга, измеряемым переменными каждой записи. Разница между ними станет очевидной в отдельных разделах. Заканчиваем наш обзор классификации логистической регрессией, которая является алгоритмом, используемым,