Работа с данными в любой сфере (Еременко) - страница 78

Предположим, авиакомпания обратилась к нам с просьбой узнать, продолжат ли клиенты пользоваться ее услугами или нет (будет ли так называемый «отток клиентов»). Поскольку компания собрала данные об ответах клиентов и их перемещениях (частота полетов, пункт назначения, класс судна, использование услуг на борту, запросы на перевозку багажа), мы можем использовать эти переменные для определения поведения, которое в наибольшей степени свидетельствует о намерении клиента отказаться от услуг авиакомпании. В этом случае мы попытаемся использовать упомянутые факторы, чтобы разделить клиентов на две группы: группа 1 включает тех, кто может прекратить пользоваться услугами авиакомпании, в то время как в группу 2 войдут клиенты, которые, вероятно, продолжат летать самолетами этой авиакомпании. По этой причине мы будем использовать классификацию, потому что распределяем (классифицируем) клиентов по двум группам.

И классификация – это то, с чего мы начнем.

Классификация

Если еще до проведения анализа мы будем знать, в какие группы попадут наши данные, то тогда лучше пойти по пути классификации, а не кластеризации. В приведенном выше примере клиентов можно рассматривать через записанные о них данные – их обычные маршруты полета, их возможности по тратам, уровень членства в программе для часто летающих клиентов и даже предпочтения мест в салоне. Эти описательные функции могут показаться обширными, но они всего лишь инструменты. Основная цель состоит в том, чтобы классифицировать клиентов так, чтобы они оказались только в одной из двух групп – на данный момент компания не заинтересована в поиске чего-либо еще.

При таком анализе важно также иметь предварительные данные, с помощью которых мы можем следить за характеристиками, которые нас интересуют. Это единственный способ создания алгоритма классификации, то есть используя уже имеющиеся примеры.

Следующие алгоритмы классификации расположены в порядке возрастания сложности. Начнем с дерева решений, так как многие читатели уже знакомы со структурными схемами. Такие схемы используют один и тот же принцип последовательного разделения информации на части, прежде чем представить участнику окончательный ответ. Регрессия по методу случайного леса – это просто расширение алгоритма построения деревьев решений, поскольку в ней используется несколько решающих деревьев для отдельных компонентов массива данных, чтобы обеспечить более точные результаты. Как метод k-ближайших соседей, так и наивные байесовские алгоритмы классифицируют точки данных по группам в соответствии с их относительным расстоянием друг от друга, измеряемым переменными каждой записи. Разница между ними станет очевидной в отдельных разделах. Заканчиваем наш обзор классификации логистической регрессией, которая является алгоритмом, используемым,