когда мы хотим оценить вероятность того, что событие произойдет.
Когда вы читаете про эти алгоритмы, имейте в виду мой первоначальный совет учиться, используя интуицию: сосредоточьтесь на понимании цели каждого алгоритма и попытайтесь увидеть предназначение предпринимаемых шагов. Потратьте время, чтобы переварить каждый из них, – это действительно поможет в данном случае выиграть гонку.
Дерево решений можно визуализировать в виде блок-схемы. Алгоритм тестирует отдельные атрибуты в массиве данных, чтобы определить возможные результаты, и продолжает добавлять результаты по мере выполнения дальнейших тестов, останавливаясь только тогда, когда все результаты исчерпаны.
Листья этих деревьев дают нам все возможные ответы на все вопросы, которые мы можем задать нашим данным. Мы все порой отвечаем на вопросы журнального теста, когда надо отметить «да» или «нет», чтобы узнать свой тип личности, Леонард вы или Шелдон из «Теории Большого взрыва» или как вы действительно относитесь к йогурту. В этих случаях вопросы – ветви, а результаты – листья.
В мире бизнеса деревья решений можно использовать, скажем, для классификации групп клиентов. Вспомните пример Ubisoft из главы 5: если бы команда разработчиков игр собрала информацию о потенциальном новом подписчике, они могли бы использовать дерево решений для проверки того, сможет ли он стать участником, на основе массива данных компании о текущих подписчиках. Алгоритм построения дерева решений делит данные об играх компании на листья, которые отражают четкие различия между такими значениями, как время, проведенное за игрой, и возраст, и соотнесет новые данные с одним из результатов, которые мы определили заранее, – в данном случае с «выгодным» для компании и «невыгодным».
Как работают деревья решений
Давайте исследуем эту проблему. Поскольку у нас есть информация о среднем времени игры наших геймеров и их возрасте, мы можем использовать классификацию с помощью дерева решений, чтобы принять относительно их обоснованное решение. Это означает, что в первую очередь нам необходимо иметь следующие данные о текущих подписчиках нашей игровой компании: общее время, проведенное за играми за последний месяц, и возраст[42].
Мы создали точечную диаграмму (рис. 6.1) с большим количеством точек данных на основе возраста (X1) и времени, проведенного за игрой в часах (X2).
Серые точки обозначают пользователей, которые не стали подписчиками; черные – подписавшихся. Если бы мы запустили классификационный алгоритм дерева решений, точечная диаграмма была бы разбита на листья, как определено алгоритмом.