Как мы видим на рис. 6.2, разбиение 1 разделило данные на Х2 = 60, а разбиение 2 – на X1 = 20 и т. д. Алгоритм сгруппировал наши точки данных в листья, что добавляет ценность классификации, и он остановится на оптимальном количестве листьев. Это оптимальное число достигается, когда дальнейшее разбиение данных делает результат листьев статистически незначимым.
Построение алгоритма классификации дерева решений
На рис. 6.2 мы можем проследить логику того, как создается алгоритм дерева решений:
1. Разбиение 1 делит точки данных на те, которые находятся выше и ниже 60 (часов) на оси X2.
2. Для тех точек, которые оказываются выше 60 (часов) на оси X2, разбиение 2 проводит дальнейшее деление для точек данных на те, которые попадают выше и ниже 20 (лет) на оси X1. Это означает, что разбиение 2 делит только данные, находящиеся выше 60 (часов) на оси X2.
3. Разбиение 3 обращается к точкам данных, которые проигнорировало разбиение 2, разделив те, что оказались ниже 60 (часов) на оси X2. На этот раз разбиение делит точки данных, которые оказываются выше и ниже 30 (лет) на оси X1.
4. Разбиение 4 делит точки данных, находящиеся до 60 (часов) по оси Х2 (как разделено с помощью разбиения 1), и те, кому за 30 (лет) по оси Х1 (как разделено с помощью разбиения 3). На этот раз разбиение делит точки данных, которые оказываются выше и ниже 20 (часов) на оси X2.
Мы можем перевести описанный процесс в схему на рис. 6.3[43].
Чем этот алгоритм полезен для нас? Предположим, что нашему новому клиенту 19 лет и за первый месяц он потратил 65 часов игрового времени (X1 = 19 и X2 = 65). На графике рассеяния, который был разделен нашими разбиениями на листья, мы можем видеть, чему будет соответствовать эта точка данных. Наш алгоритм уже обнаружил, что статистически значимое число людей в возрасте до 20 лет, которые играют более 60 часов, с высокой степенью вероятности станут постоянными пользователями, а это значит, что мы можем нацелить на этого клиента рекламу, которая побудит его или ее заплатить за подписку.
Алгоритм случайного леса основывается на концепции деревьев решений с использованием ансамблевого метода классификации. Вместо одного дерева случайный лес использует много разных деревьев, чтобы сделать один и тот же прогноз, принимая среднее значение результатов отдельных деревьев.
Способность ансамблевых методов к интуитивному мышлению
Вот мой любимый пример ансамблевого метода, который должен сделать концепцию более интуитивно понятной. Вы когда-нибудь участвовали в конкурсе, в котором нужно определить количество конфет внутри стеклянной банки? Тот, чья догадка окажется ближе всего к правильному ответу, выигрывает приз