Для решения задач банка Артем использовал алгоритм случайного леса:
«Мы взяли всю клиентскую базу из записей данных банка и использовали статистическую модель случайного леса для определения корреляции между рентабельностью клиентов и их демографическими показателями. Прогнозы были сделаны для районов, где у банка уже имелись клиенты, поэтому нам нужно было только перепроверить, будет ли район прибыльным, сопоставив демографические данные».
(SuperDataScience, 2016)
Определив районы, значимые для банка, Артем составил профиль конкурентов компании и количество их филиалов в этих местностях, снова используя случайный лес для определения доли рынка, которую банк занимал по отношению к конкурентам.
Благодаря применению алгоритма случайного леса Артему не нужно было подробно объяснять, какие демографические данные внесли свой вклад в окончательные показатели, это помогло ему обойти проблему защиты персональных данных и показать банку, какие именно области будут наиболее рентабельными для него.
Построение классификации случайного леса
1. Выберите количество деревьев, которые хотите создать. Для многих программ параметр по умолчанию – десять деревьев. Число, которое вы в конечном итоге выберете, будет зависеть от контекста. Меньшее количество деревьев может обусловить менее точные прогнозы. И наоборот, в большинстве случаев можно использовать любое количество деревьев, поэтому нет необходимости беспокоиться о чрезмерно близкой подгонке алгоритма к данным.
2. Установите классификатор в тренировочный набор. Внедрение классификатора случайного леса в тренировочный набор поможет вам в будущем научиться составлять прогнозы для новых точек данных. Затем мы можем сравнить эти прогнозы с фактическими результатами в нашем массиве данных, чтобы увидеть, насколько точен классификатор.
Алгоритм случайного леса случайно выберет N подмножеств из вашего массива данных, где N – количество деревьев, указанное для параметра в шаге 1. Эти подмножества могут перекрываться; однако никакие два множества не будут идентичными.
После выбора подмножеств каждое из них будет использоваться в качестве исходного массива данных для построения уникального дерева классификации. Таким образом, каждое дерево классификации видит только свое подмножество данных и не имеет представления о том, что фактический массив данных шире. Подобный подход обеспечивает разнообразие при генерации деревьев – именно отсюда в алгоритме случайного леса возникает «сила толпы».
Исходя из этой логики, чтобы помочь алгоритму делать более точные прогнозы, мы можем просто добавить информацию в наш массив данных – чем больше данных в нашем тренировочном наборе, тем более точным будет прогноз алгоритма.