Работа с данными в любой сфере (Еременко) - страница 81

.

В то время как некоторые из деревьев могут быть недостаточно эффективны (в зависимости от поставленной бизнес-задачи), мы можем применить силу толпы; когда деревья решений используются в совокупности, они могут давать гораздо более обоснованные прогнозы. Подумайте об этом как о процессе голосования – каждое решающее дерево проголосует (сделает прогноз), а затем алгоритм случайного леса возьмет вариант с наибольшим количеством голосов в качестве результата. Демократия среди деревьев!

Это делает оригинальный алгоритм намного более мощным. Вместо одного дерева решений для всего массива данных случайный лес создает несколько деревьев решений. Чтобы сделать такие деревья уникальными, их создают из различных подмножеств массива данных.

Давайте исследуем случайный лес чуть подробнее, на примере конкретного случая.

Кейс: BCG – поиск лучших локаций для новых отделений банка

Алгоритмы случайного леса идеально подходят для задач, требующих более комплексной оценки наших данных, чем та, что может быть получена с помощью алгоритма дерева решений. Например, если бы мы хотели оценить потенциал банка, открывающего филиал в конкретном районе, на основе набора переменных, то мы использовали бы алгоритм случайного леса.

Я живу в Австралии, и, когда хочу зарегистрироваться в новом банке, моим главным приоритетом является удобство. Я хочу, чтобы филиал находился рядом с моим домом, офисом и местом, где я делаю покупки. Если у банка также есть большое количество филиалов рядом с пляжем, еще лучше. Нет ничего хуже, чем ездить на другой конец города, чтобы поговорить с консультантом или обналичить чек.

Банки знают, что удобство – один из основных факторов, влияющих на принятие решений потенциальным клиентом, но они также хотят, чтобы их вновь открытые филиалы были экономически эффективными. Артему Владимирову, ведущему аналитическому консультанту Бостонской консалтинговой группы (BCG), было поручено решить эту проблему для банка – клиента BCG, который хотел развивать свои отделения по всей Австралии.

Сначала Артем проанализировал демографические данные банка, чтобы выяснить количество его клиентов в каждом из районов Австралии. Он увидел, что, поскольку филиалы банка распределены по стране неравномерно, у него нет данных по некоторым австралийским округам. Для того чтобы составить прогнозы по этим местностям, Артему пришлось провести сравнительный анализ данных районов, которые были как «известны», так и «неизвестны» банку, с помощью общедоступной информации о результатах переписи. Применяя такие демографические данные, как средний возраст, гендерная принадлежность, уровень образования и стоимость жизни, Артем смог получить недостающие сведения. Такое использование данных позволило ему рассчитывать на потенциальный успех создания филиалов в новых местах, имевших характеристики, сходные с характеристиками аналогичных районов, которые уже доказали свою выгодность.