Работа с данными в любой сфере (Еременко) - страница 95

Затем мы проецируем эти значения влево, чтобы определить вероятность (рис. 6.18). Это означает проведение линии, параллельной оси x, от установленного значения до тех пор, пока она не достигнет оси



Шаг 4: найти вероятность для каждого значения. Допустим (чисто гипотетически), что мы получили следующие результаты:



Шаг 5 (необязательно): установите ограничения. Итак, мы знаем, как получить вероятность

для любой новой точки данных. Но как мы можем получить значение «да»/«нет»?

Хотя мы никогда не сможем быть абсолютно уверены в том, что произойдет, мы можем получить предсказанное значение для нашего фактического y (этот прогноз обычно обозначается ŷ) из нашей логистической регрессии.

Определить ŷ очень просто: выберите произвольный уровень на оси y между 0 и 1. Вы можете провести эту линию выше или ниже в зависимости от того, как много знаете о проблеме. Например, если вы продаете нишевый продукт, то, скорее всего, его купит меньше людей, поэтому вы можете провести линию повыше, чтобы включить меньшее число потенциальных покупателей. Для этого примера давайте проведем линию прямо посередине, на 0,5 – это тоже самый распространенный подход (рис. 6.19).



Часть регрессии, которая находится ниже линии, установленной на уровне 0,5 (50 %-ная вероятность), будет спроецирована на линию 0, чтобы дать ŷ = 0. Это означает, что если предсказанная вероятность открытия нашей электронной почты упадет ниже 50 %, то мы можем предположить, что клиент, о котором идет речь, вероятно, не откроет наше электронное письмо. Все, что выше горизонтальной линии 0,5, будет проецироваться на линию 1, чтобы дать ŷ = 1.

Логистическая регрессия подходит для:

1. Анализа вероятности заинтересованности клиента в вашем продукте;

2. Оценки реакции клиентов на основе их демографических данных;

3. Определения того, какая переменная является наиболее статистически значимой, то есть какая переменная оказывает самое большое влияние на зависимую переменную, значение которой мы хотим предсказать. Например, логистическая регрессия может помочь нам определить, является ли статистика использования интернет-банкинга в течение последних шести месяцев более сильным предиктором оттока клиентов, чем сумма имеющихся у них сбережений.

Кластеризация

До сих пор мы говорили о классификации – о ситуации, когда мы всегда заранее знаем категории, в которые хотим сгруппировать или классифицировать новые точки данных. Теперь мы переходим к кластеризации, представляющей собой совершенно другое семейство алгоритмов.

Если вы не знаете, какими могут оказаться группы в результате анализа, следует использовать метод кластеризации. Методы кластеризации определенно сложнее, чем методы классификации, поскольку мы приступаем к решению задачи, не ведая, какие группы найдем.