Работа с данными в любой сфере (Еременко) - страница 94

Поэтому мы должны сократить части прямой, которые пересекают два значения 0 и 1. Как только линия линейной регрессии достигнет 0 или 1, она должна остаться на прямой и не продолжаться ниже или выше ее. Убедившись в этом, мы можем все так же использовать линию для создания предположений и быть уверенными, что наши результаты будут по-прежнему находиться в пределах вероятности. Первое, что нужно сделать, – обрезать несоответствующие части нашей линии (рис. 6.13):



Это хорошее начало, но есть более научный подход.

Математическая разработка логистической регрессии. График линейной регрессии может быть описан простым уравнением:

y = b0 + b1х.

Мы можем получить формулу логистической регрессии, если объединим приведенную выше формулу с так называемой сигмоидной функцией[51] (функцией, график которой имеет форму S-образной кривой):



После того как мы решим сигмоидную функцию для y и повторно вставим результат в первую формулу, мы получим:



Эта формула преобразует наш график из прямой линии регрессии в функцию логистической регрессии (рис. 6.14):



Шаг 1: разберемся с элементами графика. Разобьем наш график на основные элементы (рис. 6.15):



Здесь ось x содержит независимую переменную, а ось y – зависимую с результатом «да»/«нет». Точки на графике – результаты, взятые из нашего массива данных.


Шаг 2: создание графика наклона для логистической регрессии. Мы сделаем это, подставив массив данных в формулу логистической регрессии и находя наиболее подходящие коэффициенты b0 и b1:



Это приводит к следующей кривой (рис. 6.16):



Эта кривая является наиболее подходящим графиком логистической регрессии для наших массивов данных. Как только мы проведем эту линию, можно стереть наблюдения из нашего графика, чтобы сосредоточиться на самой линии (рис. 6.17).



Обратите внимание, как изменилось обозначение оси y. Это потому, что мы можем использовать логистическую регрессию для прогнозирования вероятностей или правдоподобия того, что что-то произойдет. (На следующих страницах вы увидите символ ^, например

 – он означает предсказанные вероятности и называется крышечкой:
 – это p с крышечкой.)


Шаг 3: используйте график, чтобы сделать прогнозы для новых данных. Давайте вернемся к нашему примеру и предположим, что мы хотим определить вероятность открытия электронного письма людьми в возрасте 20, 30, 40 и 50 лет, учитывая, что у нас уже есть график логистической регрессии. Сначала мы спроецируем эти возрастные значения на кривую: проведем линии, параллельные оси

от каждой соответствующей точки на оси x до тех пор, пока они не достигнут линии регрессии. Это будут подходящие значения.