, а независимая переменная – на оси
x (рис. 6.10).
При простой линейной регрессии, которую мы здесь наблюдаем, через наши данные проводится линия, и таким образом моделируются наши наблюдения. Это значит, что если мы будем знать опыт человека, то сможем спрогнозировать его зарплату. В то время как это хорошо работает для точечных диаграмм, где оси x и y содержат много значений, сложнее увидеть преимущества линейной регрессии для оси y только с двумя возможными значениями: 0 и 1. Это часто происходит, когда мы имеем дело с данными «да/нет», собранными из вопросов, на которые может быть дан один ответ из двух возможных. Вопросы типа «Вы купили этот продукт?», «Вы будете еще делать у нас покупки?» и «Есть ли у вас домашнее животное?» попадают в эту категорию, потому что требуют одного из двух ответов.
Ответы «да»/«нет»
Ответы «да»/«нет» являются категориальными переменными, то есть переменными с фиксированным числом ответов.
Работа с категориальными переменными. Можно ли найти регрессию для категориальных переменных? Да, можно. Давайте используем другой пример, чтобы проиллюстрировать это. Допустим, после e-mail-рассылки нашим клиентам мы хотим проанализировать уровень открываемости писем. На графике (рис. 6.11) я показал, клиенты какого возраста открывают или не открывают наше электронное письмо. Значения «да»/«нет» были преобразованы в 1 и 0 соответственно.
На этом этапе мы можем задаться вопросом: что можно сделать со всем этим пространством между двумя значениями по оси y? Как провести линию регрессии через график, который не показывает градиента изменений?
Но если мы посмотрим внимательнее, то увидим, что между значениями происходят постепенные изменения. На оси y значение 0 отклоняется влево по оси x, в то время как на оси y значение 1 больше отклоняется вправо по оси x. Это означает, что рассылка была хорошо принята пожилыми людьми. По мере увеличения значений на оси x (то есть с повышением возраста) рос стимул просмотреть наш e-mail. Это важный вывод, и теперь мы можем начать делать некоторые предположения о действиях, которые может предпринять человек определенного возраста.
Ось у нашего графика содержит значения 0 и 1. Мы также должны знать, что вероятности всегда имеют значения между 0 и 1. Таким образом, похоже, что линейная регрессия, которая проходит через интервал между этими значениями, даст нам информацию о вероятности того, откроет ли пользователь того или иного возраста наше электронное письмо (рис. 6.12).
Сглаживание линии регрессии. Вы, возможно, заметили, что линия регрессии проходит по краям нашего графика. Это неидеально для вероятностей, так как они никогда не могут быть меньше 0 или больше 1, но могут быть только между двумя этими значениями.