Работа с данными в любой сфере (Еременко) - страница 92

Вы заметили, что этот вывод концептуально отличается от результата использования алгоритма k-NN?

Если бы мы применили k-NN к этому примеру, то получили бы однозначный ответ: вино из винограда нового урожая было бы объявлено либо победителем, либо проигравшим.

Черно-белое решение k-NN не дает иных возможностей, потому что, в отличие от наивного байесовского классификатора, принадлежит к семейству детерминированных алгоритмов классификации.

Детерминированные модели, такие как k-NN, относят полученные данные к одному конкретному классу, в то время как вероятностные модели, такие как наивный байесовский классификатор, предсказывают распределение вероятностей по всем классам. Затем это распределение можно использовать, чтобы отнести данные к классу.

Когда вы будете изучать следующий раздел об алгоритме логистической регрессии, спросите себя: является ли этот алгоритм детерминированным или вероятностным классификатором? Я скажу, правы ли вы, в конце раздела.

Логистическая регрессия

Несмотря на название, логистическая регрессия на самом деле не является алгоритмом регрессии; это тип метода классификации. Он использует наши данные, чтобы предсказать шансы на успех в таких сферах, как, скажем, продажа продукта определенной группе людей, определение ключевых демографических показателей для просмотра вашей электронной почты, или во многих других областях, не связанных с бизнесом, – например, в медицине, когда на основе возраста, пола и результатов анализа крови пациента пытаются предсказать, будет ли тот страдать ишемической болезнью сердца.

Но сначала мы должны вернуться назад. Для начала очень важно понять принципы линейной регрессии, в которую уходит корнями логистическая регрессия. Существует два типа линейной регрессии, о которых мы должны знать:

1. Простая линейная регрессия позволяет проанализировать связь между одной зависимой и одной независимой переменными. Это особенно полезно для анализа того, как одна переменная реагирует на другую, например когда мы рассматриваем изменение уровня преступности на фоне динамики ВВП страны.

2. Множественная линейная регрессия дает возможность проанализировать связь между одной зависимой и двумя или более независимыми переменными. Она лучше всего подходит для анализа более сложных массивов данных и может быть использована в целях изучения, например, того, каковы наилучшие предикторы (возраст, черты личности или социальная вовлеченность) уровней тревоги, испытываемой при смене жилья.

Как работает линейная регрессия

Ниже приведен пример линейной регрессионной модели на точечной диаграмме, которая показывает заработную плату респондентов и годы их стажа. Наша зависимая переменная – на оси