Использование наивного байесовского классификатора
К нам обратился винодел из Калифорнии. Погода на Западном побережье тогда установилась капризная, и винодел опасался за качество будущего вина. Ему нужна была помощь в прогнозировании шансов его продукции возглавить региональный список лучших вин урожая того года.
Можно сказать, для нашего винодела многое было поставлено на карту. Хорошая новость состояла в том, что у него имелись некоторые данные для нас!
Винодел обнаружил, что на протяжении многих лет две независимые переменные – продолжительность солнечного сияния и количество осадков – оказывают положительное влияние на виноградные лозы и, соответственно, на вкус его вин, а значит, повышают шансы на успех. С тех пор ему удалось усовершенствовать процесс выращивания винограда и тем самым улучшить качество своей продукции.
Основываясь на своих предыдущих победах и поражениях, винодел разделил имеющиеся у него данные на две категории: «победитель» и «проигравший». Мы можем визуально представить их так (рис. 6.6):
Здесь значение по оси x – миллиметры осадков, а значение по оси y – часы солнечного сияния. Белая категория – «проигравший», а серая – «победитель». Теперь мы можем помочь виноделу проанализировать шансы на успех вина из урожая этого года, основываясь на количестве осадков и продолжительности солнечного сияния. Предположим, что в период созревания конкретного урожая выпало 601,98 мм осадков и что на это время пришлось 3543 часа солнечного сияния. Используя эту информацию, мы можем построить график рассеяния для урожая этого года, и наивный классификатор Байеса поможет нам определить, в какую категорию попадет урожай этого года (рис. 6.7).
Построение наивного байесовского классификатора
Наивный байесовский классификатор использует переменные нашей точки данных, чтобы отнести ее к наиболее подходящему классу. Вот как это работает.
Шаг 1: установите априорную вероятность. Здесь мы хотим узнать вероятность того, что отдельная точка данных принадлежит к категории из нашего тренировочного набора. Учитывая размер выборки и количество проигравших и выигравших вин, какова вероятность того, что новое вино попадет в категорию победителей?