Работа с данными в любой сфере (Еременко) - страница 89

Почему он наивный?

Наивный байесовский классификатор основан на сильном, наивном допущении независимости признаков: все характеристики массива данных не зависят друг от друга. На самом деле было бы наивным так полагать, поскольку для многих массивов данных может быть выявлен уровень корреляции содержащихся в них независимых переменных. Несмотря на это наивное предположение, наивный алгоритм Байеса хорошо зарекомендовал себя во многих сложных приложениях, таких как программа для обнаружения спама в электронной почте.

Использование наивного байесовского классификатора

К нам обратился винодел из Калифорнии. Погода на Западном побережье тогда установилась капризная, и винодел опасался за качество будущего вина. Ему нужна была помощь в прогнозировании шансов его продукции возглавить региональный список лучших вин урожая того года.

Можно сказать, для нашего винодела многое было поставлено на карту. Хорошая новость состояла в том, что у него имелись некоторые данные для нас!

Винодел обнаружил, что на протяжении многих лет две независимые переменные – продолжительность солнечного сияния и количество осадков – оказывают положительное влияние на виноградные лозы и, соответственно, на вкус его вин, а значит, повышают шансы на успех. С тех пор ему удалось усовершенствовать процесс выращивания винограда и тем самым улучшить качество своей продукции.

Основываясь на своих предыдущих победах и поражениях, винодел разделил имеющиеся у него данные на две категории: «победитель» и «проигравший». Мы можем визуально представить их так (рис. 6.6):



Здесь значение по оси x – миллиметры осадков, а значение по оси y – часы солнечного сияния. Белая категория – «проигравший», а серая – «победитель». Теперь мы можем помочь виноделу проанализировать шансы на успех вина из урожая этого года, основываясь на количестве осадков и продолжительности солнечного сияния. Предположим, что в период созревания конкретного урожая выпало 601,98 мм осадков и что на это время пришлось 3543 часа солнечного сияния. Используя эту информацию, мы можем построить график рассеяния для урожая этого года, и наивный классификатор Байеса поможет нам определить, в какую категорию попадет урожай этого года (рис. 6.7).

Построение наивного байесовского классификатора

Наивный байесовский классификатор использует переменные нашей точки данных, чтобы отнести ее к наиболее подходящему классу. Вот как это работает.



Шаг 1: установите априорную вероятность. Здесь мы хотим узнать вероятность того, что отдельная точка данных принадлежит к категории из нашего тренировочного набора. Учитывая размер выборки и количество проигравших и выигравших вин, какова вероятность того, что новое вино попадет в категорию победителей?