В этот момент нам нужно предположить, что мы ничего не знаем об урожае – нам неизвестно, сколько времени виноград провел на солнце и сколько выпало дождей. Так что лучшее, что мы можем сделать, – это взять количество победителей из наших предыдущих (априорных) данных (отсюда и название: априорная вероятность) и разделить его на общее число точек данных:
P (победитель) = Количество победителей / Общее количество наблюдений = 20/30, или 0,667.
Шаг 2: вычислите предельное правдоподобие. Предельное правдоподобие относится к вероятности того, что новая точка данных находится в непосредственной близости от области, куда фактически попадает рассматриваемый вариант. Обычно или необычно для урожаев получать такое же количество солнечного света и осадков, как получил наш урожай? Это условие подобия представляет собой область вокруг нашей точки данных, которая будет выглядеть примерно так на диаграмме рассеяния[49] (рис. 6.8).
Радиус круга мы выбираем произвольно; это параметр, который мы можем настраивать, чтобы влиять на эффективность алгоритма.
Таким образом, точки данных, содержащиеся в пределах нашей окружности, считаются одинаковыми. Эти вина сделаны из винограда, получившего примерно такое же количество солнечного света и воды, что и наш сегодняшний урожай. Допустим, что наш круг включает четыре точки данных. Чтобы найти вероятность того, что новая точка данных (X) попадет в круг, нам нужна следующая формула:
P(X) = Аналогичные наблюдения / Общее число наблюдений = 4/30, или 0,133.
Обратите внимание, что это значение не изменится в течение всего времени нашего анализа, поэтому его достаточно рассчитать только один раз.
Шаг 3: вычислите функцию правдоподобия (рис. 6.9). Как мы помним из теоремы Байеса, функция правдоподобия является условной. Какова вероятность того, что точка данных в нашем массиве данных попадет в круг, который мы определили, учитывая, что она уже принадлежит к категории победителей?
Чтобы найти функцию правдоподобия, нужно просто разделить количество аналогичных наблюдений в этой категории (в данном случае их три) на общее количество точек данных в категории:
(В случае, если вы находите обозначение P(X | победитель) запутанным, подумайте о букве «X» как о требовании, чтобы урожай, который мы принимаем в расчет, обладал характеристиками (количество солнечного света и осадков), очень похожими на те, о которых сообщил винодел. Поэтому запись Р(Х | победитель) равносильна вопросу «Какова вероятность того, что у этого вина будут такие же характеристики, какие винодел наблюдал у вина-победителя?».)