Работа с данными в любой сфере (Еременко) - страница 110

распределение приближается к истинному ожидаемому распределению 50/50. Это закон больших чисел: по мере роста размера выборки наблюдаемое среднее всегда будет приближаться к истинному ожидаемому результату.

Предположим, что мы сыграли десять игр на каждом из наших игровых автоматов. Результаты отображены на рис. 7.8.



4. Определите оптимальный автомат и играйте на нем

Как только будет достаточно данных по всем игровым автоматам, алгоритм верхней доверительной границы начнет разворачивать анализ в направлении машин, имеющих наивысшую верхнюю доверительную границу, при этом неоптимальные «руки» не будут учитываться. Это интуитивно понятно: поскольку истинный ожидаемый выигрыш машины может быть каким угодно в пределах ее доверительных границ, алгоритм предполагает, что оптимальным автоматом будет тот, у которого самая высокая верхняя доверительная граница (отсюда и название). В нашем примере оптимальной машиной представляется D4.

Однако, глядя на истинные ожидаемые выигрыши, вы увидите, что D4 явно неоптимальна. Не волнуйтесь, границы защитят нас от выбора неоптимальной машины в долгосрочной перспективе. Если мы играем на неоптимальном автомате достаточно долго, его наблюдаемое среднее значение приблизится к ожидаемому выигрышу и прямоугольник на диаграмме в конечном итоге будет сведен к точке, где алгоритм сочтет оптимальной другую машину. Это связано с тем, что другой игровой автомат, на котором не играли так часто, будет иметь гораздо более широкие доверительные границы. В нашем случае, когда наблюдаемое среднее значение D4 приближается к ожидаемому выигрышу для этой машины, а ее доверительные границы достаточно узки, алгоритм переключается на автомат D5 (рис. 7.9).



Пока мы используем машину D5, ее доверительные границы также будут сужаться, и алгоритм может даже вернуться к D4 на некоторое время. Однако это только до тех пор, пока доверительные границы D4 не станут достаточно узкими. В конечном счете верхние доверительные границы оптимальной машины будут оставаться выше верхних доверительных границ всех других машин («рук»).

Алгоритм верхней доверительной границы подходит для:

• поиска наиболее эффективных рекламных кампаний;

• управления большим числом финансовых проектов.

ВДГ не единственный алгоритм, который может решить проблему «многорукого бандита». Далее мы рассмотрим, как можно применить выборку Томпсона, – подумайте о том, когда этот алгоритм может оказаться предпочтительнее ВДГ.

Выборка Томпсона

Прежде чем продолжить, хочу отметить одну важную вещь. Понимание алгоритма ВДГ поможет нам уяснить методы, которые мы применяем, поэтому, если вы читаете разделы выборочно, я рекомендую полностью прочитать все, что относится к обучению с подкреплением. При этом уделите особое внимание вопросам, связанным с задачей о «многоруком бандите», чтобы как можно лучше усвоить выборку Томпсона