Работа с данными в любой сфере (Еременко) - страница 104

Первые модели игровых автоматов давали игрокам почти 50 %-ный шанс выиграть или проиграть. Через некоторое время казино переоснастили свои машины, чтобы значительно уменьшить шансы игроков. Будет ли когда-нибудь возможно победить систему, если преимущества не на стороне игроков? В связи с ответом на этот вопрос появилась задача о «многоруком бандите». Обычно в казино есть несколько игровых автоматов (таким образом, «бандит» оказывается многоруким, а не одноруким). Если вероятность выигрыша различна для каждого из этих автоматов и мы не знаем, у какого из них она выше, то как нам играть с выбранным количеством игровых автоматов в определенном порядке, чтобы максимизировать выигрыш?

Задачу о «многоруком бандите» можно рассматривать гораздо шире: с ее помощью можно провести наиболее эффективную рекламную кампанию (алгоритмы, которые мы будем изучать, отличны от пресловутого A/B-теста, случайного эксперимента, в котором два варианта – А и В – противопоставляются друг другу, чтобы определить оптимальный), наиболее эффективным образом выделить ресурсы на исследовательские проекты или помочь усовершенствованию эксплуатационных функций роботов.

Верхняя доверительная граница и A/B-тестирование

Столь высокая эффективность метода обучения с подкреплением обусловлена тем, что он использует варианты, доступные благодаря подходу, который ориентируется на данные. С другими способами тестирования – такими, как A/B-тестирование, часто применяемое в маркетинге, – решение может быть принято только после того, как все варианты изучены равное количество раз, и тогда, когда у нас есть достаточно большая выборка, на основе которой мы можем делать уверенные выводы. На изучение каждого варианта таким единым образом тратится много времени и денег, в то время как другие алгоритмы, в частности верхняя доверительная граница, могут подойти к поиску нашего оптимального результата путем динамического проведения тестов, включающих в себя как исследование (случайный выбор), так и использование (выбор на основе предварительных знаний). Мы рассмотрим и то и другое более подробно далее в этой главе. Такой подход призван не только максимально быстро найти оптимальный вариант, но и максимизировать вашу прибыль в процессе работы. В принципе, алгоритм верхней доверительной границы выглядит предпочтительнее тестирования A/B.

Тестирование задачи

А пока давайте обратимся к ярким огням Вегаса. Я не одобряю и не поощряю азартные игры; этот пример – просто отличный способ показать ход решения задачи о «многоруком бандите».