.
1. Выберите начальную точку
Верхняя доверительная граница задает универсальную стартовую точку для всех «рук», и она основана на предположении, что все «руки» будут давать одинаковые результаты. В случае наших игровых автоматов алгоритм будет устанавливать в качестве стартового значения среднюю точку между выигрышем и потерей: 0,5 (пунктирная линия). Затем эта линия смещается для каждой машины, по мере того как будут сыграны успешные игры (рис. 7.4).
2. Установите начальную доверительную границу
Алгоритм установит верхние и нижние доверительные границы, которые охватывают все возможные ожидаемые выигрыши. В нашем примере (рис. 7.5) это означало бы, что верхняя доверительная граница будет соответствовать 1 (выигрыш), а нижняя доверительная граница – 0 (проигрыш). Мы можем быть уверены, что верхняя доверительная граница должна закончиться здесь, потому что наши игры не могут привести к чему-то большему, чем победа. Та же логика относится к тому, что наши игры не могут привести к чему-то меньшему, чем проигрыш.
Важно понять предназначение границы доверия. В реальной ситуации мы не знали бы точно, где находится ожидаемая прибыль. В начале первой игры нам вообще было бы это неизвестно. То, что алгоритм «видит» в начале первого раунда, выглядит примерно так, как показано на рис. 7.6:
Доверительные границы устанавливают для ожидаемого выигрыша определенные рамки. Например, ожидаемый выигрыш машины D2 может быть меньше или больше $0,5 – точнее сказать невозможно. Однако серый прямоугольник доверительных границ построен таким образом, что мы знаем: ожидаемый выигрыш от D2 должен быть где-то внутри него. На данном этапе это очевидно, так как выигрыш не может быть меньше $0 или более $1. Однако, как вы увидите далее, когда игры будут воспроизводиться на пяти машинах, алгоритм продолжит перемещать и изменять размеры этих доверительных границ так, чтобы они отображали ожидание выигрыша. Это ключ к алгоритму ВДГ[57].
3. Сыграйте пробные раунды
Первые несколько раундов будут пробными – благодаря им у нас соберутся изначальные данные, которые затем мы используем для информированного принятия решений в более поздних раундах. На этом этапе придется сыграть несколько раз на каждой из машин, чтобы можно было перенастроить доверительные границы для каждого из распределений.
Предположим, что мы сыграли на машине D3 10 раз, что создало следующую последовательность побед и поражений: 1, 0, 0, 0, 0, 0, 1, 0, 1, 0. Значит, наблюдаемый средний выигрыш окажется следующим:
(1 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 1 + 0)/10 = $0,30.