. (Имейте в виду: выборку Томпсона понять труднее, чем алгоритм верхней доверительной границы. Если хотите, можете пропустить и изучить позже посвященный ей раздел.)
Помните, что задачу о «многоруком бандите» мы решаем для того, чтобы наиболее эффективно исследовать и использовать наши варианты и тем самым максимально увеличить выигрыш. В данном примере (рис. 7.10) мы облегчим задачу и возьмем три игровых автомата, поскольку выборка Томпсона чуть сложнее по сравнению с верхней доверительной границей.
Эта диаграмма аналогична той, что мы видим на рис. 7.2 в разделе о верхней доверительной границе. Здесь ожидаемый выигрыш от машины M1 рассчитывается как
(0,7 × $0) + (0,3 × $1) = $0,30.
Ожидаемые выигрыши для машин M2 и M3 рассчитываются с использованием того же метода.
Построение выборки Томпсона
Как и в случае с алгоритмом ВДГ, давайте начнем с построения графиков ожидаемых выигрышей от каждой из наших трех машин.
На этом графике (рис. 7.11) на оси x показан ожидаемый выигрыш, а вертикальные пунктирные линии представляют собой наши автоматы M1, M2 и M3[59]. Как и в случае с алгоритмом верхней доверительной границы, эти строки отражают истинный ожидаемый выигрыш от машин. Хотя распределение вероятностей выигрыша для каждой из машин и отображено на графике, нам оно неизвестно (если только мы не связаны с владельцем казино). Поэтому в реальной жизни эти ожидаемые значения были бы нам неизвестны; наша цель – найти их. Мы показываем их здесь, чтобы продемонстрировать предсказательную способность алгоритма выборки Томпсона.
1. Сыграйте пробные раунды
Прежде чем мы сможем проверить наши данные, их нужно сначала собрать. Это означает, что вы играете несколько раундов, чтобы иметь возможность оценивать игровые автоматы. Скажем, мы сыграли на трех автоматах по 12 раз, и машина M3 дала следующую последовательность побед и поражений: 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1. Это значит, что наш средний выигрыш составляет $0,67. Но алгоритм выборки Томпсона не так прост: он знает, что это всего лишь наблюдаемый средний выигрыш и что истинный ожидаемый выигрыш необязательно составляет $0,67. Пока размер выборки мал и мы можем только сказать, что истинный ожидаемый выигрыш равен примерно этой сумме. Для решения задачи алгоритм выборки Томпсона построит кривую распределения вероятности, чтобы оценить, где может быть истинный ожидаемый выигрыш (рис. 7.12).

Мы видим, что распределение сосредоточено вокруг $0,67. Это означает, что на основе данных, которыми располагает алгоритм, он оценивает, что истинный ожидаемый выигрыш может быть либо равен $0,67, либо близок к этому значению. Чем дальше от $0,67, тем ниже вероятность того, что мы имеем дело с истинным ожидаемым выигрышем. Это разумная оценка, потому что если бы ожидаемый выигрыш составлял, например, $0,1, то едва ли в наших пробных играх мы бы восемь раз выиграли и только четыре – проиграли; вместо этого у нас было бы намного меньше побед.