Если мы теперь добавим на график истинное ожидание выигрыша (которого алгоритм не знает), то увидим, что истинный ожидаемый выигрыш от автомата M3 довольно близок к центру кривой распределения (рис. 7.13).
Обратите внимание: все, что мы сделали до сих пор, очень похоже на построение алгоритма ВДГ. Только вместо распределений были доверительные границы (прямоугольники), в которые должен попадать истинный ожидаемый выигрыш. Теперь давайте построим две другие кривые распределения после начальных 12 пробных игр (рис. 7.14).
2. Выберите случайные значения из распределений, чтобы получить задачу о «многоруком бандите»
Вот где начинается веселье. В начале нового раунда выборка Томпсона сначала будет отображать случайное значение из построенного для каждой машины распределения и использовать эти значения для создания своего собственного гипотетического «взгляда на мир». Этот этап очень важен, поскольку мы не знаем, где находится истинный ожидаемый выигрыш. Однако благодаря полученным распределениям вероятностей знаем, где эти выигрыши могут быть. Вот почему мы получаем величины всех распределений и делаем предположение, что они равны или что мы знаем истинное ожидание. В некотором смысле мы создали мнимую вселенную, и теперь нам нужно решить задачу внутри нее. Учитывая характер кривой распределения, вполне вероятно, что алгоритм возьмет точку данных из области, где находится самая высокая кривая[60]. Однако также возможно, что точки берутся из концов хвоста кривой, как мы можем видеть на рис. 7.15.

Вышеуказанные три точки данных (M1*, M2* и M3*) представляют гипотетическую конфигурацию алгоритма ожидаемых выигрышей для каждой машины. Поскольку мы предполагаем, что это правильный взгляд на мир (то есть что M1*, M2* и M3* являются истинными ожидаемыми выигрышами), решение задачи о «многоруком бандите» теперь становится тривиальным: точка данных M2* – самая дальняя на оси x, поэтому автомат M2 даст нам лучший результат в этом раунде.
Вероятностное и детерминированное обучение с подкреплением
В главе 6 мы узнали о вероятностном и детерминированном подходах. Они используются в аналитике довольно часто, и было бы полезно напомнить концептуальные различия между ними.
Выборка Томпсона вероятностна, тогда как алгоритм верхней доверительной границы детерминирован – и легко понять почему. Оба подхода похожи тем, что во время игры они приближают нас к значению истинного ожидаемого выигрыша. ВДГ делает это через доверительные границы, тогда как выборка Томпсона создает распределения. Однако ВДГ работает по жестким правилам; когда нам нужно выбрать автомат для игры, мы просто берем машину с наивысшей верхней доверительной границей. При выборке Томпсона вместо (детерминированного) выбора «бандита» для игры в начале каждого раунда мы извлекаем значения из распределения вероятностей и основываем выбор машины на этих значениях.