Работа с данными в любой сфере (Еременко) - страница 113

Если бы мы дважды применили алгоритм верхней границы доверия к одной и той же проблеме, оба раза мы получили бы одинаковый результат после идентичной последовательности итераций. Если, однако, мы дважды применим выборку Томпсона к одной и той же задаче, то, вероятно, в каждом случае получим один и тот же результат (то есть выберем оптимальную машину), но способ, которым были сыграны раунды, был бы совершенно другим, потому что мы каждый раз произвольно генерируем гипотетических «бандитов». Таково ключевое различие между детерминированным и вероятностным подходами.

3. Играйте на «оптимальной» машине

Основываясь на нашей гипотетической конфигурации (M1*, M2* и M3*), мы можем теперь сыграть раунд на «оптимальном» игровом автомате. Затем будут получены данные (либо выигрыш, либо проигрыш), обновляющие кривую распределения. Предположим, что, когда мы играли на машине M2, итогом был проигрыш (ноль). Этот ноль будет добавлен к ряду результатов, которые мы получаем от этой машины, и он обновит распределение для M2 (рис. 7.16).



Нулевой результат для этого раунда уменьшает наблюдаемый средний выигрыш от автомата M2, поэтому кривая распределения смещается влево[61]. Мы также видим, что кривая сузилась – она больше сосредоточена вокруг центра. Это связано с тем, что игра в дополнительном раунде увеличила размер выборки для этой машины, и, как мы теперь знаем из закона больших чисел, больший размер выборки означает, что мы можем быть более уверены в том, что близки к нахождению истинного ожидаемого выигрыша.

Стоит отметить, что с этой новой кривой распределения менее вероятно, что машина M2 будет иметь наивысший мнимый ожидаемый выигрыш M2*, когда мы станем ставить задачу о «многоруком бандите» для следующего раунда. Это связано с тем, что ее кривая распределения теперь больше сдвинута влево и сузилась, поэтому вероятно, что значение, выбранное из распределения автомата М3, будет больше, чем значение, выбранное из распределения автомата M2. Это относительное расположение кривых распределения M2 и M3 согласуется с реальным состоянием вещей: истинный ожидаемый выигрыш M3 больше, чем M2.


4. Продолжайте играть раунды, чтобы уточнить построенные кривые распределения

Теперь мы можем сыграть дополнительные раунды. Каждый раз, когда мы будем играть, алгоритм еще раз выберет три точки данных для мнимой конфигурации и выявит лучшую из них (самую дальнюю справа по оси x), чтобы сыграть раунд. Получившийся результат приведет к изменению построенной кривой распределения соответствующей машины.