Работа с данными в любой сфере (Еременко) - страница 114

Естественно, чем больше раундов мы сыграем, тем точнее будут кривые распределения и тем точнее будет оценка истинного ожидания выигрыша. После того как мы сыграем определенное количество раундов, кривые распределения станут намного более точными (рис. 7.17).

Как и в случае с алгоритмом верхней доверительной границы, у машины с более высокими истинными ожидаемыми выигрышами будут более точные кривые распределения. Причина этого в том, что алгоритм работает так, что больше использует лучший автомат.



Тем не менее еще остается поле для исследования. Иногда даже машина M1 может выдать наилучшее мнимое истинное ожидание выигрыша. Однако это редкое явление.

Алгоритм выборки Томпсона подходит для:

• поиска наиболее эффективных каналов сбыта;

• обработки большого количества данных о клиентах, чтобы определить наиболее эффективную рекламу.

Верхняя доверительная граница vs выборка Томпсона: что предпочтительнее?

Не существует лучшего и худшего алгоритма решения задачи о «многоруком бандите». Однако и ВДГ, и выборка Томпсона имеют свои индивидуальные преимущества.

Основное отличие двух алгоритмов – способ, которым каждый из них выбирает вариант для тестирования. Верхняя доверительная граница детерминирована. Это делает алгоритм очень прямолинейным – как только сыграем один раунд, мы используем его данные для изменения границ одного из наших вариантов. Затем продолжаем тестировать вариант, который кажется оптимальным, пока данные не приведут к снижению его верхней границы до точки ниже другого варианта.

А вот выборка Томпсона вероятностна. Случайно выбирая мнимые ожидаемые выигрыши из распределений в каждом раунде, она прогнозирует, где может быть фактический результат для каждого из «бандитов», и выбирает оптимальный автомат в соответствии с этим предположением. Таким образом, в каждом раунде мы могли бы сыграть на любом автомате; нет способа сделать правильный выбор, пока не будут отображены мнимые ожидаемые выигрыши.

У обоих алгоритмов есть свои особенности. Верхняя доверительная граница обновляется после каждого раунда. Это означает, что данные, которые вы получаете, должны быть включены в значения границы прежде, чем вы сможете перейти к следующему раунду. Если вы не настроите свои значения на основе собранных данных, алгоритм не станет работать: никакие новые данные не означают, что следующий раунд будет идентичен предыдущему, и поэтому алгоритм ничему не научится. Однако при выборке Томпсона алгоритм может учитывать отложенную обратную связь – даже если вы нечасто обновляете кривые распределения за счет собранных данных. Из-за своего вероятностного характера алгоритм будет продолжать генерировать гипотетические ожидаемые выигрыши, проверять машины и учиться на раундах.