Работа с данными в любой сфере (Еременко) - страница 105

Итак, при полном параде мы вошли в казино Caesars Palace, и перед нами пять игровых автоматов. В каком порядке и сколько раз мы должны играть на них, чтобы максимизировать выигрыш? Сначала допустим, что для каждой машины заранее задано распределение результатов (проигрышей и выигрышей). После того как мы потянем за рычаг (или нажмем кнопку), выбранный нами игровой автомат случайным образом выберет результат (выигрыш или проигрыш) согласно распределению – скажем, если вы поставите 50 центов, то либо получите обратно $0 (проигрыш), либо $1 (выигрыш).

Все, что нам нужно знать, – это распределение вероятностей выигрыша на каждом игровом автомате, чтобы играть исключительно на том, который дает наиболее благоприятные шансы на победу[53]. Легко.

Но вот в чем проблема: мы не знаем этих распределений и Caesars Palace вряд ли предоставит эту информацию паре оптимистичных аналитиков данных!

Ставки для решения этой реальной проблемы в казино высоки. Мы должны потратить наши деньги на проведение экспериментов, и чем дольше будем искать решение, тем больше денег потратим. По этой причине мы должны найти нужный результат как можно быстрее, чтобы сократить наши потери.

Для поддержания эффективности следует учитывать два фактора – исследование и эксплуатацию – и применять их в тандеме: исследование означает поиск лучшей машины, а эксплуатация – применение знаний, которые у нас уже есть о каждой из машин, чтобы делать ставки. Дело в том, что без предварительной разведки у нас не будет данных для применения, а без применения мы станем зарабатывать меньше денег, чем могли бы в случае опоры на собранную информацию.

Прежде чем мы начнем с азов верхней доверительной границы и выборки Томпсона, давайте изучим решение задачи о «многоруком бандите». Во-первых, будем считать, что имеем дело с пятью игровыми автоматами. Если иллюстрировать произвольный набор распределений для них, диаграмма могла бы выглядеть примерно так, как на рис. 7.1.

Этот график иллюстрирует вероятность проигрыша ($0) и выигрыша ($1) от каждого из пяти игровых автоматов. Например, если вы вставляете 50 центов в машину D3, есть 90 %-ная вероятность того, что вы получите $0, и 10 %-ная – того, что разбогатеете на $1[54].



Из графика становится очевидно, что игровой автомат D5 в среднем даст наилучший результат, потому что у него наивысшая вероятность (75 %) выигрыша.

Чтобы упростить, мы можем рассчитать и построить график ожидаемого выигрыша для каждой из машин по формуле:

E (X) = (p × результат 1) + (q × результат 2),

где E (X) – ожидаемый выигрыш, p – вероятность выигрыша, q – вероятность проигрыша, а результат 1 и результат 2 – суммы, полученные в случае выигрыша и проигрыша соответственно.