Алгоритмы для жизни: Простые способы принимать верные решения (Гриффитс, Кристиан) - страница 32

В популярной телеигре «Сделка?!» участник выбирает один из 26 портфелей, в которых находятся призы от одного цента до миллиона долларов. По ходу игры таинственный персонаж по имени Банкир периодически звонит и предлагает участнику различные суммы, чтобы тот не открывал выбранный портфель. Задача участника – решить, какую названную Банкиром сумму предпочесть неизвестному призу в чемодане.

Гиттинс (пусть и за много лет до выхода в эфир первого выпуска игры) понял, что проблема многорукого бандита ничем не отличается. О каждом игровом автомате мы знаем крайне мало, а то и вовсе ничего, но есть некая гарантированная сумма выигрыша, которая, если нам предложат ее взамен игры на автомате, заставит нас больше никогда не дергать этот рычаг. Эта цифра, которую Гиттинс назвал «динамический индекс распределения» и которую весь мир знает сегодня как индекс Гиттинса, предлагает очевидную стратегию поведения в казино: всегда играйте на автомате с наивысшим индексом[6].

По факту стратегия индексирования оказалась удачной. Она полностью решает проблему многорукого бандита с геометрически дисконтированными выигрышами. Напряженные взаимоотношения между исследованием и эксплуатацией превращаются в более простую задачу по максимизации единственной величины, которая составляет долю и того и другого. Гиттинс скромно оценивает свои достижения: «Это, конечно, не великая теорема Ферма, – говорит он со смешком, – но это теорема, позволяющая решить ряд вопросов дилеммы "исследование/эксплуатация"».

Расчет индекса Гиттинса для конкретного агрегата, учитывая показатели его работы и нашу ставку дисконтирования, используется и сегодня. Но как только индекс Гиттинса для определенного набора предпосылок становится известен, он может в дальнейшем использоваться для решения всех задач такого плана. Примечательно, что количество рычагов не имеет значения, поскольку индекс для каждого рассчитывается отдельно.

В таблице ниже приведены значения индекса Гиттинса для девяти успехов и неудач с тем расчетом, что выигрыш в следующей игре будет стоить 90 % от выигрыша нынешнего. Эти значения могут использоваться для решения задач многорукого бандита в повседневных делах. Например, руководствуясь данными предположениями, вы должны выбрать тот игровой автомат, у которого результат прошлых игр 1: 1 (и ожидаемая ценность 50 %), а не тот, у которого результат 9: 6 (и ожидаемая ценность 60 %). Сравнение соответствующих значений в таблице показывает, что у менее известного автомата индекс 0,6346, а у другого индекс всего 0,6300. Проблема решена: испытай удачу в этот раз и исследуй.