А вот «проиграл – переключись» – это уже совсем другая история. Менять рычаг каждый раз, как проиграешь, – довольно опрометчивый шаг. Допустим, вы посетили некий ресторан сто раз и всегда оставались довольны вкусной едой. Неужели одного-единственного разочарования будет достаточно, чтобы вы перестали туда ходить? Хорошие варианты не должны слишком строго караться за возможные несовершенства.
Что важно, принцип «победил – закрепи результат, проиграл – переключись» не имеет никакого отношения к промежутку времени, который вы пытаетесь оптимизировать. Если ваш любимый ресторан разочаровал вас в последнее посещение, данный алгоритм гласит, что вы должны отправиться на ужин в другое место – даже если это ваша последняя ночь в городе.
Таким образом, работа Роббинса о проблеме многорукого бандита дала старт появлению значительного количества прочей литературы на эту тему, и за последние годы исследователи добились существенного прогресса. Ричард Беллман, математик из корпорации РЭНД (RAND), нашел верное решение для случаев, когда мы заранее точно знаем, сколько всего шансов и возможностей у нас будет. Как и в ситуации с полной информацией в проблеме секретаря, трюк Беллмана заключался в том, чтобы на самом деле действовать от обратного, представив вначале последний рывок и предположив, какой из автоматов выбрать, учитывая все возможные результаты предыдущих решений. Выяснив это, уже можно переходить к предпоследнему варианту, потом к третьему с конца и т. д. до исходной точки старта.
Выводы, проистекающие из метода Беллмана, неоспоримы, но при большом количестве вариантов и длительном визите в казино он потребует головокружительного – или попросту невозможного – объема работы. Более того, даже если нам удастся просчитать все возможные расклады, мы все равно не будем знать точно, сколько возможностей (или хотя бы сколько способов) нам будет дано. По этим причинам проблема многорукого бандита так и остается нерешенной. По словам Уиттла, «она быстро стала классикой и синонимом неуступчивости».
Как обычно бывает в математике, частное – это путь к общему. В 1970-х годах корпорация Unilever попросила молодого математика Джона Гиттинса помочь им оптимизировать некоторые клинические испытания их препаратов. И неожиданно получилось, что вместе с этим Гиттинс нашел ключ к математической загадке, которая оставалась нерешенной целым поколением.
Гиттинс, сегодня – профессор статистики в Оксфорде, размышлял над задачей, поставленной Unilever. При наличии нескольких химических соединений как быстрее всего определить, какое из них будет наиболее эффективным в борьбе с болезнью? Гиттинс попытался решить эту задачу наиболее общим способом: множественные варианты следования, разная вероятность вознаграждения за каждый из них и определенное количество усилий (или денег, или времени), которые будут между этими вариантами распределены. Это было, по сути, иное воплощение проблемы многорукого бандита.