Однажды я шел по дороге от нашего дома в Беркли к супермаркету. Дорога шла под уклон, и я заметил, как и наверняка большинство людей, что наличие уклона немного меняет походку. Более того, неровный тротуар — следствие многих десятков лет мини-землетрясений — также вносил изменения в мою походку: я чуть выше поднимал ноги и ставил их менее жестко из-за непредсказуемого уровня поверхности. Занимаясь этими обыденными наблюдениями, я понял, что мы можем применить их в обратном направлении. Если обучение с подкреплением формирует поведение посредством вознаграждения, то мы в действительности хотим противоположного — узнать из поведения, в чем заключается вознаграждение. Поведение у нас уже есть, это действия мушек и тараканов; мы хотим узнать конкретный вознаграждающий сигнал, который оптимизируется этим поведением. Иными словами, нам нужен алгоритм обратного обучения с подкреплением (Inverse Reinforcement Learning, IRL)[254]. (В то время я не знал, что аналогичная проблема изучается под менее известным названием структурная оценка процессов принятия решений Маркова и что первопроходцем в этом направлении стал нобелевский лауреат Том Сарджент в далеких 1970-х гг.[255]) Подобные алгоритмы смогли бы не только объяснить поведение животного, но и предсказать, как оно будет вести себя в новых условиях — например, как будет бежать таракан по ухабистой беговой дорожке с уклоном.
Перспектива ответить на эти фундаментальные вопросы вызвала у нас восторг, с которым мы едва могли справиться, тем не менее нам далеко не сразу удалось разработать первый алгоритм для IRL[256]. С тех пор было предложено много формулировок и алгоритмов IRL. Имеются формальные гарантии, что алгоритмы работают, то есть могут принести достаточно информации о предпочтениях существа, чтобы быть способными действовать столь же успешно, что и наблюдаемое существо[257].
Пожалуй, самый простейший путь к пониманию IRL состоит в следующем: наблюдатель отталкивается от некоего общего предположения об истинной функции вознаграждения и уточняет это предположение по мере дальнейшего наблюдения за поведением. На языке Байесова подхода[258]: начнем с априорной вероятности возможных функций вознаграждения и будем уточнять это распределение вероятностей по мере появления данных>В. Предположим, например, что робот Робби наблюдает за человеком Гарриет и гадает, в какой степени она предпочитает место у прохода месту у иллюминатора. Первоначально он находится в неопределенности по этому вопросу. Теоретически Робби может рассуждать так: «Если бы Гарриет действительно хотела сидеть ближе к проходу, то изучила бы схему расположения мест, чтобы узнать, доступно ли место у прохода, вместо того чтобы согласиться на место у иллюминатора, которое предложила ей авиакомпания. Однако она этого не сделала, хотя, вероятно, заметила, что это место у иллюминатора, и вроде бы не торопилась. Следовательно, сейчас значительно более вероятно, что ей все равно, где сидеть, или она даже предпочитает место у прохода».