, было опубликовано в 1763 г., вскоре после его смерти, его другом Ричардом Прайсом
[69]. В своем современном виде, предложенном Лапласом, теорема очень простым способом описывает то, как
априорная вероятность — первоначальная степень уверенности в системе возможных гипотез — становится
апостериорной вероятностью в результате наблюдения некоторых подтверждающих свидетельств. По мере появления новых свидетельств апостериорность становится новой априорностью, и процесс Байесова обновления повторяется бесконечно. Это фундаментальный процесс, и современное понятие рациональности как максимизации ожидаемой полезности иногда называют
Байесовой рациональностью. Предполагается, что рациональный агент имеет доступ к распределению апостериорной вероятности в возможных текущих состояниях мира, а также в гипотезах о будущем с опорой на весь свой прошлый опыт.
Специалисты в области исследования операций, теории управления и ИИ также разработали разнообразные алгоритмы принятия решений в условиях неопределенности, часть которых восходит к 1950-м гг. Эти так называемые алгоритмы «динамического программирования» являются вероятностными родственниками опережающего поиска и планирования и могут генерировать оптимальное или близкое к оптимальному поведение в отношении всевозможных практических задач в финансах, логистике, транспорте и т. д., в которых неопределенность играет существенную роль>В. Задача состоит в том, чтобы ввести их в машины в форме функции вознаграждения, а на выходе получить политику, определяемую как действие в каждом возможном состоянии, в которое агент может себя ввести.
В случае таких сложных задач, как нарды и го, где число состояний колоссально, а вознаграждение появляется лишь в конце игры, опережающий поиск не работает. Вместо него исследователи ИИ разработали метод так называемого обучения с подкреплением. Алгоритмы обучения с подкреплением учатся на непосредственном опыте получения вознаграждающих сигналов из среды, во многом так же, как младенец учится стоять, получая позитивное вознаграждение за нахождение в вертикальном положении и негативное за падение. Как и в отношении алгоритмов динамического программирования, задачей, вводимой в алгоритм обучения с подкреплением, является функция вознаграждения, и алгоритм изучает оценочный модуль ценности состояний (иногда ценности действий). Оценочный модуль может сочетаться с относительно неточным предварительным поиском для генерирования высококомпетентного поведения.
Первой успешной системой обучения с подкреплением являлась шахматная программа Артура Самуэля, ставшая сенсацией после демонстрации по телевидению в 1956 г. Программа училась фактически с нуля, играя сама с собой и отмечая вознаграждения за победы, а также оценивая свои поражения