Обучение с подкреплением – это, по сути, форма машинного обучения, которая опирается на концепцию бихевиоризма при обучении искусственного интеллекта и управлении роботами. Обучение с подкреплением не требует от робота выполнения заданных действий, а позволяет ему исследовать окружающую действительность и обучаться лучшим методам решения задач. Давайте возьмем для примера роботизированную игрушечную собаку. Конечно, можно было бы дать собаке набор пошаговых инструкций, которые скажут ей, что делать, чтобы ходить (передняя правая лапа вперед, левая задняя лапа вперед, левая передняя лапа вперед, правая задняя лапа вперед). Этот метод использовался в более ранних тестах на роботах путем ввода последовательности действий, необходимой для выполнения поставленной задачи. Однако таким образом мы ограничиваем робота этой конкретной последовательностью движений, делая его, ну… только роботом. Но, применяя алгоритм обучения с подкреплением, мы можем заставить собаку-робота самостоятельно научиться ходить.
Использование обучения с подкреплением в случае роботизированных игрушечных собак – самый простой пример того, как этот метод может быть применен. В этой области были сделаны поистине удивительные открытия. Совсем недавно ученые из Лаборатории искусственного интеллекта OpenAI (основанной ведущими технологическими предпринимателями Илоном Маском и Сэмом Альтманом) научили ИИ-ботов выстраивать общую языковую систему, чтобы учиться друг у друга выполнению задач (Recode, 2017). После установки алгоритма обучения с подкреплением боты начали тестировать различные способы связи, чтобы убедиться, что они успешно справятся с поставленной задачей. В ходе этого процесса боты развили общий язык, который основывался на связывании действий, местоположений, объектов и даже самих ботов с абстрактными элементами. Результаты показывают, что ИИ не так уж и отличается от нас: исследователи OpenAI обнаружили, что их боты стремились выполнять задачи более эффективно, развивая свой общий язык таким образом, чтобы он соответствовал проблеме.
Обучение с подкреплением осуществляется путем опробования всех вариантов, доступных машине, а затем отработки оптимальных действий на основе этого индивидуального опыта. В нашем более простом примере, касающемся собаки-робота, ученые, задача которых состоит в том, чтобы собака шагнула вперед и не упала, будут осуществлять обучение с подкреплением, связывая успешное продвижение с наградой, а неудачное продвижение (скажем, падение) с наказанием. В отличие от реальных собак вам не нужно давать реальное поощрение – вы просто отмечаете успешный результат как «1» в своем алгоритме, а неудачный – как «0» или «–1».