Нюансы робототехники заслуживают гораздо больше внимания, чем позволяет объем этой книги. Однако теперь, когда я разжег ваш интерес объяснением того, что такое обучение с подкреплением и как оно может быть применено, мы можем перейти к некоторым конкретным проблемам, которые оно поможет решить, и алгоритмам, способным содействовать этому процессу.
Обучение с подкреплением и поведение человека
Машинное обучение с подкреплением удивительно похоже на процессы усвоения знаний человеком. Один из ярких примеров – то, как ребенок учится ходить. На этой стадии развития малыш действует инстинктивно. Таким образом, мы знаем, что любое поведение управляется системой, хранящейся глубоко внутри мозга, – это нечто бессознательное, нечто, заранее закодированное в нашей ДНК. Как же оно работает? Когда дети начинают учиться ходить, они часто падают. Обычно падение сопровождается ударом – и нервная система мальчика или девочки посылает сигналы боли в мозг. Таким образом, боль – а это не что иное, как электрический сигнал, посылающийся в мозг, – не существует от нас отдельно. Это чувство, которое создает нервная система, чтобы тренировать нас. И так как мозг является частью нашей нервной системы, у нас есть очень интересная установка: когда ребенок падает, одна часть нервной системы дает другой ее части отрицательную обратную связь в виде боли, чтобы заставить понять: подобное действие имеет негативные результаты. В итоге дети узнают, что они не должны повторять действие, приведшее к падению. Сногсшибательно, если задуматься.
В то же время, если ребенку удастся сделать шаг вперед – скажем, чтобы поймать кошку за хвост или дотянуться до конфеты на краю стола, – его нервная система пошлет положительные сигналы в мозг и малыш будет вознагражден. Повторяя эти действия, он научится ходить.
Поразительно: мы создаем алгоритмы обучения с подкреплением в области ИИ и робототехники, в то время как наша собственная нервная система является самым впечатляющим из всех алгоритмов обучения с подкреплением.