. В 1992 г. Джерри Тезауро применил ту же идею к нардам, достигнув игры уровня чемпиона мира после 1 500 000 матчей
[71]. С 2016 г. AlphaGo команды DeepMind и ее наследницы применяли обучение с подкреплением и игру с собой, чтобы научиться побеждать лучших игроков в го, шахматы и сёги.
Алгоритмы обучения с подкреплением могут также научиться выбирать действия на основе восприятия первичных входных данных. Например, разработанная DeepMind система DQN научилась совершенно с нуля играть в 49 видеоигр Atari, в том числе Pong, Freeway и Space Invaders[72]. Она пользовалась только пикселями экрана в качестве входных данных и счетом в игре в качестве вознаграждения. В большинстве игр DQN научилась играть лучше профессиональных игроков, несмотря на то что не имела предшествующего понимания времени, пространства, объектов, движения, скорости или стрельбы. Довольно трудно выяснить, что же в действительности делает DQN, помимо того, что она выигрывает.
Если бы новорожденный научился играть в десятки видеоигр на сверхчеловеческом уровне в первый день жизни или стал чемпионом мира по го, шахматам и сёги, мы заподозрили бы бесовскую одержимость или инопланетное вмешательство. Вспомним, однако, что все эти задачи намного проще реального мира: они полностью наблюдаемы, предполагают короткие временные горизонты, имеют относительно мало статичных пространств и простые предсказуемые правила. Отмена любого из этих условий означает, что стандартные методы не сработают.
Напротив, сегодняшние исследования нацелены именно на выход за рамки стандартных методов, чтобы системы ИИ могли действовать в более широких классах среды. В тот день, когда я писал предыдущий абзац, например, OpenAI объявила, что ее команда из пяти программ ИИ научилась обыгрывать команды опытных игроков в Dota 2. (Для непосвященных, к которым отношусь и я: Dota 2 — обновленная версия «Обороны древних», стратегия в реальном времени из семейства игр Warcraft. На сегодняшний день это самый доходный и конкурентный киберспорт с призами в миллионы долларов.) Dota 2 предполагает коммуникацию, работу в команде и неограниченные время и пространство. Игры длятся десятки тысяч временных шагов, и определенный уровень иерархической организации поведения представляется принципиально важным. Билл Гейтс описал эту новость как «колоссальную веху в создании искусственного интеллекта»[73]. Через несколько месяцев обновленная версия программы победила команду лучших в мире профессиональных игроков в Dota 2[74].
Такие игры, как го и Dota 2, являются отличным способом протестировать методы обучения с подкреплением, поскольку функция вознаграждения заложена в правила игры. Однако реальный мир не столь удобен, и в десятках случаев ошибочное определение вознаграждения ведет к странному и неожиданному поведению