Совместимость. Как контролировать искусственный интеллект (Рассел) - страница 204

.

Обучение на основе рассуждения

Всякий раз, как вы ловите себя на обдумывании чего-либо, вы это делаете, поскольку еще не знаете ответа. Если у вас спрашивают номер только что купленного мобильного телефона, скорее всего, вы его не знаете. Вы думаете: «Итак, я не знаю номер. Как бы мне его выяснить?» Не являясь рабом сотового телефона, вы не представляете, как получить эту информацию, и спрашиваете себя: «Как бы мне установить способ, которым можно это выяснить?» На этот вопрос есть универсальный ответ: «Наверняка его написали на чем-то, что пользователям легко найти». (Это естественно!) Очевидные места — в верхней части основного экрана (не здесь), в приложении смартфона или в установках приложения. Вы набираете Settings>Phone — вот и он.

В следующий раз, когда у вас спросят номер, вы будете знать или его, или точный способ его найти. Вы помните процесс, и не только для этого телефона в данной ситуации, но для всех аналогичных телефонов во всех ситуациях, а именно — вы храните и повторно используете обобщенное решение задачи. Обобщение является обоснованным, поскольку вы понимаете, что особенности данного конкретного телефона и данной конкретной ситуации не относятся к делу. Вы были бы потрясены, если бы этот метод работал только по вторникам для телефонных номеров, оканчивающихся на 17.

Го демонстрирует прекрасный пример обучения аналогичного типа. На рис. 25(а) мы видим типичную ситуацию, когда черные угрожают захватить камень белых, окружив его. Белые пытаются вырваться из окружения, добавляя камни, соседствующие с исходным, но черные продолжают отрезать пути к бегству. Эта схема ходов образует лестницу из камней по диагонали через доску, в конце концов упирающуюся в край, когда белые больше ничего не могут сделать. Если бы вы играли белыми, то, вероятно, не захотели бы повторить эту ошибку. Вы поняли бы, что схема лестницы всегда приводит к последующему захвату при любой начальной ситуации и любом направлении, на любой стадии игры, независимо от того, играете вы белыми или черными. Единственное исключение возникает, если лестница упирается в какие-то дополнительные камни, принадлежащие убегающему. Универсальность схемы лестницы напрямую вытекает из правил го.

Примеры с забытым номером телефона и с лестницей в го иллюстрируют возможность обучения эффективным общим правилам на единственном примере — огромное отличие от миллионов примеров, необходимых для глубокого обучения. В сфере ИИ этот тип обучения называется обучением на основе объяснения: увидев пример, агент может самостоятельно объяснить,