Третий принцип: учиться, чтобы прогнозировать предпочтения человека
Третий принцип, согласно которому основным источником информации о человеческих предпочтениях является человеческое поведение, решает две задачи.
Первая состоит в создании надежного основания для понятия предпочтения человека. По определению, предпочтения человека не заложены в машину, и она не может наблюдать их непосредственно, тем не менее должна иметься однозначная связь между машиной и человеческими предпочтениями. Принцип гласит, что эта связь устанавливается путем наблюдения за человеческим выбором: мы предполагаем, что любой выбор неким (возможно, очень сложным) образом связан с базовыми предпочтениями. Чтобы понять, почему эта связь принципиально важна, рассмотрим противоположную ситуацию: если некоторое предпочтение человека не оказывает совершенно никакого влияния на какой бы то ни было реальный или гипотетический выбор, который может быть сделан человеком, то бессмысленно говорить о существовании этого предпочтения.
Вторая задача — дать машине возможность становиться более полезной, больше узнавая, чего мы хотим. (В конце концов, если она ничего не знает о предпочтениях человека, то будет для нас бесполезной.) Мысль весьма проста: всякий выбор человека открывает информацию о его предпочтениях. В случае выбора между пиццей с ананасами и пиццей с сосисками это очевидно. Если выбирают между вариантами будущей жизни, причем выбор делается с целью повлиять на поведение робота, ситуация становится более интересной. В следующей главе я объясню, как формулировать и решать подобные задачи. Однако настоящая трудность возникает потому, что люди не вполне рациональны: между нашими предпочтениями и выбором отсутствует идеальное совпадение, и машина должна учитывать эти несовершенства, чтобы интерпретировать выбор как проявление предпочтений человека.
К чему я веду
Прежде чем погрузиться в детали, я хочу исключить возможное недопонимание.
Первая и самая распространенная ошибка — считать, будто я предлагаю встроить в машины единственную идеализированную систему ценностей моей собственной разработки, чтобы она управляла поведением машины. «Чьи ценности вы собираетесь внедрить?» «Кто будет решать, в чем заключаются ценности?» Или даже: «Что дает право западным ученым — благополучным белым мужчинам-цисгендерам>{14} вроде Рассела — решать, как машина станет кодировать и вырабатывать человеческие ценности?»[244]
Думаю, это недопонимание возникает отчасти из-за прискорбного несоответствия между обиходным пониманием слова