Совместимость. Как контролировать искусственный интеллект (Рассел) - страница 138

Чтобы найти равновесное решение, нужно определить стратегии Гарриет и Робби, так, чтобы ни у одного из них не было стимула менять стратегию при условии, что другая остается неизменной. Стратегия Гарриет определяет, сколько скрепок и скобок изготовить, с учетом ее предпочтений; стратегия Робби определяет, сколько скрепок и скобок изготовить, с учетом действия Гарриет.

Оказывается, есть лишь одно равновесное решение, вот оно:

• Гарриет рассуждает следующим образом, опираясь на свою оценку цены скрепок:

— если цена скрепки меньше 44,6 цента, делаем 0 скрепок и 2 скобки;

— если цена скрепки от 44,6 до 55,4 цента, делаем по одной штуке того и другого;

— если цена скрепки больше 55,4 цента, делаем 2 скрепки и 0 скобок.

• Реакция Робби:

— если Гарриет делает 0 скрепок и 2 скобки, изготовим 90 скобок;

— если Гарриет делает по 1 штуке того и другого, изготовим 50 скрепок и 50 скобок;

— если Гарриет делает 2 скрепки и 0 скобок, изготовим 90 скрепок.


(Если вам интересно, как именно получено решение, смотрите детали в сносках[262].) При этой стратегии Гарриет фактически учит Робби своим предпочтениям при помощи простого кода — можно сказать, языка, — следующего из анализа равновесия. Алгоритм IRL с единственным агентом из примера об обучении хирургии не понял бы этот код. Заметьте также, что Робби никогда не получит точного знания о предпочтениях Гарриет, но он узнает достаточно, чтобы оптимально действовать в ее интересах — именно так, как действовал бы, если бы точно знал ее предпочтения. Он, скорее всего, полезен Гарриет при сформулированных допущениях и при условии, что Гарриет играет в игру правильно.

Можно также построить задачи, в которых Робби как примерный студент будет задавать вопросы, а Гарриет как хороший учитель указывать ему на подводные камни, которых следует избегать. Такое поведение возникает не потому, что мы написали сценарии для Гарриет и Робби, а потому что это оптимальное решение игры в помощника, в которой участвуют Гарриет и Робби.

Игра в выключение

Инструментальной является цель, в общем полезная в качестве подцели практически любой исходной цели. Самосохранение — одна из инструментальных целей, поскольку лишь очень немногих исходных целей легче достичь, будучи мертвым. Это ведет к проблеме выключателя: машина, имеющая фиксированную цель, не позволяет себя выключить и имеет стимул сделать свое выключение невозможным.

Проблема выключателя составляет ядро проблемы контроля интеллектуальных систем. Если мы не можем выключить машину, потому что она нам не дает это сделать, у нас серьезные проблемы. Если можем — значит, мы сумеем контролировать ее и другими способами.