Совместимость. Как контролировать искусственный интеллект (Рассел) - страница 145

Этот общий подход к анализу часто называют Грайсовым в честь Г. Пола Грайса, философа из Беркли, который предложил набор максим для оценки расширенного смысла высказываний вроде того, что сделала Гарриет[271]. В случае предпочтений анализ может стать весьма сложным. Например, вполне вероятно, что Гарриет не хочет именно кофе; ей просто надо взбодриться, но она исходит из ложного убеждения, что на автозаправочной станции продается кофе, следовательно, его она и просит. Она бы ничуть не меньше обрадовалась чаю, коле или даже энергетическому напитку в упаковке кислотного цвета.

Это лишь немногие соображения, сопутствующие интерпретации запросов и команд. Тема имеет бесконечные вариации из-за комплексности предпочтений Гарриет, огромного спектра обстоятельств, в которых Гарриет и Робби могут оказаться, и разных состояний знания и представлений Гарриет и Робби в данных обстоятельствах. Готовые сценарии позволили бы Робби справиться с немногочисленными стандартными ситуациями, но гибкое и безотказное поведение может возникнуть только вследствие взаимодействия Гарриет и Робби, то есть фактически из результатов игр в помощника, в которых они участвуют.

Токовая стимуляция

В главе 2 я описывал систему вознаграждения в нашем головном мозге, действующую на основе дофамина, и ее роль в управлении поведением. Функция дофамина была открыта в конце 1950-х гг., но уже к 1954 г. было известно, что непосредственная электрическая стимуляция мозга крыс может вызывать такую же реакцию, что и вознаграждение[272]. На следующем этапе исследований крысе дали доступ к рычагу, подсоединенному к батарейке и проводу, вызывавшему электрическую стимуляцию мозга зверька. Результаты оказались печальными: крыса снова и снова нажимала на рычаг, не прерываясь на еду или питье, пока не погибла[273]. Люди в подобном эксперименте ведут себя не лучше, стимулируя себя тысячи раз и забывая о еде и личной гигиене[274]. (К счастью, опыты на людях обычно прекращаются по прошествии одного дня.) Склонность животных отказываться от нормального поведения ради непосредственной стимуляции собственной системы вознаграждения называется зависимостью от токовой стимуляции.

Может ли что-нибудь подобное случиться с машинами, запустившими алгоритмы обучения с подкреплением, например AlphaGo? Первая мысль — это невозможно, ведь единственная возможность для AlphaGo получить свое вознаграждение плюс один балл за победу — это реально выиграть в смоделированной партии в го. К сожалению, это верно лишь в силу навязанного и искусственного разграничения между AlphaGo и ее внешней средой