Совместимость. Как контролировать искусственный интеллект (Рассел) - страница 147

зависимой от токовой стимуляции.

Специалисты по безопасности ИИ не первый год считают такую зависимость возможной[275]. Их беспокоит не только то, что система обучения с подкреплением наподобие AlphaGo может научиться жульничать, вместо того чтобы в совершенстве овладевать задачей, для решения которой предназначена. По-настоящему серьезная проблема возникает, когда люди являются источником вознаграждающего сигнала. Если предположить, что ИИ-систему можно научить хорошо себя вести путем обучения с подкреплением, в ходе которого люди дают сигналы обратной связи, указывающие направление улучшения, неизбежным результатом оказывается, что ИИ-система выясняет, как контролировать людей, и заставляет их всегда давать максимальное положительное вознаграждение.

Вероятно, вы считаете, что это будет всего лишь бессмысленный самообман ИИ-системы, и вы правы, но это логическое следствие из определения обучения с подкреплением. Метод отлично работает, когда сигнал приходит «из внешней вселенной» и генерируется каким-то процессом, который ИИ-система никогда не сможет изменить, но отказывает, если процесс генерирования вознаграждения (а именно человек) и ИИ-система обитают в одной вселенной.

Как нам избежать этого самообмана? Проблема возникает вследствие смешения двух разных вещей: вознаграждающего сигнала и реального вознаграждения. В рамках стандартного подхода к обучению с подкреплением это одно и то же. Мне кажется, это ошибка. Их нужно рассматривать отдельно друг от друга, как это происходит в игре в помощника: вознаграждающие сигналы дают информацию о накоплении реального вознаграждения, которое и нужно максимизировать. Система обучения, так сказать, накапливает баллы «в небесах», тогда как вознаграждающий сигнал в лучшем случае лишь служит счетчиком этих баллов. Иными словами, вознаграждающий сигнал сообщает о накоплении вознаграждения (а не является им). В такой модели, очевидно, захват контроля над механизмом подачи вознаграждающих сигналов означает всего лишь потерю информации. Если алгоритм производит фиктивные вознаграждающие сигналы, то лишается возможности узнавать, действительно ли его действия ведут к накоплению баллов «в небесах». Таким образом, рациональный ученик, в конструкцию которого заложена способность проводить это различие, имеет стимул избегать любой формы зависимости от токовой стимуляции.

Рекурсивное самосовершенствование

Предсказание И. Дж. Гуда, упомянутое нами ранее, о взрывоподобном развитии интеллекта является одной из причин сегодняшнего беспокойства по поводу возможных рисков сверхразумного ИИ. Если люди могут сконструировать машину несколько умнее себя, то, согласно аргументации, эта машина будет несколько лучше людей уметь конструировать машины. Она построит новую машину, еще более разумную, и процесс будет повторяться, пока, по словам Гуда, «интеллект человека не останется далеко позади».