Некоторые допущения я отношу к категории НТММРПД (аббревиатура от «ну тогда мы можем расходиться по домам»), а именно — если эти допущения ложны, то игра закончена и сделать ничего нельзя. Например, разумно предположить, что Вселенная функционирует согласно постоянным и до некоторой степени выявляемым законам. Если это не так, у нас нет гарантии, что процессы обучения — даже самые изощренные — вообще сработают. Другое базовое допущение состоит в том, что людям не все равно, что происходит; в ином случае доказуемо полезный ИИ не имеет смысла, ведь само понятие пользы бессмысленно. Здесь «не все равно» означает наличие более или менее последовательных и устойчивых предпочтений в отношении будущего. В следующей главе я рассматриваю следствия пластичности человеческих предпочтений, представляющей серьезный философский вызов для самой идеи доказуемо полезного ИИ.
Пока что я сосредоточиваюсь на простейшем случае — мире, где есть один человек и один робот. Этот случай позволяет представить основные идеи, но полезен и сам по себе: представьте, что один человек представляет все человечество, а один робот — все машины. При рассмотрении множества людей и множества машин возникают дополнительные сложности.
Изучение предпочтений по поведению
Экономисты судят о предпочтениях людей, предлагая им сделать выбор[253]. Этот прием широко используется в разработке продуктов, маркетинге и интерактивных системах электронной торговли. Например, предложив испытуемым на выбор автомобили, отличающиеся цветом, расположением мест, величиной багажника, емкостью батареи, наличием держателей для чашек и т. д., конструктор автомашин узнает, насколько важны для людей различные характеристики машины и сколько они готовы за них заплатить. Другое важное применение этот метод находит в медицине: онколог, рассматривающий возможность ампутации конечности, может захотеть знать, что важнее для пациента — мобильность или ожидаемая продолжительность жизни. Разумеется, пиццерии хотят знать, насколько больше человек готовы заплатить за пиццу с колбасой по сравнению с простой пиццей.
Оценка предпочтений обычно рассматривает лишь единичный выбор между объектами, ценность которых считается очевидной для тестируемого. Непонятно, как перенести этот метод на предпочтения в отношении будущей жизни. Поэтому мы (и машины) должны учиться путем наблюдения за поведением, включающим множественные варианты выбора и неопределенные результаты.
Еще в 1997 г. мы с моими коллегами Майклом Дикинсоном и Бобом Фуллом обсуждали, как можно было бы применить идеи из области машинного обучения для понимания двигательной активности животных. Майкл в мельчайших деталях изучал движение крыльев плодовых мушек. Боб был в восторге от многоногих тварей и устроил небольшую беговую дорожку для тараканов, чтобы наблюдать, как их «аллюр» меняется со скоростью. Мы думали, что удастся использовать обучение с подкреплением, чтобы научить роботизированное или смоделированное насекомое воспроизводить эти сложные действия. Проблема заключалась в том, что мы не знали, какой вознаграждающий сигнал использовать. Что оптимизировали плодовые мушки и тараканы? Без этой информации мы не могли применить обучение с подкреплением для тренировки виртуального насекомого и застряли.