Совместимость. Как контролировать искусственный интеллект (Рассел) - страница 12

[13]. Ваш прогноз относительно его действия останется точно таким же, потому что основывается на коде. Все голливудские сюжеты о том, как машины таинственным образом обретают сознание и проникаются ненавистью к людям, упускают из вида главное: важны способности, а не осознанность.

У мозга есть важное когнитивное свойство, которое мы начинаем понимать, а именно — система вознаграждения. Это интересная сигнальная система, основанная на дофамине, которая связывает с поведением положительные и отрицательные стимулы. Ее действие открыл шведский нейрофизиолог Нильс-Аке Хилларп и его сотрудники в конце 1950-х гг. Она заставляет нас искать положительные стимулы, например сладкие фрукты, повышающие уровень дофамина; она же заставляет нас избегать отрицательные стимулы, скажем, опасность и боль, снижающие уровень дофамина. В каком-то смысле она действует так же, как механизм поиска глюкозы у бактерии E. coli, но намного сложнее. Система вознаграждения обладает «встроенными» методами обучения, так что наше поведение со временем становится более эффективным в плане получения вознаграждения. Кроме того, она делает возможным отложенное вознаграждение, благодаря чему мы учимся желать, например, деньги, обеспечивающие отдачу в будущем, а не сию минуту. Мы понимаем, как работает система вознаграждения в нашем мозге, в том числе потому, что она напоминает метод обучения с подкреплением, разработанный в сфере исследования ИИ, для которого у нас имеется основательная теория[14].

С эволюционной точки зрения мы можем считать систему вознаграждения мозга аналогом механизма поиска глюкозы у E. coli, способом повышения эволюционной приспособленности. Организмы, более эффективные в поиске вознаграждения — а именно: в нахождении вкусной пищи, избегании боли, занятии сексом и т. д., — с большей вероятностью передают свои гены потомству. Организму невероятно трудно решить, какое действие в долгосрочной перспективе скорее всего приведет к успешной передаче его генов, поэтому эволюция упростила нам эту задачу, снабдив встроенными указателями.

Однако эти указатели несовершенны. Некоторые способы получения вознаграждения снижают вероятность того, что наши гены будут переданы потомству. Например, принимать наркотики, пить огромное количество сладкой газировки и играть в видеоигры по 18 часов в день представляется контрпродуктивным с точки зрения продолжения рода. Более того, если бы вы получили прямой электрический доступ к своей системе вознаграждения, то, по всей вероятности, занимались бы самостимуляцией без конца, пока не умерли бы