Сначала исследователи ИИ вслед за Аристотелем идентифицировали «то, что она хочет» как цель, которая либо достигается, либо нет. Такие цели могли возникать в мире игр, например в пятнашках, где целью является расположить все костяшки с числами по порядку от 1 до 15 в маленьком (смоделированном) квадратном лотке или же в реальном физическом окружении. В начале 1970-х гг. робот Shakey Стэнфордского исследовательского института в Калифорнии складывал большие блоки в желаемые конфигурации, а робот Freddy Эдинбургского университета собирал деревянную лодку из деталей. Вся эта работа выполнялась с использованием логических систем решения задач, направленных на составление и исполнение планов, гарантированно приводящих к успеху[53].
К 1980-м гг. стало очевидно, что одного только логического рассуждения недостаточно, потому что, как уже отмечалось, не существует плана, гарантирующего, что вы «попадете в аэропорт». Логика требует определенности, а реальный мир попросту ее не обеспечивает. Между тем американо-израильский специалист по компьютерным наукам Джуда Перл, впоследствии получивший премию Тьюринга 2011 г., работал над методами рассуждения в условиях неопределенности, основанными на теории вероятности[54]. Все исследователи постепенно приняли идеи Перла; они вооружились инструментами теории вероятности и теории полезности, таким образом связав ИИ с другими областями знания: статистикой, теорией контроля, экономикой и исследованиями операций. Это изменение ознаменовало начало, в терминологии некоторых обозревателей, современного ИИ.
Агенты и среда
Центральным понятием современного ИИ является интеллектуальный агент — нечто способное воспринимать и действовать. Агент — это процесс, протекающий во времени, в том смысле, что поток воспринимаемых входных сигналов преобразуется в поток действий. Предположим, например, что рассматриваемый агент — беспилотное такси, везущее меня в аэропорт. Его входной сигнал может включать данные с восьми RGB-камер, делающих 30 кадров в секунду; кадр состоит из, допустим, 7,5 млн пикселей, каждый из которых имеет значение интенсивности изображения в каждом из трех цветовых каналов, что в сумме дает свыше 5 Гб в секунду. (Поток данных от 200 млн фоторецепторов сетчатки еще больше, что отчасти объясняет, почему зрением занимается такая большая часть человеческого мозга.) Такси также получает данные акселерометра 100 раз в секунду плюс данные GPS. Этот колоссальный поток первичной информации преобразуется прямо-таки гигантской вычислительной мощностью миллиардов транзисторов (или нейронов) в последовательное согласованное поведение по управлению автомобилем. Действия такси включают электронные сигналы, подаваемые на руль, тормоза и акселератор 20 раз в секунду. (У опытного водителя-человека вся эта колоссальная деятельность остается по большей части неосознанной: возможно, вы осознаете лишь принятие таких решений, как «обогнать этот медленный грузовик» или «остановиться на заправке», но ваши глаза, мозг, нервы и мышцы постоянно занимаются всей работой.) В случае шахматной программы входные данные — главным образом лишь показания таймера и время от времени уведомление о ходе противника и новом состоянии доски, тогда как действия состоят по большей части в том, чтобы не делать ничего, пока программа думает, и временами выбирать ход и уведомлять о нем противника. У личного цифрового ассистента вроде Siri или Cortana входные данные включают не только акустический сигнал с микрофона (получаемого 48 000 раз в секунду) и ввод тачскрина, но и содержание каждой интернет-страницы, к которой он получает доступ, тогда как действия охватывают речь и демонстрацию материала на экране.