Сдвиг. Как выжить в стремительном будущем (Хоуи, Ито) - страница 154

.

Болельщики были шокированы и смущены. Ли Седол побледнел, извинился и покинул помещение на целых пятнадцать минут. Англоязычные комментаторы хранили молчание, пока один из них не сказал, изрядно преуменьшив факты: «Ход по-настоящему удивительный».

Вначале Фан Ху, смотревший игру вместе с колумнистом журнала Wired Кейдом Метцем, был озадачен не менее остальных. «Это нечеловеческий ход, — сказал он Метцу. — Никогда не видел, чтобы человек так ходил». Как позднее отмечал Метц[377], два с половиной тысячелетия накопленных знаний об игре в го и их осмысления не смогли подготовить человечество к ходу номер 37 во второй партии турнира. Никого из людей, кроме Ху. После проигрыша AlphaGo прошлой осенью Ху провел много часов, помогая команде DeepMind из Google «тренировать» программное обеспечение к матчу с Седолом, и этот опыт помог ему понять, как тот самый ход увязал между собой черные камешки в нижней части доски и стратегию, которую реализовывала AlphaGo. «Очаровательно», — сказал он, а потом все повторял и повторял это словечко. Это была не просто tesuji — умная игра, сбивающая противника с толку. Это была работа, блистательная как в эстетическом, так и в стратегическом смысле — может быть, даже достойная называться myoshu. Седол продолжил демонстрировать почти безупречное го, но этого было недостаточно, чтобы противостоять мощной креативности программы DeepMind, которую та демонстрировала даже после хода номер 37. К концу дня стало ясно, что AlphaGo не просто выиграла вторую партию — в процессе она еще и выказала истинно человеческие качества: импровизацию, креативность и даже своего рода изящество. Так мы узнали, что у машины имеется душа.

* * *

Через несколько недель после завершения «Решающей игры между людьми и машинами» Демис Хассабис, один из исследователей искусственного интеллекта, создававших DeepMind, выступил в MIT. Темой его доклада стал прошедший турнир и история разработки AlphaGo его командой. На мероприятии, посвященном DeepMind и проводившемся в одном из крупнейших лекционных залов университета, яблоку было негде упасть: студенты только что не лезли на стену, чтобы послушать, как Хассабис рассказывает о подходе к машинному обучению, с помощью которого его команде удалось опровергнуть мнение экспертов, утверждавших, что компьютеру понадобится десяток лет, дабы победить такого виртуоза, как Седол.

Ключ состоял в хитроумной комбинации глубинного обучения — своего рода распознавания паттернов, сходного с тем, как человеческий мозг (или Google) умеет распознавать кошку или пожарную машину, увидев множество соответствующих изображений, — и «научения» статистическим образом предугадывать вероятное развитие событий или, в случае го, вероятный ход действий человека-игрока в конкретной ситуации на основании анализа всех игр, сыгранных в прошлом. Это помогло создать рудиментарную модель игрока го, который угадывал ходы, исходя из паттернов, наблюдавшихся во время изученных партий прошлого. Потом к этому добавилось своего рода обучение закреплением, которое позволяет компьютеру пробовать разные новые вещи. Как человеческий мозг учится, получая вознаграждение в виде дофамина, когда добивается успеха, а дофамин закрепляет нейронный путь к отметке «правильно», обучение закреплением позволяет компьютеру пробовать разные вещи, вознаграждая за успешные эксперименты и тем самым закрепляя стратегии, которые привели к успеху. AlphaGo начала с базовой версии самой себя, создавая затем слегка различающиеся версии, по миллиону раз пробуя многообразные стратегии, вознаграждая те, что привели к победе, и становясь все сильнее и сильнее в процессе игры против улучшенных версий. Позднее, играя с человеком-экспертом, машина делала сильнее и себя, и своего противника-человека, неустанно продолжая обучаться.