Цифровой журнал «Компьютерра» № 22 (Журнал «Компьютерра») - страница 21

История Watson началась в 2006 году, когда Дэвид Феруччи, старший менеджер отделения IBM по семантическому анализу, занялся тестированием одного из самых мощных суперкомпьютеров компании, занимавшего одну из верхних строчек 500 самых производительных машин мира. Феруччи решил попробовать, насколько эффективно машина будет справляться с задачами, поставленными «естественным языком», и предложил ей ответить на 500 вопросов, заданных в уже состоявшихся программах Jeopardy! Результаты оказались катастрофическими: по сравнению с живыми игроками, машина недостаточно быстро «нажимала на кнопку» (то есть была готова к ответу), а в случае, когда она всё-таки могла конкурировать с людьми, количество правильных ответов не превышало 15%.


Феруччи заинтересовался причинами такого поведения суперкомпьютера и в итоге в 2007 году смог убедить руководство IBM дать ему команду из 15 человек и от 3 до 5 лет на создание эффективной автоматической системы, способной отвечать на неформализованные вопросы. Такая система пригодилась бы всевозможным колл-центрам, справочным и любым другим службам, обслуживающим клиентов. У IBM уже был успешный опыт создания машины, способной поспорить с интеллектом человека – речь идёт о суперкомпьютере Deep Blue, который в 1997 году победил чемпиона мира по шахматам Гарри Каспарова. Эта победа сделала большую рекламу IBM, но коммерческого применения подобной установке найти так и не удалось. В случае же с системой автоматических ответов на вопросы коммерческий потенциал вполне очевиден.

Принципиальное отличие Watson от Deep Blue заключается в том, что если шахматный автомат имеет дело со строго логическими правилами игры, то машина, распознающая «естественную речь», сталкивается в куда более сложными правилами языка и многочисленными искажениями и отклонениями от них. Но самая большая сложность заключается в том, что люди, сами того не осознавая, общаются в рамках своего культурного и социального контекста. В разговорной речи полно намёков, аллюзий и коннотаций, отсылок к неким общим для конкретной общественной среды фактам, понятиям и явлениям. В их числе и религиозные представления, и политические убеждения, и всевозможные произведения искусства – от книг и картин до кинофильмов и компьютерных игр.

Для эффективной обработки подобной информации используются статистические алгоритмы, позволяющие путём анализа самых разнообразных документов устанавливать связь разных понятий друг с другом. Проще говоря, она определяет, какие слова чаще всего употребляются вместе. К примеру, «Кремль» чаще связан со словами «Россия», «Москва», чуть реже с «Казань», «Нижний Новгород», ещё реже – с «собор», «икона»" и т.п. Хотя эти алгоритмы известны давным-давно, полноценно применять их стало возможно лишь в последнее десятилетие – после кардинального роста производительности вычислительной техники и снижения стоимости накопителей для хранения огромных массивов данных.