Наша исследовательская программа – проект Halo – разработана с целью построить системы, которые в дальнейшем позволят создать функционального «Цифрового Аристотеля». Программа стартовала семь лет назад, и первой ее целью стал углубленный школьный курс биологии. Мы выбрали именно эту область знаний, поскольку она достаточно (но не чрезмерно) обширна, имеет разработанную учебную программу с итоговыми контрольными тестами и представлена разнообразными видами знаний. На сегодняшний день мы подробно проанализировали все учебники по биологии, чтобы классифицировать все виды содержащихся в них сведений. Теперь мы работаем над способами кодирования этих сведений – чтобы использовать их в компьютерах проекта Halo, объединив с уже имеющимися базами данных, и придать всему этому форму, которая позволит различным экспертным системам находить правильные ответы на поставленные пользователем вопросы.
Главная проблема этого проекта – его глубокая уязвимость. Многие сложные задачи по компьютерному кодированию знаний и имитации мыслительных процессов успешно решаются в лабораториях, но только в небольших объемах. Когда же объемы возрастают – хотя бы до единственного школьного учебника – система падает. Кроме того, отдельные подходы зачастую несовместимы друг с другом, и современные экспертные системы не могут так же быстро переключаться между различными способами использования накопленных знаний, как это делают люди.
Международная команда проекта Halo добилась значительных успехов в исследованиях. Мы надеемся, что к 2015 году сможем создать систему ИИ, включающую большую часть знаний, необходимых для ответов на вопросы по углубленному школьному курсу биологии. Эта система, которая будет иметь вид планшета или электронной книги (Halo-book), станет важным шагом к созданию «Цифрового Аристотеля». Однако впереди еще множество нерешенных задач и немало научных прорывов. Приведу десять важнейших проблем в сфере обработки знаний, которые представляют наибольший интерес для проекта Halo (я распределил их по трем уровням сложности):
I уровень сложности: перспективные подходы, которым, однако, еще далеко до осуществления
– Человеческий язык крайне сложен и многогранен. Существует множество способов выразить одну и ту же мысль, а одно и то же предложение может иметь массу смыслов. Чтобы машина смогла обработать язык во всей его полноте, она должна «понимать» и должным образом реагировать на великое множество речевых оборотов. Многие перспективные технологии разрабатываются с использованием как автоматизированного, так и неавтоматизированного анализа языка, включая статистические исследования больших объемов данных из Интернета. Точки пересечения человеческого языка и знаний – предмет живого интереса для проекта Halo, который изучает весь спектр лингвистических вопросов.