Компьютерра, 2006 № 11 (631) (Журнал «Компьютерра») - страница 34

Сегалович: Конечно, есть. Но это статистический процесс, и мы обязаны давать лучшую аппроксимацию, чем сейчас. Наша задача — как можно точнее (с помощью статистики, лингвистики, понимания запроса на уровне технологии отвечания на вопросы) понимать, что именно человек спросил, и максимально точно ответить на его запрос.

«КТ»: А вообще, с поисковым движком много работы? Или все основные задачи уже решены и теперь идет подкрутка?

Волож: (бледнеет от возмущения) Да вы что, это же главный проект компании…

Сегалович: Работы море. Во-первых, мы должны лучше научиться распознавать истинную ценность информации и лучше отличать оптимизированные страницы от неоптимизированных. Кроме того, идет работа с ядром, улучшение базовой функциональности. Мы видим, что и где можно улучшить. Мы хотим, чтобы качество ответов повышалось, и мы знаем, где мы плохо отвечаем.

«КТ»: Это где, например?

Сегалович смотрит на Воложа. Волож смотрит на Себранта. Себрант смотрит в ноутбук.

Сегалович: Ну, если в общем виде, то мы когда-то первыми стали аккуратно искать по всем словоформам. И концептуально это очень правильная вещь, которая работает у нас почти в неизменном виде уже много лет. Но иногда ее полезно отключать. Мы умеем это делать, но не на уровне ядра. Вот вам одно направление. На уровне ядра будем также работать над поддержкой многоязычности, постараемся реализовать возможность включения в запрос не только букв, но и специальных символов. Кроме того… (Воложу) Мы это не анонсировали еще, да?

Далее следует бурный обмен междометиями и жестами, которые должны пояснить собеседнику, какое именно «это» имеется в виду. Через минуту Волож, воспользовавшись знанием лингвистики и глубоким пониманием контекста, пожимает плечами: мол, сам решай. Сегалович решает ответить, но полезной информации в его ответе чуть больше, чем на среднестатистическом дорвее.

Сегалович: У нас на новостях справа есть колоночка, в которую выводятся имена людей, упомянутых в сюжетах. В общем, в этом направлении будем работать.

Себрант: Расскажи лучше про географию.

Сегалович: Речь вот о чем. Мы в ближайшее время собираемся включить более детальный географический каталогизатор. Нынешний основан только на каталоге, а мы уже научились распознавать сайты и страницы на лету — исходя из IP-адреса, содержания страниц и других факторов. Благодаря этой технологии мы резко увеличим полноту локализованного поиска — текущий алгоритм все же сильно сужает спектр сайтов, доступных для регионального поиска. Объем информации увеличится в разы. Кроме того, география будет помогать отвечать на запрос, который, по нашим представлениям, является географически локализованным. Если человек ищет компьютер в Санкт-Петербурге…