У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.
Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.
Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.