Работа с данными в любой сфере (Еременко) - страница 100

Существует два типа иерархической кластеризации (агломеративная и дивизивная), и они по существу являются двумя сторонами одной медали. Агломеративная иерархическая кластеризация использует подход «снизу вверх», работая с одной точкой данных и группируя ее с ближайшими точками данных поэтапно, пока все точки не будут собраны в один кластер.

Дивизивная иерархическая кластеризация работает противоположным образом. Она начинается сверху, где один кластер охватывает все наши точки данных, и прокладывает путь вниз, разделяя один кластер на части в зависимости от расстояния между точками данных. Процесс для обоих типов иерархической кластеризации записывается в так называемую дендрограмму.

Мы сосредоточимся здесь на агломеративной иерархической кластеризации, так как она наиболее часто используется.

Построение алгоритма агломеративной иерархической кластеризации

Шаг 1: сделайте каждую точку данных отдельным кластером. Прежде всего мы должны рассматривать наши отдельные единицы данных как кластеры.

Шаг 2: объедините два ближайших кластера. Возьмите два кластера, которые находятся ближе всего друг к другу, и объедините их. На рис. 6.33 одно это действие позволило сократить количество первоначальных шести кластеров до пяти. Сейчас мы повторим этот шаг, но с учетом этих пяти кластеров.

Повторяйте этот шаг, пока не останется только один кластер.

Определение расстояния

Даже если мы станем использовать евклидово расстояние (см. «Построение классификации случайного леса»), то, в отличие от ситуации с отдельными точками, расстояние между кластерами все еще будет неясно и должно быть точно определено. Вот несколько возможных вариантов измерения расстояния между двумя кластерами:

A. Расстояние между их «центрами масс».

B. Расстояние между двумя ближайшими точками.

C. Расстояние между двумя самыми дальними точками.

D. Среднее значение B и C.

Как правило, по умолчанию берется расстояние между центрами масс двух кластеров. Тем не менее ваш выбор здесь может значительно повлиять на конечные результаты – опирайтесь на свое внутреннее знание проблемы, чтобы сделать обоснованный выбор.


Почему агломеративная кластеризация полезна?

Этот тип кластеризации содержит запись каждого этапа процесса: фиксируется порядок поглощения точек данных и расстояние между ними на древовидной диаграмме, известной как дендрограмма.

Что такое дендрограммы?

Дендрограмма расположит точки ваших данных (P1, P2, P3, P4) на оси x графика. Расстояния между точками данных представлены на оси y (рис. 6.34).

Как видно, высота вертикальных линий зависит от расстояния между каждой точкой данных, а горизонтальные линии показывают порядок, в котором происходила кластеризация. Самые низкие горизонтальные линии представляют первые объединенные кластеры; дальнейший путь вверх показывает процесс группировки. В этом примере мы видим, что первые две кластерные точки – P2 и P3, затем P5 и P6. Затем P1 была кластеризована с P2 и P3, а P4 – с P5 и P6. Наконец, эти две группы (P1, P2, P3 и P4, P5, P6) были кластеризованы.