Работа с данными в любой сфере (Еременко) - страница 101

Шаг 3: установите порог. С помощью дендрограммы можно установить порог, который позволит узнать, какое число кластеров оптимально для нашего проекта. Нарисуем произвольный порог на нашей дендрограмме (рис. 6.35).



Те вертикальные линии кластеров, которые совпадают с этой пороговой линией или опускаются ниже ее, включаются в наш анализ, а все, что над этой линией, – исключается. В приведенном выше примере P1, P4 и кластеры P2/3 и P5/6 будут включены. Вот каким образом дендрограмма и точки данных (или кластеры) оказываются связаны. Но остается вопрос: как найти оптимальное количество кластеров? Может ли дендрограмма, как и метод локтя, помочь нам выбрать оптимальное число кластеров?

Стандартный метод выполняет поиск вертикальных линий дендрограмм. Он ищет самый длинный вертикальный сегмент, находящийся между уровнями, на которых находятся горизонтальные сегменты (это важно – сегмент, который мы ищем, не только не должен прерываться горизонтальными линиями, но и их воображаемыми продолжениями). В нашем случае наибольшее непрерывное вертикальное расстояние показано на рис. 6.36:



После того как вы нашли самую длинную вертикальную линию, установите пороговую линию в точке так, чтобы она пересекала сегмент. Полученное число кластеров оптимально для вашей задачи. В нашем случае это два кластера. Вы, я уверен, согласитесь, что это интуитивно понятно из графика рассеяния (рис. 6.37):



Самым большим преимуществом использования алгоритма иерархической кластеризации является его дендрограмма. Дендрограмма – практичный визуальный инструмент, который позволяет легко увидеть все потенциальные конфигурации кластера.

Есть еще много алгоритмов как для классификации, так и для кластеризации: те, с которыми я вас познакомил, – только начало. Если вы хотите узнать больше о том, как можно работать с ними в рамках науки о данных, просто посетите SuperDataScience, чтобы найти ряд ресурсов, учебных пособий и курсов.

В следующей главе мы продолжим исследование алгоритмов и рассмотрим один из моих самых любимых типов анализа данных: обучение подкреплением.

07

Анализ данных (часть II)

На протяжении десятилетий средства массовой информации были очарованы роботами – от невинных игрушечных собак до более угрожающих подвидов, замещающих работников физического труда и сотрудников магазинов. Мы значительно продвинулись вперед от созданных в прошлом веке несовершенных автоматов – и во многом благодаря достижениям в сфере обучения с подкреплением. Именно поэтому вторая часть нашего знакомства с анализом данных полностью посвящена алгоритмам из этой области.