Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:
Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:
Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.
Или объединить их:
Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:
А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:
Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:
Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.