Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.
Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем:
Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.
Скажем, таблицы, представленные на сайте Росстата (gks.ru), непригодны для автоматизированной работы с ними. Они неоднородны. Их строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них». Такую таблицу можно только изучать, а проводить по ней анализ и строить графики нельзя. Ту же таблицу про причины смертности можно было бы переделать, например, так:
Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.
Правила оформления датасета
• Первая строка – заголовки столбцов
• Каждый столбец – отдельная категория
• Данные в столбцах однотипны
• Одно событие или объект – одна строка
• Отсутствие пустых строк и столбцов
Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.
Погружение в тему и контекст
Любые количественные значения, которыми наполнены ваши таблицы, – это не просто циферки. Они возникают не из воздуха. За каждым значением стоит процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из цифр оценивает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.
Одно из российских СМИ однажды опубликовало график, посвященный числу эмигрантов из России по годам. И сделало вывод, что в нашей стране все настолько плохо, что с 2012-го года, с третьего срока Путина,