Быть аналитиком. Задавать вопросы
Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.
Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:
• статистического
• визуального
Статистические методы используются для того, чтобы узнавать:
• количество значений в каждой категории
• распределение значений внутри категории: какие значения встречаются чаще, какие – реже
• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
• максимальные и минимальные значения и так далее
Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.
Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.
Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.
Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.
Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.
Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018: