Графики, которые убеждают всех (Богачев) - страница 14

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.

Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:

• статистического

• визуального


Статистические методы используются для того, чтобы узнавать:

• количество значений в каждой категории

• распределение значений внутри категории: какие значения встречаются чаще, какие – реже

• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана

• максимальные и минимальные значения и так далее


Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.

Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.

Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.

Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.

Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.

Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018: