Работа с данными в любой сфере (Еременко) - страница 57

5. Проведите майнинг данных (по желанию)

Глубинный анализ (майнинг) данных – возможно, самая приятная для меня часть процесса в любом проекте. То, что ученым не дают заниматься майнингом данных, немного похоже на запрет кураторам музеев изучать материалы, за которые они несут ответственность. Именно на этом этапе вы можете позволить себе быть исследователем. Для меня глубинный анализ данных – процесс, в котором вы выполняете тестирование с целью тщательного изучения данных на высшем уровне и находите области, которые могут предложить интересные идеи для дальнейшего исследования. На этом экспериментальном этапе мне нравится помещать данные в Tableau[27], которое умеет их читать и поможет вам создать предварительные наглядные визуализации, такие как легко читаемые таблицы, диаграммы и графики. Это обеспечивает прекрасный задел, который вы можете использовать в качестве фокусирующей линзы, чтобы сформулировать нужные вопросы.

В конечном счете, если майнинг данных выполняется на начальном этапе проекта, он наиболее эффективно помогает лучше понять проблему и управлять процессом анализа. Это тест-драйв ваших данных: вы испытываете их в необработанном виде, чтобы увидеть, могут ли какие-либо тенденции проявиться даже на раннем этапе. Майнинг данных может сэкономить много усилий в дальнейшем. В то же время не унывайте, если он ни к чему не приведет. Данные могут предлагать или не предлагать нам дальнейшие действия или решения в зависимости от нескольких факторов, таких как компания, качество данных и уровень сложности проблемы. Итак, сделайте этот шаг, но не забывайте «делить на десять». И если вы найдете что-то интересное, запишите и убедитесь, что вы помните о своих находках, когда перейдете к шестому шагу…

6. Уточните проблему

Теперь, когда мы поняли масштаб проблемы и определили количество данных, имеющихся в нашем распоряжении, можно начать копать немного глубже. Здесь мы начинаем сопоставлять масштаб проекта с данными, чтобы отделить переменные и данные, которые будут полезны, от тех, которые не пригодятся, и чтобы надлежащим образом переформулировать вопрос.

Хотя все данные потенциально могут оказаться полезными, мы не можем использовать всю имеющуюся информацию по каждой проблеме, и это только к лучшему: если бы все данные были полезны всегда, объем получаемой на выходе информации был бы просто слишком громоздким для управления. По этой причине мы можем быть разборчивыми по отношению к предоставленным данным. Это означает, что мы должны учесть параметры и контекст проблемы, которую хотим решить, прежде чем двигаться вперед. В конечном счете уточнение проблемы экономит время, устраняя данные, которые не имеют отношения к нашему вопросу.