Я не собираюсь пугать вас, просто хочу показать, насколько важно подготовить данные. Удивительно, но, несмотря на важность этого шага, я обнаружил, что учебные материалы науки о данных в основном сосредоточены на более поздних этапах процесса: анализе и визуализации. В этих книгах и курсах используются уже подготовленные массивы данных. Но такой подход хорош, только если вы просто знакомитесь с дисциплиной; в противном случае он означает, что вы эффективно изучаете лишь косметические способы работы с данными.
Работая исключительно с массивами данных из образовательных курсов, вы просто увидите данные, уже очищенные так, как того требует рассматриваемый пример. Но в реальном мире данные часто грязные, перепутанные и поврежденные, и, не зная причин и характеристик грязных данных, мы не можем надлежащим образом завершить проект. Если вы не подготовите данные, то, когда выйдете в реальный мир со своим первым проектом, ваш алгоритм неизбежно выдаст ошибки «отсутствия данных», или ошибки «текстового спецификатора», или «деление на ноль», и проект застопорится.
Но как тогда понять, что данные хорошо подготовлены? Легко, нужно лишь убедиться, что они подходят для нашей стадии анализа данных. Они должны:
• быть правильно отформатированы;
• не иметь ошибок;
• учитывать все пробелы и аномалии.
Распространенная фраза, которую используют аналитики данных, «мусор внутрь, мусор наружу» означает, что если вы примените алгоритм к грязным данным, то получите только бессмысленные результаты, делающие ваш анализ бесполезным. Правда и то, что некоторым практикам с трудом дается этот этап, но только потому, что у них нет шаблона, которому надо следовать. В итоге такие специалисты работают бесструктурно и вынуждены изобретать велосипед каждый раз, когда готовят данные; в долгосрочной перспективе это неэффективный и затратный по времени подход.
Итак, приступим к процессу подготовки данных.
Кейс: Ubisoft – обоснование необходимости подготовки данных
Ульф Морис – финансовый директор немецкого филиала Ubisoft, компании по дизайну, разработке и распространению игр, создавшей популярные игровые франшизы от Assassin’s Creed до Far Cry. Ульф курирует дистрибьюторскую дочернюю компанию, продающую видеоигры Ubisoft в Германии, Швейцарии и Австрии (GSA), а также отвечает за финансовые аспекты деятельности компании в Центральной Европе.
Раньше данные в Ubisoft использовались исключительно ее производственной командой для монетизации и внутриигровой аналитики. До тех пор, пока Ульф не изменил ситуацию, финансы не входили в число стратегически важных областей науки о данных