Большинство из нас бывали за границей в странах, на языке которых мы не говорим. Когда основный способ коммуникации недоступен, общение оказывается чрезвычайно сложной задачей. Даже если мы немного владеем языком, слабое знание лексики и грамматики часто мешает нам (и слушателю) хорошо понимать друг друга.
Язык, таким образом, фундаментальная необходимость в случае, когда мы хотим понять и общаться с другим человеком. А подготовка данных все равно что создание общего для человека и машины языка.
В этой главе мы узнаем, почему данные никогда не должны анализироваться без предварительной подготовки, каков пошаговый процесс подготовки данных и в чем состоят лучшие методы решения проблем, связанных с массивами данных.
Как заставить данные говорить
К нам как к практикам, если только мы не супервезунчики, данные часто будут попадать «грязными». Нередко данные собираются сотрудниками, не стандартизирующими свои записи, или управляются людьми, которые могут изменить названия столбцов и строк массивов данных в соответствии со своими собственными проектами. Они могут храниться в неподходящих местах – там, где есть риск повреждения. Неудивительно, что при таком множестве разных людей, работающих с одним массивом данных и добавляющих их различными методами, итоговые массивы данных во многих организациях полны ошибок и пробелов. И мы не можем ожидать, что машина будет знать, где находятся ошибки или как исправить несоответствия в информации.
Поэтому наша задача – подготовить данные таким образом, чтобы они были поняты и правильно проанализированы машиной.
С большими возможностями приходит большая ответственность
Подготовка данных (или преобразование сырых данных) является сложным компонентом всего процесса, поскольку она включает в себя ряд задач, которые могут быть выполнены только вручную. Этот этап обычно занимает наибольшее количество времени[31]. Причина такого пристального внимания к подготовке данных заключается в том, что если исходные данные в массиве изначально не структурированы должным образом, то на более поздних этапах процесс либо вообще остановится, либо, что еще хуже, мы получим неточные прогнозы и/или неправильные результаты. Это может означать катастрофу для вас и вашей компании, и в самом худшем варианте пренебрежение данным этапом может привести к увольнениям, а в случае привлечения фрилансеров – даже к судебным искам.