Полное понимание вопроса также помогает придерживаться курса и снижает риск отклонения от поставленной цели. Допустим, наш учитель истории хотел, чтобы мы написали об американской войне за независимость. Анекдоты из биографии Джорджа Вашингтона могут быть интересны, но они не отвечают заданной теме. Эссе с такой несоответствующей информацией созданы учениками, которые погружаются в предмет, не поняв сути вопроса, и вместо этого используют все, что они могут собрать, не заботясь о том, чтобы отказаться от ненужных данных.
Именно поэтому в первую очередь нам необходимо определиться с вопросом.
В главе 4 я покажу наиболее подходящий/плодотворный способ действий на этой стадии процесса анализа данных. Поскольку определение вопроса может показаться чрезвычайно сложной задачей, я предлагаю вам проверенный на практике подход, который проведет вас через этот этап и обеспечит рассмотрение всех аспектов вопроса, а также защитит вас от боссов, которые стремятся навязать дополнительную работу после начала проекта.
Смотри, мама, никаких данных!
Несмотря на всю важность, выявление проблемы, как правило, является наиболее часто игнорируемой частью проектов, использующих данные. Я и сам грешил этим, поскольку долгое время начинал проекты с подготовки данных. Но это было не потому, что хотел проскочить вперед; я просто думал, что постановки проблемы достаточно. В конце концов, аналитики данных часто привлекаются к работе над проблемами, и на моей первой работе в Deloitte все проекты начинались с технического задания, в котором уточнялось то, что от меня требуется, и указывалось, где нужна помощь. Неудивительно, что фирма стандартизировала и упорядочила процесс, но это только сформировало во мне плохую привычку бежать впереди паровоза, прежде чем представить себе целостную картину.
Еще одна причина пренебрежения определением вопроса заключается в том, что на этом этапе не используется много данных (если они вообще используются), в результате чего многие аналитики данных относятся немного снисходительно к выполнению этого этапа. Но важно отметить, что те, кто предложил вопрос, вероятно, не являются специалистами по данным и не знают о подготовке, необходимой для очистки и анализа данных. Немногие компании на сегодняшний день информируют своих сотрудников о важности хранения информации и обеспечения доступа к ней, и этот пробел в знаниях означает, что у многих аналитиков данных все еще спрашивают: «У нас есть много данных, может быть, вы сформулируете какие-то идеи на их основе?» Подобные вопросы задаются очень часто, хотя они туманны, расплывчаты и ничему не способствуют в процессе решения проблемы компании