В «Скандале в Богемии» Шерлок Холмс говорит доктору Ватсону: «Теоретизировать, не имея данных, опасно. Незаметно для себя человек начинает подтасовывать факты, чтобы подогнать их к своей теории, вместо того чтобы подтвердить факты теорией». Холмс предостерегает Ватсона от того, чтобы строить догадки в отсутствие подтверждающих их правильность доказательств. Но то, что Конан Дойл также подчеркнул здесь, – это необходимость сделать шаг назад, прежде чем погрузиться в проблему и сформулировать какие-либо предположения или найти решение. Имея дело с данными, мы располагаем преимуществом делать выводы из фактических доказательств, и потраченное на формулировку вопроса время поможет нам получить точный ответ, не зависящий от собственных и чужих предположений.
Это первый этап процесса анализа данных. Аналитики данных должны проявлять здесь некоторую креативность. Мы не меняем информацию в соответствии с нашими идеями, мы формулируем идеи, чтобы добиться полезного для нас понимания. В главе 4 «Сформулируйте вопрос» мы исследуем различные методы, а их применение обеспечит соответствие вопросов, которые мы в конечном итоге зададим нашим данным, целям проекта и удержит нас от пропусков и «расползания границ проекта» – неконтролируемого выхода проекта за первоначально установленные рамки условий.
Правильные ингредиенты
Мы уже давно вступили в эру компьютеров, и большинство учреждений государственного и частного секторов накопили огромное количество своих собственных данных. Однако данные собирались задолго до того, как мы узнали, что с ними можно делать, и зачастую это делали сотрудники, которые не знали, как исследовать, стандартизировать и анализировать информацию, чтобы она действительно была полезной. Такой пробел в знаниях способен вызвать в лучшем случае организованный хаос, когда массивы данных могут содержать искаженные и грязные данные, о которых мы узнаем больше в главе 5 «Подготовка данных».
Если вам надо очистить данные и сделать их удобочитаемыми, нельзя торопиться. Чтобы понять, насколько важно подготовить данные, прежде чем делать с ними что-либо, обратимся к процессу оптимального распознавания символов (OCR) при сканировании. Программное обеспечение OCR отсканирует страницу письменного или печатного текста и переведет этот текст в цифровой формат. Но OCR-сканы не всегда на 100 % корректны: их точность зависит как от возможностей программного обеспечения, так и от качества распечатываемой страницы. Рукописные документы XVII в. создадут больше трудностей и спровоцируют больше ошибок, которые затем должны быть вручную исправлены в более поздних данных. Те, кто не знает, как правильно записывать данные, или кто использует установленные в учреждении устаревшие или неоптимальные стандарты, будут генерировать массивы данных, которые также должны быть «очищены».