Почему важно извлекать данные, даже если они находятся только в одном месте
Технически вы можете анализировать данные непосредственно в пределах их хранилища (исходная база данных, электронная таблица Excel и т. д.). Хотя этот метод не рекомендуется, он приемлем для быстрых вычислений, таких как вычисление суммы столбца значений в Excel. Тем не менее для серьезных проектов в области науки о данных работать с данными в их первоначальном хранилище запрещено. Иначе вы можете случайно изменить необработанные данные, что поставит под угрозу вашу работу.
И это наилучший сценарий, поскольку он затрагивает только вас и ваш индивидуальный проект. Работа в хранилище вместо извлечения исходных данных в тестовую базу делает данные уязвимыми для повреждения пользователями, и ваша работа может даже привести к сбою внутренних систем учреждения. Необходимо взять паузу, прежде чем начать работать с данными организации. Нам, аналитикам данных, доверяют важную, существенную информацию о компании, поэтому мы должны убедиться, что оставляем данные такими же, какими они были, когда мы приступили к проекту.
Программное обеспечение для извлечения данных
Для извлечения и чтения данных существует несколько бесплатных программ, и они обязательно отучат вас от вредных привычек, которые часто формируются у пользователей Excel. Эти программы хорошо работают с данными, которые находятся в необработанном файле формата CSV[35].
Хотя это может занять некоторое время, данные в большинстве случаев могут быть урезаны до необработанных CSV-файлов. И если вы работаете в большой организации, где вам нужно подать запрос на извлечение данных, то вот хорошие новости: данные, скорее всего, в любом случае будут предоставлены вам в формате CSV.
Notepad++ – инструмент, которым я пользуюсь, когда хочу посмотреть извлеченные мной данные. Это мощный редактор для просмотра CSV-файлов, и он гораздо удобнее, чем программа «Блокнот», которая стандартно поставляется с Windows. Notepad++ также имеет несколько других существенных преимуществ, таких как:
• нумерация строк, позволяющая перемещаться по файлам и отслеживать вкладки с возможными ошибками;
• функция поиска и замены, дающая возможность быстро находить значения или текст, которые не нужны в массиве данных, и изменять их;
• Notepad++ был разработан специально, чтобы вы были уверены, что ваши данные не могут случайно измениться, как это может случиться в других программах электронных таблиц;
• в то время как текстовый редактор «Блокнот», поставляющийся с Windows, как правило, имеет проблемы с большими файлами, Notepad++ может открывать файлы размером до 2 ГБ.