Работа с данными в любой сфере (Еременко) - страница 68


EditPad Lite – бесплатная программа для личного использования. Она предлагает возможности, аналогичные Notepad++, но с одним важным преимуществом: хотя обе они хорошо работают с файлами размером до 2 ГБ, я заметил, что Notepad++ иногда может «сопротивляться» массивам данных, близким к максимальному размеру файла. В результате я обнаружил, что EditPad Lite работает с большими файлами намного лучше. Если вы заметите, что перегрузили файлами Notepad++, обратитесь к EditPad Lite.

2. Преобразуйте ваши данные

Нельзя просто сбросить данные из исходного источника непосредственно в хранилище данных – если только вы не хотите работать с беспорядочным массивом данных. Преобразовав данные, можно «перевести» информацию, которую планируется использовать, на язык, соответствующий поставленным целям.

В широком смысле этап преобразования включает такие изменения, как объединение, разделение и агрегирование данных. Эти функции позволяют создавать производные таблицы, лучше согласующиеся с имеющейся задачей. Но самая важная функция преобразования – очистка данных, и именно на ней мы сосредоточимся.

На этом этапе мы должны выявить и устранить в нашей исходной базе данных любые ошибки и изъяны, которые часто охватывают весь спектр – от несоответствий форматирования и резко отклоняющихся значений до значительных пробелов в информации. Но чтобы сделать это, мы сначала должны понять, что мы ищем. Итак, как мы можем выявить грязные данные?

Грязные данные

Грязные данные – это неверная, поврежденная или отсутствующая информация.

Неверные данные – результат того, что информация была (частично или полностью) неправильно добавлена в базу данных (например, ввод значения валюты в ячейку даты). Иногда мы видим, что данные неверны. Это может быть очевидно при несоответствии между столбцами.

Например, если бы у нас была одна строка, где в ячейке страны значилась «Франция», а в ячейке города – «Рим», мы бы поняли, что она неверна. Мы также можем определить неправильные данные, ориентируясь на здравый смысл: так, мы бы знали, что запись в столбце даты рождения в виде «12/41/2001» просто не может быть правильной.

Поврежденные данные – информация, которая изначально в массиве данных была правильной, но оказалась искажена. К факторам порчи информации относятся физическое повреждение базы данных, ее изменение другим программным обеспечением или предшествующее извлечение данных нерекомендуемыми способами. Иногда данные могут просто быть повреждены из-за переноса в базу данных, не поддерживающую формат, который они имели в предыдущем хранилище.