Работа с данными в любой сфере (Еременко) - страница 66

, для объединения данных в одну таблицу там требуются расширенные навыки программирования.

3. РБД масштабируема. Реляционные базы данных были специально разработаны для масштабируемости; поскольку они объединяют массивы данных, ожидается, что они должны быть в состоянии справиться с большим количеством информационных единиц. Что означает – независимо от того, есть ли у вас пять или пять миллиардов строк, – ваша реляционная база данных вряд ли рухнет в критический момент. Excel гораздо более ограничена в плане емкости, и по мере роста массива данных производительность программы ухудшается, поскольку она изо всех сил пытается справиться с перегрузкой.

Очистка данных

Мы знаем, что в реальном мире данные, скорее всего, будут поступать к нам грязными, но среди практиков есть некоторые разногласия относительно того, как и когда их нужно очищать. Одни очищают данные перед их преобразованием, а другие – только после загрузки в новую базу данных. Я предпочитаю очищать данные на каждом этапе процесса ETL – это может показаться неэффективной тратой времени, но я обнаружил, что нет лучшего способа защититься от неприятностей в дальнейшем. К сожалению, подготовка данных всегда будет занимать много времени, но чем больше осмотрительности вы проявите на этом этапе, тем больше ускорите процесс анализа данных в целом.

1. Извлеките данные

Нам нужно извлечь данные: 1) чтобы убедиться, что мы не изменяем каким-либо образом исходный источник; и 2) потому что данные, которые мы хотим проанализировать, часто хранятся в разных местах. Некоторые примеры возможных местоположений:

• база данных;

• таблицы Excel;

• сайт;

• Twitter;

• CSV-файл;

• бумажный отчет.

Если мы используем данные из нескольких источников, нам придется извлечь их в единую базу данных или хранилище, чтобы проанализировать. Но их не всегда легко извлечь из мест, которые используют форматирование, специфическое для конкретной системы, – например, из Excel, к которой мы вернемся позже в этой главе.

CSV-файлы

Как специалист по данным, вы познакомитесь с этими типами файлов довольно близко. Это самый простой тип необработанных файлов с данными, полностью лишенными какого-либо форматирования, что делает их доступными для любого количества программ, в которые мы можем их импортировать. В CSV-файлах строки размещаются на новых строках и столбцы разделяются запятыми в каждой строке. Отсюда и аббревиатура, которая расшифровывается как comma separated values (данные, разделенные запятой).

Прелесть работы с необработанными файлами заключается в том, что вы никогда не потеряете или не повредите информацию при загрузке массива данных в программу. Именно поэтому они являются стандартом для большинства практиков.