Работа с данными в любой сфере (Еременко) - страница 65

Сбор этой информации от 2000 магазинов позволил Ульфу подготовить статистически значимые данные, которые в конечном итоге оказались пригодны для анализа. Это помогло Ubisoft выявлять целевую аудиторию как никогда эффективно.

Подготовка данных к путешествию

Для того чтобы сделать исходные (сырые) данные пригодными для анализа, их нужно сначала подготовить:

1. Извлечь данные из исходных источников;

2. Перевести данные на понятный язык, чтобы они стали доступны в реляционной базе данных;

3. Загрузить данные в конечный источник.

Этот процесс известен как ETL (Extract – Transform – Load), и он поможет собрать данные подходящего формата в конечном источнике («хранилище»), к которому можно получить доступ и проанализировать данные на более поздних этапах процесса их обработки. Хранилище содержит разрозненные данные в одной системе. Зачастую оно будет включать реляционные базы данных.

Что такое реляционная база данных?

Реляционные базы данных (РБД) позволяют исследовать их реляционные данные. В таких базах данных имеют значение отношения между единицами информации во всем массиве данных.

Массивы данных в РБД связаны столбцами с одинаковыми именами. Например, если несколько массивов данных содержат столбцы с наименованием «страна», данные из этих столбцов можно сравнить в реляционной базе данных. Преимущество такой базы данных в том, что в ней больше возможностей для анализа и визуализации, необходимых для получения полезных выводов. В частности, данные в такой базе могут изучаться в нескольких массивах сразу без необходимости индивидуального извлечения.

Возможно, лучший способ проиллюстрировать преимущества реляционной базы данных – сравнить ее с Excel, которая часто используется теми, кто не привык работать с базами данных:

1. РБД поддерживает целостность. Каждая ячейка в Excel индивидуальна; типы значений, которые можно в нее поместить, не ограничиваются. Вы можете добавить даты или текст, например, под номерами телефонов или денежными величинами, и Excel это будет полностью устраивать. А вот реляционная база данных станет бить вас по рукам за такую небрежность. Типы столбцов в базе данных предопределены, что означает, что столбец, настроенный на запись дат, не будет принимать значения, не отвечающие формату даты. Затем базы данных будут следить за процессом, делая запрос по любому показателю, который не соответствует значению, предопределенному столбцом.

2. РБД комбинирует массивы данных. Объединить массивы данных в реляционной базе данных легко; гораздо труднее это сделать в Excel. Реляционные базы данных были разработаны для этой цели, и они позволяют легко создавать новые массивы данных путем объединения общих значений в РБД. Все, что от вас требуется, – это умение выполнить простую команду. Поскольку комбинирование таблиц не является основной функцией Excel