Работа с данными в любой сфере (Еременко) - страница 73


Год основания компании

Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Несмотря на то что дата – это число, оно не является числовым значением (с ним нельзя выполнять арифметические операции). Значит, мы не можем заменить его средним значением, а если мы не можем узнать, когда была создана компания, то мы должны воспринимать эту информацию как отсутствующую.


Штат

Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Мы можем безошибочно предположить, какие сведения должны быть на месте недостающих данных. Но требуется осторожность: в случаях, когда город с таким названием может находиться более чем в одном штате, речь не может идти о 100 %-ной точности предложенного значения, и поэтому нам необходимо решить, насколько важны эти данные для нашего анализа.


Расходы

Точно определите, какая именно информация отсутствует. Это легко, мы можем рассчитать расходы, просто вычитая прибыль из дохода.


Доходы, расходы и прибыль, рост

Замените отсутствующие данные средним/медианным значением. Чтобы вычислить эти недостающие данные, требуется больше шагов. Нужно сначала заменить рост доходов и расходов, используя медианы отрасли, а затем мы сможем рассчитать прибыль как разницу между доходами и расходами.

Преобразование данных из MS Excel

Excel пытается упростить задачу, автоматически переформатируя определенные значения. Это может привести к различным сбоям в процессе ETL, и, поскольку программа Excel часто используется для хранения данных, я уделю ей особое внимание. Одна общая жалоба, которую я слышал от пользователей Excel, – требование программы преобразовывать длинные числовые значения (такие, как номера телефонов и кредитных карт) в научную формулу[39]. И это не самое худшее. Excel может конвертировать даты и денежные суммы в единый формат, соответствующий региональным настройкам вашего компьютера. Хотя это может быть удобно для отдельных электронных таблиц, которые часто используются в бизнес-аналитике, такие виды автоматизации в конечном итоге доставят вам неприятности при анализе о данных, так как форматирование Excel не предусматривает качественного перевода в базу данных. И если мы имеем дело с большим количеством данных, выбор всех единиц, измененных программой Excel, может занять много времени.

Если мы не преобразуем данные из Excel в CSV-файл, то в дальнейшем будем сталкиваться с проблемами. Если восстановить измененные даты удается, то почти невозможно восстановить номера кредитных карт, если они были заменены на числа в экспоненциальной записи. Только представьте, чем это чревато для организации, теряющей номера кредитных карт своих клиентов, особенно если вы работали с единственной копией файла.