Работа с данными в любой сфере (Еременко) - страница 70

• Убедитесь, что все, с кем вы общаетесь, полностью понимают проблему, которую вы пытаетесь решить, а также свою роль в этом процессе. Видение более широкой картины поможет коллегам с большей терпимостью относиться к вашим запросам.

• Всегда имейте под рукой список информационных активов компании. Когда вы отправитесь на охоту за новыми данными, он пригодится, чтобы выявить то, что у организации уже есть, и уменьшит вероятность повторного сбора одних и тех же данных. Я рекомендую в этом перечне записывать названия источников, а также столбцов баз данных и их дескрипторов.

Восполнение недостающих данных

Если мы не можем решить проблему, используя любой из этих методов, то придется рассматривать часть данных как отсутствующие. Существуют различные способы решения проблемы пропущенных данных в электронных таблицах:

• Точно определите, какая именно информация отсутствует. Это можно сделать для информации, полученной из других данных. Например, предположим, что у нас есть электронная таблица с данными о местоположении клиента, которая содержит значения столбцов как для «штата», так и для «города»; запись, соответствующая «штату», отсутствует, но значение «города» – «Солт-Лейк-Сити». Тогда мы можем быть уверены, что штат – «Юта»[37]. Также можно получить пропущенное значение на основе нескольких значений, например для получения значения прибыли из разницы доходов и расходов. Имейте в виду, что мы вводим информацию в обоих примерах, исходя из предположения, что при сборе данных не было ошибок.

• Оставьте запись как есть. Можно просто оставить ячейку без данных незаполненной. Это особенно полезно, если определенные поля не имеют никакого отношения к нашему анализу и, следовательно, могут быть исключены из тестирования. Прием может также использоваться, если мы планируем применить метод, который незначительно пострадает от потери данных (то есть метод, использующий усредненные значения), или если мы используем программный комплекс, который может должным образом преодолеть отсутствие информации. В случаях, когда вы оставляете запись как есть, я бы рекомендовал отмечать, где ваши данные содержат пробелы, чтобы можно было учесть любые возникшие впоследствии аномалии.

• Полностью удалите запись. Иногда недостающие данные имеют решающее значение для анализа. В этом случае подходит один-единственный способ – удаление из анализа всей строки, так как недостающая информация делает данные непригодными для использования. Очевидно, однако, что результаты станут менее значимыми по мере уменьшения выборки. Таким образом, этот подход, вероятно, лучше всего работает с большими массивами данных, где пропуск одной строки не сильно повлияет на статистическую значимость всего массива данных.