• Замените отсутствующие данные средним/медианным значением. Это популярный подход для столбцов, содержащих числовую информацию, так как он позволяет произвольно восполнять любые пробелы, не внося значительных изменений в массив данных. Чтобы вычислить среднее, мы складываем все значения и делим сумму на количество значений. Чтобы вычислить медиану, мы находим последовательное среднее значение в нашем диапазоне данных (если число значений нечетное, просто сложите два средних числа и разделите сумму на два). Обычно предпочтительнее вычислять медиану, а не среднее значение, поскольку первая меньше подвержена влиянию резко отличающихся значений, а это означает, что экстремальные значения по обе стороны от медианного диапазона не будут искажать результаты.
• Заполните пропуски, исследуя корреляции и сходства. Этот подход снова зависит от числового значения отсутствующих данных и требует использования моделей прогнозирования возможных пропущенных значений. Например, мы могли бы использовать прогностический алгоритм (скажем, алгоритм k-ближайших соседей, который мы обсудим в главе 6) для вставки недостающих данных на основе существующих сходств между записями в нашем массиве данных.
• Введите фиктивную переменную для отсутствующих данных. Это требует добавления столбца в наш массив данных: везде, где мы находим пропущенные данные, мы присваиваем ячейке значение «да» – а когда они не пропущены, даем ей значение «нет». Затем мы можем изучить, как переменная коррелирует с другими значениями в нашем анализе, и ретроспективно рассмотреть возможные причины отсутствия этих данных.
Действия в случае наличия резко отклоняющихся значений
Предположим, что мы работаем на компанию, продающую аксессуары для телефонов, и хотим найти среднее количество чехлов одной модели, проданных каждому из наших дистрибьюторов. Мы работаем уже много лет, поэтому у нас большие массивы данных. У сотрудника, ответственного за ввод этих значений в базу данных, был плохой день, и, вместо того чтобы ввести в столбец «продукт» количество единиц продукта, он вставил туда номер телефона дистрибьютора. Эта ошибка аномально увеличила наш средний показатель в этой колонке (и означала бы, что один дистрибьютор купил по крайней мере 100 млн единиц продукта!). Если бы мы проанализировали эту запись отдельно, то, вероятно, заметили бы ошибку. Но если бы мы просто рассчитали среднее значение, не глядя на данные, наш отчет был бы искажен этим резко отклоняющимся значением – и это сделало бы его непригодным.
Тем не менее важно различать резко отклоняющиеся значения, которые могут быть отнесены к ошибочной информации, и те, что являются правильными, но выходят за пределы нормального диапазона значений. Если дистрибьютор