купил 100 млн единиц вашего продукта, это значение все равно будет резко отклоняться, поскольку оно выше стандартного.
Многие массивы данных содержат резко отклоняющиеся значения, и наша задача – понять, где они находятся, и убедиться, что они не искажают фатально наши отчеты. Это во многом будет зависеть от того, какой анализ мы хотим провести. Например, если бы мы хотели выяснить для издательства среднее количество единиц, проданных книжным магазинам по всему миру, и при этом знали, что резко отклоняющееся значение связано с исключительным заказом на поставку, мы могли бы удалить запись, даже если она достоверна.
Можно найти резко отклоняющиеся значения в массиве данных без их поиска вручную путем создания кривой распределения (также известной как колоколообразная кривая нормального распределения) на основе значений столбцов. Кривые распределения графически отображают на пути к их вершине наиболее вероятное значение или событие из ваших данных, и их достаточно просто создать, даже в Excel[38]. После создания кривой распределения можно определить значения, выходящие за пределы нормального диапазона.
Кейс: прикладные методы работы с грязными данными
В предоставленном нам массиве данных из воображаемого фонда венчурного капитала (рис. 5.2) отражался общий рост стартапов в Соединенных Штатах. Поскольку сборщик данных не был связан со стартапами, некоторая информация отсутствовала, так как она либо не была общедоступной, либо компании-стартапы не желали предоставлять информацию такого уровня.

Как вы можете видеть, различные типы информации отсутствуют в столбцах, а иногда в одной строке есть несколько пустых значений. Давайте применим на практике методы исправления недостающих данных. Вернитесь к методам, представленным выше, и подумайте, как бы вы могли решить проблему недостающих данных самостоятельно, прежде чем читать ответы ниже.
Сотрудники
Замените отсутствующие данные средним/медианным значением. Это числовое значение, и поэтому мы можем на место любого из пропущенных значений «сотрудников» использовать общую или отраслевую медиану для этого столбца. (Отраслевой медианный показатель предпочтительнее, поскольку он будет аналогичен отсутствующему показателю.)
Отрасль
Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Выяснить, к какой отрасли относится компания, можно просто исследуя, что она делает, и на этом построить ваши предположения. Но выбор зависит от того, насколько важна отрасль для нашего анализа. Если отрасль важна, а мы не можем ее определить, нужно удалить запись из анализа.