В одном блоге под названием «Ложные данные, которые люди сообщают о себе в интернете» статистическая служба сайта знакомств OkCupid90 недавно опубликовала график роста своих клиентов или, скорее, указанных ими значений. Обнаружилось, что показатели роста представителей обоих полов, как и ожидалось, образуют колоколообразную кривую. Однако удивительно то, что оба распределения были примерно на два дюйма смещены вправо относительно ожидаемых значений.
Таким образом, либо рост клиентов, опрошенных компанией OkCupid, превышает средний, либо при описании себя в интернете они прибавляют к своему росту еще пару дюймов.
Идеализированной версией подобных колоколообразных кривых является то, что математики называют нормальным распределением. Это одно из важнейших понятий в статистике, имеющее теоретическое обоснование. Можно доказать, что нормальное распределение возникает при сложении большого количества мелких случайных факторов, причем каждый из них действует независимо от других. И многие события происходят именно таким образом.
Но не все. И это второй пункт, на который я хотел бы обратить внимание. Нормальное распределение не такое уж вездесущее, как кажется. На протяжении сотни лет, и особенно в последние несколько десятилетий, ученые и специалисты в области статистики отмечают существование множества явлений, отклоняющихся от этой кривой и следующих собственному графику. Любопытно, что подобные типы распределений практически не упоминаются в учебниках по элементарной статистике, а если и встречаются, то обычно рассматриваются как некие патологии. Это странно. Я попытаюсь объяснить, что многие явления современной жизни приобретают больший смысл при условии понимания этих «патологических» распределений. Это новая нормальность.
Возьмем, к примеру, распределение размеров городов в США. Вместо того чтобы скапливаться вокруг некоей средней величины колоколообразной кривой, подавляющее большинство городов имеют небольшой размер и, следовательно, скапливаются в левой части графика.
И чем больше население города, тем реже такие города встречаются. Иначе говоря, в совокупности распределение будет представлять собой скорее кривую в форме буквы L, чем колоколообразную кривую.
И в этом нет ничего удивительного. Все знают, что мегаполисов гораздо меньше, чем маленьких городов. Хотя это не так очевидно, размеры городов подчиняются простому красивому распределению — если посмотреть на них в логарифмическом масштабе.
Будем считать, что различие между двумя городами одно и то же, если их население отличается в одно и то же число раз (подобно тому как две любые клавиши рояля, отстоящие на октаву, всегда разнятся вдвое по частоте). И сделаем то же самое на вертикальной оси.