Красота в квадрате (Беллос) - страница 34

При более близком рассмотрении не все точки на графике попадают на прямую линию. Некоторые отклоняются от нее, особенно примерно двадцать слов, встречающихся в тексте чаще всего. Однако в большинстве случаев точки находятся очень близко к этой линии. Поразительно то, что порядковый номер подавляющего количества слов в этой книге позволяет достаточно точно определить частоту их использования, и наоборот.

Профессор Ципф обнаружил такую же обратно пропорциональную зависимость еще в одной книге — книге переписи населения США 1940 года. Однако в этот раз он подсчитывал не частотность слов, а численность населения крупных американских городов.


Муниципальный район


Ранг


Население


Нью-Йорк / северо-восток Нью-Джерси


1


12 миллионов


Кливленд


10


1,2 миллиона


Гамильтон/Мидлтаун


100


0,11 миллиона


В это трудно поверить, но и здесь прослеживается та же закономерность. В Нью-Йорке (самом крупном городе США) численность населения в десять раз больше, чем в Кливленде (десятом по величине городе), и в сто раз больше, чем в Гамильтоне (сотом по величине городе). Никто не предлагал американцам расселяться с такой точностью. Тем не менее их выбор подчинялся строгой закономерности. Это происходит и сейчас. На самом деле все мы поступаем именно так. На представленных ниже графиках в двойном логарифмическом масштабе отображены данные о численности населения американских городов и их ранге (порядковом номере), взятые из отчетов о переписи населения США 2000 года, а также данные о численности населения крупнейших городов мира.

Распределение численности населения крупнейших городов США в 2000 го­ду (график сверху) и крупнейших городов мира в 2013 году (график снизу)

Все точки стремятся к прямой линии, как послушные муравьи. Это означает, что здесь, как и прежде, применимо все то же общее уравнение:

На этот раз Ципф тоже пришел к выводу, что для городов и стран значение константы a почти или равно 1. В случае американских городов это значение составляет 0,947, для крупнейших городов мира — 1,156, а в случае переписи населения США 1940 года равно 1.

Безусловно, имеются и отклонения, особенно в наиболее крупных странах и городах. Например, в действительности в Индии (второй самой густонаселенной стране мира) жителей больше, чем можно было бы ожидать, опираясь на закон Ципфа. Однако волатильность (изменчивость значений) в начале упорядоченного списка неизбежна, поскольку там намного меньше данных. Можно предположить, что города и страны обходят друг друга в рейтинге по мере изменения численности населения под влиянием экономических, социальных и экологических факторов. Когда подобные изменения происходят в странах, занимающих самые высокие места в списке, отклонение от прямой линии становится гораздо заметнее. Тем не менее такой разброс данных в верхней части графика не должен приуменьшать важности точного расположения точек далее вниз по линии. Из этого следует, что частота встречаемости слов, а также численность населения городов и стран подчиняются универсальному закону.