Красота в квадрате (Беллос) - страница 32

В книгах тоже часто встречаются простые числовые закономерности. Возьмем в качестве примера книгу Джеймса Джойса Ulysses («Улисс»)9. В 40-х годах ХХ столетия исследователи Висконсинского университета на протяжении четырнадцати месяцев составляли список слов, которые использовались в этой книге [6]. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность [7].


Слово


Ранг (порядковый номер)


Частота


I («я»)


10


2653


Say («сказать»)


100


265


Bag («сумка»)


1000


26


Orangefiery («оранжево-пламенный»)


10 000


2


Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.

Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:

частота × ранг = 26 500

Эту формулу можно привести к такому виду:

В общем виде данное уравнение выглядит так:

Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.

Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:

Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме x>y, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 4>2 = 4 × 4, а 2>3 = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 2>1,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе x>y к числу x.)

Ципф обнаружил, что значение константы a всегда стремится к 1 независимо от того, кто автор книги и каково ее содержание. То есть зависимость между частотой встречаемости слов и их рангом всегда очень близка к обратно пропорциональной зависимости. В случае романа «Улисс» значение