Камень ломает ножницы. Как перехитрить кого угодно (Паундстоун) - страница 71

В конце концов, любое мошенничество начинается в какой-то момент времени. Если Стэн из бухгалтерии начнет жульничать в следующий вторник, это изменит распределение цифр в его суммах – независимо от того, насколько настоящие данные близки к «случайным» или соответствовали кривой Бенфорда.

В качестве иллюстрации «Моего правила» Нигрини приводит эксперимент, придуманный в 2011 г. на занятиях по математике 17-летним студентом Ка Буи из немецкого города Кобленц. Класс был поделен на пять групп по четыре студента в каждой. Одним группам выдали газеты и предложили составить список из 500 чисел, встреченных в новостях. Другим группам предложили придумать 500 чисел. Смысл эксперимента в том, чтобы проверить, можно ли отличить числа, взятые из новостей, от придуманных, только по распределению составляющих их цифр.

Чтобы максимально затруднить задачу, группам, придумывавшим числа, предложили имитировать те, что могли быть найдены в газете (в противоположность случайным). В этом случае усиливалось сходство с настоящим мошенничеством, ведь преступник похож на хамелеона.

Ни один из пяти наборов данных, настоящих и поддельных, не соответствовал кривой Бенфорда, однако с первого взгляда можно было определить, что они составляют две группы. В одной наблюдались «высокие пики» – пары двух первых цифр, встречавшиеся гораздо чаще, чем ожидалось. Во второй пики были меньше, и распределение в большей степени соответствовало кривой Бенфорда. Как мы уже убедились, повторяющиеся пары цифр могут свидетельствовать о неосознанности – или о мошенничестве. Вы можете подумать, что группа с «маленькими пиками» состояла из настоящих чисел, взятых из газет. И ошибетесь.

Вспомните, что фальшивые числа придумывали группы из четырех человек. Из-за того, что разные люди неосознанно предпочитают разные цифры, вклад каждого члена группы делился на четыре. Это затруднило выявление обмана.

Реальный признак был следующим. В газетах много раз встречалось упоминание текущего года (2011) и нескольких предшествующих. Поэтому на гистограммах отмечался пик для 20 как пары первых цифр. Составители таблицы фальшивых чисел также использовали числа, обозначающие год, но в недостаточном количестве.

Тот, кто использует закон Бенфорда и признаки Чапаниса в качестве критерия, придет к выводу, что группы данных с маленькими пиками настоящие. Однако разумнее было бы проанализировать распределение цифр в числах, взятых из других газет. Это выявило бы массовое упоминание текущего года и помогло бы правильной идентификации.