Работа с данными в любой сфере (Еременко) - страница 86

Давайте поговорим об алкотестере. Предположим, что это устройство разработано очень хорошо и безошибочно выявляет всех пьяных водителей. В конце концов, в том его основное предназначение. Но алкотестер неидеален и будет регистрировать ложное пьянство в 5 % случаев. Это означает, что из 100 трезвых человек он будет ошибочно считать пьяными пятерых (такие результаты называются ложно-положительными). То есть тестирование алкотестером даст положительный результат, хотя на самом деле эти люди не будут находиться в состоянии опьянения.

А теперь представьте, что полицейский только что проверил алкотестером случайного водителя и прибор показывает, что водитель пьян. Какова вероятность того, что он или она действительно выпили?

Импульсивный ответ был бы 95 %. Но правильный ответ на самом деле – около 2 %. Как так? Здесь пригодится теорема Байеса.

Предположим, что на каждую 1000 водителей на дороге приходится только один человек, который ведет машину в нетрезвом состоянии. Если полицейские протестируют 1000 водителей, они получат следующие результаты:

• 1 водитель, который действительно пьян, будет обнаружен непременно;

• из оставшихся 999 водителей 5 % будут сочтены пьяными, то есть 5 % × 999 = 49,95 водителя (не беспокойтесь о десятичной запятой в числе водителей – мы всегда можем округлить этот пример до 100 000 водителей, чтобы результат был целым числом).


В этом примере алкотестер выявил в общей сложности 1 + 49,95 = 50,95 пьяного водителя. Таким образом, вероятность того, что любой из этих водителей действительно пьян, 1/50,95 = 0,0196 % ≈ 2 %. Мы можем проиллюстрировать это в таблице 6.1:



Удивлены? Вы не одиноки. Теорема Байеса до сих пор озадачивает меня всякий раз, когда я сталкиваюсь с примером ее применения к реальной жизненной ситуации. Поразительно, как часто мы делаем поспешные выводы о том, что нам показывают, вместо того чтобы рассмотреть общую картину[48].

Формула Байеса

Теперь давайте посмотрим на формулу Байеса. Вот обозначения, которые будут использоваться в этом примере:

P (пьяный);

Р (пьяный | положительно);

Р (положительно | пьяный);

Р (положительно),

где P обозначает вероятность, а вертикальная черта – условную вероятность.


Каждый из перечисленных элементов имеет математическое название. P (пьяный) – вероятность того, что случайно выбранный водитель будет пьян. В байесовской статистике эта вероятность называется априорной вероятностью. Если мы вспомним наши первоначальные предположения, то можем вычислить априорную вероятность как P (пьяный) = 1/1000 = 0,001.