Голая статистика (Уилан)

Сноски

1

Хоумран – удар в бейсболе, при котором мяч перелетает через все игровое поле; дает право совершить перебежку по всем базам и принести своей команде очко. Прим. перев.

2

Куортербек – распасовщик, играющий помощник тренера в американском футболе. Прим. перев.

3

Тачдаун – в американском футболе: пересечение мячом или игроком с мячом линии зачетного поля соперника. Прим. перев.

4

Коэффициент Джини иногда умножают на 100, чтобы он выражался целым числом. В таком случае для Соединенных Штатов он равнялся бы 45.

5

Netflix – американская компания, поставщик фильмов и сериалов на основе потокового мультимедиа. Прим. перев.

6

Исторически так сложилось, что слово «данные» (data) используется во множественном числе (например, «эти данные являются весьма обнадеживающими»). Это слово можно употреблять и в единственном числе: «данное» (datum); в этом случае речь идет о каком-то отдельно взятом элементе данных (например, ответ одного человека на какой-то один вопрос анкеты, используемой при опросе общественного мнения). Употребление слова «данные» во множественном числе сигнализирует каждому, кто занимается серьезными исследованиями, о том, что вы знаете толк в статистике. С учетом сказанного многие специалисты по грамматике, а также многие издания, такие как The New York Times, в настоящее время согласны с тем, что слово «данные» может означать как единственное, так и множественное число, как свидетельствует приведенная мной цитата из The New York Times.

7

Scholastic Aptitude Test – стандартизированный тест для поступающих в американские высшие учебные заведения. Прим. ред.

8

Разумеется, я заведомо упрощаю здесь многогранные и чрезвычайно сложные проблемы, которые ставит перед нами медицинская этика.

9

В российском прокате этот фильм вышел под названием «Человек, который изменил все». Фильм снят по книге Майкла M. Льюиса, изданной в 2003 году, о бейсбольной команде «Окленд Атлетикс» и ее генеральном менеджере Билли Бине. Его цель – создать конкурентоспособную бейсбольную команду, несмотря на отсутствие больших финансовых возможностей. Главную роль исполняет Брэд Питт. Прим. перев.

10

После того как в баре оказалось бы двенадцать посетителей, медианой была бы средняя точка между доходом посетителя, сидящего на шестом стуле, и доходом посетителя, сидящего на седьмом стуле. Поскольку доход того и другого составляет 35 000 долларов, медиана равняется 35 000 долларов. Если бы доход одного из них равнялся 35 000, а доход другого – 36 000, то медиана для этой группы в целом равнялась бы 35 500 долларов.

11

«Лимонами» на американском сленге называют устройства с дефектами, которые проявляются уже после покупки. Прим. ред.

12

Вот что удалось выяснить в ходе дальнейшего исследования проблемы. Оказалось, что почти все бракованные принтеры производились на заводе в Кентукки, где рабочие разобрали часть сборочного конвейера, чтобы создать подпольное предприятие по изготовлению виски. Постоянно пьяные рабочие и частично разобранный сборочный конвейер стали причиной резкого ухудшения качества выпускаемых заводом принтеров.

13

Интересно отметить, что этот менеджер – один из тех десяти парней с годовым доходом 35 000 долларов, которые сидели в баре, когда туда вошел Билл Гейтс с говорящим попугаем на плече. Причуды судьбы!

14

Марк Твен приписывал эти слова британскому премьер-министру Бенджамину Дизраэли; впрочем, каких-либо документальных свидетельств, подтверждающих авторство Дизраэли, не обнаружено.

16

SAT (Scholastic Aptitude Test) – тест на умение грамотно излагать свои мысли в устной форме и тест математических способностей, используемые при поступлении в американские колледжи. Прим. перев.

17

ACT (American College Testing) – стандартизированный тест для поступления в колледжи и университеты США. Прим. перев.

18

Netflix – американская компания, поставщик фильмов и сериалов на основе потокового мультимедиа. Прим. перев.

19

Я имею в виду «человека Шести Сигм». Строчной буквой греческого алфавита σ (сигма) обозначается среднеквадратическое отклонение. «Человек Шести Сигм» – это шесть среднеквадратических отклонений сверх нормы, выраженной в таких понятиях, как статистическая возможность, сила и ум.

20

Для всех этих подсчетов я воспользовался очень удобным биномиальным онлайн-калькулятором с сайта http://stattrek.com/Tables/Binomial.aspx.

21

Агентство НАСА также предупреждало граждан о том, что даже фрагменты упавшего на Землю спутника являются собственностью государства. Таким образом, каждый, кто найдет и спрячет их у себя (например для коллекции), будет считаться нарушителем закона – даже если найдет их в своем дворе.

22

Левитт С., Дабнер С. Фрикономика. – М.: Манн, Иванов и Фербер, 2010.

23

Левитт и Дабнер рассуждали примерно так. Каждый год тонут приблизительно 550 детей в возрасте до десяти лет, а 175 детей в возрасте до десяти лет погибают в результате неосторожного обращения с оружием. Левитт и Дабнер взяли за основу следующие коэффициенты смертности: один утонувший ребенок на каждые 11 000 плавательных бассейнов в сравнении с одним смертельным случаем в результате неосторожного обращения с оружием на каждые «миллион с хвостиком» единиц огнестрельного оружия. Что касается подростков, то указанные коэффициенты могут быть совершенно другими, во-первых, поскольку подростки лучше плавают и, во-вторых, могут гораздо чаще быть виновниками трагедии, если у них в руках случайно окажется огнестрельное оружие. Однако в моем распоряжении нет соответствующих данных.

24

Существует шесть способов выбросить 7 при подбрасывании двух игральных костей: (1,6); (2,5); (3,4); (6,1); (5,2) и (4,3) и лишь два способа выбросить 11: (5,6) и (6,5).

Между тем есть 36 возможных вариантов результата подбрасывания двух игральных костей: (1,1); (1,2); (1,3); (1,4); (1,5); (1,6). И (2,1); (2,2); (2,3); (2,4); (2,5); (2,6). И (3,1); (3,2); (3,3); (3,4); (3,5); (3,6). И (4,1); (4,2); (4,3); (4,4); (4,5); (4,6). И (5,1); (5,2); (5,3); (5,4); (5,5); (5,6). И наконец, (6,1); (6,2); (6,3); (6,4); (6,5) и (6,6).

Следовательно, вероятность выпадания 7 или 11 равняется количеству возможных способов выбросить любое из этих двух чисел, деленное на общее количество возможных вариантов при подбрасывании двух игральных костей, то есть 8/36. Между прочим, значительная часть ранних исследований вероятности выполнялась именно любителями азартных игр в попытках точно определить свои шансы.

25

Полное математическое ожидание для однодолларового билета мгновенной лотереи в штате Иллинойс (округленное до ближайшего цента) подсчитывается следующим образом: 1/15×($2) + 1/42,86×($4) + 1/75×($5) + 1/200×($10) + 1/300×($25) + 1/1589×($50) + 1/8000×($100) + 1/16 000×($200) + 1/48 000×($500) + 1/40 000×($1000) = $0,13 + $0,09 + $0,07 + $0,05 + $0,08 + $0,03 + $0,01 + $0,01 + $0,01 + $0,03 = $0,51. Однако существует также шанс 1/10 получить в качестве выигрыша бесплатный лотерейный билет; ожидаемый доход этого варианта составляет 0,51 доллара; таким образом, ожидаемый доход в целом равняется $0,51 + 0,1×($0,51) = $0,51 + $0,05 = $0,56.

26

Строго говоря, для правильного подсчета математического ожидания необходимо, чтобы сумма вероятностей всех возможных исходов равнялась 1. Здесь же сумма вероятностей представленных исходов составляет 0,2659. Однако, если принять, что с вероятностью 1–0,2659 = 0,7341 выпадает билет без всякого выигрыша (то есть выигрыш равен 0), тогда математическое ожидание подсчитано правильно. Прим. ред.

27

Ранее в этой книге я привел пример, в котором упоминалось о нетрезвых работниках, выпускающих бракованные лазерные принтеры. Выбросьте его из головы: будем исходить из того, что компания, выпускающая лазерные принтеры, уже решила проблемы с качеством.

28

Так как я советовал вам с осторожностью относиться к описательным статистикам, я чувствую себя обязанным отметить, что автомобиль, который угоняют чаще всего, вовсе не обязательно является автомобилем, который угоняют вероятнее всего. Большое число автомобилей марки Honda Civic угоняют именно потому, что это самая распространенная марка, между тем как вероятность угона какого-либо отдельно взятого автомобиля марки Honda Civic (а именно это интересует страховые компании, страхующие от угона автомобилей) может оказаться весьма низкой. Напротив, даже если угоняют 99 % всех автомобилей Ferrari, автомобиль этой марки не возглавил бы список «наиболее часто угоняемых», поскольку таких автомобилей сравнительно мало и, следовательно, их угоняют довольно редко.

29

Вы можете сыграть в эту игру на сайте http://www.nytimes.com/2008/04/08/science/08monty.html?_r=2&oref=slogin&oref=slogin.

30

Издана на русском языке: Талеб Н. Черный лебедь. Под знаком непредсказуемости. – М.: КоЛибри, 2009.

31

СВСМ по-прежнему остается медицинской загадкой, хотя многие из факторов риска, связанных с этим феноменом, удалось выявить. Например, смертность у младенцев можно резко снизить, если ребенка укладывать спать на спину.

32

Вместе с тем в теории вероятностей доказан факт, что если достаточно долго подбрасывать монету, то будут наблюдаться периоды преобладания выпадания орла или решки. Это так называемый первый закон арксинуса. Этот закон не отменяет сказанного автором, а только показывает структуру исходов в испытаниях Бернулли. О данном феномене см., например, классическую книгу В. Феллер. Введение в теорию вероятностей и ее приложения. Т. 1. Глава III. Прим. ред.

33

Chicago Cubs – профессиональный бейсбольный клуб, выступающий в Центральном дивизионе Национальной бейсбольной лиги. Прим. перев.

34

Указанное изменение политики Еврокомиссии было в конечном счете разъяснено в особом постановлении Верховного суда Евросоюза от 2011 года. В этом постановлении было указано, что применение разных надбавок к мужчинам и женщинам представляет собой дискриминацию по половому признаку.

35

Известный принцип программирования, в соответствии с которым неверные входные данные не могут привести к правильному результату. Прим. перев.

36

На тот момент средняя продолжительность этой болезни составляла сорок три дня со среднеквадратическим отклонением, равным двадцати четырем дням.

37

Standard & Poor’s 500 – показательный пример того, что может и должен делать любой индекс. Этот индекс составлен из цен акций 500 ведущих американских компаний с учетом рыночной стоимости каждой из этих компаний (так, чтобы более крупные компании имели в этом индексе больший вес, чем мелкие). Данный индекс – простой и точный показатель того, что происходит с ценами акций крупнейших американских компаний в любой момент времени.

38

С очень интересным обсуждением того, почему следует отдать предпочтение покупке индексных фондов, вместо того чтобы пытаться превзойти рынок, можно ознакомиться в книге моего бывшего преподавателя, профессора Бертона Малкиела (Burton Malkiel) A Random Walk Down Wall Street (Случайная прогулка по Уолл-стрит. – Минск: Попурри, 2006).

39

Леброн Рэймон Джеймс (LeBron Raymone James) – американский профессиональный баскетболист, играющий на позиции легкого и тяжелого форварда за команду НБА «Кливленд Кавальерс». Прим. перев.

40

Обратите внимание на весьма остроумное использование в данном случае ложной точности.

41

Когда среднеквадратическое отклонение соответствующей совокупности вычисляется на основании меньшей выборки, приведенная нами формула несколько видоизменяется: SE = s ÷ √(n − 1). Это помогает учесть то обстоятельство, что дисперсия в малой выборке может «недооценивать» дисперсию всей совокупности. Это не имеет особого отношения к более универсальным положениям, о которых идет речь в данной главе.

42

Мой коллега из Чикагского университета, Джим Сэлли, сделал очень важное критическое замечание по поводу примеров с пропавшим автобусом. Он указал, что пропавший автобус – чрезвычайно большая редкость в наше время. Поэтому если нам придется искать какой-нибудь пропавший автобус, то любой встретившийся нам автобус, который окажется пропавшим или поломавшимся, наверняка будет именно тем автобусом, который нас интересует, каким бы ни был вес пассажиров в этом автобусе. Пожалуй, Джим прав. (Воспользуюсь такой аналогией: если вы потеряли в супермаркете своего ребенка и дирекция этого магазина сообщает по радио, что возле кассы номер шесть стоит чей-то потерявшийся ребенок, то вы наверняка сразу же решите, что речь идет именно о вашем ребенке.) Следовательно, нам не остается ничего другого, как дополнить наши примеры еще одним элементом абсурда, полагая, что пропажа автобуса является вполне рядовым событием.

43

С точки зрения семантики мы еще не доказали, что нулевая гипотеза истинная (то есть что лечение заключенных от наркозависимости не имеет никакого эффекта). Такое лечение может оказаться чрезвычайно эффективным для какой-либо другой группы заключенных. Или, возможно, в этой подопытной группе значительно большее число заключенных совершили бы повторные преступления, если бы не прошли курс лечения от наркозависимости. В любом случае на основе собранных данных нам просто не удалось отвергнуть нулевую гипотезу. Существует аналогичная разница между «неспособностью отвергнуть» нулевую гипотезу и ее принятием. Сам по себе факт, что одному исследованию не удалось опровергнуть утверждение о том, что лечение от наркозависимости не помогает предотвратить повторный арест, еще не означает, что мы должны согласиться с тем, что лечение от наркозависимости бесполезно. С точки зрения статистики здесь имеет место существенная разница. С учетом сказанного следует отметить, что подобные исследования зачастую проводятся с целью информирования полиции, и тюремная администрация, которой приходится решать, как правильно распределить ресурсы, может считать лечение от наркозависимости неэффективным инструментом до тех пор, пока не убедится в обратном. В этом случае, как и в других при использовании статистических данных, следует полагаться на здравый смысл.

44

В статистике уровнем значимости называют вероятность отклонить нулевую гипотезу при условии, что она истинна. Это так называемая ошибка первого рода. Об этой ошибке см. далее. Прим. ред.

45

Этот пример навеян реальными событиями. Понятное дело, многие подробности изменены исходя из соображений национальной безопасности. Что же касается меня, то я не могу ни подтвердить, ни отрицать в них своего участия.

46

Точнее говоря, 95 % средних значений всех выборок будут находиться в пределах 1,96 стандартной ошибки выше или ниже среднего значения совокупности.

47

Существуют две возможные альтернативные гипотезы. Первая заключается в том, что профессиональные баскетболисты выше, чем мужское население в целом. Вторая – что средний рост профессиональных баскетболистов отличается от среднего роста мужского населения в целом (при этом не будем забывать о вероятности того, что рост профессиональных баскетболистов может в действительности быть меньшим, чем у некоторых обычных мужчин). Это различие не играет большой роли при выполнении проверки по критерию значимости и вычислении p-значения. Соответствующее объяснение можно найти в более подробных учебниках по статистике, однако это не играет особой роли для нашего обсуждения, имеющего более общий характер.

48

Сознаюсь, что однажды в отчаянии я изорвал одну книгу по статистике.

49

Еще одним ответом могла бы стать попытка повторить полученные результаты в дополнительных исследованиях.

50

Ошибка второго рода – это вероятность принятия нулевой гипотезы тогда, когда она неверна. Прим. ред.

51

Согласно сайту движения Occupy Wall Street, это народное движение, которое возникло 17 сентября 2011 года в Либерти-сквер, финансовый округ Манхэттена, и распространилось на более чем 100 городов Соединенных Штатов, а также инициировало акции протеста в более чем 1500 городах по всему миру. Occupy Wall Street выступает против засилья крупных банков и транснациональных корпораций, оказывающих разлагающее влияние на демократический процесс, и против роли Уолл-стрит в создании экономического коллапса, который породил тяжелейшую рецессию за все время существования человечества. Это движение вызвано народными волнениями в Египте и Тунисе и ставит своей задачей показать, как 1 % самых богатых людей диктуют правила несправедливой глобальной экономики, которая становится непреодолимым препятствием на нашем пути в будущее.

52

Можно ожидать, что истинный процент голосов избирателей, отданных за кандидата от республиканцев, окажется за пределами доверительного интервала экзитпола приблизительно в 5 случаях из 100. В таких случаях истинный процент голосов избирателей, отданных за кандидата республиканцев, окажется меньше 50 % или больше 54 %. Если, однако, он получит больше 54 % голосов избирателей, ваша телекомпания не ошибется, назвав его победителем (просто его победа окажется еще более убедительной, чем вы предсказывали). Таким образом, вероятность того, что проведенный вами экзитпол заставит вас ошибочно объявить победителем кандидата-республиканца, составляет лишь 2,5 %.

53

Неравенство стандартных ошибок здесь обусловлено наличием третьего, «независимого» кандидата и, соответственно, процентом избирателей, отдавших ему свои голоса. Если было бы только два кандидата, то стандартные ошибки для каждого из них были бы всегда равны. Прим. ред.

54

Формула для вычисления стандартной ошибки опроса, которую я использовал в данном случае, предполагает, что опрос проводится в произвольной выборке из соответствующей совокупности. Организации, специализирующиеся на проведении опросов общественного мнения, могут отходить от этого метода проведения выборочных исследований; в таком случае формула для вычисления стандартной ошибки опроса также несколько изменяется. Однако базовая методика остается той же.

55

По-видимому, самое простое доказательство, что функция f(p) = p(1 − p) = p − p² принимает максимальное значение при р = 0,5, – это математическое доказательство. Находим производную f′(p) = 1 − 2p, приравниваем ее к нулю и получаем уравнение 1 − 2p = 0. Решением этого уравнения будет р = 0,5. Что и требовалось доказать. (О том, что это максимум, свидетельствует вторая производная f″(p) = −2.) Прим. ред.

56

Согласно Международному своду сигналов, поднятый желтый флаг означает карантин. Таким образом автор предостерегает читателя об «опасности» дальнейшего текста, где описывает возможные «ловушки» регрессионного анализа. Прим. ред.

57

Это упражнение следует рассматривать как «игру с данными», а вовсе не как заслуживающее доверия исследование каких-либо зависимостей, описанных в последующих уравнениях регрессии. Наша цель – предоставить читателям интуитивно понятный пример того, как «работает» регрессионный анализ, а не выполнить строго научное исследование, касающееся веса американцев.

58

«Параметр» – это термин, обозначающий любую статистику, которая описывает ту или иную характеристику какой-либо совокупности; средний вес для всех взрослых мужчин – параметр соответствующей совокупности. То же можно сказать о среднеквадратическом отклонении. В приведенном примере истинная связь между ростом и весом для данной совокупности является параметром этой совокупности.

59

Когда нулевая гипотеза заключается в том, что коэффициент регрессии равняется нулю (а это имеет место в большинстве случаев), отношение наблюдаемого коэффициента регрессии к стандартной ошибке называется t-статистикой. Это также объясняется в приложении к данной главе.

60

В статистике этот показатель называется коэффициентом детерминации. Прим. ред.

61

Квинтиль – это квантиль порядка 0,2. Если выборочные значения организовать в порядке возрастания, то квинтили делят эту выборку на пять равных (по количеству) частей. В данном случае «нижний квинтиль склонности к регулярным занятиям спортом» – это группа наименее склонных к регулярным занятиям спортом, составляющая пятую часть из совокупности лиц, регулярно им занимающихся. Прим. ред.

62

Более широкие силы дискриминационного характера могут влиять на выбор женщинами той или иной служебной карьеры или на тот факт, что женщинам гораздо чаще, чем мужчинам, приходится брать отпуск по уходу за детьми. Однако эти важные вопросы не следует путать с более узким вопросом, платят ли женщинам меньше, чем мужчинам, за одну и ту же работу.

63

Эти исследования несколько отличаются от уравнений регрессии, о которых рассказывалось выше в настоящей главе. В этих исследованиях интересующий нас исход, или независимая переменная, являются двоичными. За время исследования у его участника либо возникло то или иное заболевание сердца, либо нет. Таким образом, исследователи используют инструмент под названием многомерная логистическая регрессия. Основополагающая идея остается такой же, как и в случае обычных моделей наименьших квадратов, описанных в настоящей главе. Каждый коэффициент выражает влияние конкретной объясняющей переменной на зависимую переменную при неизменности влияния других переменных в данной модели. Ключевая разница заключается в том, что все переменные в нашем уравнении влияют на вероятность наступления некоторого события, например на вероятность сердечного приступа за период проведения исследования. Например, в этом исследовании вероятность возникновения за период его проведения каких-либо проблем с сердцем у работников, входящих в состав контрольной группы с низкими должностями, в 1,99 раза выше, чем у работников, входящих в состав контрольной группы с высокими должностями, после фиксации всех остальных «сердечных факторов риска».

64

Степень свободы и в русской статистической литературе обозначается как df (от англ. degrees of freedom). См. ниже в Приложении диаграмму. Прим. ред.

65

Для тех, кто еще не догадался: t-распределение – это распределение Стьюдента. В русской литературе чаще всего оно называется именно так. Прим. ред.

66

Более общая формула для вычисления t-статистики имеет следующий вид: t>b = (bb>0) ÷ SE>b, где b – наблюдаемый коэффициент, b>0 – нулевая гипотеза для этого коэффициента, а SE>b – стандартная ошибка для наблюдаемого коэффициента b.

67

Чтобы приспособить регрессионный анализ для использования данных с нелинейными связями, существуют более сложные методы. Однако прежде чем их применять, вам нужно уяснить, почему использование обычного метода наименьших квадратов с нелинейными связями лишено смысла.

68

Необходимо уточнить, что метод наименьших квадратов (МНК), который автор объявил основой регрессионного анализа, действительно можно использовать только для линейных уравнений регрессии. Но линейных относительно коэффициентов регрессии, а не переменных. Поэтому МНК вполне можно применять и для нелинейных (по переменным) уравнений регрессии, которые, однако, являются линейными относительно коэффициентов регрессии либо становятся таковыми после преобразований. Также отметим, что в арсенале регрессионного анализа есть методы, отличные от МНК, которые предназначены для нахождения коэффициентов регрессии в существенно нелинейных уравнениях. Прим. ред.

69

Проще говоря (так, как принято в этой книге), мультиколлинеарность заключается в наличии сильной линейной (статистической) зависимости внутри некоторой группы объясняющих переменных. Это порождает вычислительные сложности или вообще невозможность рассчитать коэффициенты функции регрессии. Прим. ред.

70

Еще одной проблемой «лишних» переменных является мультиколлинеарность (описанная выше), вероятность которой резко возрастает при внесении в уравнение регрессии дополнительных переменных, не прошедших специальной проверки. С другой стороны отметим, что в регрессионном анализе развиты средства отбраковки лишних незначимых объясняющих переменных. Простейшим из которых является так называемый скорректированный коэффициент детерминации, рассчитываемый на основе параметра R². Прим. ред.

71

Русский аналог этой телевикторины называется «Своя игра». Прим. перев.

72

В оригинале приведено слово treatment, которое имеет множество значений. Эти значения: обработка, решение, лечение, трактовка, активизация и др. Мы выбрали слово «активирование» как наиболее подходящее по смыслу для использования в данном тексте. Прим. ред.

73

Эспланада – отрезок музейно-парковой зоны в центре Вашингтона между Капитолием и памятником Джорджу Вашингтону. Прим. перев.

74

Участники этого эксперимента знали, что участвуют в клиническом испытании и что им могут сделать фиктивную хирургическую операцию.

75

В Соединенных Штатах в подготовительных школах учатся дети пяти-шести лет. Прим. перев.

76

Исследователям нравится слово «воспользоваться» (exploit). Оно, в частности, применяется в значении «воспользоваться какой-либо возможностью, связанной с данными». Например, когда исследователи обнаруживают какой-либо натурный эксперимент, который создает подопытную и контрольную группу, они пишут, как собираются «воспользоваться разбросом в соответствующих данных».

77

Здесь существует вероятность ошибки. Обе группы студентов достаточно талантливы для того, чтобы быть принятыми в один из элитных колледжей или университетов. Однако одна группа студентов решила поступить в элитное учебное заведение, а другая предпочла менее престижный колледж или университет. Вторая группа студентов может быть менее мотивирована, менее трудолюбива или может отличаться в каких-то других, ненаблюдаемых отношениях. Если бы Дейл и Крюгер обнаружили, что студенты, поступившие в элитные учебные заведения, впоследствии зарабатывали больше, чем студенты, принятые в одно из элитных учебных заведений, но выбравшие менее престижный вуз, мы все же не могли бы быть уверены, что разница в их будущих доходах объясняется учебой в элитном учебном заведении, а не особенностями человека, получившего шанс поступить в элитное учебное заведение и воспользовавшегося им. Но в исследовании Дейла и Крюгера эта потенциальная ошибка не играет существенной роли. Дейл и Крюгер обнаружили, что студенты, которые поступили в элитные учебные заведения, впоследствии зарабатывали ненамного больше тех, кто выбрал какой-либо другой вариант продолжения учебы, несмотря на то обстоятельство, что студенты, отказавшиеся поступить в элитные учебные заведения, могли обладать другими (помимо образования) особенностями, которые мешали им зарабатывать больше. Как бы то ни было, упомянутая мною ошибка заставляет авторов данного исследования скорее преувеличивать денежные выгоды учебы в элитных колледжах и университетах, которые в любом случае оказываются несущественными.

78

Я не имел права на получение этой медали за 2010 год, поскольку к тому времени мне уже было больше сорока лет. К тому же я не сделал ничего, что давало бы мне право на получение такой награды.

79

Судебный процесс The United States vs. Jones.

83

Издана на русском языке: Хафф Д. Как лгать при помощи статистики. – М.: Альпина Паблишер, 2015. Прим. ред.

Комментарии

1

Central Intelligence Agency, The World Factbook, https://www.cia.gov/library/publications/the-world-factbook/.

2

Steve Lohr, For Today’s Graduate, Just One Word: Statistics, New York Times, August 6, 2009.

3

Steve Lohr, For Today’s Graduate, Just One Word: Statistics, New York Times, August 6, 2009.

5

Trip Gabriel, Cheats Find an Adversary in Technology, New York Times, December 28, 2010.

6

Eyder Peralta, Atlanta Man Wins Lottery for Second Time in Three Years, NPR News (блог), November 29, 2011.

7

Alan B. Krueger, What Makes a Terrorist: Economics and the Roots of Terrorism (Princeton: Princeton University Press, 2008).

8

U.S. Census Bureau, Current Population Survey, Annual Social and Economic Supplements, http://www.census.gov/en.html.

9

Malcolm Gladwell, The Order of Things, The New Yorker, February 14, 2011.

10

CIA, World Factbook, и United Nations Development Program, 2011 Human Development Report, http://hdr.undp.org/en/statistics/.

12

Robert Griffith, The Politics of Fear: Joseph R. McCarthy and the Senate, 2nd ed. (Amherst: University of Massachusetts Press, 1987), p. 49.

13

Catching Up, Economist, August 23, 2003.

14

Carl Bialik, When the Median Doesn’t Mean What It Seems, Wall Street Journal, May 21–22, 2011.

15

Stephen Jay Gould, The Median Isn’t the Message, с предисловием и заключением Стива Данна (Steve Dunn), http://cancerguide.org/median_not_msg.html.

17

Box Office Mojo (boxofficemojo.com), June 29, 2011.

18

Steve Patterson, 527 % Tax Hike May Shock Some, But It’s Only About $5, Chicago Sun-Times, December 5, 2005.

19

Rebecca Leung, The ‘Texas Miracle’: 60 Minutes II Investigates Claims That Houston Schools Falsified Dropout Rates, CBSNews.com, August 25, 2004.

20

Marc Santora, Cardiologists Say Rankings Sway Surgical Decisions, New York Times, January 11, 2005.

21

Интервью на National Public Radio, August 20, 2006, http://www.npr.org/templates/story/story.php?storyId=5678463.

23

Gladwell, Order of Things.

24

Интервью на National Public Radio, February 22, 2007, http://www.npr.org/templates/story/story.php?storyId=7383744.

26

College Board, 2011 College-Bound Seniors Total Group Profile Report, http://research.collegeboard.org/programs/sat/data/archived/cb-seniors-2011.

28

David A. Aaker, Managing Brand Equity: Capitalizing on the Value of a Brand Name (New York: Free Press, 1991).

29

Victor J. Tremblay and Carol Horton Tremblay, The U.S. Brewing Industry: Data and Economic Analysis (Cambridge: MIT Press, 2005).

30

Australian Transport Safety Bureau Discussion Paper, Cross Modal Safety Comparisons, January 1, 2005.

31

Marcia Dunn,1 in 21 Trillion Chance Satellite Will Hit You, Chicago Sun-Times, September 21, 2011.

32

Steven D. Levitt and Stephen J. Dubner, Freakonomics: A Rogue Economist Explores the Hidden Side of Everything (New York: William Morrow Paperbacks, 2009).

33

Garrick Blalock, Vrinda Kadiyali, and Daniel Simon, Driving Fatalities after 9/11: A Hidden Cost of Terrorism (неопубликованная рукопись, December 5, 2005).

34

Источником общей информации о генетическом тестировании является Human Genome Project Information, DNA Forensics, http://www.ornl.gov/sci/techresources/Human_Genome/elsi/forensics.shtml.

35

Jason Felch and Maura Dolan, FBI Resists Scrutiny of‘Matches’, Los Angeles Times, July 20, 2008.

36

David Leonhardt, In Football, 6 + 2 Often Equals 6, New York Times, January 16, 2000.

37

Roger Lowenstein, The War on Insider Trading: Market Beaters Beware, New York Times Magazine, September 22, 2011.

38

Erica Goode,Sending the Police before There’s a Crime, New York Times, August 15, 2011.

39

Источниками данных о страховании рисков являются: Teen Drivers, Insurance Information Institute, March 2012; Texting Laws and Collision Claim Frequencies, Insurance Institute for Highway Safety, September 2010; Hot Wheels, National Insurance Crime Bureau, August 2, 2011.

40

Charles Duhigg, What Does Your Credit Card Company Know about You? New York Times Magazine, May 12, 2009.

41

John Tierney, And behind Door No. 1, a Fatal Flaw, New York Times, April 8, 2008.

42

Leonard Mlodinow, The Drunkard’s Walk: How Randomness Rules Our Lives (New York: Vintage Books, 2009).

43

Joe Nocera, Risk Mismanagement, New York Times Magazine, January 2, 2009.

44

Robert E. Hall, The Long Slump, American Economic Review 101, no. 2 (April 2011): 431–69.

45

Alan Greenspan, Testimony before the House Committee on Government Oversight and Reform, October 23, 2008.

46

Hank Paulson, Speech at Dartmouth College, Hanover, NH, August 11, 2011.

47

The Probability of Injustice, Economist, January 22, 2004.

48

Thomas Gilovich, Robert Vallone, and Amos Tversky, The Hot Hand in Basketball: On the Misperception of Random Sequences, Cognitive Psychology 17, no. 3 (1985): 295–314.

49

Ulrike Malmendier and Geoffrey Tate, Superstar CEOs, Quarterly Journal of Economics 124, no. 4 (November 2009): 1593–638.

50

The Price of Equality, Economist, November 15, 2003.

51

Benedict Carey, Learning from the Spurned and Tipsy Fruit Fly, New York Times, March 15, 2012.

52

Cynthia Crossen, Fiasco in 1936 Survey Brought ‘Science’ to Election Polling, Wall Street Journal, October 2, 2006.

53

Tara Parker-Pope, Chances of Sexual Recovery Vary Widely after Prostate Cancer, New York Times, September 21, 2011.

54

Benedict Carey, Researchers Find Bias in Drug Trial Reporting, New York Times, January 17, 2008.

55

Siddhartha Mukherjee, Do Cellphones Cause Brain Cancer? New York Times, April 17, 2011.

56

Gary Taubes, Do We Really Know What Makes Us Healthy? New York Times, September 16, 2007.

57

U.S. Census Bureau.

58

John Friedman, Out of the Blue: A History of Lightning: Science, Superstition, and Amazing Stories of Survival (New York: Delacorte Press, 2008).

59

Low Marks All Round, Economist, July 14, 2011.

60

Trip Gabriel and Matt Richtel, Inflating the Software Report Card, New York Times, October 9, 2011.

61

Jennifer Corbett Dooren, Link in Autism, Brain Size, Wall Street Journal, May 3, 2011.

62

Heather Cody Hazlett et al., Early Brain Overgrowth in Autism Associated with an Increase in Cortical Surface Area before Age 2 Years, Archives of General Psychiatry 68, no. 5 (May 2011): 467–76.

63

Benedict Carey, Top Journal Plans to Publish a Paper on ESP, and Psychologists Sense Outrage, New York Times, January 6, 2011.

64

Jeff Zeleny and Megan Thee-Brenan, New Poll Finds a Deep Distrust of Government, New York Times, October 26, 2011.

65

Lydia Saad, Americans Hold Firm to Support for Death Penalty, Gallup.com, November 17, 2008.

66

Телефонное интервью с Фрэнком Ньюпором, November 30, 2011.

67

Stanley Presser, Sex, Samples, and Response Errors, Contemporary Sociology 24, no. 4 (July 1995): 296–98.

68

Эти результаты были опубликованы в двух разных формах, одна из которых более академическая, чем другая. Edward O. Lauman, The Social Organization of Sexuality: Sexual Practices in the United States (Chicago: University of Chicago Press, 1994); Robert T. Michael, John H. Gagnon, Edward O. Laumann, and Gina Kolata, Sex in America: A Definitive Survey (New York: Grand Central Publishing, 1995).

69

Kaye Wellings, book review in British Medical Journal 310, no. 6978 (February 25, 1995): 540.

70

John DeLamater, The NORC Sex Survey, Science 270, no. 5235 (October 20, 1995): 501.

71

Presser, Sex, Samples, and Response Errors.

72

Marianne Bertrand, Claudia Goldin, and Lawrence F. Katz, Dynamics of the Gender Gap for Young Professionals in the Corporate and Financial Sectors, NBER Working Paper 14681, January 2009.

73

M. G. Marmot, Geoffrey Rose, M. Shipley, and P. J. S. Hamilton, Employment Grade and Coronary Heart Disease in British Civil Servants, Journal of Epidemiology and Community Health 32, no. 4 (1978): 244–49.

74

Hans Bosma, Michael G. Marmot, Harry Hemingway, Amanda C. Nicholson, Eric Brunner, and Stephen A. Stansfeld, Low Job Control and Risk of Coronary Heart Disease in Whitehall II (Prospective Cohort) Study, British Medical Journal 314, no. 7080 (February 22, 1997): 558–65.

75

Peter L. Schnall, Paul A. Landesbergis, and Dean Baker, Job Strain and Cardiovascular Disease, Annual Review of Public Health 15 (1994): 381–411.

76

M. G. Marmot, H. Bosma, H. Hemingway, E. Brunner, and S. Stansfeld, Contribution of Job Control and Other Risk Factors to Social Variations in Coronary Heart Disease Incidence, Lancet 350 (July 26, 1997): 235–39.

77

Gary Taubes, Do We Really Know What Makes Us Healthy? New York Times Magazine, September 16, 2007.

78

Vive la Difference, Economist, October 20, 2001.

79

Taubes, Do We Really Know?

80

College Board, 2011 College-Bound Seniors Total Group Profile Report, http://research.collegeboard.org/programs/sat/data/archived/cb-seniors-2011.

81

Hans Bosma et al., Low Job Control and Risk of Coronary Heart Disease in Whitehall II (Prospective Cohort) Study, British Medical Journal 314, no. 7080 (February 22, 1997): 564.

82

Taubes, Do We Really Know?

83

Gautam Naik, Scientists’Elusive Goal: Reproducing Study Results, Wall Street Journal, December 2, 2011.

84

John P. A. Ioannidis, Contradicted and Initially Stronger Effects in Highly Cited Clinical Research, Journal of the American Medical Association 294, no. 2 (July 13, 2005): 218–28.

85

Scientific Accuracy and Statistics, Economist, September 1, 2005.

86

Gina Kolata, Arthritis Surgery in Ailing Knees Is Cited as Sham, New York Times, July 11, 2002.

87

Benedict Carey, Long-Awaited Medical Study Questions the Power of Prayer, New York Times, March 31, 2006.

88

Diane Whitmore Schanzenbach, What Have Researchers Learned from Project STAR? Harris School Working Paper, August 2006.

89

Gina Kolata, A Surprising Secret to a Long Life: Stay in School, New York Times, January 3, 2007.

90

Adriana Lleras-Muney, The Relationship between Education and Adult Mortality in the United States, Review of Economic Studies 72, no. 1 (2005): 189–221.

91

Kurt Badenhausen, Top Colleges for Getting Rich, Forbes.com, July 30, 2008.

92

Stacy Berg Dale and Alan Krueger, Estimating the Payoff to Attending a More Selective College: An Application of Selection on Observables and Unobservables, Quarterly Journal of Economics 117, no. 4 (November 2002): 1491–527.

93

Alan B. Krueger, Children Smart Enough to Get into Elite Schools May Not Need to Bother, New York Times, April 27, 2000.

94

Randi Hjalmarsson, Juvenile Jails: A Path to the Straight and Narrow or to Hardened Criminality? Journal of Law and Economics 52, no. 4 (November 2009): 779–809.

95

James Surowiecki, A Billion Prices Now, The New Yorker, May 30, 2011.

96

Malcolm Gladwell, Offensive Play, The New Yorker, October 19, 2009.

97

Ken Belson, N.F.L. Roundup; Concussion Suits Joined, New York Times, February 1, 2012.

98

Shirley S. Wang, Autism Diagnoses Up Sharply in U.S., Wall Street Journal, March 30, 2012.

99

Catherine Rice, Prevalence of Autism Spectrum Disorders, Autism and Developmental Disabilities Monitoring Network, Centers for Disease Control and Prevention, 2006, http://www.cdc.gov/mmwr/preview/mmwrhtml/ss5810a1.htm.

100

Alan Zarembo, Autism Boom: An Epidemic of Disease or of Discovery? latimes.com, December 11, 2011.

101

Michael Ganz, The Lifetime Distribution of the Incremental Societal Costs of Autism, Archives of Pediatrics & Adolescent Medicine 161, no. 4 (April 2007): 343–49.

102

Gardiner Harris and Anahad O’Connor, On Autism’s Cause, It’s Parents vs. Research, New York Times, June 25, 2005.

103

Julie Steenhuysen, Study Turns Up 10 Autism Clusters in California, Yahoo! News, January 5, 2012.

104

Joachim Hallmayer et al., Genetic Heritability and Shared Environmental Factors among Twin Pairs with Autism, Archives of General Psychiatry 68, no. 11 (November 2011): 1095–102.

105

Gardiner Harris and Anahad O’Connor, On Autism’s Cause, It’s Parents vs. Research, New York Times, June 25, 2005.

106

Fernanda Santos and Robert Gebeloff, Teacher Quality Widely Diffused, Ratings Indicate, New York Times, February 24, 2012.

107

Winnie Hu, With Teacher Ratings Set to Be Released, Union Opens Campaign to Discredit Them, New York Times, February 23, 2012.

108

T. Schall and G. Smith, Do Baseball Players Regress to the Mean? American Statistician 54 (2000): 231–35.

109

Scott E. Carrell and James E. West, Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors, National Bureau of Economic Research Working Paper 14081, June 2008.

110

Esther Duflo and Rema Hanna, Monitoring Works: Getting Teachers to Come to School, National Bureau of Economic Research Working Paper 11880, December 2005.

111

Christopher Udry, Esther Duflo: 2010 John Bates Clark Medalist, Journal of Economic Perspectives 25, no. 3 (Summer 2011): 197–216.

112

Esther Duflo, Michael Kremer, and Jonathan Robinson, Nudging Farmers to Use Fertilizer: Theory and Experimental Evidence from Kenya, National Bureau of Economic Research Working Paper 15131, July 2009.

113

Esther Duflo and Christopher Udry, Intrahousehold Resource Allocation in Côte d’Ivoire: Social Norms, Separate Accounts and Consumption Choices, Working Paper, December 21, 2004.

114

Charles Duhigg, How Companies Learn Your Secrets, New York Times Magazine, February 16, 2012.

115

Somini Sengupta and Evelyn M. Rusli, Personal Data’s Value? Facebook Set to Find Out, New York Times, February 1, 2012.