Множественная регрессия — это способ одновременного установления корреляции между несколькими независимыми, или предикторными, переменными и какой-то целевой, или зависимой, переменной. Например, нам может понадобиться сравнить зависимость стоимости жилья от разных переменных. Мы должны измерить площадь жилья, количество комнат, состояние ванной комнаты (например, используя индекс, вычисляемый на основании количества раковин, наличия или отсутствия горячей воды и использования высоко- или низкокачественных материалов), средний доход населения района и состояние дома по оценкам экспертов или потенциальных покупателей. Затем мы устанавливаем корреляцию этих переменных с привлекательностью дома, измеряемой его стоимостью на рынке — с рабочей (выходной) переменной. Определив коэффициент корреляции каждой из переменных с рыночной ценой, вне зависимости от других переменных (приняв их за постоянные), мы можем оценить, насколько каждая из них влияет на итоговую цену. Так, например, при постоянстве прочих значений корреляция между состоянием дома и его рыночной ценой может быть равна 0,25, а между качеством ванной комнаты и ценой дома — 0,10. Но все используемые переменные должны коррелировать друг с другом, при этом в реальной жизни, как правило, одни переменные измеряются более точно, чем другие, некоторые из них зависимы друг от друга, в то время как другие — нет, а на ряд переменных могут оказывать влияние те, которые не были измерены. В результате множественный регрессионный анализ может нас подвести. Подлинная степень влияния состояния дома на его рыночную цену может оказаться существенно выше или ниже 0,25, полученных в результате регрессионного анализа.
Есть бесчисленное количество примеров, когда множественный регрессионный анализ дает одну оценку, а в экспериментах, которые почти всегда предпочтительнее с точки зрения выявления причинно-следственных связей, обнаруживается совсем другое. Например, около 15 лет назад я присутствовал на конференции, организованной Государственным институтом здравоохранения. Целью конференции был обзор исследований по медикаментозным и хирургическим методам лечения закупорки коронарной артерии и достижение консенсуса по вопросу применимости тех и других. Участникам конференции были доступны данные многочисленных дорогостоящих исследований, осуществленных на средства налогоплательщиков. В этих исследованиях использовался большой набор данных, в том числе по историям болезни, возрасту и социально-экономическому положению пациентов, которые подвергались множественному регрессионному анализу, а затем были сделаны выводы об эффективности типов лечения «независимо» от всех других факторов, по которым отличались пациенты. Но поскольку совет, определяющий политику исследований в США (Internal Review Board), требует, чтобы пациентам было разрешено выбирать себе лечение (хотя далеко не очевидно, что это действительно в интересах пациентов), все данные по Соединенным Штатам в результате самоотбора были искажены (см. ниже). Но помимо американских исследований на конференции рассматривались данные двух европейских, основанных на произвольном назначении лечения разным пациентам. И специалисты очень правильно проигнорировали результаты, полученные в США, и сосредоточились на данных, предоставленных европейскими учеными.