Теперь, когда вы оценили значение статистики — и пользу и риск интуиции, — мы можем посмотреть, как эти цифры и расчеты постоянно неправильно используются и понимаются. Наши первые примеры — из мира журналистики, но весь ужас в том, что журналисты не единственные, кто делает фундаментальные ошибки в рассуждениях.
Цифры, как мы увидим, могут погубить жизни.
Газеты любят большие цифры и броские заголовки. Им нужны чудесные лекарства и скрытые страхи, а небольшой процент сдвига риска никогда не будет достаточным, чтобы продать читателя рекламщикам (а это их бизнес). Поэтому они выбирают самый мелодраматический и уводящий в сторону способ презентации статистического увеличения риска, который называется «относительное повышение риска».
Допустим, что риск сердечного приступа, если вам за 50, увеличивается на 50 % при повышенном уровне холестерина. Звучит очень неприятно. Давайте скажем, что риск сердечных приступов при повышенном холестерине только 2 %. Для меня это звучит отлично. Однако это те же самые (гипотетические) цифры. Посмотрим. Из 100 мужчин в возрасте 50 лет и старше с нормальным холестерином у четверых разовьется сердечный приступ, в то время как из 100 мужчин с высоким холестерином сердечный приступ разовьется у шести. Плюс два сердечных приступа на сто человек. Это называется «естественная частота».
Естественная частота — это то, что легко понять, поскольку вместо вероятностей, или процентов, или каких-то других технических терминов она оперирует конкретными цифрами, такими же, как те, которые вы используете каждый день, чтобы проверить, не потерялся ли ребенок на прогулке в детском саду, или посчитать сдачу в магазине. Множество людей утверждают, что им нужна только та математика, которая имеет дело с конкретными цифрами, а не с вероятностями, которые мы считаем чем- то интуитивным. Обычные цифры просты и понятны.
Другие методы для описания увеличения риска также имеют названия. Из нашего примера с высоким холестерином вы можете получить 50 % увеличения риска (относительное повышение риска), или 2 % увеличения риска (абсолютное повышение риска), или, если сказать попроще и более информативно, два дополнительных сердечных приступа на каждую сотню человек (естественная частота).
Помимо того, что ее легче воспринимать, естественная частота несет больше информации, чем журналистское «относительное повышение риска». Недавно, например, нам рассказали, что говядина вызывает рак кишечника, а ибупрофен увеличивает риск сердечных приступов: но если вы прочитаете об этом в новостях, вы вряд ли что-нибудь поймете. Например, о раке кишечника. Вот отрывок из программы на Radio 4: «Что вы имеете в виду под повышенным риском, профессор Бингам?» — «Увеличение на одну треть». — «Это звучит пугающе; а если выразить в цифрах?» — «Разница… в 20 человек в год». — «Так мало?» — «А… на 10 000 человек».
Такие вещи трудно донести до слушателя, если вы выходите за рамки простейшего формата. Профессор Шейла Бингам (Sheila Bingham), директор Центра по изучению роли питания в эпидемиологии рака в Кембриджском университете, профессионально занимается статистикой, но в этой (вполне простительной) неуверенности в прямом радиоэфире она не одинока: есть исследования врачей, комиссий местных органов здравоохранения, юристов, которые показывают, что люди, которые профессионально занимаются изучением риска, часто не могут спонтанно выразить, что они имеют в виду. Они также лучше принимают правильные решения, когда информация о риске представлена в виде естественной частоты, а не в виде процентов и вероятностей.
Что касается обезболивающих средств и сердечных приступов, еще одной новости для первых полос, отчаянная попытка выбрать риск побольше привела к тому, что во многих газетах появились совершенно неточные цифры. Сообщения основывались на исследовании, в котором пациенты наблюдались в течение четырех лет и результаты которого заставляют предположить, что, если использовать естественную частоту, можно ожидать один дополнительный сердечный приступ на каждые 1005 человек, принимающих ибупрофен. Или, как написала Daily Mail в статье, озаглавленной «Как пилюли от головной боли могут убить»: «Британские ученые обнаружили, что у пациентов, принимающих ибупрофен для лечения артрита, риск развития сердечного приступа увеличивается на 24 %». Почувствуйте страх.
Почти все сообщили об относительном повышении риска: диклофенак повышает риск сердечного приступа на 55 %, ибупрофен — на 24 %. Только газеты Daily Telegraph и Evening Standard привели естественную частоту: один дополнительный сердечный приступ на 1005 человек, принимающих ибупрофен. Газета Mirror, однако, попыталась это сделать и не смогла, сообщив, что у одного из каждых 1005 человек, принимающих ибупрофен, «в течение следующего года разовьется сердечная недостаточность». Это не так. Во-первых, не сердечная недостаточность, а сердечный приступ, во-вторых, не у одного, а у еще одного (плюс к тому количеству, которое произойдет в любом случае). Еще несколько газет повторили ту же ошибку.
Часто это вина пресс-релизов, и сами ученые несут такую же ответственность, как и остальные, когда дело доходит до излишней драматизации результатов их исследований (существует прекрасное руководство Королевского общества по представлению прессе результатов исследований, если вас это интересует). Но если это читает кто-нибудь, облеченный властью, то вот информация, которую я лично хотел бы получить из газеты, чтобы принять решение по поводу моего здоровья: я хочу знать, о ком идет речь (мужчины 50 лет и старше), я хочу представлять обычный уровень риска (у четырех человек из ста будет сердечный
приступ в ближайшие десять лет) и я хочу знать, каково повышение риска в виде естественной частоты (сердечный приступ будет дополнительно у двух мужчин из этой сотни в ближайшие десять лет). Я хочу точно знать, что является причиной повышения риска — эпизодический прием таблеток от головной боли или регулярное лечение артрита этими таблетками. Тогда я смогу читать газеты, а не блоги в Интернете, которые ведутся людьми, разбирающимися в научных исследованиях, и в которых ссылаются на исходные научные публикации, чтобы можно было при желании проверить информацию.
Сто лет назад Герберт Уэллс сказал, что статистическое мышление когда-нибудь станет таким же важным, как умение читать и писать в современном технологическом обществе. Я не согласен: вероятностные рассуждения — занятие не для каждого, но каждый может понять обычные цифры. Вот почему естественная частота — это единственный разумный путь знакомить нас с рисками для здоровья.
Иногда неправильное представление цифр выходит так далеко за рамки реального, что можно заподозрить обман. Часто эти ситуации связаны с моральными аспектами: наркотики, аборты и тому подобное. При тщательном подборе (что может показаться циничным и аморальным манипулированием фактами ради личной выгоды) вы можете заставить цифры сказать все, что вы хотите.
В газете Independent много лет выступали за легализацию марихуаны, но в марте 2007 года они поменяли свою позицию. Можно было предположить, что это результат пересмотра нравственных позиций. Однако все это было приукрашено наукой — как трусливые фанатики перешли от евгеники к запретам — и подкреплено воображаемыми фактами. «Марихуана — апология» — такой заголовок появился на первой полосе.
В 1997 году наша газета начала кампанию за легализацию марихуаны. Если бы мы тогда знали то, что стало известно сегодня… Рекордное число подростков нуждается в лечении от наркомании в результате того, что они курили сканк (разновидность марихуаны), который в 25 раз сильнее, чем гашиш, который продавался 10 лет назад.
В этом сообщении нам дважды говорят, что марихуана в 25 раз сильнее, чем была 10 лет назад. Для бывшего редактора Рози Бойкотт сканк в 30 раз сильнее, как следует из ее мелодраматических заявлений. В одной статье вопрос о силе был слегка смягчен: не «является», а «может быть». В статье даже приводились цифры: «Судебно-медицинская служба сообщает, что в начале 1990-х годов марихуана содержала 1 % тетрагидроканнабидинола (ТГК), соединения, которое изменяет сознание, а теперь это содержание повысилось до 25 %». Это чистая фантазия.
У меня есть данные Судебно-медицинской службы и более ранние данные Правительственной химической лаборатории, программы ООН по контролю наркотиков, Центра ЕЭС по мониторингy наркотиков и наркомании. Я собираюсь ими поделиться, потому что я думаю, люди сами могут принять решение по этой важной социальной и моральной проблеме, когда у них будут факты.
Средняя крепость (в % ТГК) разновидностей марихуаны (Правительственная химическая лаборатория, 1975–1989)
Данные Правительственной химической лаборатории касаются периода с 1975 по 1989 год. Гашиш содержал от 6 до 10 % ТГК, растительный каннабис — от 4 до 6 %. Четкой тенденции нет. Судебно-медицинская служба дает более современные цифры, которые показывают, что гашиш не сильно изменился, а произведенный в домашних условиях каннабис удвоил свою силу с 6 до 12–14 % (таблица дает данные 2003–2005 гг.).
Тенденция к увеличению содержания активного вещества постепенная, не очень выраженная и зависит в основном от доступности выращиваемого в домашних условиях каннабиса.
Средняя крепость (в % ТГК) разновидностей марихуаны (Судебно-медицинская служба, 1995–2002)
Среднее содержание ТГК в марихуане, захваченной в Великобритании (Судебно-медицинская служба, 1995–2002)
«В 25 раз сильнее», помните? Неоднократно, на первой странице газеты.
Если у вас есть настроение поспорить с моральными и политическими соображениями Independent, а также с очевидной и бесстыдной продажностью этой газеты, вы можете сказать, что интенсивное выращивание в помещениях растения, которое прекрасно растет на улице, — это реакция индустрии марихуаны на нелегальность продукта. Опасно импортировать наркотик в больших количествах. Опасно быть пойманным на поле с коноплей. Поэтому логично активно выращивать растение в помещениях, используя свои дорогостоящие владения, но зато производя более концентрированный продукт. Более концентрированные продукты являются, в конце концов, естественным следствием нелегальности. Вы не можете купить листья коки в Пекаме, но можете купить крэк.
На британском рынке сегодня есть, разумеется, исключительно сильные наркотики из конопли, но они были всегда. Чтобы получить страшные цифры, Independent необходимо только сравнить худшую марихуану из прошлого с лучшей сегодняшней. Это бессмысленное занятие, и кроме того, вы могли бы состряпать что-нибудь подобное и 30 лет назад, если бы захотели: цифры, иллюстрирующие отдельные примеры, доступны, и в 1975 году самая слабая разновидность марихуаны содержала 0,2 % ТГК, а в 1978-м самая сильная -12 %. Судя по этим цифрам, за три года марихуана стала в «30 раз сильнее».
И эти страхи далеко не новы. В середине 1980-х, во время войны Рейгана с наркотиками и кампании школьника Заммо «Просто скажи «нет» в популярном сериале «Грейндж Хилл», американские СМИ утверждали, что марихуана стала в 14 раз сильнее, чем в 1970 году. Посчитаем. Если она была в 1986 году в 14 раз сильнее, чем в 1970-м, и в 25 раз сильнее сегодня, чем в начале 1990-х, означает ли это, что сейчас она в 350 раз сильнее, чем в 1970-м?
Это даже не кристалл в цветочном горшке. Это невозможно. Это означало бы, что в этом растении ТГК больше, чем весь объем растения. Это потребовало бы, чтобы материя сжалась в суперплотный каннабис. Ради бога, не говорите Independent, что такое возможно.
Сейчас мы перейдем к более интересным статистическим вопросам и приведем еще одну историю из области эмоций, статью в газете The Times в марте 2006 года, озаглавленную «Кокаин заполонил детские площадки». «Использование детьми наркотиков, вызывающих зависимость, удваивается за один год» — это подзаголовок. Правда ли это?
Если вы прочитаете пресс-релиз правительственного обзора, на основании которого написана эта статья, то узнаете, что «почти не произошло изменений в употреблении наркотиков, алкоголя и табака с 2000 года». Но это был правительственный пресс-релиз, а журналистам платят за расследования: возможно, пресс-релиз о чем-то умолчал, чтобы скрыть провалы правительственной политики. Газета Telegraph также сообщает об увеличении использования кокаина вдвое, то же делает и Mirror. Означает ли это, что журналисты сами обнаружили эти новости?
Вы можете скачать этот документ из Интернета. Это опрос 9000 детей от 11 до 15 лет из 305 школ. Трехстраничный отчет, но опять-таки не демонстрирующий никаких изменений в употреблении наркотиков. Если вы посмотрите весь отчет, вы найдете «сырые» данные в таблицах: когда детей спрашивали, использовали ли они кокаин в прошлом году, 1 % детей ответили утвердительно в 2004 году и 2 % сказали «да» в 2005-м.
Итак, газеты правы: использование наркотиков удвоилось? Нет. Почти все цифры были либо 1 %, либо 2 %. Они были округлены. Государственные служащие обычно охотно помогают, если им позвонить, и я узнал, Что действительные цифры составляли 1,4 % в 2004 году и 1,9 % в 2005-м, а не 1 и 2 % соответственно. Поэтому употребление кокаина не удвоилось. Но люди все же были готовы защищать свою позицию: употребление кокаина все же увеличилось, не правда ли?
Нет. То, что мы имеем, это относительное повышение риска в 35,7 % или абсолютное повышение риска 0,5 %. Используя реальные цифры, мы получаем, что из 9000 детей только на 45 больше ответили утвердительно на вопрос: «Употребляли ли вы кокаин в прошлом году?»
Если увеличение такое небольшое, является ли оно статистически значимым? Я изучал математику и скажу «да», если пи-величина будет менее 0,05 (p < 0,05). Что означает «статистически значимый»? Это способ выразить вероятность того, что полученный вами результат можно приписать случайности. Иногда, если вы бросаете монету, у вас может выпасть «орел» пять раз подряд, особенно если вы бросаете ее достаточно долго. Представьте банку, в которой перемешаны 980 голубых и 20 красных шариков: иногда — хотя и редко — если вы тащите шарики вслепую, вы можете вытащить три красных шарика подряд, случайно. Стандартная точка отсчета для статистической значимости — это p = 0,05, и это просто другой способ сказать: «Если бы провел эксперимент 100 раз, я мог бы случайно получить ложноположительный результат в пяти случаях».
Если вернуться к конкретному примеру с детьми, давайте представим, что действительно не было разницы в употреблении кокаина, но вы провели тот же опрос сто раз: вы можете, так же как в предыдущем примере, случайно получить разницу, потому что наугад выбрали больше детей, которые принимали кокаин. Но можно ожидать, что это случится менее пяти раз в ваших ста опросах.
Итак, у нас есть повышение риска 35,7 %» которое кажется статистически значимым, но это отдельно взятая цифра. Просто взять эту цифру без контекста и сказать, что она статистически значима, будет неправильно. Статистический тест на значимость подразумевает, что каждый параметр независим, однако здесь данные «сгруппированы». Это не просто данные, это реальные дети из 305 школ. Они общаются, копируют друг друга, они покупают друг у друга наркотики, там случаются повальные увлечения, эпидемии, групповые взаимодействия.
Увеличение числа детей, употребляющих кокаин, на 45 человек означало бы массовую эпидемию наркомании, если бы произошло в одной школе или в нескольких группах из дюжины детей в разных школах, или мини-эпидемию в группе школ. Или 45 детей, независимо покупающих и употребляющих кокаин в одиночку, без друзей, что мне кажется маловероятным.
Это немедленно делает наше увеличение менее статистически значимым. Небольшое увеличение 0,5 % было значимым, поскольку оно касалось большой выборки в 9000 субъектов — как 9000 подбрасываний монеты — но то, что практически любой знает об исследованиях, подобных этому, — чем больше выборка, тем более значимыми, вероятно, будут результаты. Но если это не независимые параметры, тогда вы должны рассматривать их как меньшую выборку, и результаты станут менее значимыми. Как скажут статистики, нужно «сделать поправку на группировку». Это делается с помощью формул, которые вызывают головную боль. Все, что вам нужно знать, это то, что причины, по которым нужно делать эту поправку, прозрачны и ясны, как мы только что видели (фактически, как и со многими другими инструментами, знать, когда использовать статистические инструменты, — это одно, а знать, как они устроены, — другое). Когда вы делаете поправку на группировку, тем самым существенно снижаете значимость результатов. Сохранится ли вообще увеличение потребления кокаина, которое первоначально было объявлено увеличением вдвое, а затем на 35,7 %? Не сохранится. Поскольку существует еще одна проблема с этими данными: их слишком много. В этом обзоре десятки параметров: данные по растворителям, по сигаретам, по кетамину, по марихуане и т. д. В стандартной практике исследований как значимые принимаются только те данные, в которых p = 0,05 или меньше. Как уже говорилось, пи-величина означает, что на каждую сотню сравнений, которые вы делаете, пять случайно являются положительными. В этом обзоре множество параметров, и часть из них, несомненно, показала случайное увеличение — к ним может относиться и увеличение использования кокаина. Если вы будете бросать пару игральных костей достаточно долго, две шестерки три раза подряд могут выпасть неоднократно. Вот почему статистики делают «поправку на множественные сравнения», то есть поправку на «бросание костей» много раз. Она, как и поправка на группировку, особенно жестока для данных и часто сильно снижает их значимость.
Углубляться в данные — опасное дело. Вы могли бы — ничего не зная о том, как работает статистика — сказать, что правительственный обзор показал существенное увеличение употребления кокаина — 35,7 %. Но знатоки, которые составляли этот обзор, знали о «группировке» и о поправке Бонферрони на множественные сравнения. Они не глупы, статистика — это их работа.
Возможно, поэтому они и написали в резюме, в пресс-релизе и в самом обзоре, что не было изменений с 2004 по 2005 год. Но журналисты не хотели этому верить: они попытались заглянуть под капот и думали, что обнаружили новости. Увеличение сдвинулось с 0,5 % — цифра, которая может означать постепенную тенденцию, а может и не означать ничего — и попало на первую полосу «Таймс» в статью об удвоении употребления кокаина. Вы можете не доверять пресс-релизам, но если вы ничего не знаете о статистике, тогда у вас есть большой шанс, заглянув под капот, найти там целую историю.
Существует несколько очень простых способов создать нелепую статистику и два самых любимых — выбрать необычную группу людей и задать им глупый вопрос. Давайте скажем, что 70 % женщин хотят, чтобы принцу Чарльзу запретили вмешиваться в общественную жизнь. Ой, подождите, 70 % женщин, которые посещают мой веб-сайт, хотят, чтобы принцу Чарльзу запретили вмешиваться в общественную жизнь. Вы видите, куда мы движемся. Конечно, в опросах, которые являются добровольными, существует предвзятость выбора: регистрируются только голоса тех людей, которые потрудились заполнить бланк опроса.
Прекрасный пример этого — статья в «Телеграф» в последние дни 2007 года под заголовком «Врачи говорят “нет” абортам в своих кабинетах». «Семейные врачи угрожают выступлением против планов правительства разрешить им делать аборт в их кабинетах», как утверждает газета Daily Telegraph. Выступлением? «По данным опроса, четыре из пяти семейных врачей не хотят проводить аборты в своих кабинетах, несмотря на то что эта идея сейчас проходит тестирование в пилотных проектах Государственной службы здравоохранения».
Откуда они берут эти цифры? Из системного опроса врачей, охотясь за теми, кто не желает отвечать? Из телефонных звонков им на работу? Из почтового опроса? Нет. Это было голосование врачей в онлайне. Вот вопрос и варианты ответов: врачи общей практики должны проводить аборты в своих кабинетах (полностью согласен, согласен, не знаю, не согласен, категорически не согласен).
Следует внести ясность. Лично я не совсем понял вопрос. Они обязаны или им следует? В каких обстоятельствах? При дополнительной подготовке, при наличии времени, за деньги? При дополнительных системах на случай неблагоприятного исхода? И не забывайте, что это веб-сайт, на который врачи заходят, чтобы пожаловаться. Может, они говорят «нет», потому что недовольны лишней работой или низкой моралью?
И кроме того, что здесь означает аборт? Посмотрев комментарии на форуме, я понял, что многие врачи говорят о хирургическом аборте, а не просто об относительно безопасных оральных пилюлях для прерывания беременности. Доктора же не такие сообразительные. Вот несколько цитат:
«Возмутительная идея. Как врачи общей практики могут проводить аборты в своих кабинетах? А что если возникнут осложнения, например перфорация матки или кишечника?»
«Кабинеты врачей — это места, где присутствуют инфекционные заболевания. Идея проведения там стерильных процедур, затрагивающих брюшные органы, — абсурд».
«Единственная возможность проведения таких операций — это наличие специальных хирургических стационаров одного дня, полностью оборудованных и укомплектованных персоналом — анестезиологом, гинекологом… Любая операция — это риск, и возможно, нам надо пройти гинекологическую хирургическую подготовку, чтобы выполнять аборты».
«О чем мы вообще говорим? Давайте делать аборты в наших кабинетах, гостиных, на кухнях, в гаражах, магазинах на углу, как в прежние времена».
А вот мое любимое:
«Я думаю, что вопрос плохо сформулирован, и надеюсь, что [врачебный веб-сайт] не будет предоставлять результаты этого опроса в Daily Telegraph».
Было бы неправильно предположить, что те оплошности, которые мы освещали до сих пор, ограничены низшими эшелонами общества — врачами, журналистами. Некоторые из наиболее отрезвляющих примеров касаются самой верхушки.
В 2006 году, после появления правительственного отчета, СМИ сообщили, что одно убийство в неделю совершается психически нездоровым человеком. Газеты упрекнули психиатров в том, что они делают недостаточно для предотвращения подобных убийств. Все согласятся, я уверен, с любой разумной мерой по уменьшению риска насилия, и было бы своевременно обсудить публично этическую сторону изоляции психически больных (хотя, честно говоря, я был бы также не против обсуждения превентивной изоляции других групп риска — алкоголиков, хулиганов, людей, склонных к насилию, и т. д.).
Но чтобы завязать такую дискуссию, необходимо понимать математику предсказания очень редких событий. Давайте возьмем конкретный пример и посмотрим на ВИЧ-тест. Какие черты любой диагностической процедуры мы измеряем, чтобы судить о ее пользе? Статистики скажут, что анализ крови на ВИЧ имеет высокую чувствительность 0,999. Это означает, что если у вас есть вирус, то анализ крови покажет его наличие с вероятностью 99,9 %. Они также скажут, что этот тест имеет высокую специфичность — 0,9999, то есть если вы не инфицированы, то тест будет отрицательным с вероятностью 99,99 %. Шикарный тест[51].
Но если вы посмотрите на этот тест с точки зрения того, кого тестируют, математика станет слегка противоречивой. Поскольку, как это ни странно, значение, или прогностическая ценность, положительного или отрицательного теста того или иного человека меняется в разных ситуациях, в зависимости от того, насколько редким является событие, которое определяется с помощью этого теста. Чем реже событие в данной популяции, тем хуже становится тест, даже если это тот же самый тест.
Это легче понять на конкретном примере. Допустим, что распространенность ВИЧ-инфекции среди людей в группе высокого риска в данной местности 1,5 %. Мы проводим наш анализ крови на 10 000 человек и можем ожидать 151 положительный результат; из них 150 будут истинно положительными (люди действительно имеют этот вирус) и один — ложноположительным, поскольку (исходя из вышесказанного) мы можем ожидать один неправильный результат на 10 000 анализов. Поэтому, если у вас положительный результат в этих обстоятельствах, это означает, что шанс, что вы действительно заражены вирусом, составит 150 из 151. Это высокая прогностическая ценность.
Давайте рассмотрим тот же пример, но в ситуации, где распространенность вируса составляет 1:10 000. Если мы проверим 10 000 человек, мы будем ожидать два положительных результата. При этом один из этих людей действительно имеет ВИЧ, а другой результат — тот самый ложноположительный, который мы можем ожидать при анализе 10 000 человек.
То есть, если общая частота события невелика, даже блестящий тест может стать, мягко говоря, неточным. Из двух людей с положительным результатом в этой группе населения один будет действительно ВИЧ-инфицирован, а другой — нет. Шанс на то, что вы действительно ВИЧ-положительны, 50:50.
Давайте свяжем это с насилием. Самый лучший прогностический тест для психиатрического насилия имеет чувствительность 0,75 и специфичность 0,75. Еще труднее быть точным, если мы имеем дело с человеческим сознанием и меняющейся человеческой жизнью. Допустим, что 5 % пациентов, осмотренных бригадой психиатров в данном сообществе, в течение года совершат насильственное действие. Используя тот же самый математический метод, что и в случае с ВИЧ-тестом, мы узнаем, что наш лучший прогностический инструмент будет ошибаться в 86 случаях из 100. Для серьезного насилия, частота которого составляет 1 % в год, наш тест с чувствительностью 0,75 неправильно укажет на потенциального насильника 97 раз из 100. Стоит ли превентивно изолировать 97 человек, чтобы предотвратить три случая насилия? И стоит ли применять это в отношении алкоголиков и прочих антисоциальных типов?
Для убийства, самого редкого преступления среди пациентов с психозом, происходящего с частотой 1:10 000 в год, уровень ложноположительных результатов будет настолько высок, что лучший прогностический тест будет совершенно бесполезен.
Это не крик отчаяния. Есть вещи, которые можно делать, и вы можете попытаться снизить число насильственных преступлений, хотя трудно сказать, сколько «убийств в неделю» представляют собой явный провал системы, потому что, когда вы оглядываетесь назад и смотрите в ретроспектроскоп, может показаться, что все, что происходит, недвусмысленно ведет к одному негативному событию. Я только привожу вам математические выкладки для редких событий. Что с этим делать, решайте сами.
В 1999 году юрист Салли Кларк (Sally Clark) предстала перед судом по обвинению в убийстве двух своих детей. Большинство людей сейчас знают, что в обвинении была допущена статистическая ошибка, но немногие знают истинную историю, или феноменальную степень статистического невежества, которая была продемонстрирована в суде. На процессе профессор Рой Медоу (Roy Meadow), эксперт, специализирующийся на родительском насилии над детьми, давал свидетельские показания. Медоу заявил (эта цитата стала знаменитой), что шанс того, что два ребенка в одной семье могли умереть от синдрома внезапной младенческой смерти (СВМС), равен 1 к 73 миллионам.
Это было очень сомнительное свидетельство по двум причинам: одну понять легко, вторую сложно. Поскольку вам придется сконцентрироваться на двух следующих страницах, вы будете более осведомлены в этом вопросе, чем профессор Рой Медоу, судья на процессе Салли Кларк, ее адвокаты, судьи апелляционного суда и почти все журналисты, освещавшие процесс. Сначала займемся легкой причиной.
Экологическая ошибка
Цифра 1 на 73 миллиона сама по себе неточна, как все сейчас признают. Она была рассчитана как 8,543 × 8,543, то есть как если бы шансы двух смертей от СВМС в одной семье были совершенно независимы друг от друга. Это неверно с самого начала, и ясно почему: в двух смертях в одной семье могли сыграть роль общие факторы окружающей среды или генетические факторы. Но забудьте о том, как вы были довольны собой, потому что это поняли. Даже если мы допустим, что вероятность двух случаев СВМС в одной семье гораздо выше, чем 1:73 000 000, скажем, 1:10 000, все равно такая цифра может иметь двоякое значение, как мы увидим.
Прокурорская ошибка
Реальный вопрос в этом деле — а что нам делать с этой сомнительной цифрой? Многие газеты в то время писали, что 1: 73 000 000 — это шанс того, что смерти детей Салли Кларк были случайными, то есть шанс того, что она невиновна. Многие в суде разделяли эту точку зрения, и факты, конечно, засели в сознании. Но это пример неправильного рассуждения, известный как «прокурорская ошибка», который довольно хорошо задокументирован.
Два младенца в одной семье умерли. Это сам по себе очень редкий случай. Если это произошло, суд должен рассмотреть два возможных объяснения: двойная внезапная младенческая смерть или двойное убийство. В нормальных обстоятельствах — до того как умерли дети — можно считать, что двойная младенческая смерть чрезвычайно маловероятна, но так же маловероятно и двойное убийство. Но после того как это случилось, оба объяснения — двойная внезапная младенческая смерть и двойное убийство — становятся гораздо более вероятными. Если мы хотим привлечь статистику, следует выяснить, какое из этих событий более редкое. Люди попытались подсчитать относительный риск этих двух событий, и в одной газете говорится, что он составляет 2:1 в пользу СВМС.
Этот решающий нюанс был не только ошибкой прокурора в то время — он был ошибкой всего суда; он также был упущен в апелляционном суде, на котором тем не менее было решено, что вместо 1:73 000 000 Рой Медоу должен был сказать «очень редко». Они признали и ошибку в вычислениях, и экологическую ошибку, «легкую проблему», о которой мы уже говорили, но они все же остались на его точке зрения, что двойная внезапная младенческая смерть — это чрезвычайно редкое событие.
Это, как вы понимаете, было совершенно неверно: редкость этого события не имеет отношения к данному случаю, поскольку двойное убийство детей — событие также чрезвычайно редкое. В суде был дважды упущен этот статистический нюанс.
Медоу выглядел глупо, и его за это обвиняли (некоторые могут сказать, что весь процесс был усугублен «охотой на ведьм» среди педиатров, которые занимаются насилием в отношении детей), но правда то, что он должен был заранее предвидеть проблемы с интерпретацией этой цифры, так же как и остальные участники процесса: педиатр несет не большую ответственность за ее интерпретацию, чем адвокат, судья, журналист, присяжный или чиновник. «Прокурорская ошибка» также играет роль в анализах ДНК, например, где интерпретация часто зависит от комплексных математических и контекстуальных проблем. Каждый, кто собирается трактовать цифры, использовать их, строить на них предположения, преследовать кого-либо на их основании и тем более сажать в тюрьму, должен взять на себя ответственность понимать их. Все, что вы сделали — это прочитали научно-популярную книгу о них и уже можете видеть, что это не ракетостроение.
Удивительнейшая вещь произошла со мной сегодня вечером. Я шел сюда, на лекцию, и зашел через парковку. Вы не поверите, что случилось. Я увидел машину с номером ARW 357. Можете представить? Каков был шанс, что из миллионов автомобильных номеров в штате я сегодня увижу именно этот номер? Удивительно…
Возможно также, что вам не повезет. Медсестра Лусия де Берк провела в голландской тюрьме шесть лет по обвинению в семи убийствах и трех попытках убийства. Необычно большое число людей умерло во время ее смен, и это, наряду с другими слабыми свидетельствами, послужило доказательством ее вины. Она не призналась в преступлениях и продолжала настаивать на своей невиновности, но в суде были представлены некоторые статистические данные.
Обвинение фактически было основано на цифре 1:342 000 000. Даже если мы найдем ошибки, а мы найдем, поверьте, так же как и в предыдущем случае, эта цифра окажется совершенно ни при чем. Как мы уже видели, интересные вещи, которые происходят в статистике, — это не математические трюки, а то, что действительно означают цифры.
Здесь мы имеем важный урок, из которого можем извлечь пользу: маловероятные вещи происходят. Кто-то каждую неделю выигрывает в лотерею, дети гибнут от молнии. Это становится по-настоящему удивительным только тогда, когда очень странные и невероятные вещи случаются, если вы их предсказали[52].
Вот аналогия.
Представьте, что я стою около большого деревянного сарая с большим автоматом в руках. Я надеваю на глаза повязку и начинаю беспорядочно палить, выпуская в сторону сарая тысячи пуль. Затем я бросаю автомат, подхожу в стене и внимательно в течение некоторого времени изучаю следы от пуль. Я нахожу место, где три пули попали в стену рядом, обвожу это место как мишень и заявляю, что я отличный стрелок.
Я думаю, вы не согласитесь ни с моим методом, ни с моими результатами. Но именно это и произошло в случае с Лусией: обвинители обнаружили семь смертей в смену одной медсестры, в одной больнице, в одном городе, в одной стране в мире, а затем нарисовали вокруг них мишень.
Это нарушает основное правило любого исследования, связанного со статистикой: вы не можете найти вашу гипотезу в ваших результатах. Прежде чем вы подвергнете данные статистическому анализу, вы должны уже иметь гипотезу для проверки. Если ваша гипотеза является результатом анализа данных, то нет смысла анализировать те же данные, чтобы ее подтвердить.
Это довольно сложная, философская математическая форма круговорота: но в этом случае есть также очень конкретные формы «кругового» рассуждения. Чтобы собрать больше данных, следствие вернулось в палаты посмотреть, не было ли там подозрительных смертей. Но люди, которых просили припомнить подозрительные случаи, уже знали, что Лусия может быть серийным убийцей. Существовал высокий риск того, что фраза «случай был подозрительным» станет синонимом фразы «Лусия была на дежурстве». Несколько внезапных смертей в те дни, когда Лусии не было на дежурстве, исключались из расчетов по определению: они не были подозрительными, потому что Лусии в это время не было.
Еще хуже. «Нас попросили составить список случаев, которые произошли во время или вскоре после дежурств Лусии», — сказала одна сотрудница больницы. Таким образом, были исключены другие случаи и увеличилась вероятность подозрительных смертей в смены Лусии. А тем временем она сидела в тюрьме в ожидании суда.
Это сюжет для ночных кошмаров.
В то же время огромное количество статистической информации было почти полностью проигнорировано. За три года, до того как Лусия начала работать в этой палате, там было семь смертей. За три года ее работы в этой палате произошло шесть смертей. Вот вам пища для размышлений: кажется, что смертность в палате снизилась в тот момент, когда там появилась маньячка. Если она убила их всех, то это означает, что в палате вообще не было естественных смертей за все три года, что она там работала.
С другой стороны, как установил прокурор на суде, Лусия увлекалась магией. И отрывки из ее личного дневника, которые зачитывались на суде, звучали довольно странно. Она могла совершить преступление.
Но самое странное в этом случае вот что. В выведении этой умопомрачительной цифры в стиле Роя Медоу (1:342 000 000) прокурорский статистик сделал элементарную математическую ошибку. Он объединил отдельные статистические тесты, перемножив пи-величины, то есть математическое выражение вероятности или статистической значимости. Это немного сложно, и это будет опубликовано, но я тем не менее собираюсь это написать: необходимо не просто перемножать пи-величины, а рассчитывать с помощью специальной методики типа «метода Фишера для комбинирования независимых пи-величии».
Если вы их перемножите, то безобидные и вероятные события быстро превратятся в крайне невероятные. Допустим, вы работали в 20 больницах, в каждой их которых произошел безобидный инцидент: пи-величина p = 0,5. Если вы перемножите эти величины, характеризующие совершенно случайные события, вы получите итоговое значение p = 0,520, то есть р < 0,000001, что является абсолютно статистически значимым. При такой математической ошибке и соответствующем рассуждении, если вы часто меняете больницы, в которых работаете, вы автоматически становитесь подозреваемым. Вы работали в 20 больницах? Пожалуйста, не говорите об этом голландской полиции.