Хотя отдельные розыгрыши фактически случайны, картина подсчетов в значительной степени предсказуема. Каждое число имеет вероятность 6⁄ 49 быть выбранным в каждом розыгрыше, и поэтому количество выпадений определенного числа соответствует известному биномиальному распределению. fn9 На рисунке 6.4 показано распределение 49 общих выпадений после 2 065 розыгрышей, с 23 вверху и 13 и 20 внизу, наложенное на нормальное приближение к биномиальному. Согласие вполне разумное (хотя два самых низких значения немного необычны). показывает, что, хотя мы заранее не знаем, какими будут конкретные "частые" и "нечастые" числа, мы можем точно предсказать распределение подсчетов.
Это свидетельство того, что выбранные числа совершенно непредсказуемы, не мешает многочисленным сайтам давать советы о том, как выиграть в лотерею. Например, мы можем прочитать 17 несколько противоречивый совет о том, что лучше как "играть в комбинации, которые выигрывают наиболее часто", так и не "играть в комбинации, которые уже были разыграны". Ваш выбор, очевидно, должен иметь правильное соотношение четных и нечетных чисел и не содержать "чисел с одинаковой последней цифрой, например 1-11-21-31-41-51", поскольку это "не случалось в прошлом, так что вы можете не использовать это".
Рисунок 6.4
Распределение количества повторений 49 чисел после 2 065 розыгрышей лотереи. Они следуют приблизительно нормальному распределению, как и предсказывает теория вероятности.
Чуть менее бесполезным является совет не играть в последовательные номера или выбирать дни рождения, поскольку, хотя это и не влияет на вероятность совпадения шаров в розыгрыше, это может повлиять на количество людей, с которыми вы разделите джекпот, если вам доведется выиграть. Это было наглядно продемонстрировано только в девятом тираже лотереи Великобритании 14 января 1995 года, когда джекпот пришлось делить с 133 людьми. То, как были расположены сорок девять номеров на лотерейном билете, означало, что выбранные шары (7, 17, 23, 32, 38 и 42) образовывали достаточно регулярный узор всего в двух рядах, , который было легко отметить. Таким образом, неравномерное распределение чисел может означать больший выигрыш, при условии крошечного шанса получить джекпот, что может предложить использовать функцию "lucky dip" для получения случайных чисел. Но, честно говоря, вряд ли это стоит усилий.
Лотереи зависят от случайных розыгрышей, но при каждом розыгрыше вам нужно покупать новый билет. В отличие от этого, UK Premium Bonds - это управляемая правительством схема , которая предлагает ежемесячный розыгрыш призов, при этом вы не теряете свою ставку. По сути, это сберегательная система, в которую в настоящее время вложено около 22 миллионов человек, один из которых - я (см. рис. 6.5), на общую сумму более 121 миллиарда фунтов стерлингов. Розыгрыш был запущен в 1956 году под шумные аплодисменты в адрес "Эрни", машины, которая вытягивала выигрышные номера, - название, придуманное на основе электронного оборудования для определения случайных чисел . Эрни использовал электрический шум в качестве источника случайных чисел и был спроектирован и построен на Исследовательской станции Почтамта командой под руководством Томми Флауэрса, который создал машину Colossus в Блетчли-Парке для взлома немецких кодов во время Второй мировой войны - возможно, первый программируемый электронный компьютер. Как и в случае с предыдущими цифрами RAND, итоговые числа были получены путем вычитания результатов работы двух независимых устройств, и, конечно, их эффективную случайность необходимо было проверить. Единственная женщина в команде, Стефани Ширли, fn10 получила это задание, и числа прошли проверку. 18
Рисунок 6.5
Премиальная облигация, купленная на мой пятый день рождения в 1958 году. С тех пор она ежемесячно участвует в розыгрыше призов, хотя я не уверен, что она хоть раз что-то выиграла, а ставка в 1 фунт стерлингов обесценилась примерно до 3 % от стоимости 1958 года.
Как выглядит случайность?
Как известно, у нас плохо развита интуиция в отношении того, как действует чистая случайность. Мы видим и интерпретируем закономерности повсюду, будь то лица в тосте или животные в облаках, "причитающиеся" номера в лотерее или послания, скрытые в буквах Библии. Большинство этих иллюзий безвредны, но у меня были корреспонденты, которых глубоко беспокоили закономерности, которые они обнаруживали во всем, что их окружало. Действительно, полезный термин "апофения", означающий склонность замечать и интерпретировать связи между несвязанными вещами, был изобретен в 1958 году психиатром Клаусом Конрадом в связи с ранними стадиями шизофрении. 19
Я считаю, что основная проблема в том, что нам, людям, очень трудно понять, что случайное не означает закономерное. Стандартный прием - бросить горсть риса на карту и увидеть четкие кластеры - если бы нам сказали, что это люди, больные раком, мы бы немедленно начали искать причину, по которой в одном конкретном районе наблюдается такое количество случаев. Будь то авиакатастрофы или дни рождения, случайность часто бывает неравномерной - хотя говорить о том, что несчастные случаи происходят втроем, несколько упрощенно, мы можем ожидать, что они часто происходят просто по воле случая.
В те юрские времена, когда нам приходилось носить с собой отдельные устройства для звонков, расчетов, фотографий, определения времени, прокладывания маршрута и так далее, я использовал iPod для воспроизведения музыки. У меня было около 100 альбомов, в каждом из которых было по 10 песен, в общей сложности около 1000 треков. Если бы я использовал функцию "тасования" для случайного выбора следующего трека, то получил бы поразительное количество совпадений: после воспроизведения 38 треков вероятность повторения песни составляла бы 50 %, а после воспроизведения всего 13 треков вероятность получить другую песню из того же альбома составляла бы 50 %. fn11 После жалоб клиентов Apple, по слухам, сделала функцию "тасования" неслучайной - чтобы она казалась случайной. По всей видимости, Spotify пришлось прибегнуть к такому же трюку. 20
Я проводил множество занятий в классе со студентами школы , и одно из самых успешных связано с последовательностью подбрасывания монет. Студенты рассаживаются за столами, и я прошу каждого придумать двадцать подбрасываний монеты и записать последовательность воображаемых голов или решек на листке бумаги, который я предоставляю, а затем написать "фальшивка" на обратной стороне бумаги. Затем я даю каждому по старому тяжелому британскому пенни и прошу их сделать двадцать подбрасываний настоящей монеты, снова записать результаты, но на этот раз написать на обороте "настоящая". Затем студенты на каждом столе перемешивают свои монеты и передают их на следующий стол , где они должны угадать, какие из них действительно случайные, а какие - выдуманные.
Студенты очень быстро улавливают суть упражнения, поскольку видят, что в некоторых случаях выпадение голов или хвостов довольно длительное, а в некоторых - всего два. Затем я показываю им графики на рисунке 6.6.
Первый график показывает, что случайная последовательность из двадцати подбрасываний монет имеет высокую вероятность (78 %) выпадения не менее четырех голов или решек подряд. Это не интуитивно понятно людям, и если они не выполняли это упражнение раньше, никто не включает такой длинный ряд в свою выдуманную последовательность - многие указывают только максимальный ряд из двух, который имеет только 2 % шансов произойти, если бы последовательность была действительно случайной. Аналогично, если мы подсчитаем количество переключений между "головами" и "хвостами", то среднее значение должно быть 9,5, а большинство - от 8 до 11, но люди склонны придумывать последовательности с гораздо большим числом переключений.
Это веселое и популярное упражнение, и студенты, как правило, могут правильно разделить все промахи на истинные и ложные последовательности. Надеюсь, они также узнают кое-что о сцеплении случайностей.
Рисунок 6.6
Свойства двадцати случайных подбрасываний монет с точки зрения наибольшей продолжительности выпадения голов или решек, а также количества переключений между головами и решками, показывающие, что следует ожидать выпадения четырех или более и около десяти переключений. Основано на 10 000 симуляций.
Случайный выбор может не только обеспечить справедливость, но и гарантировать, что "победители" и "проигравшие" похожи друг на друга, даже в том смысле, о котором мы не подозреваем. Это имеет множество научных применений, например, "вероятностная выборка" должна означать, что люди, выбранные для опроса, являются репрезентативными для всего населения. Надежные клинические испытания новых методов лечения случайным образом распределяют каждого добровольца на получение или неполучение вмешательства, что означает, что последующие две группы должны быть сбалансированы как по известным, так и по неизвестным факторам риска. Любая последующая разница в результатах может быть приписана, вплоть до игры случая, вмешательству. Эта простая идея рандомизированного клинического испытания изменила медицину и стала причиной спасения миллионов жизней, как мы увидим в главе 8.
Случайность можно использовать не только в искусстве, как в работах Джона Кейджа и Герхарда Рихтера, но и для того, чтобы обмануть противника в игре или даже в военных действиях. Ваш противник будет отчаянно пытаться понять вашу стратегию, чтобы предсказать ваш следующий ход, но добавление случайности гарантирует, что то, что произойдет дальше, будет совершенно непредсказуемым. Например, в игре "Камень, ножницы, бумага", если вы используете чистую случайность для определения своего выбора, вы должны быть в состоянии победить любого противника, который пытается угадать ваш выбор, хотя людям обычно очень трудно выбирать случайным образом без вспомогательного устройства.fn12 В отличие от этого, при анализе более 11 000 футбольных пенальти 21 , в которых бьющий должен решить, куда направить мяч, оказалось, что профессиональные игроки действительно способны имитировать непредсказуемую стратегию и часто отправляют вратаря нырять не в ту сторону.
Флоренс Найтингейл Дэвид, с которой мы познакомились в главе 3, анализируя броски овечьих костяшек, после Второй мировой войны занималась разминированием мин, которые были закопаны на пляжах Великобритании на случай немецкого вторжения. Немцы устанавливали свои мины методично, по шестиугольной схеме, но это облегчало их обнаружение после того, как были найдены первые несколько штук. Британская армия, проявив больше фантазии, использовала случайные числа для определения промежутков между минами, поэтому никто не мог обнаружить схему. Позже она рассказывала, что "на пляжах в Норфолк-Сэндс... они забыли записать узор. Это была очень сложная работа. Один мой друг подорвался, но не раньше, чем ему пришла в голову блестящая идея. Он предложил взять мощный пожарный шланг и промыть пляж. Смыть почву и обнажить мины" 22..
Случайные стратегии, хотя в основном и эффективные, могут быть противопоставлены подавляющей силе.
Резюме
О "чистой" случайности можно сказать, что она возникает, когда события следуют известному распределению вероятностей, не зависящему от каких-либо внешних знаний, которыми мы можем обладать.
Эти "объективные" вероятности могут иметь место на субатомном уровне, но на практике большинство источников производят "фактически" случайные события.
Сложность мира природы во многом определяется микроскопическими событиями, причины которых невозможно определить и которые можно рассматривать как "случайность". Их последствия могут усиливаться в результате нелинейных "хаотических" процессов.
Является ли мир действительно детерминированным или стохастическим, не имеет практического значения для большинства аналитических исследований, но нам необходимо тщательно продумать, какие явления мы должны рассматривать так, как если бы они были стохастическими.
Большинство генераторов случайных чисел полностью детерминированы и не содержат случайностей.
Физические устройства рандомизации, например, способ розыгрыша лотерей, могут быть эффективно случайными и при этом содержать предсказуемые закономерности.
Наша интуиция в отношении случайности оставляет желать лучшего - она, как правило, оказывается гораздо более "комковатой", чем мы ожидаем.
Случайность может быть очень полезной, как для обеспечения справедливости, репрезентативности и сопоставимости, так и для введения в заблуждение оппонентов.
ГЛАВА 7
. Быть байесовцем
В Великобритании в июне 2021 года было замечено, что большинство людей, умерших от Covid-19, были полностью привиты. Должно ли это стать поводом для беспокойства по поводу вакцин?
Во время пандемии Ковид-19 было много неопределенности, и споры об эффективности мер социальной защиты, лицевых масок и т. д. будут продолжаться годами. Вакцины стали спорным вопросом, как с точки зрения их эффективности, так и потенциального вреда, и это конкретное наблюдение вызвало значительное беспокойство.
На первый взгляд, тот факт, что большинство смертей от "Ковида" пришлось на людей, прошедших полную вакцинацию, может показаться тревожной статистикой - неужели вакцины активно вредили? Но подумайте о ситуации в июне 2021 года в Великобритании - вакцина, которая, как утверждает , была очень эффективной, но не идеальной, для предотвращения серьезных заболеваний от Ковида, была введена огромному количеству людей, причем самыми ранними получателями были группы повышенного риска, такие как пожилые люди и клинически уязвимые. Итак, если бы нам потребовалось сделать прогноз относительно состава людей, умирающих от Ковида, что было бы разумно ожидать?
Позже мы дадим формальное решение вопроса о вакцине, но вы, возможно, уже придумали интуитивный ответ: вакцина не на 100% предотвращает смерть от Ковида, и поэтому, если достаточное количество людей пройдет вакцинацию, "прорывные" смерти превысят число смертей в группе невакцинированных, даже если они были подвержены более высокому риску. Аналогия может помочь: большинство людей, которые погибают в автомобильных авариях, пристегиваются ремнями безопасности, но это не означает, что ремни безопасности вредны - просто почти все пристегиваются, и они не обеспечивают идеальной защиты.
Может показаться, что это скорее вопрос о статистике, чем о неопределенности, но по сути речь идет об условной вероятности. Мы знаем кое-что об условной вероятности того, что кто-то умрет от Ковида, если будет вакцинирован (она мала), но нас интересует "обратная" - условная вероятность того, что кто-то будет вакцинирован, если умрет от Ковида (которая оказывается больше 1⁄ 2). Техническое решение этой проблемы включает теорему Байеса, fn1 , которая, как мы увидим, является простым следствием правил вероятности, но имеет жизненно важные последствия.
В этой главе я приведу аргументы в пользу того, что теорема Байеса может рассматриваться как основа для обучения на основе опыта и в принципе может стать фундаментом для статистических выводов, основанных только на теории вероятностей. Также утверждается, что она лежит в основе того, что происходит, когда люди реагируют на новую информацию - так называемый "байесовский мозг". Довольно большое достижение для (когда-то малоизвестного) священнослужителя XVIII века.
Преподобный Томас Байес родился около 1700 года, получил образование в Эдинбургском университете, на сайте и стал пресвитерианским священником. Позже он жил в изысканном курортном городе Танбридж-Уэллс, где, по-видимому, читал очень скучные проповеди и занимался искусной математикой-любителем, даже был избран членом Королевского общества. Он умер в 1761 году, но его слава основана на посмертной публикации в 1763 году рукописи, найденной в его бумагах. 1 Эта работа, озаглавленная "Эссе о решении проблемы в учении о шансах", была представлена его другом доктором Ричардом Прайсом, который в своем вступлении превозносит ценность работы Байеса о вероятности, включая утверждение, что она предоставляет аргумент в пользу существования Бога. fn2
Определение вероятности Байеса fn3 не совсем прозрачно, но по сути это отношение того, что вы ожидаете выиграть в пари, к тому, что вы получите в случае выигрыша. Для примера, предположим, что вы получите 1 фунт стерлингов, если выиграете пари, но заранее вы ожидаете, что в среднем выиграете только 60 пенсов - тогда ваша вероятность выигрыша составит 60⁄ 100 = 0,6. Таким образом, вместо того чтобы определять ожидание в терминах вероятности, как мы делали это в главе 3, Байес определяет вероятность в терминах ожидания. Здесь нет упоминания о симметрии или долгосрочной частоте - вероятность определяется исключительно в терминах субъективной веры. Возможно, для пресвитерианского священнослужителя довольно иронично, что его самое основное определение должно быть в терминах азартных игр.
Байес похоронен на нонконформистском кладбище в Банхилл-Филдс в Лондоне, где он покоится рядом с такими светилами, как Даниэль Дефо и Уильям Блейк. Его работы не получали должного признания до двадцатого века, но теперь термин "байесовский" стал стандартным, и его прославляют в статистике, машинном обучении и искусственном интеллекте; Эдинбургский университет наконец признал своего выдающегося выпускника, назвав свой "Инновационный центр искусственного интеллекта и науки о данных" Центром Байеса, а бизнес-школа Касса, которая почти примыкает к Банхилл-Филдс, была переименована в бизнес-школу Байеса в 2021 году после тщательной проверки связей Джона Касса с рабством.
Статья Байеса повторяет стиль его проповедей, будучи одновременно длинной и непонятной, но в запутанном языке и ужасных обозначениях fn4 заложена фундаментальная идея: первоначальные убеждения о некоторой неизвестной величине пересматриваются после наблюдения за некоторыми данными, и новые убеждения впоследствии служат основой для оценок и предсказаний. Прежде чем объяснять его идеи более формально, мы можем начать с довольно надуманного примера.
Мне представлены два одинаковых непрозрачных мешка, показанных на рисунке 7.1. Я выбираю мешок наугад, беру шарик, отмечаю, что он точечный, и кладу его обратно. Какова будет разумная вероятность того, что я выбрал мешок 1 или мешок 2? Если я снова возьму шарик из того же мешка, какова вероятность того, что он окажется точечным, и если это так, то какова теперь разумная вероятность для мешков?
Ваша интуиция может подсказать, что если я выберу шар с точкой, то вероятность того, что я вытяну шар из мешка 2, будет выше. Это, в свою очередь, повышает вероятность того, что в следующий раз я выберу шар с точкой. Эта интуиция верна, и теорема Байеса показывает, как сделать ее точной.
Используя идею деревьев ожидаемых частот, представленную в главе 3, рассмотрим, что произойдет, если мы повторим весь процесс восемнадцать раз. Мы ожидаем, что каждый мешок будет выбран девять раз, а каждый из шести шаров - три раза, как показано на рис. 7.2. Девять из этих шаров будут точечными: 3 из мешка 1 и 6 из мешка 2. Поскольку мы знаем, что вытянули шар с точкой, разумные вероятности того, что мы вытянули его из мешка 1 или мешка 2, будут находиться в соотношении 3:6, и поэтому вероятности для двух мешков равны 1⁄ 3 и 2⁄ 3. Таким образом, после того как мы вытянули только один точечный шар, мы теперь считаем в два раза более вероятным, что мы вытянули шар из мешка 2, а не из мешка 1.
Теперь предположим, что, вытянув шар с точкой и положив его обратно, мы вытянем еще один шар из того же мешка. На рисунке 7.2 показано, что мы ожидаем от второго розыгрыша: 1 + 4 = 5 последующих розыгрышей будут точечными. Таким образом, общая вероятность того, что второй шар из мешка будет точечным, равна 5⁄ 9, что немного больше, чем вероятность того, что первый шар был точечным (1⁄ 2). Наша неопределенность изменилась по мере того, как мы узнавали больше; первый шар с точкой изменил наши представления о том, какой мешок мы выбрали, что, в свою очередь, изменило нашу вероятность того, что следующий шар будет с точкой.
Рисунок 7.1
Два одинаковых непрозрачных мешка, в каждом из которых по три шарика; в мешке 1 - 1 точечный и 2 полосатых шарика, в мешке 2 - 2 точечных и 1 полосатый шарик.
Рисунок 7.2
Что должно произойти за 18 повторений случайного выбора мешка, а затем шарика из него. Мы видим, что на нем есть точка, кладем его на место и берем другой шар из того же мешка. Девять из первых шаров имеют точки, и из них 5 вторых шаров имеют точки.
Из 5 возможностей вытянуть второй пунктирный шар 4 - из мешка 2. Таким образом, разумная вероятность того, что я выбрал мешочек 2, теперь составляет 4⁄ 5 = 80%, показывая, что после двух точечных шаров мы быстро пересмотрели наши убеждения о мешочке перед нами, перейдя от 1⁄ 2 (50%) к 2⁄ 3 (67%) к 4⁄ 5 (80%).
Процесс пересмотра вероятностей в свете опыта - тонкая идея, и, даже если общие принципы интуитивно понятны, механика не сразу очевидна. Здесь может помочь использование некоторых общих математических обозначений . Предположим, у меня есть вероятность некоторого события A, обозначаемая Pr(A). Затем мы наблюдаем событие B, и мы хотим знать, как это новое свидетельство меняет мою вероятность для A на новую условную вероятность, обозначаемую Pr(A| B).
Теорема Байеса обеспечивает формальную процедуру обновления наших убеждений и принимает базовую форму
Это напрямую следует из идеи условной вероятности, изложенной в главе 3. fn5 Стандартная терминология гласит, что мы начинаем с начальной, или предварительной, вероятности, Pr(A), а после наблюдения доказательства B она пересматривается до конечной, или посторенней, вероятности, Pr(A| B).
Мы можем решить задачу о мешках и шариках с помощью теоремы Байеса, пусть событие A будет "выбрал мешок 2", а событие B - "выбрал пунктирный шар ". Наша предварительная вероятность Pr(chose Bag 2) будет разумно равна 1⁄ 2, поскольку мы выбрали мешки случайным образом. После наблюдения точечного шара эти убеждения меняются на апостериорную вероятность Pr(chose Bag 2 | picked dotted ball), которая по теореме Байеса равна
Теперь Pr(selected dotted ball | chose Bag 2) = 2⁄ 3 благодаря нашим знаниям о мешках, а Pr(selected dotted ball) = 1⁄ 2, поскольку симметрия мешков означает, что мы с одинаковой вероятностью выберем как пунктирный, так и полосатый шар. Поэтому
совпадает с результатами, полученными с помощью (более интуитивного) дерева ожидаемых частот .
Этот пример иллюстрирует три важных момента. Во-первых, наш анализ основан на наших предположениях об алеаторных вероятностях вытягивания конкретных шаров, которые можно рассматривать как шансы, а затем по теореме Байеса преобразуются в эпистемические вероятности, в смысле личных убеждений о том, какой мешок был выбран. Это очень важный шаг; наблюдаемые данные плюс наши предположения о том, как устроен мир (игра случая), преобразуются в суждения о конкретном случае, находящемся перед нами.
Во-вторых, повторные розыгрыши проводятся с заменой и поэтому кажутся физически независимыми, и все же наши вероятности относительно точечного шара меняются. На первый взгляд это может показаться противоречащим идее независимых событий. Но розыгрыши лишь условно независимы, учитывая (неопределенный) выбор мешка, и, как мы уже видели, знание о том, что шар поставлен в точку, вполне обоснованно меняет наши убеждения о том, что следующий шар будет поставлен в точку.
Условная независимость - это мощная идея, лежащая в основе статистического моделирования, поскольку часто разумно предположить, что наблюдения независимы, если мы знаем какой-то общий фактор, влияющий на них, и таким образом повторные наблюдения позволяют нам узнать о таком общем влиянии. fn6 Например, результаты ряда футбольных матчей можно предположить, что они условно независимы, учитывая конкретные команды, но все равно могут рассказать нам что-то о базовом мастерстве команд.
Наконец, весь этот анализ зависит от предположения, что мешки соответствуют заявленным характеристикам, и нас не обманывают. Когда я провожу подобные упражнения с классом, я иногда закладываю в один мешок сгусток липкой жижи, что преследует три цели: во-первых, спровоцировать веселый крик, во-вторых, научить студентов тому, что все вероятности зависят от предположений, и в-третьих, что им следует опасаться автоматически доверять людям.
6 мая 2023 года король Карл III был коронован в Вестминстерском аббатстве в Лондоне. Безопасность была усилена, и столичная полиция сообщила 2 , что использует автоматическое распознавание лиц, чтобы определить, есть ли среди толпы интересующие вас лица. Но насколько надежной была эта система?
Система распознавания лиц, используемая полицией в реальном времени, как утверждается, идентифицирует 70 % людей, внесенных в "список наблюдения", и только 1 из 1000 человек выдает ложное предупреждение. Система выбирает человека, , скажем, "Джорджа", из толпы, как совпадающего с человеком из списка наблюдения. Какова разумная вероятность того, что Джордж действительно окажется в списке?
Системы распознавания лиц могут быть превосходными, если используются в контролируемых условиях с использованием высококачественных изображений - я очень благодарен, когда они позволяют мне быстро проходить через автоматические паспортные барьеры. Использование "живого" распознавания лиц (LFR) для сканирования толпы с целью выявления лиц, включенных в списки наблюдения, является более спорным, причем не только с точки зрения гражданских свобод, но и с точки зрения точности, поскольку изображения, используемые в списках наблюдения и при сканировании, скорее всего, будут гораздо более низкого качества.
Официальное руководство Колледжа полиции Великобритании 3 использует следующую терминологию.
Коэффициент истинного распознавания (TRR) - это доля лиц, включенных в список наблюдения и подвергшихся сканированию, для которых затем было правильно сгенерировано предупреждение. В контексте медицинских скрининговых тестов это известно как "чувствительность".
Коэффициент ложных предупреждений (FAR) - это количество ложных предупреждений, сгенерированных в пропорции к общему количеству субъектов, обработанных системой LFR. В скрининговых тестах используется показатель "ложноположительного результата" или "1 - специфичность", который представляет собой количество ложных оповещений, сгенерированных как доля от общего числа субъектов , которые не были включены в список наблюдения, но это, по сути, то же самое, что и FAR в данном контексте.
Столичная полиция заявила, что коэффициент истинного распознавания (TRR) составляет 70%, а коэффициент ложного оповещения (FAR) - 1 из 1000, 4, 5 , что означает, что только 1 из 1000 человек в толпе ложно идентифицируется как находящийся в списке наблюдения.
Предположим, что в толпе из 10 000 человек есть 10 человек из списка наблюдения, которые интересуют полицию. На рисунке 7.3 показано, что должно произойти с 10 000 человек, просканированных системой.
Есть 10 человек, представляющих интерес, и мы ожидаем, что система опознает 7 из них (коэффициент истинного распознавания 70 %). Система также ложно опознает 10 человек, которых нет в списке (коэффициент ложного оповещения 1 из 1000). Таким образом, несмотря на то, что ложно опознан всего 1 человек из 1000, большинство опознанных (10⁄ 17 = 59 %) будут ложными; вероятность того, что Джордж действительно находится в списке наблюдателей, будучи выбранным из толпы после совпадения с системой, разумно оценить как меньшую, чем 1⁄ 2. Это может показаться странным и неинтуитивным, учитывая очевидную точность системы .
Рисунок 7.3
Что мы ожидаем увидеть в толпе из 10 000 человек, просканированной системой распознавания лиц в реальном времени, когда среди них есть 10 человек, включенных в полицейский список, используя оценки точности системы, сделанные столичной полицией. Из 17 положительных идентификаций 10 ложно идентифицированы как находящиеся в списке наблюдения.
Этот анализ также можно представить в виде, показанном в табл. 7.1 . Это еще один способ просмотра теоремы Байеса: таблица построена "по вертикали", с использованием пропорций тех, кто находится или не находится в списке наблюдения, а интересующая нас величина - действительно ли идентифицированные лица находятся в списке наблюдения - отсчитывается по горизонтали как пропорция от результатов распознавания лиц в реальном времени.
Если система неверно определит Джорджа, возможно, его можно будет быстро исключить из списка наблюдения. Но заявления о том, что коэффициент ложных срабатываний системы очень низок - например, 1 к 1000, - могут вызвать у полиции необоснованное доверие к идентификации; это известно как пренебрежение базовым коэффициентом. Это частный случай довольно неинтуитивной истины: когда вещь, которую вы ищете, встречается редко, то даже если скрининг-тест кажется точным, большинство ваших "идентификаций" могут оказаться ошибочными. fn7
Когда вы ищете иголку в стоге сена, то даже если у вас хорошее зрение, большая часть того, что выглядит как иголки, окажется сеном.
Мы начали эту главу с рассказа о том, что большинство людей, умирающих от Ковида, были привиты, который, как мы утверждали, можно рассматривать как пример теоремы Байеса. Теперь мы можем продемонстрировать это более формально, используя очень грубые цифры для пожилых людей, подверженных повышенному риску, поскольку на эту группу приходится подавляющее число смертей.
Истинная личность?
В списке наблюдения
Не в списке наблюдения
Всего
Результат LFR?
Позитив
7
10
17
Негатив
3
9,980
9,983
10
9,990
10,000
Таблица 7.1
Дерево ожидаемых частот на рисунке 7.3 представлено в виде таблицы.
Предположим, что среди пожилых людей из группы повышенного риска, заразившихся SARS-CoV2 в июне 2021 года в Великобритании, 95% были вакцинированы. Предположим, что риск смерти среди инфицированных людей из группы повышенного риска, не прошедших вакцинацию, составляет около 2 %, а вакцина эффективна против смерти от Ковида на 90 %, что означает снижение риска в группе вакцинированных до одной десятой от его значения для невакцинированных, до 0,2 %. На рисунке 7.4 показано, что это означало бы для 10 000 инфицированных из группы повышенного риска. Мы ожидаем в общей сложности 19 + 10 = 29 смертей от Covid, из которых большинство, 19⁄ 29 = 66%, были вакцинированы.
К сожалению, идея о том, что вакцины повышают риск смерти от Ковида, продолжала циркулировать.
Хотя деревья ожидаемых частот могут помочь понять, как работает теорема Байеса, математика, лежащая в ее основе, очень сложна. К счастью, новая формулировка теоремы Байеса не только упрощает анализ , но и вводит величину, которая становится жизненно важной в системе уголовного правосудия, - отношение правдоподобия.
Предположим, нас интересует "двоичная" переменная, которая может быть либо истинной (обозначается A), либо нет (не A), и поэтому, исходя из правил вероятности, Pr(A) = 1 - Pr(не A). Как мы видели в главе 2, вероятность для A равна отношению Pr(A)⁄ Pr(not A), поэтому, например, вероятность 0,8 будет соответствовать вероятности 0,8⁄ 0,2 = 4.
Теорема Байеса может быть записана в так называемой "форме шансов" fn8.
Рисунок 7.4
Демонстрация того, почему большинство людей, умерших от Ковида, были полностью вакцинированы, на примере 10 000 пожилых людей из группы повышенного риска (не используем точные цифры). Из 29 человек, умерших от Ковида, 19 были вакцинированы.
Предварительная вероятность для A равна Pr(A)/Pr(не A), а апостериорная вероятность - Pr(A| B)/Pr(не A| B). Таким образом, теорема Байеса может быть записана в простой форме
Последующие шансы = отношение правдоподобия × предшествующие шансы,
где
Коэффициентная форма теоремы Байеса дает большее представление о происходящем. Например, в примере с распознаванием лиц в реальном времени теорема Байеса может быть записана как
который становится
выявив отношение правдоподобия как 0,7/0,001 = 700.
В вопросе о вакцинации Ковидом мы можем сразу перейти к коэффициенту вероятности, отметив, что предполагается, что вакцина снижает относительный риск смерти на 90% (ее "эффективность"), что означает коэффициент вероятности, равный
Если предположить, что предварительные шансы на вакцинацию составляют 9500/500 = 19, то теорема Байеса в форме шансов дает нам
или
совпадает с результатами, полученными на дереве на рисунке 7.4.
В главе 10 мы увидим, что коэффициенты правдоподобия играют все более важную роль в обобщении веса, который можно придать судебно-медицинским доказательствам. И только недавно мы подтвердили их жизненно важную роль в современной истории.
Как коэффициенты вероятности помогли сократить продолжительность Второй мировой войны?
Алан Тьюринг был блестящим молодым математиком из Кембриджа, который возглавил команду в Блетчли-Парке, взломавшую коды "Энигма" и обеспечившую важную разведку для ведения Второй мировой войны. fn9 Тьюринг понял, что взлом кодов - это смесь анализа и суждения, и байесовские рассуждения были идеальным вариантом. Он описал свой подход в 1941 году, сначала дав определение, которое мы уже видели в главе 3:
Вероятность события при определенных доказательствах - это доля случаев, в которых это событие может произойти, учитывая данные доказательства.
Что прекрасно включает в себя все идеи, которые мы уже рассматривали в этой книге: что все вероятности зависят от рассматриваемых доказательств, что они персональны и что их можно рассматривать как ожидаемую пропорцию возможных исходов.
В период с 1941 по 1943 год Тьюринг полагался на помощников (все женщины) со специальной бумагой с отверстиями для букв, которые можно было вручную сдвигать, чтобы искать повторяющиеся паттерны между парами сообщений, что, в свою очередь, давало подсказки для общих настроек роторов машины Enigma. Бумага печаталась в Банбери, и весь процесс был известен как "банбуризм". Цель заключалась в том, чтобы предложить правдоподобные для электромеханического компьютера Bombe, а также исключить другие настройки, чтобы сократить время, затрачиваемое на прогон Bombe. fn10
Тьюринг хотел использовать теорему Байеса для изучения относительной вероятности конкурирующих гипотез о базовых настройках машины "Энигма", использовавшейся для создания закодированного сообщения. Он сделал два нововведения, чтобы сделать вычисления выполнимыми; во-первых, вместо того чтобы многократно использовать теорему Байеса в ее коэффициентной форме, которая требует перемножения коэффициентов вероятности, он взял логарифмы и таким образом свел задачу к сложению log(коэффициентов вероятности). Во-вторых, он умножил log(likelihood ratios) на 10 (позже на 20), а затем округлил результат до целого числа. Таким образом, весь процесс свелся к сложению и вычитанию целых чисел, которые можно было выполнять с помощью карандаша и бумаги. fn11
Тьюринг написал статью, описывающую эту работу, но, к сожалению, она не была опубликована для общественности в течение семидесяти лет - когда она наконец появилась в 2012 году, современный правительственный взломщик кодов (известный только как "Ричард") сказал, что материал может быть опубликован, поскольку они "выжали из него все соки". 6 Тем временем методика Тьюринга была заново открыта и стала стандартной частью машинного обучения, известной как "независимый классификатор Байеса" или "наивный классификатор Байеса", и широко использовалась в детекторах спама и ранних системах медицинской диагностики. Идея накопления log(отношения правдоподобия) была также (независимо) разработана во время Второй мировой войны как основа для последовательного тестирования промышленных процессов, и мы использовали эту технику для исследования того, когда можно было бы идентифицировать массового убийцу Гарольда Шипмана (см. "Искусство статистики"). 7
Как и Томас Байес, Тьюринг не был широко известен при жизни, несмотря на то, что работа взломщиков кода в Блетчли, как говорят, сократила войну на два-четыре года 8 и, несомненно, спасла огромное количество жизней. В 1952 году он был привлечен к ответственности за "грубую непристойность" с другим мужчиной, а когда он умер в 1954 году, следствие зафиксировало его смерть как самоубийство после того, как он, очевидно, съел отравленное яблоко. В 2013 году он был помилован королевской прерогативой и теперь, как и Байес, широко почитается - Институт Алана Тьюринга является национальным институтом Великобритании по науке о данных и искусственному интеллекту, а с 2021 года он изображен на банкноте в 50 фунтов стерлингов. Однако его открытия в области байесовских рассуждений остаются во многом невостребованными.
В предыдущих статьях было показано, как байесовское мышление позволяет нам обновлять наши убеждения на основе множества доказательств. До сих пор мы ограничивались убеждениями о верных или неверных предложениях, но вполне естественно распространить этот процесс на изучение любой основной, но неизвестной на данный момент величины в мире, например, истинного населения страны или среднего эффекта лекарства. Это, конечно же, приведет нас к идеям статистического вывода, которые, хотя и не являются темой этой книги, неотделимы от любого обсуждения неопределенности.
Существуют различные школы мысли о статистическом выводе (см. главу 8). Если говорить очень коротко, то байесовский подход гласит, что у нас есть предварительное распределение вероятности о некотором неизвестном состоянии мира, мы наблюдаем некоторые релевантные данные, а затем наше предварительное распределение обновляется до постреляционного распределения вероятности по теореме Байеса. fn12 Вот и все! Конечно, на практике возникает множество сложностей, связанных с соответствующими предположениями о процессе, породившем данные, а сложность фактического вычисления ответа означает, что в реальности сложные примеры были неосуществимы до конца 1980-х годов. Но решающим моментом является то, что никаких других принципов не требуется - весь статистический вывод может быть сведен к теории вероятностей, поэтому она и представлена в этой главе.
Байесовский вывод давно погряз в спорах, поскольку он основывается на признании того, что вероятность - это количественная оценка личной неопределенности относительно какого-то неизвестного факта, и что предшествующие и последующие вероятности не существуют как свойства внешнего мира, а являются конструкциями, основанными на текущих предположениях. Эти идеи проходят через всю эту книгу, и поэтому должны быть уже знакомы, но они могут быть чрезвычайно сложными для тех, кто воспитан в убеждении, что вероятность определяется как долгосрочная частота некоторого повторяющегося события и что статистические выводы должны быть "объективными".
Мы неоднократно прославляли таких людей, как Ричард Фейнман, которым хватает скромности признать, что они ничего не знают, и готовы изменить свое мнение, столкнувшись с неожиданными доказательствами. Но если для человека эта характеристика достойна восхищения, то можно ли встроить ее в автоматические обучающие системы? Другими словами
Как мы можем выразить смирение в математике?
Вспомните пример с двумя мешками на рисунке 7.1, где в мешке 1 находится 1 пунктирный шар и 2 полосатых шара, а в мешке 2 - 2 пунктирных шара и 1 полосатый шар. Предположим, что мы выбираем мешок наугад, а затем вытягиваем из него последовательность шаров, заменяя каждый после того, как он был вытянут, и после каждого вытягивания оцениваем вероятность того, что мы выбрали мешок 1 или мешок 2, и вероятность того, что следующий шар будет точечным. Предположим, что мы действительно выбрали мешочек 2, в котором больше точечных шаров. На рисунке 7.5(a) показана имитация того, что может произойти, если мы будем повторять процесс вытягивания шаров и класть их обратно. Вероятность того, что мы выбрали мешок 2, немного колеблется, но затем неуклонно стремится к 1, в то время как предсказательная вероятность того, что следующий шар будет точечным, стремится к 2⁄ 3. Именно этого и следовало ожидать, поскольку мы неуклонно становимся все более уверенными в истине.
Но что, если нас обманули? Предположим, что человек, предоставивший мешочки, солгал, и на самом деле в обоих мешочках три точечных шара. Тогда все шары, которые мы вытянем, будут точечными, но мы продолжим обновлять наши убеждения, используя теорему Байеса, не обращая внимания на то, что нас обманули. На рисунке 7.5(b) показано, что произойдет: наша вероятность того, что мы выбрали мешок 2, будет стремиться к 1, причем довольно быстро, поскольку мы будем вытаскивать только точечные шары, а предсказательная вероятность того, что следующий шар будет точечным, снова будет стремиться к 2⁄ 3, поскольку это единственный доступный вариант, но он неверен - истинная вероятность равна 1. Конечно, в какой-то момент у нас возникнут подозрения по поводу непрекращающегося потока точечных шаров и мы потребуем проверить мешки, но не раньше, чем теорема Байеса даст несколько неточных предсказаний. fn13
Рисунок 7.5
Нам сказали, что в мешке 1 есть 1 точечный и 2 полосатых шара, а в мешке 2 - 2 точечных и 1 полосатый шар. Мы выбираем мешок наугад, выбираем шарик, кладем его обратно и оцениваем вероятность того, какой мешок мы выбрали (левые графики), и предсказательную вероятность того, что следующий шарик будет точечным (правые графики). (a) смоделированный пример, когда шары берутся из мешка 2; (b) когда шары берутся из "хитрого" мешка с 3 точечными шарами, но наша модель ситуации не допускает такой возможности; (c) когда шары берутся из "хитрого" мешка, но для этой случайности задана небольшая предварительная вероятность.
OceanofPDF.com
Однако мы можем легко избежать такого поведения, если будем готовы следовать правилу Кромвеля. Оно относится к принципу, популяризированному известным байесовским статистиком Деннисом Линдли, согласно которому не следует давать вероятность 1 какому-либо событию, если оно не является логически истинным, например 2 + 2 = 4, и никогда не следует давать вероятность 0 какому-либо событию, если не может быть логически доказано, что оно ложно - другими словами, нужно иметь смирение, чтобы держать наш разум открытым для событий, которых мы не ожидали, и быть готовым к сюрпризам.
Она взята из обращения Оливера Кромвеля к Генеральной ассамблее Кирка (церкви) Шотландии 3 августа 1650 года, когда армия Кромвеля стояла лагерем под Эдинбургом и пыталась убедить Кирк отказаться от поддержки возвращения Карла II после казни его отца Карла I в предыдущем году. Кромвель написал
Так неужели все, что вы говорите, безошибочно согласуется со Словом Божьим? Умоляю вас, в недрах Христа, подумайте, что возможно ошибиться. 9
Это обращение было проигнорировано, и Кромвель одержал убедительную победу над шотландцами в битве при Данбаре 3 сентября 1650 года. fn14
Итак, в примере с мешками предположим, что у нас хватит смирения и скептицизма, чтобы усомниться в том, что нам сказали, и поэтому мы накладываем небольшую начальную вероятность, скажем 1%, на возможность того, что нас обманывают, и на самом деле количество точечных шаров в мешке, который мы выбрали , равно либо нулю, либо трем. Затем, по мере того, как будет происходить постоянный набор точечных шаров, наши вероятности будут следовать траекториям, показанным на рисунке 7.5(c). До пяти точечных шаров мы в целом следуем предыдущему пути, помещая нашу веру в мешок 2. Но по мере того как шары с точками продолжают появляться, наше скептическое мнение о том, что нас могут обмануть, начинает расти, и после двенадцати шаров с точками мы быстро приходим к выводу , что нас обманули и на самом деле в мешке три шара с точками. Вероятность того, что следующий шар будет с точкой, стремится к 1.
Кромвель советует нам сохранять долю скептицизма в отношении того, что мы можем принять как должное, например, честности человека, сортирующего мешки с мячами. По сути, мы имеем дело с одним из видов "неизвестного неизвестного", состоящим из неуместных предположений, которые мы делаем, не задумываясь, и, по сути, превращаем их в "известное неизвестное". И возвращаясь к нашему обсуждению ежей и лис в главе 2, мы видим, что ответ на призыв Кромвеля - действовать как лиса, быть готовым к неожиданностям, быть достаточно скромным и гибким, чтобы признать, что ситуация изменилась. И, что весьма примечательно, все это можно выразить математически в терминах априорных распределений, просто допустив небольшую вероятность того, что "мы можем ошибаться".
Разумеется, невозможно наложить малую предварительную вероятность на каждую случайность, и некоторые сюрпризы могут заставить нас отбросить наши первоначальные предположения и полностью переосмыслить наши идеи. Такое смирение должно оказаться полезным во всех сферах жизни - не только в статистических выводах. И если некоторые люди способны кардинально менять свое мнение, когда появляются убедительные доказательства, противоречащие их прежним взглядам, возможно, люди действительно действуют по принципу Байеса.
Наш мозг и наше сознание не воспринимают мир напрямую. Все наши восприятия фильтруются через органы чувств, будь то зрение, осязание, слух и так далее, которые посылают неврологические сигналы в серую кашицу в нашей головы - наш опыт не сильно отличался бы, если бы наш мозг находился рядом с нашей печенью. Каждое мгновение поступает новая информация, которую нужно обработать, и в нашем сознании и теле возникает ответная реакция. Но все эти новые данные, поступающие в наш мозг, (в целом) не отличаются радикально от того, что мы ощущали раньше, и поэтому у нас есть сильные ожидания того, что мы испытаем в следующее мгновение.
Это кажется само собой разумеющимся, но это естественным образом приводит к идее "байесовского мозга". 10 У нас есть внутренняя "ментальная модель" того, как устроен мир, созданная на основе всего нашего опыта на протяжении жизни. В сочетании с тем, что мы ощущаем в текущей ситуации, эта модель генерирует ожидание того, что произойдет дальше - это можно считать предварительным распределением. Затем мы наблюдаем некоторые свидетельства из внешнего мира, после чего наши убеждения о том, что происходит вокруг нас, пересматриваются с использованием хотя бы приблизительной формы теоремы Байеса, чтобы попытаться минимизировать разрыв между тем, что мы ожидаем, и тем, что мы наблюдаем. Автономные дорожные транспортные средства работают именно так, используя явно байесовские алгоритмы обновления.
Простой пример с пунктирными шариками в мешках иллюстрирует, как мозг может функционировать по байесовскому принципу. Если предварительные ожидания жесткие, то мы знаем, что можем попытаться загнать все в эти рамки, даже если данные говорят об обратном - только подумайте, как легко мы придумываем причины, по которым обычно надежный человек может опоздать. Но если у нас возникнет хотя бы небольшое сомнение в его надежности, то мы можем быстро перейти к убеждению, что он просто забыл о встрече.
Хотя концепция байесовского мозга, по-видимому, объясняет такие процессы, как обучение, рассуждение и восприятие, до сих пор не установлено, насколько точно неврологические изменения соответствуют тем, которые диктует теорема Байеса. Но важнейшие уроки заключаются в том, что (а) мы постоянно обновляем свои неопределенные убеждения о мире и (б) единственный способ сделать это - иметь некую внутреннюю модель того, как устроен мир.
Эти внутренние модели неявны и лишь косвенно проявляются в наших восприятиях, убеждениях и действиях - в отличие от этого, позже в книге мы перейдем к проблемам построения явных математических моделей мира, открытых для всестороннего изучения. Может показаться бесчеловечным думать о нас как о больших статистических машинах, но если мы признаем , что наше восприятие основано на модели, а не на непосредственном опыте реальности, то, возможно, мы сможем с большим пониманием и, возможно, с большим скептицизмом относиться к попыткам представить сложность реальности в виде уравнений.
В этой главе мы прошли долгий путь, начиная с вопроса о том, почему большинство смертей от Ковида приходится на полностью вакцинированных людей, через мощную идею обобщения веса доказательств с помощью коэффициентов вероятности и заканчивая теорией человеческого восприятия и познания. Кое-что из этого было неизбежно техническим, но я надеюсь, что основные принципы дошли до вас. В целом, если мы признаем, что неопределенность является частью наших личных отношений с внешним миром, то Байес предоставляет модель того, как мы должны менять наши убеждения в ответ на постоянно меняющийся опыт.
Резюме
Теорема Байеса вытекает из основных правил теории вероятности и показывает, как должны меняться наши убеждения в ответ на новые доказательства.
Она может пролить свет на некоторые непонятные явления, например, на то, что системы проверки имеют, казалось бы, высокую "точность", но при этом большинство заявлений о положительной идентификации оказываются ошибочными.
При сравнении альтернативных предложений доказательная база информации обобщается в виде отношения правдоподобия.
При наивном использовании теорема Байеса может медленно адаптироваться к неожиданным изменениям. Но если проявить немного смирения и выразить хотя бы небольшое сомнение в правильности предположений, можно быстро перейти к пересмотренному набору убеждений.
Наш мозг работает по принципу Байеса, имея предварительные ожидания, которые пересматриваются в свете сенсорных данных.
ГЛАВА 8. Наука и неопределенность
'Dans les champs de l'observation le hazard ne favorise que les esprits préparés'.
("В области наблюдений случайность благоприятствует только подготовленному уму").
- Луи Пастер, 1854 год
Если наше представление о науке основано на том, как нас учили в школе, или на том, как ее представляют в средствах массовой информации, мы можем думать, что это свод подтвержденных законов и фактов о том, как устроен мир. Такая устоявшаяся наука жизненно важна и вполне устраивает большинство из нас. Но это не забота активных ученых, которые больше сосредоточены на проведении исследований, чтобы расширить границы наших знаний. И так же, как при изучении физических границ, эти усилия характеризуются неопределенностью.
Используя язык, представленный в главе 1, мы можем определить различные "объекты", в отношении которых ученые, в самом широком смысле, могут испытывать неуверенность. К ним можно отнести.
Величина физических величин: например, скорость света и расстояние до звезд.
Сколько всего: количество тигров в Индии и количество мигрантов, ежегодно въезжающих в Великобританию.
Виртуальные" величины, которые нельзя непосредственно наблюдать и о которых приходится догадываться: Валовой внутренний продукт (ВВП), средний эффект фармацевтического препарата или среднее глобальное изменение температуры за последнее столетие.
Что было в прошлом: процесс эволюции на Земле.
Что существует: жизнь на других планетах и местонахождение месторождений лития на Земле.
Фундаментальная природа нашей Вселенной: роль темной материи и существование субатомных частиц, таких как бозон Хиггса.
Обратите внимание, что этот список касается только эпистемической неуверенности в том, что произошло, что происходит в данный момент или как устроен мир - еще более сложную проблему предсказания будущего мы рассмотрим в главе 11. Предупреждаем: даже с учетом этих ограничений данная глава все еще остается довольно сложной, но в ней рассматриваются некоторые из наиболее важных материалов книги.
Конечно, если бы мы могли непосредственно и точно наблюдать вещи, будь то количество или факт, тогда нам не нужно было бы беспокоиться о неопределенности - мы бы просто могли сказать, что есть на самом деле. Но мы редко можем это сделать, и нам остается лишь проводить наблюдения, прямо или косвенно связанные с тем, что нас интересует, а затем делать выводы на основе данных, полученных в результате наблюдений. И эти данные будут демонстрировать изменчивость, часть из которой не будет объяснена. Статистическое умозаключение - это процесс превращения этой изменчивости в оценку неопределенности в отношении интересующего объекта. fn1
Когда мы рассматриваем статистические подходы для характеристики неопределенности величин, фактов или научных гипотез, это неизбежно означает введение традиционных представлений об ошибке измерения , доверительных интервалах, P-значениях и всех остальных понятиях , с которыми вы, возможно, боролись на курсах статистики. Часто упускается из виду опасность того, что наши выводы могут оказаться чрезмерно чувствительными к сомнительным предположениям, заложенным в статистическую модель получения наших данных. Как только эта проблема с вычисленными неопределенностями признается, исследователи могут добавить количественные оценки, сделать модели еще более сложными, провести обширный анализ чувствительности или объединить результаты нескольких моделей. В конце концов, возможно, даже не стоит выражать всю нашу неопределенность в цифрах.
Многие из научных вопросов, которые я перечислил в начале главы, являются спорными и иногда подвергаются ожесточенным дебатам, и аудитория может не понимать, как много неизвестного. Признание неопределенности может быть неудобным для ученых, поскольку на повседневном языке , когда мы говорим, что мы не уверены, это может означать, что мы не имеем ни малейшего представления. Но этот дискомфорт необходимо преодолеть, поскольку в науке существует естественный язык неопределенности, который может передать как то, что известно, так и то, что неизвестно, и соответствующую уверенность в любых выводах. Мы должны с гордостью заявлять о своей неуверенности.
Мы начнем с области, казалось бы, "трудной" науки, которая, как это ни парадоксально, полностью принимает количественные оценки.
Наука об измерениях называется метрологией и берет свое начало во времена Французской революции, когда возникла политическая необходимость в стандартизации единиц измерения по всей Франции. Так появились метр, килограмм и литр. Международное бюро мер и весов до сих пор базируется во Франции и известно под французским названием BIPM (Bureau International des Poids et Mesures), и выпускает библию измерений - Руководство по выражению неопределенности в измерениях (широко известное как GUM). 1
В GUM различают два типа оценки неопределенности:
Тип A: "путем статистического анализа рядов наблюдений", другими словами, стандартные расчеты на основе моделей, воплощенные в компьютерных пакетах.
Тип B: "с помощью средств, отличных от статистического анализа серии наблюдений ... оценивается научным суждением, основанным на всей доступной информации о возможной изменчивости". Неопределенность типа B выражается в виде распределения "субъективной вероятности", представляющей собой "степень убежденности".
Каждый тип неопределенности должен быть обобщен распределением вероятности, а затем оба типа объединены с помощью стандартных методов. fn2
Национальный институт стандартов и технологий США 2 придерживается аналогичного подхода, соглашаясь с тем, что неопределенность типа B "обычно основывается на научном суждении с использованием всей имеющейся соответствующей информации".
Может показаться удивительным, что органы, отвечающие за весы и меры, которые мы можем считать наиболее объективными научными процессами, прямо рекомендуют субъективную оценку неопределенности. Но это подкрепляет главную мысль этой книги - что неопределенность - это личные отношения с миром, и суждения неизбежны. GUM рекомендует сделать все возможное для количественной оценки неопределенности с помощью статистических процедур, но затем добавить суждение о дополнительной неопределенности, которая не была учтена при анализе данных. Эту жизненно важную и фундаментальную идею мы будем повторять на протяжении всей этой главы.
Современная статистическая наука, как ни странно, уделяет мало внимания основной проблеме измерения, но на протяжении всей истории люди пытались получить точные оценки длины, скорости и веса. Стандартный процесс заключается в проведении ряда независимых измерений, прилагая все усилия для устранения погрешностей и уменьшения ненужной вариативности, а затем берется некое среднее значение , часто среднее. Это позволяет исследователям ответить на такие вопросы, как
Насколько мы уверены в скорости света?
В 1879 году 27-летний Альберт Майкельсон сконструировал хитроумный прибор для определения скорости света в вакууме, которая обычно обозначается c, на основе отражения света от вращающегося зеркала . Он оценил c в 299 944,3 км/с, и на основе его измерений можно рассчитать погрешность типа А +/- 15,5. Но Майкельсон указал гораздо больший интервал, +/- 51, принимая во внимание его суждения о систематической погрешности его аппарата. Таким образом, за несколько лет до рекомендаций GUM Майкельсон оценивал свою погрешность типа B.
С 1983 года скорость света была определена как 299 792,458 км/с, fn3 что на 152 км/с меньше, чем оценка Майкельсона . Таким образом, заявленная Майкельсоном погрешность была слишком мала - его результаты были достаточно точными, так как они были довольно плотно сгруппированы, но не настолько точными, так как они систематически завышали истинное значение. И все же ему удалось уложиться в 0,05 % от окончательно принятого значения, что для того времени было выдающимся достижением.
Как показали Макс Хенрион и Барух Фишхофф в 1986 году, подобные оптимистичные заявления о пределах погрешности типичны для истории оценки физических констант. На рис. 8.1 показано, как менялись официальные рекомендованные значения скорости света c в период с 1929 по 1973 год, и приведено сравнение с современным принятым значением. 3
Более низкие оценки c в 1930-х и начале 1940-х годов заставили некоторых физиков предположить, что скорость света на самом деле замедляется, хотя Раймонд Бирдж, глава физического факультета Калифорнийского университета в Беркли, заявил в 1941 году: "Таким образом, после долгой и, порой, суматошной истории, значение c наконец-то установилось во вполне удовлетворительном 'устойчивом' состоянии. То же самое теперь можно сказать и о других важных константах". Он говорил слишком рано, поскольку всего девять лет спустя оценка для c кардинально изменилась. Он ошибался и в отношении других констант, поскольку Энрион и Фишхофф показали, что рекомендуемые значения постоянной Планка, заряда электрона, массы электрона и числа Авогадро изменились с 1941 года до значений, далеко выходящих за пределы заявленных ранее погрешностей.
Рисунок 8.1
Рекомендуемые значения скорости света в вакууме, 1929-73 годы, показывающие, что заявленные пределы погрешности были слишком оптимистичными. 4
Почему же заявленные погрешности слишком малы? Важнейшим моментом является то, что эти пределы погрешности рассчитываются, исходя из того, что весь список предположений верен. Но есть пять основных предположений при определении физических констант, которые можно подвергнуть сомнению:
Отсутствие систематической погрешности: мы должны предположить, что при огромном количестве наблюдений их среднее значение в конечном итоге будет стремиться к истинному значению, без систематического занижения или завышения. Это зависит от мастерства и проницательности экспериментатора, и Майкельсона следует поблагодарить за его точность.
Точная оценка изменчивости: разброс наблюдений должен реально отражать точность и надежность измерительной аппаратуры, которая предполагается одинаковой для всех точек данных.
Независимые наблюдения: если наблюдения связаны друг с другом, например, в результате переноса возмущений, то "эффективное" число наблюдений будет меньше, чем заявлено.
Среднее имеет приблизительно нормальное распределение: это, пожалуй, наименее сомнительное предположение, поскольку оно гарантируется центральной предельной теоремой для широкого диапазона базовых распределений выборки.
Данные были представлены достоверно.
Известный пример недооценки изменчивости (нарушение предположения 2) был получен в ходе знаменитых экспериментов Роберта Милликана 1912 года с масляными каплями для измерения заряда электрона . Несмотря на его заявление о том, что "это не избранная группа капель, а все капли, с которыми проводились эксперименты в течение 60 дней подряд", позднее изучение его записных книжек показало, что он исключил результаты, которые, по его мнению, необоснованно расходились: Франклин 5 сообщает, что из 107 наблюдений, сделанных после того, как его аппарат был стабилен, Милликан отклонил 49, потому что, например, одно из них было "слишком высоким на 11⁄ 2". Это говорит о том, что предположение 5 также необоснованно.
Как выяснилось , Милликан "обрезал" как высокие, так и низкие результаты, то есть он не давал общей погрешности результатам, но делал заявленные отклонения слишком малыми, что, в свою очередь, приводило к уменьшению заявленной неопределенности. В 1923 году Милликану была присуждена Нобелевская премия, но этичность его действий продолжает обсуждаться. Высказывались предположения, что он совершил мошенничество, но несомненная точность его выводов не вызывает сомнений: он попал в пределах 1% от общепринятого значения (хотя утверждал, что в пределах 0,2%).
Мы уже упоминали об идее статистической модели, которая представляет собой попытку отразить важные и значимые особенности реальности в математической форме. Такая модель воплощает в себе предположения о том, как наблюдаемые данные соотносятся с базовыми величинами, обычно называемыми параметрами (и традиционно обозначаемыми греческими буквами), которые должны соответствовать интересующим нас аспектам реальности, таким как средний эффект лекарства. Статистический вывод - это процесс как оценки параметров, так и оценки неопределенности этих оценок.
В следующем примере приведен параметр, имеющий большое значение.
Как влияет стероид дексаметазон на выживаемость пациентов с тяжелой формой заболевания Covid-19?
Вскоре после начала эпидемии SARS-Cov-2 в Великобритании началось испытание RECOVERY, в ходе которого проверялись методы лечения людей, госпитализированных с Covid-19. Это было "платформенное" испытание, то есть оно состояло из серии перекрывающихся исследований, где каждый пациент мог быть включен в несколько одновременных испытаний. В одном из экспериментов, проведенном в период с 19 марта (до начала блокировки Великобритании) по 8 июня 2020 года, 6 425 пациентов были случайным образом распределены на получение дексаметазона, недорогого типа стероида, называемого глюкокортикоидом, или на получение обычного ухода в качестве "контроля": рандомизация проводилась в пропорции 1:2, так что в контрольной группе оказалось примерно в два раза больше пациентов. 6
Были зарегистрированы различные показатели, но мы сосредоточились на 28-дневной выживаемости в группе наиболее тяжелобольных пациентов, которым на момент рандомизации проводилась механическая вентиляция легких. В таблице 8.1 представлены результаты 324 пациентов, рандомизированных для получения дексаметазона, по сравнению с 683 пациентами, рандомизированными для обычного лечения.
Количество, подлежащее оценке
Число рандомизированных
Число умерших к 28 дню после рандомизации
Оценка истинного базового количества
95% доверительный интервал
Риск в группе, рандомизированной для получения дексаметазона (группа лечения)
324
95
29.3%
24,4% - 34,
Риск в группе, рандомизированной для получения обычного ухода (контрольная группа)
683
283
41.4%
37,7% - 45,
Относительный риск
29.3/41.4 = 0.71
0,58 - 0,
Относительное снижение риска
0.29
0,14 - 0,
Разница в абсолютном риске
29,3% - 41,4% = − 12,1%
−5,7% - − 18,
Таблица 8.1
Сравнение 28-дневной смертности среди пациентов, рандомизированных для получения или неполучения дексаметазона, для пациентов, находящихся на механической вентиляции на момент рандомизации. У тех, кто был рандомизирован на дексаметазон, наблюдалось значительное улучшение 28-дневной выживаемости. Относительный риск" - это риск в группе, рандомизированной для нового лечения, поделенный на риск в контрольной группе.
Наблюдаемый относительный риск составил 0,71, с "95% доверительным интервалом" (объясняется ниже) от 0,58 до 0,86; вычитание этих цифр из 1 означает, что 28-дневная смертность была на 29% ниже в группе, рандомизированной на дексаметазон, а 95% доверительный интервал для этого снижения относительного риска варьирует от 14% до 42%. Это свидетельствует о значительной неопределенности, несмотря на большое количество рандомизированных пациентов. Разница в абсолютном риске, показанная в последней строке таблицы, составила -12 %, то есть из восьми человек, рандомизированных для получения дексаметазона, один (12 % из восьми) пережил бы двадцать восемь дней, если бы иначе не пережил.
Все эти оценки и доверительные интервалы рассчитываются по стандартным формулам и могут быть получены за доли секунды с помощью (достаточно) удобного программного обеспечения . Тысячи таких анализов проводятся каждый день, часто с использованием больших и сложных наборов данных, а результаты публикуются в научных работах и правительственных отчетах. Это стало совершенно обыденным делом.
Но что все это означает на самом деле? Доверительные интервалы, очевидно, выражают неопределенность оценок, но их техническое определение несколько запутано. По сути, если мы неоднократно рассчитываем такие интервалы в исследовании за исследованием, и если предположения всех используемых нами статистических моделей верны, то 95 % интервалов будут содержать истинное значение. Согласно этому формальному определению, мы не можем делать никаких заявлений о вероятности того, что данный конкретный интервал содержит истинное значение, а только о долгосрочных свойствах использования этой процедуры. Неудивительно, что у людей с сайта возникают проблемы с этим сложным и неинтуитивным определением, и они часто говорят что-то вроде "мы можем быть на 95% уверены, что истинное значение лежит в интервале".
Более того, во всех огромном количестве проведенных анализов в выводах компьютера не упоминается, что интервалы, как мы уже говорили, точно верны только в том случае, если все предположения модели верны. Например, предположения , лежащие в основе анализа, представленного в таблице 8.1, включают
Наблюдения независимы, например, не существует фактора, из-за которого пациенты, лечившиеся в более близкие сроки, имели бы более схожие исходы.
Все пациенты в каждой группе имеют одинаковую вероятность прожить двадцать восемь дней.
Все данные о пациенте надежно регистрируются.
Эти предположения определяют статистическую модель, согласно которой число умерших на сайте в течение 28 дней соответствует биномиальному распределению (см. главу 3) в каждой группе. fn4
К сожалению, не все перечисленные выше предположения верны. Во-первых, наблюдения не являются полностью независимыми, поскольку наверняка существуют общие факторы, влияющие на уход за пациентами, которые находятся близко друг к другу в пространстве и во времени, будь то больница, в которой они лечатся , или смена режимов ухода. Во-вторых, пациенты будут различаться по степени риска по самым разным причинам. В отличие от этого, третье предположение в данном примере представляется разумным, поскольку предполагается, что мы можем быть уверены в надежности данных, полученных в ходе такого хорошо организованного и тщательного исследования.
Но если базовые предположения не совсем верны, это не значит, что анализ в корне ошибочен. В данном случае сигнал настолько силен, что, например, модель, позволяющая варьировать основной риск у разных пациентов, мало что изменит в общих выводах. Другое дело, если бы результаты были незначительными, тогда было бы уместно провести обширный анализ чувствительности к альтернативным предположениям и признать вклад в любую волатильность как в оценке , так и в научных выводах.
Важно, что, поскольку пациенты были рандомизированы, две группы должны быть сбалансированы не только по факторам, которые, как мы знаем, могут повлиять на исход, например, тяжесть заболевания, но и по факторам, о которых мы не знаем, что они могут быть важными. Таким образом, любые наблюдаемые различия в исходах с учетом случайной вариации обусловлены рандомизированной группой. Таким образом, мы можем сделать вывод о причинно-следственной связи, а не просто о корреляции.
Признать, что каждый опубликованный статистический анализ зависит от модели, включающей множество предположений, которые либо очевидно ложны, либо не могут быть подтверждены, довольно унизительно. Это наблюдение привело британского статистика Джорджа Бокса к его часто цитируемому афоризму
Все модели ошибочны, но некоторые из них полезны.
, в которой аккуратно обобщается накопленная за всю жизнь мудрость статистического анализа. Модели - это математические представления реальности, это карта, а не территория. В своей книге "Побег из страны моделей" 7 Эрика Томпсон предлагает рассматривать модели как метафоры, даже карикатуры, на мир - хорошая модель будет включать в себя основные черты, но не будет озабочена несущественными деталями. Джордж Бокс продолжает: "Поскольку все модели ошибочны, ученый должен быть внимателен к тому, что именно ошибочно. Неуместно беспокоиться о безопасности от мышей, когда за границей живут тигры". 8 Таким образом, задача состоит не в том, чтобы определить, какая модель является "правильной" - это бессмысленная цель, поскольку правильной модели не существует, - а в том, чтобы выбрать модель, адекватную любой цели, будь то объяснение или предсказание.
К сожалению, вместо гибкого исследовательского подхода к статистическому моделированию, рекомендованного Боксом и другими, в научных публикациях стало преобладать жесткое внимание к "статистической значимости". Именно к этому мы и должны обратиться далее.
P-значения, тесты на значимость и неопределенность
Следуя общепринятой статистической практике, мы также можем рассчитать P-значение для наблюдаемой разницы между группами в исследовании с дексаметазоном. Это расчетная вероятность наблюдения такой экстремальной статистики, если принять гипотезу о том, что на самом деле нет никакой разницы в риске в двух рандомизированных группах, а наблюдаемый эффект обусловлен исключительно игрой случая - это известно как нулевая гипотеза "нет разницы". Расчетное значение P-value в примере с дексаметазоном составляет P = 0,0003, что очень мало, а значит, маловероятно, что наблюдалась бы такая большая разница, если бы действовала только игра случая. При таком малом значении P-value стандартной практикой было бы отвергнуть нулевую гипотезу и объявить результаты "статистически значимыми".
Однако в научном сообществе растет недовольство этим традиционным процессом. 9 Причин для беспокойства много:
Использование произвольных пороговых значений для признания результатов "значимыми", таких как P < 0,05, приводит к неправомерной тенденции разделять результаты на "открытие" и "не открытие". В частности, "незначимые" результаты часто ошибочно интерпретируются как означающие "отсутствие эффекта". Как сказал статистик Эндрю Гелман, "мне кажется, что статистику часто продают как своего рода алхимию, которая превращает случайность в уверенность, "отмывание неопределенности", которое начинается с данных и завершается успехом, измеряемым статистической значимостью" 10..
P-значение не является мерой неопределенности нулевой гипотезы и уж точно не является вероятностью того, что нулевая гипотеза верна. Скорее, это мера совместимости наблюдаемых данных с нулевой гипотезой.
Проведение нескольких тестов на значимость значительно повышает вероятность того, что где-то будет получен неверный "значимый" результат.
Как и в случае с доверительным интервалом, расчет P-значения зависит от выполнения всех предположений статистической модели.
Нулевая гипотеза даже неправдоподобна, поскольку мы никогда не ожидали бы нулевого эффекта от лечения, и поэтому является "соломенным человеком", который при достаточном количестве данных всегда будет отвергнут.
Но использование теста на значимость не прекращается. Хотя оно может дать общее представление о том, насколько данные соответствуют конкретным научным утверждениям, большой проблемой является навязчивое внимание к конкретным пороговым значениям, таким как P < 0,05, и, как следствие, неправильная интерпретация результатов .
Как мы уже видели, формальное определение 95-процентного доверительного интервала может быть довольно запутанным. Но есть и другая интерпретация, которая может принести некоторое понимание: это диапазон возможных нулевых гипотез, которые не могут быть отвергнуты при проверке значимости с P-значением менее 0,05. Один из известных эпидемиологов, Сандер Гринланд, предложил заменить термин "доверительный интервал" на термин "интервал совместимости", подчеркивая, что интервал содержит значения базового параметра, которые совместимы с наблюдаемыми данными в рамках предполагаемой статистической модели. 11 Все это кажется довольно разумным, хотя и неясно, получит ли оно распространение.
Некоторые исследователи (в том числе и я) предположили, что байесовский подход может обойти некоторые из этих проблем. Как мы видели в главе 7, для этого необходимо определить предварительное распределение вероятностей для интересующих параметров - затем оно объединяется с помощью теоремы Байеса с "правдоподобием", , которое суммирует относительную поддержку различных значений параметров, предоставляемых данными. Полученное в результате апостериорное распределение содержит суждение об истинном значении параметров. Как я уже говорил , весь этот процесс - "просто" теория вероятностей.
В примере с дексаметазоном основными неизвестными параметрами являются базовые риски смертности в группах лечения и контроля. Предположим, что мы зададим каждому из них "равномерное" предварительное распределение , что, по сути, означает, что до наблюдения каких-либо данных мы считаем одинаково вероятным любое значение между 0 и 100 %. Это может показаться неправдоподобным, но авторы сообщают, что в начале пандемии Ковид-19 они имели настолько слабое представление о возможных уровнях смертности, что не могли провести стандартные расчеты для определения размера выборки в исследовании, поскольку это требует определенного суждения о вероятных базовых рисках. В любом случае, в этом примере данные перекрывают предварительный прогноз, поэтому его точная форма не важна.
Затем эти предварительные распределения можно объединить с биномиальным правдоподобием по данным, чтобы получить апостериорные распределения, показанные на рис. 8.2(a). fn5 Между двумя группами наблюдается четкое разделение, а значит, мы должны быть уверены, что разница действительно существует.
Невозможно вывести "красивую" математическую форму для апостериорного распределения относительного риска или абсолютной разницы рисков , но можно провести анализ методом Монте-Карло ; смоделировав 100 000 пар значений из апостериорных распределений в (a), а затем вычислив отношение и разницу между каждой парой, мы получим распределения, показанные в (b) и (c). Неопределенность в соотношении рисков и разнице четко отображается, и мы можем оценить вероятности различных событий, например, вероятность того, что в группе лечения базовая смертность будет ниже, чем в контрольной группе, составляет около 99,985 %, а вероятность того, что в группе лечения смертность будет ниже, чем в контрольной группе, составит 17 %.
Рисунок 8.2
(a): Байесовские апостериорные распределения для базовых рисков 28-дневной смертности в двух рандомизированных группах; (b) относительный риск; и (c) абсолютная разница рисков. (b) и (c) основаны на 100 000 смоделированных значений из апостериорных распределений в (a).
И традиционный, и байесовский подходы дают схожие выводы, хотя лично я предпочитаю байесовский анализ, поскольку
Апостериорные распределения дают возможность наглядно увидеть поддержку различных значений неизвестных величин.
Нам не нужно вводить идею нулевой гипотезы.
Мы можем обойтись без P-значений, непосредственно оценивая вероятность интересующих нас событий, например, будет ли разница в риске в пользу группы лечения больше 15%.
Тем не менее у этих двух подходов много общего, поскольку каждый из них предполагает статистическую модель, в которой наблюдаемые исходы имеют биномиальное распределение с общим риском умереть до тридцати дней, а также то, что отдельные исходы были независимы и надежно документированы. Эти основные вопросы представляются более важными, чем конкретный статистический метод.
Однако возникают новые проблемы, когда мы выходим за рамки модели для данных испытания и начинаем думать о применении анализа во внешнем мире. Помните, что первоначальный вопрос был о влиянии дексаметазона на выживаемость пациентов, тяжело больных Covid-19. Но при внимательном прочтении выяснится, что мы не совсем ответили на этот вопрос. Я тщательно описывал сравнение рандомизированных групп в исследовании , а не эффект фактического лечения при применении в обычных клинических условиях - это другой "объект" неопределенности, и здесь возникают две проблемы.
Во-первых, в исследование были включены не все подходящие пациенты; дексаметазон был недоступен для 15 % пациентов, а у 3 % клиническая команда посчитала, что он либо необходим, либо не должен быть назначен, и поэтому не рандомизировала пациентов. Во-вторых, и более важным является тот факт, что анализ проводился по принципу "намерения лечить", то есть пациенты оставались в той группе, в которую их распределили, независимо от того, получали они лечение или нет. Таким образом, объектом неопределенности в исследовании является не эффект от приема дексаметазона, а эффект от того, что пациенты были рандомизированы для получения дексаметазона. Оказалось, что из тех , кто был рандомизирован на получение дексаметазона, 5% пациентов фактически не получали глюкокортикоиды, в то время как в контрольной группе "обычного лечения" 8% получали глюкокортикоиды в рамках своего клинического лечения. Таким образом, между группами произошла некоторая "контаминация".
В опубликованной работе не сообщается о показателях смертности в зависимости от фактически полученного лечения, но если предположить, что те, кто не получил назначенного лечения, были выбраны случайным образом, то мы оценим эффект от назначения лечения несколько большим, чем , о котором сообщается в работе. Эта корректировка может быть необъективной, если на лечение влияет тяжесть заболевания пациента, и если мы хотим сделать утверждения об эффекте при фактическом использовании, мы действительно должны ввести некоторую дополнительную неопределенность.
Стоит добавить, что это испытание, проведенное эффективно и быстро в самом начале эпидемии, оказало серьезное влияние на лечение. Позднее было подсчитано, что за девять месяцев после того, как группа RECOVERY сообщила о своих результатах, дексаметазон, недорогой, легкодоступный стероид, спас, по оценкам, 1 миллион жизней во всем мире, включая 22 000 в Великобритании. 12
Рандомизированные исследования, такие как RECOVERY, считаются "золотым стандартом" для оценки новых методов лечения, однако менее ценным вариантом является простое сравнение результатов пациентов, которые получали или не получали лечение. Мы должны быть очень осторожны в интерпретации результатов таких обсервационных исследований, и полезно различать два основных типа предвзятости: внутреннюю и внешнюю.
Внутренние предубеждения влияют на строгость исследования в смысле его способности точно оценить то, что оно пытается измерить. В то время как рандомизированное исследование должно иметь минимальные внутренние предубеждения, поскольку группы сбалансированы и данные собираются в соответствии со строгим протоколом, обсервационные исследования не имеют надлежащей контрольной группы и, как правило, используют обычные источники данных.
Внешние предубеждения влияют на актуальность исследования в смысле его обобщаемости для интересующего вас вопроса. В испытании дексаметазона использовались "рандомизированные" группы, в то время как нас действительно интересуют сравнения "как лечили", хотя это имело незначительный эффект. Но в обсервационных исследованиях популяция, вмешательство и мера исхода могут не соответствовать эффекту, который вас действительно интересует.
Эти ограничения в обсервационных исследованиях означают, что интервалы неопределенности, рассчитанные с помощью стандартных статистических методов, будь то классические или байесовские, как правило, будут слишком узкими.
Одно из решений - применить идеи метрологии, количественно оценив субъективную неопределенность "типа B" и добавив ее в анализ, обусловленный тем, что все предположения верны. Я работал в группе, которая изучала серию обсервационных исследований, оценивающих профилактическое лечение беременных женщин с резус-отрицательной группой крови, что требовало от нас суждений о размерах потенциальных погрешностей; например, мы оценили, что внутренние погрешности в одном исследовании означают, что эффект может быть завышен на 20-65 %. 13 Такие суждения служили для увеличения ширины интервалов и приведения в соответствие противоречивых исследований.
Эта процедура требует, чтобы люди открыто говорили о том, насколько велики, по их мнению, потенциальные погрешности, основанные на тщательном рассмотрении всех аспектов исследования. Я считаю, что это может быть так же ценно, как и выяснение правдоподобных эффектов лечения, описанное в главе 3.
Нужно ли нам вообще выбирать модель?
Фраза "неопределенность модели" часто используется для обозначения распространенной ситуации, когда мы не знаем, какую модель принять. Но это кажется неуместным термином, поскольку мы почти никогда не можем представить себе ситуацию, в которой "истинная" модель чудесным образом раскрывается. Поэтому выбор модели (если мы действительно хотим это сделать) - это решение, на которое, как мы увидим в главе 15, будут влиять многочисленные контекстуальные факторы. Среди них могут быть практические соображения времени на вычисления, ее объяснимость для других, устойчивость к недоказуемым предположениям, а также то, отражает ли она свойства, необходимые для решения поставленной задачи.
Важный урок заключается в том, что во избежание чрезмерного сосредоточения на одной истории путем выбора одной единственной модели мы должны учитывать все многообразие точек зрения, извлекая уроки из их согласия и различий. Возможно, идеальным, хотя и ресурсоемким, решением является наличие нескольких независимых команд, разрабатывающих свои собственные модели для решения одной и той же проблемы, подобно тому как Обама имел несколько команд, оценивающих вероятность того, что бин Ладен находился в комплексе в Абботтабаде. Именно это произошло в Великобритании во время пандемии Ковид-19.
При пандемии Ковид-19 какое медианное значение R было в Великобритании 14 октября 2020 года?
Во время пандемии Covid-19 мы неоднократно слышали о текущем расчетном значении R - среднем количестве людей, которых в дальнейшем заражает человек с вирусом. Это стандартная метрика для мониторинга развития эпидемии, поскольку если R > 1, то эпидемия растет, а если R < 1, то она сокращается. Непосредственно наблюдать значения R невозможно, поэтому его необходимо оценивать с помощью сложного статистического моделирования . В Великобритании многочисленные группы по борьбе с пандемией предоставляли оценки, используя широкий спектр подходов и источников данных, от математических моделей госпитализации до "агентных" моделей, которые моделируют происходящее для всех людей в популяции. 14
R значительно варьируется по странам, и медианное значение по Великобритании - это главный показатель, который привлек наибольшее внимание. На рисунке 8.3 показаны 90% доверительные интервалы для оценок медианного R для двенадцати различных моделей, представленных в "консенсусном заявлении" Научной группы по моделированию пандемического гриппа, оперативной подгруппы (SPI-M-O) от 14 октября 2020 года. 15
Оценки демонстрируют значительные расхождения, причем многие из интервалов даже не пересекаются - поскольку все они пытаются оценить одну и ту же величину, это сразу же показывает, что по крайней мере некоторые из опубликованных интервалов слишком узки. Но нет ничего удивительного в том, что интервалы слишком самоуверенны, поскольку они рассчитываются в предположении, что каждая модель является "истинной", что, разумеется, как мы знаем, не так. Важно помнить, что более простые модели, с большим количеством допущений и меньшим количеством параметров для оценки, имеют тенденцию давать более узкие интервалы, и это может создать обманчивое впечатление о достоверности. Таким образом, узкие интервалы, как правило, представляют не "хорошую" модель, а просто более простую модель с возможной большей погрешностью.
Затем перед группой SPI-M-O встала задача объединить все эти разнообразные результаты в единое консенсусное мнение. Один из подходов заключался в том, чтобы рассматривать различные модели так, как если бы они были "экспертами", каждый из которых высказал свое мнение о R, и построить (довольно разрозненное) сводное мнение путем усреднения распределений, представленных интервалами. Альтернативный вариант, выбранный группой SPI-M-O, заключается в том, чтобы рассматривать результаты как независимые исследования, предоставляющие свои собственные "данные", которые затем объединяются с помощью стандартной техники, известной как мета-анализ со случайными эффектами. Этот обычно используется для объединения данных нескольких клинических исследований, пытающихся оценить эффективность одного и того же препарата, при этом учитывается, что эффекты лечения в разных исследованиях могут различаться - хотя, как правило, они не демонстрируют огромного разброса оценок R. Окончательный вывод отражен в итоговом интервале на рис. 8.3, и утверждается, что консенсус-оценка и интервал достаточно устойчивы к точности используемого метода. 16
Рисунок 8.3
Оценки SPI-M-O медианного R в Великобритании, выраженные в виде 90% доверительных интервалов. Итоговый интервал представляет собой объединенный диапазон после округления до одного десятичного знака. Обратите внимание на значительный разброс между интервалами, многие из которых не пересекаются.
Этот пример демонстрирует ценность учета множества точек зрения - если принять одну модель за чистую монету, то уверенность в ее достоверности на сайте может оказаться сильно завышенной, поскольку она зависит от одного конкретного набора предположений. Множественные анализы демонстрируют чувствительность результатов. Крайний пример - анализ двух наборов экологических данных 246 разными биологами, которые пришли к удивительно разным выводам о гнездовом поведении синицы и саженцах эвкалипта даже после исключения плохих анализов. 17 Когда результаты широкого круга независимых групп объединяются, итоговая неопределенность может быть вызвана как разногласиями между разными группами, так и внутримодельной неопределенностью.
Мы вернемся к этому вопросу, когда столкнемся с весьма спорной областью моделирования климата в главе 10. Но даже в самых масштабных научных начинаниях можно проявить должную осторожность, заявляя об "открытии".
Насколько мы можем быть уверены в существовании бозона Хиггса?
Стандартная модель" - это лучшая на сегодняшний день теория фундаментальной структуры материи и сил во Вселенной, но в течение десятилетий физики сталкивались с проблемой, что основной компонент - бозон Хиггса - не был признан реально существующим. В конце концов на Большом адронном коллайдере в Европейском центре ядерных исследований (ЦЕРН) были проведены сложные и очень дорогие эксперименты, в ходе которых подсчитывались события (столкновения конкретных частиц) для различных масс частиц; предполагалось, что если бозон Хиггса не существует, то они будут следовать пуассоновскому распределению вокруг гладкой фоновой линии, а если бозон Хиггса действительно существует и имеет массу mH, то ожидалось бы избыточное количество событий вокруг mH. В 2012 году две разные исследовательские группы сообщили о своих результатах, и на их графиках отчетливо видны скачки в районе массы 126 ГэВ/c2, как раз там, где это и следовало ожидать по теории.
Такое наблюдение может показаться убедительным для случайного читателя, но его недостаточно для того, чтобы заявить о фундаментальном открытии в законах физики, которое зависит от формального статистического анализа. Для каждой потенциальной массы было вычислено "локальное" P-значение, представляющее вероятность получения такого экстремального числа при нулевой гипотезе о несуществовании бозона Хиггса. 18fn6 Физики элементарных частиц обычно измеряют несовместимость своих результатов с нулевой гипотезой в терминах "сигм"; например, результат "2 сигмы" эквивалентен наблюдению статистики, которая на 2 стандартных отклонения превышает свое ожидание при нулевой гипотезе, что, предполагая нормальное распределение, соответствует P-значению 0,025, которое во многих контекстах может считаться достаточно сильным доказательством. Однако физики частиц предъявляют гораздо более строгие требования, требуя, чтобы результат был не менее 5 сигм, что соответствует P-значению 1 к 3,5 миллионам. К счастью, две независимые группы нашли результаты 5 и 6 сигма для своих локальных P-значений, fn7 и дальнейшая работа привела к объявлению ЦЕРН в 2013 году, что доказательства о частице "сильно указывают на то, что это бозон Хиггса". 19
Почему же физическое сообщество требует таких веских доказательств? Во-первых, они очень хотят избежать неловкости, связанной с "ложным открытием" - публичным заявлением, которое впоследствии приходится опровергать. Во-вторых, как мы уже неоднократно подчеркивали, любое P-значение рассчитывается в предположении, что и нулевая гипотеза, и все остальные предположения в модели верны, а модели в исследовании Хиггса содержат множество деталей и приближений, которые, как признано, не отражают реальность. В-третьих, окончательное P-значение является наименьшим из всех локальных P-значений в диапазоне масс, и необходимо сделать поправку на это множественное тестирование, известное в физике как "эффект поиска в другом месте ".
Таким образом, приведенное значение P-value не претендует на точную вероятность, а скорее является широкой мерой совместимости (или отсутствия таковой) данных с нулевой гипотезой. Поэтому выбор 5 сигм - это скорее специальный порог для заявления об открытии, а не формальное выражение неопределенности. И даже результат в 5 сигм потребует дальнейшего повторения и подтверждения, прежде чем станет общепризнанным; например, в 2003 году так называемая частица "пентакварк" была открыта при 5,2 сигма 20 , но позже была полностью дискредитирована, 21 , а результаты обнаружения более быстрых, чем свет, нейтрино в 2011 году 22 пришлось опровергнуть в следующем году, когда выяснилось, что это произошло из-за сбоев оборудования.
Насколько мы можем быть уверены в существовании бозона Хиггса? Мы можем оценить коэффициенты правдоподобия (в данном контексте они известны как коэффициенты Байеса), сравнивая доказательства за и против теории. В принципе, можно было бы даже вывести (субъективную) вероятность его существования, но это потребовало бы строгих предположений о предшествующих вероятностях до проведения экспериментов. Но, видимо, научное сообщество было достаточно уверено в себе, чтобы в конце концов совместно присудить Питеру Хиггсу Нобелевскую премию в 2013 году, через пятьдесят лет после того, как он и другие предложили эту частицу.
Все идеи, изложенные в этой главе, остаются в рамках основной парадигмы статистического вывода, в которой предполагаемые вероятностные модели наблюдаемого приводят к выражению неопределенности в наших выводах. Огромное количество научных исследований сообщают о своих результатах в терминах доверительных интервалов и P-значений, обычно на основе статистических пакетов для стандартных методов, таких как регрессионный анализ. Более специализированные модели могут моделировать байесовские апостериорные распределения, которые обобщаются в виде оценок и так называемых "доверительных интервалов".
Сложилась целая область исследований, связанная с количественным определением неопределенности (UQ), в которой рассматриваются способы построения распределений вероятностей для неизвестных, измерения чувствительности к важным источникам неопределенности и определения того, как может измениться наша неопределенность, если мы получим некоторые дополнительные доказательства. Эта работа может стать очень технической и вычислительно непрактичной для некоторых чрезвычайно больших моделей, скажем, запасов нефтяных месторождений. Поэтому могут быть построены эмуляторы, позволяющие быстро оценить, к чему могла бы прийти модель, если бы у нас было достаточно времени и ресурсов. По сути, это модели моделей реального мира.
Иногда высказывается опасение, что байесовские методы привносят субъективность в науку, и неоднократно предпринимались попытки разработать "объективные" методы Байеса. Но, как отметил статистик Эндрю Гелман, выбор анализа сам по себе является личным суждением. 23 Вместо того чтобы пытаться разделить подходы к статистическому моделированию на "субъективные" и "объективные", мы должны подчеркнуть такие "объективные" характеристики, как прозрачность, беспристрастность и то, насколько хорошо модели представляют внешнюю реальность, а также более "субъективные" характеристики, такие как роль суждения и признание множества точек зрения.
Поэтому опытным исследователям необходимо смиренно признать, что любая статистическая модель не является абсолютно точным описанием реальности, и поэтому любые результирующие оценки неопределенности никогда не будут "правильными". Мы рассмотрели пять основных подходов, которые люди используют для решения этой проблемы:
Четко и ясно изложите все предостережения.
Проведите анализ чувствительности к различным вариантам моделей.
Объедините результаты широкого спектра моделей, желательно от независимых команд, чтобы не зависеть одной точки зрения.
Как рекомендуется в метрологии, доработайте модель, включив в нее субъективные оценки вероятности "типа B", чтобы, например, учесть возможные погрешности в данных.
Проведите стандартные расчеты P-значений и так далее, но воспринимайте их скорее как индикаторы, а не как точные вероятности.
Лично я считаю, что мы должны делать все возможное, чтобы смоделировать мир, и тогда вполне можно вводить субъективные суждения типа B об ограничениях нашей модели. Но в конце концов, модели - это фикции, просто метафоры реальности, и иногда нам следует просто признать, что мы не до конца понимаем, что происходит. И в следующей главе мы рассмотрим попытки открыто заявить о недостатке уверенности в нашем понимании.
Резюме
Эпистемическая неопределенность в отношении состояний мира основана на доказательствах, полученных из данных. Нам нужны предположения о том, как наблюдаемое нами соотносится с истинными базовыми состояниями, и они составляют основу статистической модели.
Статистические методы превращают предположения об изменчивости в утверждения о неопределенности в отношении аспектов модели, которые соответствуют состояниям мира. Мы можем количественно выразить эпистемическую неопределенность в виде интервалов или распределений, в зависимости от того, придерживаемся ли мы "классической" или байесовской точки зрения.
Однако такая оценка неопределенности зависит от истинности модели, что, как мы знаем, не так.
Как только мы признаем, что расчеты неопределенности на основе одной модели могут быть оптимистичными, мы можем проверить чувствительность к различным моделям, объединить результаты нескольких команд, использовать суждения для разработки модели, чтобы учесть возможные неадекватности и смещения, или признать, что наши показатели являются лишь индикаторами.
Даже в этом случае мы можем почувствовать необходимость в оговорках относительно нашей численной оценки неопределенности.
ГЛАВА 9. Насколько мы уверены в своем анализе?
Я даю вам осмотреть монету, она выглядит честной, затем вы подбрасываете ее несколько раз, и примерно в половине случаев она выпадает головой вниз. Если я спрошу вас о вероятности того, что при следующем подбрасывании на твердую поверхность она выпадет головой вверх, я думаю, что вы ответите "50 %". Но предположим, я покажу вам две внешне одинаковые монеты, A и B, и спрошу, какова ваша вероятность , что монета A тяжелее, пусть даже на крошечную долю грамма. Предположительно, вы не будете иметь ни малейшего представления, хотя, если вас спросят, вы можете неохотно сказать "50 %", просто потому, что у вас нет причин выбирать между ними. Эти две оценки численно идентичны, но качественно совершенно различны: первая основана на обоснованном суждении, а вторая полностью лишена каких-либо доказательств. Предположительно, вы будете чувствовать себя более уверенно в первом случае.
Аналитики разведки сталкиваются с аналогичными проблемами, но в несколько более важном контексте. В главе 2 мы уже видели, как различные агентства поощряют оценку числовых вероятностей, которые затем могут быть переданы с помощью шкалы, такой как UK Probability Yardstick, где, например, вероятности между 55 % и 75 % соответствуют словесному термину "вероятно". Но что, если такая оценка основана лишь на фрагментах некачественных доказательств, и аналитик знает, что ему не хватает какой-то жизненно важной и потенциально возможной информации? Министерство обороны Великобритании 1 признает, что аналитики будут чувствовать себя гораздо более счастливыми с одними оценками, чем с другими, и рекомендует им четко оценивать свою "аналитическую уверенность" в надежности любой оценки вероятности. Это будет зависеть от качества и количества имеющихся доказательств, строгости аналитического процесса, а также сложности и изменчивости ситуации.
Национальный совет по разведке США дает очень похожие рекомендации, говоря, что "суждения разведывательного сообщества часто включают два важных элемента: суждения о том, насколько вероятно, что что-то произошло или произойдет... и уровни доверия к этим суждениям (низкий, умеренный и высокий), которые относятся к доказательной базе, логике и аргументации, а также прецедентам, которые лежат в основе суждений".' 2 Отчеты разведки в решающей степени зависят от надежности источников, поэтому неудивительно, что американские аналитики разведки способны выразить низкий уровень доверия, означающий, что "достоверность и/или правдоподобность информации неясна, что информация слишком фрагментарна или плохо подтверждена, чтобы делать надежные аналитические выводы, или что надежность источников сомнительна".
Аналитики по понятным причинам не хотят давать уверенные цифровые оценки, если чувствуют, что их предположения могут существенно измениться, когда в будущем появится больше данных - так называемые "информационные пробелы". 3 Они не одиноки; врачи избегают делать прогнозы, пока не проведут важные анализы, и, что более обыденно, вы можете не решаться оценить, сколько времени займет поездка на поезде, пока не узнаете, планируются ли какие-либо забастовки или инженерные работы.
Но, как мы увидим на примере других областей, эти термины используются непоследовательно. 4 Хотя "уверенность" должна дополнять числовую меру вероятности , она часто заменяет ее. Например, в 2017 году все три разведывательные службы США сошлись во мнении, что Путин и российское правительство стремились помочь избранному президенту Трампу на выборах, дискредитируя его оппонента Хиллари Клинтон; ЦРУ и ФБР были высоко уверены в этом суждении, а Агентство национальной безопасности - умеренно. 5 Возможно, неточный характер такого утверждения отталкивает аналитиков от использования шкалы "вероятности", в отличие от более точных объектов неопределенности, таких как присутствие Усамы бен Ладена в комплексе в Абботтабаде, о котором говорилось в главе 2.
Разведывательное сообщество не одиноко в оценке достоверности аналитических данных. Мы увидим, что многие различные группы исследователей разработали свои собственные шкалы, применяя их к целым статистическим анализам, отражающим трудности, связанные с ответами на важные вопросы, имея лишь ограниченное количество доказательств. Например, хотя я участвовал в работе групп, занимающихся довольно сложными проблемами, изобилующими неопределенностью, я думаю, что самый сложный вопрос, который мне задавали, это
В Великобритании с 1970 по 1991 год сколько человек заразились гепатитом С при переливании зараженной крови ?
В 1970-х и 1980-х годах многие люди получали переливание зараженной крови и затем заражались такими заболеваниями, как ВИЧ/СПИД или гепатит С. В частности, людям, больным гемофилией, переливали кровь, сконцентрированную из множества донорских образцов, в том числе от американских заключенных, которым платили за сдачу крови. Если бы только один донор в объединенном образце был ВИЧ-инфицирован, то вся партия была бы заражена. В результате международных скандалов, например, в 1992 году руководитель французского Национального центра переливания крови был приговорен к четырем годам тюремного заключения. В Великобритании в 2017 году в Палате общин это было названо "худшей катастрофой в лечении за всю историю нашей NHS и одной из худших катастроф мирного времени, когда-либо происходивших в этой стране". 6
После многолетней кампании, которую вели пострадавшие, в 2018 году было создано расследование "Инфицированная кровь", и я вошел в состав экспертной группы по статистике, которой было поручено оценить как количество зараженных, так и количество людей, которые впоследствии умерли из-за своей инфекции. Это исторические события, произошедшие до сорока лет назад, поэтому неопределенность носит чисто эпистемический характер.
Некоторые выводы можно сделать с большой долей уверенности. Например, существующие базы данных и реестры претендентов на компенсацию в целом согласуются с тем, что примерно 1250 человек с нарушениями кровообращения, такими как гемофилия, были диагностированы с ВИЧ с 1979 года и далее, с пиком в 1985 году. Примерно три четверти из них умерли к 2019 году, причем около половины - от причин, связанных с ВИЧ. Это была огромная трагедия.
Гораздо сложнее оценить количество людей, получавших обычные переливания крови, которые были инфицированы гепатитом С (HCV) до того, как в 1991 году стало доступно тестирование на HCV. Хотя хроническая инфекция ВГС может привести к раку печени, печеночной недостаточности и другим серьезным заболеваниям, длительный инкубационный период означает, что многие люди, получившие зараженную кровь, могли так и не узнать о своей инфекции и не попасть ни в один реестр , поскольку диагноз ВГС, скорее всего, будет поставлен через много лет после переливания крови, вызванного ВГС.
Поэтому вместо подсчета конкретных (хотя и анонимных) людей нам пришлось использовать сложную статистическую модель для всего процесса, начиная с оценки доли инфицированных доноров и количества инфицированных трансфузий, заканчивая количеством хронически инфицированных и долгосрочными последствиями инфекции. Используя язык метрологии, нам необходимо было учесть неопределенность как типа А (статистическую), так и типа В (суждения). Например, важным вкладом в моделирование была оценка процента людей, инфицированных ВГС, которые естественным образом очищаются от вируса и не переходят в хроническую форму инфекции. Имелись хорошие опубликованные данные по этому вопросу, 7 , что позволило нам представить нашу неопределенность нормальным распределением со средним значением 18% и стандартным отклонением 3%. Но для некоторых других частей модели не было соответствующих данных, поэтому пришлось использовать экспертные оценки.
Эти многочисленные источники неопределенности были учтены при составлении окончательной оценки количества инфекций и смертей. Каждому неизвестному параметру было присвоено распределение вероятностей, чтобы создать "стохастическую" модель, а затем модель была запущена 10 000 раз - в каждом запуске значения каждого параметра моделировались из его заданного распределения и затем распространялись через модель. В результате было получено 10 000 вероятных значений для каждого исхода, которые были обобщены по медиане и 95% интервалам неопределенности, как показано в табл. 9.1. fn1 Это стандартный подход Монте-Карло, который был представлен в главе 6 и иногда известен как вероятностный анализ чувствительности. Обратите внимание, что мы используем термин "интервал неопределенности", чтобы отличить его от доверительного интервала, рассчитываемого в рамках стандартного анализа данных.
В таблице 9.1 показано, что, по оценкам модели, в Великобритании было инфицировано около 27 000 человек, но со значительной неопределенностью. Число смертей, связанных с инфицированием, было высоким - около 1 800, но опять же с очень большой неопределенностью. Важно отметить, что у нас не было никаких данных о том, кем могли быть эти люди.
Большое количество непроверяемых допущений означало, что Группа статистических экспертов хотела выразить значительную осторожность в отношении всего нашего анализа, в частности оценок и интервалов в таблице 9.1. Поэтому мы приняли шкалу, использовавшуюся в научных рекомендациях во время пандемии Ковид-19 (см. ниже), и заявили, что у нас есть лишь умеренная уверенность в том, что имеющиеся данные могут ответить на поставленные перед нами вопросы. Возможность использовать эту шкалу принесла нам облегчение; например, когда нас спросили о количестве людей, заразившихся гепатитом В, мы обнаружили, что данных мало и нет надежной модели, которую можно было бы использовать, поэтому мы сказали, что у нас низкая уверенность в том, что сможем ответить на этот вопрос, и отказались предоставить какие-либо цифры.
Согласно нашим окончательным данным, полученным в ходе расследования по делу об инфицированной крови, около 3 000 человек умерли в результате получения инфицированной крови или ее препаратов, в том числе много молодых людей. Мы не пытались оценить огромный ущерб, нанесенный семьям жертв, некоторые из которых терпеливо сидели в первом ряду, пока мы целый день отвечали на подробные технические вопросы членов следственной группы. Хотя мы допускали значительную неопределенность в отношении точных цифр, мы могли быть уверены, что был нанесен огромный ущерб.
Количество процентов
Медианная оценка
95% интервал неопределенности
Количество людей в Великобритании, заразившихся ВГС при переливании крови в период с января 1970 года по август 1991 года
26,800
21,300-38,800
Количество людей, хронически инфицированных ВГС и умерших по любой причине к концу 2019 года
19,300
15,100-28,200
Количество смертей к концу 2019 года, связанных с инфекцией ВГС
1,820
650-3,
Таблица 9.1
Медианные оценки и 95% интервалы неопределенности основных величин, представляющих интерес для Великобритании, полученные с помощью статистической модели инфицирования ВГС при переливании крови. 8
Прямая и косвенная неопределенность
Я выбрал пример с инфицированной кровью , чтобы проиллюстрировать целый ряд проблем: сложность достаточно реалистичной модели, использование имитационных моделей Монте-Карло, ценность как статистической (тип А), так и оценочной (тип Б) количественной оценки, а также различные виды анализа чувствительности. И мы были всего лишь одной командой с одной моделью - кто знает, какие различия могли бы возникнуть, если бы проблемой занимались совершенно независимые группы? Но главная цель этого примера - проиллюстрировать использование качественной шкалы "уверенности" для выражения оставшихся сомнений в качестве доказательств, адекватности нашей модели и точности результатов.
Предположим, делается научное утверждение, которое может быть фактом, оценкой, тенденцией и так далее. Мы видели много примеров использования статистических моделей для оценки того, что мы называем прямой неопределенностью утверждения - она может принимать форму вероятности, интервала или распределения. Но пример с инфицированной кровью показал, что, даже исчерпав все наши усилия по количественной оценке, мы все равно можем остаться в сомнениях относительно нашего анализа. Это требует дополнительного способа выражения косвенной неопределенности, связанного с силой и качеством имеющихся доказательств.
Как я уже отмечал ранее, исследователи во многих областях независимо друг от друга обнаружили необходимость в подобных мерах, хотя их использование не всегда было последовательным и ясным. Например, в главе 2 мы видели, как Межправительственная группа экспертов по изменению климата (МГЭИК) использует шкалу "вероятности" для перевода численных оценок вероятности в слова, и наоборот; например, термин "вероятность" означает от 66 % до 100 %. Но наряду с этими мерами прямой неопределенности МГЭИК также рекомендует 9 использовать уровень "уверенности" по шкале очень низкий, низкий, средний, высокий, очень высокий, который обобщает суждения группы об обоснованности утверждения с точки зрения силы доказательств и согласия экспертов.