Статистика, занимающаяся сбором, обработкой и анализом численной информации, приобретает все большее значение в сложном современном мире. На нас обрушиваются потоки информации — от сведений о состоянии экономики до оценок эффективности зубной пасты, и для того, чтобы разобраться в ворохе этих данных, необходимы хотя бы элементарные познания из области статистики. Без них современный человек не в состоянии принимать правильные решения. Трудно найти такую область науки, в которой статистика не играла бы жизненно важную роль, не говоря уже о неоценимых услугах, оказываемых статистикой таким областям человеческой деятельности, как страхование, здравоохранение, реклама и т. д.
Эту главу отнюдь не следует рассматривать как популярное введение в статистику. Прочитав ее, вы не усвоите даже ее элементарных основ. Перед вами выборка красочных парадоксов Буду рад, если, ознакомившись с ними, вы захотите узнать побольше об их математической подоплеке.
Открывается глава историей, в которой вводятся три фундаментальных понятия статистики: среднее, медиана и мода. За ней следуют несколько необычных примеров неправильного использования данных — великого искусства «лгать» с помощью статистики. Они должны насторожить вас и тем самым помочь вам избежать некоторых подводных камней, встречающихся на пути всякого, кому приходится пользоваться статистическими данными.
Всякого рода удивительные совпадения утрачивают свою таинственность в свете теории вероятностей и математической статистики. Взять хотя бы знаменитый парадокс с днями рождения. Среди случайно выбранной группы из 23 человек с вероятностью чуть большей, чем 1/2, найдутся по крайней мере двое людей, родившихся в один день и в один месяц! Если выбрать наугад группу из 40 человек, то вероятность совпадения возрастет до 9/10. Первая реакция на подобные столкновения — полное недоверие. Затем заядлые скептики подвергают сообщение эмпирической проверке либо путем опроса 40 знакомых, либо по 40 наугад выбранным фамилиям из биографического справочника. Третья стадия наступает, если вам захочется узнать, какая математика кроется за этим парадоксом, чтобы понять причины совпадений.
Именно в этом смысле собранные в этой главе парадоксы можно рассматривать как волшебные ступени, ведущие к серьезной математике.
В этой главе вы найдете описания нескольких карточных фокусов, в которых удивительные на первый взгляд совпадения находят естественное объяснение в рамках простых математических законов. Парадокс с выборами — одна из наиболее известных противоречащих интуиции теорем теории решений — нового раздела математики, занимающегося изучением методов принятия рациональных решений на основе статистической информации. История о Мери Лоунлихартс представляет собой беллетризованный вариант другого, не менее поразительного, но малоизвестного парадокса.
Завершается глава двумя парадоксами, которые обычно наиболее широко обсуждаются: парадоксом о вороне и парадоксом о странном свойстве быть «зелубым». Оба парадокса показывают, сколь важную роль играет статистика при оценке степени правдоподобия научных гипотез.
Фирма «Гисмо продактс» владеет небольшой фабрикой по производству супергисмо.
В правление фирмы входят мистер Гисмо, его брат и 6 родственников. Рабочая сила состоит из 5 бригадиров и 10 рабочих. Дела на фабрике идут хорошо, и правление решило нанять еще одного рабочего.
Мистер Гисмо беседует с Сэмом, пришедшим справиться об условиях работы.
М-р Гисмо. Мы платим хорошо. Средний заработок — 600 долларов в неделю. За время обучения вы будете получать сначала по 150 долларов в неделю, но довольно быстро последует надбавка.
Проработав несколько дней на фабрике, Сэм пришел на прием к боссу.
Сэм. Вы обманули меня! Я опросил всех рабочих и оказалось, что никто из них не получает больше 200 долларов в неделю. Как может средний заработок достигать 600 долларов в неделю?
М-р Гисмо. Успокойтесь, Сэм, никто вас не обманывал. Средний заработок на нашей фабрике действительно составляет 600 долларов в неделю. Сейчас я докажу вам это.
М-р Гисмо: Взгляните, вот еженедельная ведомость. Я получаю 4800 долларов, мой брат 2000 долларов, каждый из 6 родственников по 500 долларов, каждый из 5 бригадиров по 400 долларов и каждый из 10 рабочих по 200 долларов. Всего в неделю мы выплачиваем 23 сотрудникам 13 800 долларов. Так?
Сэм. Так-то так, средний заработок действительно составляет 600 долларов в неделю, но вы все равно меня обманули.
М-р Гисмо. Друг мой, вы просто неверно меня поняли. Я мог бы перечислить всех сотрудников нашей фирмы, сообщить вам, кто сколько получает и затем сказать, что средний заработок составляет 400 долларов в неделю, но это был бы не средний заработок, а медиана.
Сэм. А что такое 200 долларов в неделю?
М-р Гисмо. 200 долларов в неделю— это так называемая мода, то есть заработок большинства сотрудников нашей фирмы.
М-р Гисмо. Ваша беда в том, мой друг, что вы не знаете, чем отличается среднее от медианы и моды.
Сэм. Отчего же? Теперь я отлично знаю это. Ищите себе других простачков!
Статистические утверждения могут быть весьма парадоксальными, а иногда даже вводить в заблуждение. История о фабрике мистера Гисмо показывает общий источник недоразумений — различие между средним, медианой и модой.
Слово «среднее» мы обычно понимаем как синоним «среднего арифметического». Среднее — ценный статистический показатель. Но если имеются большие выбросы, например суммы, еженедельно получаемые мистером Гисмо и его братом, то «средний» заработок может давать ложное представление об истинном положении дел.
Нетрудно привести и другие примеры того, как утверждения о «средних» способны вводить в заблуждение. Так, в заметке репортера одной из газет сообщалось о человеке, утонувшем в реке, глубина которой «в среднем» едва достигает полуметра. Создается впечатление, будто человек утонул на мелководье.
Печальное происшествие утрачивает всю загадочность после того, как вы узнаете, что человек утонул в одном из мест, где глубина превышает 3 м.
Некая корпорация сообщает, будто ее деятельность демократично контролируется общим собранием 143 держателей акций, так как на 50 держателей приходится 600 голосов, что составляет в среднем по 12 голосов па 1 держателя акций. Но если каждый из 45 держателей акций имеет лишь по 4 голоса, а 5 избранных имеют по 84 голоса, то среднее число голосов на одного держателя акций по-прежнему составляет 12 голосов, хотя пятерка избранных полностью заправляет всей деятельностью корпорации.
Еще один пример. Желая привлечь в город фирмы, занимающиеся розничной продажей товаров, торговая палата выступает в печати с заявлением о необычайно высоком среднем уровне доходов на душу населения.
Большинство людей, прочитав в газете это заявление, делают вывод, что жители города извлекают из своего рода деятельности большие доходы. Но если среди жителей города окажется лишь один миллиардер, то даже если все остальное население будет получать малые доходы, средний доход на душу населения по-прежнему останется высоким.
Иногда под «средним» понимают не среднее арифметическое, а медиану или моду, что приводит к еще большим недоразумениям. Если значения расположить в порядке возрастания или убывания, то медиана — это значение, стоящее в середине. Если число значений нечетно, то медиана — это значение, равноудаленное от концов такого упорядоченного списка. Если число значений четно, то за медиану обычно принимают среднее арифметическое двух значений, стоящих в середине.
Для Сэма медиана была бы полезнее, чем среднее арифметическое, но даже медиана дает искаженную картину истинного распределения доходов среди служащих фирмы. В действительности Сэму необходимо знать моду — значение, наиболее часто встречающееся в списке данных. На фабрике мистера Гисмо мода — это зарплата, выплачиваемая большему числу сотрудников, чем любая другая зарплата. Иногда моду называют «типичным случаем», так как она встречается чаще других. В нашем последнем примере «типичная» семья в городе (та, чьи доходы служат модой) может быть очень бедной, хотя средний доход горожан очень велик из-за небольшого числа весьма состоятельных жителей.
В конце года жена Сэма получила особый приз от мэра города и почетный титул «матери года».
Местная газета поместила фотографию Сэма, его жены и 13 их детей.
Редактору очень понравился снимок. Он вызвал к себе фотографа.
Редактор. Отличная работа, Баском! Мне пришла в голову новая идея. Снимите-ка мне теперь семью, где бы число детей было средним по нашему городу.
Новое задание редактора оказалось невыполнимым. Почему? Да потому, что ни в одной семье число детей не совпадало со средним!
Среднее число детей было равно 21/2
Еще одно широко распространенное заблуждение, связанное со «средним», — убеждение, будто среднее непременно должно существовать. После того как из нашего рассказа в картинках вы узнали о том, что среднее число детей, приходящихся на одну семью, может быть равным 21/2, вам не составит труда привести другие примеры, в которых средняя величина не реализуется в действительности. Кто сумеет бросить игральную кость так, чтобы на ней выпало среднее число очков за длинную серию бросаний?
А вот еще несколько вопросов, которые помогут вам глубже понять различие между средним арифметическим, медианой и модой.
1. Предположим, что редактору пришло в голову поместить фотографию семьи, «типичной» в смысле моды. Всегда ли фотограф сумеет найти такую семью?
(Да, типичная семья в смысле моды существует.)
2. Могут ли существовать сразу несколько мод?
Например, могут ли быть одновременно образчиками моды семьи с двумя и с тремя детьми? (Да, если в городе проживает 1476 семей с двумя детьми, 1476 семей с тремя детьми, а число семей с одним ребенком или с четырьмя и более детьми меньше 1476, то в городе наиболее распространены семьи двух первых типов. Каждая из семей с двумя и с тремя детьми с полным основанием может быть названа модой.)
3. Удастся ли фоторепортеру выполнить задание, если редактору понадобится снимок семьи-медианы?
(В большинстве случаев удастся, но не всегда. Как мы уже упоминали, даже если в городе проживает четное число семей, но в двух средних семьях (в списке семей, расположенных в порядке возрастания или убывания числа детей) число детей будет различным; медиана не обязательно должна быть целым числом.)
Как показывает статистика, преобладающее большинство дорожно-транспортных происшествий приходится на долю машин, едущих с умеренной скоростью, и лишь незначительное число — на долю машин, мчащихся со скоростью свыше 150 км/ч. Означает ли это, что водить машину на больших скоростях безопаснее?
Нет, не означает. Статистические соотношения часто не имеют ничего общего с причинно-следственными связями. Большинство людей водят машины с умеренной скоростью, поэтому и большинство происшествий приходится на их долю.
Как показывает статистика, смертность от туберкулеза в штате Аризона выше, чем в других штатах. Означает ли это, что климат Аризоны благоприятствует развитию туберкулезной палочки?
Наоборот, климат Аризоны необычайно полезен для больных туберкулезом, и они тысячами стекаются в Аризону. Это, естественно, приводит к повышению здесь смертности от туберкулеза.
Как показало статистическое исследование, дети, носящие обувь больших размеров, более сильны в правописании, чем дети, носящие обувь малых размеров. Означает ли это, что размер обуви может служить показателем грамотности?
Нет, не означает. Исследование проводилось на группе детей, которые продолжают расти. Чем старше ребенок, тем больше у него размер обуви и тем грамотнее он пишет.
Три эпизода, рассказанные нами в «картинках», показывают, как важно не делать поспешных выводов о причине и следствии, когда речь идет о статистической закономерности. Вот еще несколько примеров.
1. Нередко приходится слышать, будто большинство дорожно-транспортных происшествий приходится на начальный отрезок пути, едва автомобилист успевает отъехать от дома. Означает ли это, что езда по скоростному шоссе за много километров от дома безопаснее, чем езда по родному городу?
Разумеется, не означает. Статистика просто отражает тот факт, что близкие поездки автомобилисту приходится совершать чаще, чем дальние.
2. Как показали исследования, в некоторых штатах наблюдается высокий процент людей, пьющих молоко, и высокий уровень смертности от рака. Означает ли это, что молоко вызывает рак?
Нет. В этих штатах высок процент людей пожилого возраста, а поскольку раковые заболевания обычно удел престарелых людей, более высокий уровень смертности от рака связан с тем, что старшая возрастная группа составляет значительную долю населения.
3. Как показали исследования, в некотором городе отмечено резкое увеличение количества смертей от сердечной недостаточности и потребления пива.
Может ли потребление пива увеличивать вероятность сердечного приступа? Нет, увеличение обоих показателей вызвано быстрым ростом численности населения этого города. Причиной повышения вероятности можно считать возросшее потребление кофе, жевательной резинки, увеличение доли населения, играющего в бридж, смотрящего многочасовые телепередачи и т. п.
4. Как показали исследования, в одном европейском городе отмечено резкое увеличение численности населения и аистов, гнездящихся в черте города.
Можно ли считать это подтверждением распространенного поверья, будто аисты приносят младенцев?
Нет, нельзя. Отмеченный параллелизм в росте численности населения и аистов обусловлен тем, что с увеличением числа зданий в городе появляется больше мест, пригодных для гнездовий аиста.
5. Как показало недавно проведенное исследование, большинство математиков были старшими сыновьями. Означает ли это, что существует большая вероятность обнаружить математические способности у старшего сына, чем у кого-нибудь из младших? Нет, статистика просто отражает тот удивительный факт, что большинство сыновей старшие.
В связи с последним примером вы можете провести несколько интересных опытов. Вспомните знакомых мужского пола. Проверьте, будет ли больше половины из них старшими сыновьями. Повторите тот же эксперимент со знакомыми женского пола. Какая доля из них будет старшими дочерьми?
Проведем мысленный эксперимент. Рассмотрим 100 двухдетных семей. Какая доля мальчиков (девочек) будет старшими сыновьями (дочерями)? (Ответ: 3/4.) Вычислите долю старших сыновей (дочерей) в 100 трехдетных семьях. (Ответ: 7/12.) Вряд ли нужно говорить о том, что в однодетных семьях единственный ребенок всегда старший.
Точная доля старших сыновей или дочерей изменяется в зависимости от числа детей в семьях, но всегда больше 1/2 и в большинстве случаев значительно больше 1/2.
Приведенных примеров достаточно, чтобы побудить вас к самостоятельному поиску других примеров статистических утверждений, которым неправильно приписывается несуществующая причинно-следственная связь. Богатым источником такого рода утверждений служит коммерческая реклама, в особенности передаваемая по телевидению.
Многие склонны думать, что всякого рода совпадения вызваны действием звезд и другими таинственными силами.
Предположим, например, что в салоне самолета разговорились два незнакомых прежде пассажира.
Джим. Так вы из Бостона! Моя добрая знакомая Люси Джонс работает в Бостоне адвокатом.
Том. Подумать только, как тесен мир! Люси лучшая подруга моей жены!
Есть ли основания считать подобные совпадения маловероятными?
Статистики доказали, что таких оснований нет.
Многие очень удивляются, когда при встрече с незнакомым человеком (в особенности вдали от дома) обнаруживают, что у них есть общий знакомый. Группа социологов из Массачусетского технологического института под руководством Итиль де Сола Пул исследовала этот парадокс, который условно можно было бы назвать «Мир тесен». Они обнаружили, что если выбрать наугад двух жителей США, то каждый из них знает в среднем около 1000 людей. Это означает, что они знают друг друга с вероятностью около 1/100000.
Вероятность того, что у них есть общий знакомый, значительно больше и составляет примерно 1/100. Вероятность того, что они связаны между собой (как в диалоге, приведенном в подписи к нижнему рисунку) через цепочку из двух посредников, больше, чем 99/100!
Иначе говоря, если Браун и Смит — два выбранных наугад жителя США, то с вероятностью, почти равной единице, можно утверждать, что Браун знает кого-то, кто знает Смита.
Психолог Стенли Милгрэм подошел к решению парадокса «Мир тесен» с другой стороны: он отобрал наугад группу «отправителей». Каждому из отправителей Милгрэм вручил некий документ с просьбой передать его незнакомому «получателю», живущему в отдаленном штате. Получив документ, отправитель пересылал его по почте тому из своих близких знакомых, кто, по его мнению, с наибольшей вероятностью мог знать получателя. Знакомый в свою очередь пересылал документ своему знакомому и т. д., пока наконец документ не доходил до получателя. Милгрэм обнаружил, что число посредников между отправителем и получателем колебалось от 2 до 10 с медианой, равной 5. (На вопрос о том, сколько посредников понадобится для пересылки документа, люди обычно отвечали, что около 100.)
Исследование Милгрэма показало, сколь тесно связаны между собой люди сетью общих знакомых.
Поэтому нет ничего удивительного в том, что двое людей, впервые видящих друг друга, встретившись далеко от дома, обнаружили общего знакомого. Сеть общих знакомых позволяет объяснить и другие странные на первый взгляд статистические явления, например необычайную скорость, с которой распространяются слухи, сенсационные новости, конфиденциальная информация и анекдоты.
Эти четверо людей встретились впервые. Разве не удивительно, что по крайней мере двое из них родились под одним знаком зодиака?
Возможно, совпадение покажется вам удивительным, но в действительности оно случается в 4 случаях из 10. Предположим, что каждый из четырех людей мог с равной вероятностью родиться под любым из 12 знаков зодиака. Какова вероятность того, что по крайней мере двое из четырех родились под одним знаком зодиака?
Рассмотрим задачу на модели — специально подготовленной колоде карт. Извлечем из колоды и отложим в сторону четырех королей. В колоде останется по 12 карт каждой из четырех мастей. Каждая масть соответствует одному из четырех людей, каждое значение карты — одному из знаков зодиака.
Извлечем наугад по одной карте каждой масти.
Какова вероятность, что значения по крайней мере двух карт будут совпадать? Найти эту вероятность означает найти вероятность того, что по крайней мере два из четырех незнакомых между собой людей родились под одним знаком зодиака.
Эту задачу проще всего решить, вычислив вероятность того, что значения любых двух карт не совпадают. Если вычисленную вероятность вычесть из единицы, то получится вероятность того, что значения по крайней мере двух карт совпадают, которую и требуется найти.
Если мы возьмем карты двух мастей, например червовой и пиковой, то вероятность того, что значения любых двух карт не совпадают, равна 11/12, так как существует лишь 1 шанс против 12, что какая-то карта червовой масти совпадает по значению с картой пиковой масти. Вероятность того, что трефовая карта отличается по значению от червовой и пиковой, равна 10/12, а вероятность того, что бубновая карта отличается по значению от червовой, пиковой и трефовой, равна 9/12. Произведение этих трех дробей дает нам вероятность того, что никакие две из четырех карт не совпадают. Она равна 55/96.
Вычитая ее из единицы, получаем 41/96. Следовательно, вероятность того, что по крайней мере двое из четырех незнакомых между собой людей родились под одним знаком зодиака, составляет около 4/10, то есть почти 1/2, поэтому совпадение знаков вряд ли можно считать столь удивительным.
Парадокс со знаками зодиака — вариант хорошо известного парадокса с днями рождения. Выберем наугад 23 человека. С вероятностью чуть больше 1/2, по крайней мере двое из них родились в один и тот же день одного и того же месяца. Вычисления аналогичны проделанным выше, только умножать на этот раз приходится 22 дроби:
Вероятность того, что по крайней мере 2 из 23 людей родились в один и тот же день одного и того же месяца, равна разности 1 минус произведение 22 дробей, или 0,5073…, то есть чуть больше 1/2. В правильности этого утверждения нетрудно убедится с помощью микрокалькулятора. Если число выбранных наугад людей больше 23, то вероятность совпадения дней рождения по крайней мере у двоих из них быстро возрастает. Так, если наугад выбрано 30 человек, то эта вероятность равна 7/10. Если же выбрано 100 человек, то шансы на совпадение повышаются примерно до 3 000000 против 1.
Предлагаем вам несколько вопросов для размышления.
1. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в одном месяце, больше 1/2? (Ответ: начиная с n = 5, когда вероятность совпадения месяца равна 89/144 примерно = 0,62.)
2. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в один день недели, больше 1/2? (Ответ: начиная с 4, когда вероятность совпадения дня недели равна 223/343 примерно = 0,65.)
3. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере у одного из них день рождения совпадает с вашим? (Ответ: начиная с n = 253, а не с n = 183, как было бы в том случае, если бы у всех вабранных наугад людей дни рождения не совпадали.)
Цифры в десятичном разложении числа π кажутся расположенными в полном беспорядке, но что это?
Начиная с 710100-го знака после запятой в разложении π идут подряд 7 троек!
Цифры в десятичном разложении числа π не случайны в том смысле, что они не порождены датчиком случайных чисел, но «случайны» в том смысле, что расположены беспорядочно. Математики неоднократно подвергали десятичное разложение числа π всевозможным проверкам в надежде открыть какой-нибудь порядок в расположении цифр, но безуспешно. В этом смысле цифры в разложении числа π следуют одна за другой в таком же беспорядке, как цифры, получаемые при запуске десятиугольного волчка, который останавливается на одной из цифр от 0 до 9.
Вероятность встретить серию из семи троек в любом наугад выбранном месте десятичного разложения числа π очень мала: шансы не встретить ее составляют 9 999 995 против 1. То, что такая серия троек встречается среди первых 710106 знаков после запятой в десятичном разложении π, на первый взгляд кажется удивительным. Но если мы займемся поиском в том же разложении серий из идущих подряд семерок, то окажется, что они встречаются с большей вероятностью, чем серии из троек. Не менее удивительно, что с ненулевой вероятностью в десятичном разложении числа π можно встретить и такие серии, как 4444444, 8888888, 1212121, 1234567 или 7654321. Поскольку заранее не известно, какую именно закономерность мы ищем, какую-нибудь серию нам удастся найти с ненулевой вероятностью.
Единственное, от чего зависит успех, — наша изобретательность в поиске скрытых закономерностей.
Как некогда сказал Аристотель, невероятно то, что особенно вероятно.
Этот человек выписал первые буквы английских названий месяцев: J — вместо January (январь), F — вместо February и т. д. Можно ли считать случайным совпадением, что первые буквы названий месяцев с июля по ноябрь сложились в имя похитителя золотого руна Ясона? (JASON)?
Перед вами первые буквы английских названий планет Солнечной системы, выписанные в том порядке, в каком располагаются планеты, считая от Солнца: М — Меркурий, V — Венера и т. д.
Можно ли считать еще одним случайным совпадением, что первые буквы названий планет от Сатурна до Нептуна сложились в слово SUN, что означает по-английски «Солнце»?
Эти два забавных совпадения как нельзя лучше подтверждают правильность высказывания Аристотеля. Доказать вероятность невероятного вы можете и с помощью волчка, позволяющего наугад выбирать буквы алфавита. Выбрав какое-нибудь трехбуквенное слово и поспорив с кем-нибудь на пари, что оно составится из трех идущих подряд букв, полученных в результате 100 последовательных запусков волчка, вы скорее всего проспорите. Но если вы поспорите на пари, что из 100 случайно выбранных букв три идущие подряд буквы образуют какое-нибудь слово, например дом, зуб, нос и т. д., то вы скорее всего выиграете.
Запуская волчок и записывая, на каких буквах он останавливается, вы сможете выяснить, долго ли ждать, пока не появится первое трехбуквенное слово. Попробуйте выяснить также, долго ли ждать появления четырех- или пятибуквенного слова. Поразительно, как часто в случайной последовательности букв возникают осмысленные слова!
Связывая получающиеся слова с текущими событиями, вы можете придать эксперименту ореол таинственности. Сочетание букв «Ева» напомнит о ком-то из знакомых, слово «Бах» — о недавнем концерте и т. д. В некоторых сочетаниях букв вы сможете распознать известные сокращения (ГУМ, ДЛТ, ТЮЗ), инициалы и т. д. Это поможет вам понять, как легко при желании усмотреть в этих сочетаниях букв проявление неких таинственных сил!
Эксперимент с буквами объясняет, почему в повседневной жизни так много замечательных совпадений. Всякий раз, когда случается совпадение и оно кажется сверхъестественным, то с точки зрения человека, сведущего в статистике, его отнюдь нельзя считать невероятным. Во множестве событий, происходящих за день, то или иное совпадение может произойти миллионами различных способов. Поскольку характер совпадения заранее не определен, оно не более удивительно и не менее вероятно, чем появление какой-то серии цифр в десятичном разложении числа π или какого-то осмысленного слова в случайной последовательности букв. Когда совпадение происходит, оно кажется слишком невероятным для того, чтобы быть случайным. При этом мы забываем о том, что на одно совпадение приходятся миллиарды возможных совпадений, которые могли бы произойти, но так и не произошли.
Совпадения случаются даже в колоде перетасованных карт. Например, почти всегда вы обнаружите скопление из шести-семи красных или черных карт.
Взглянув в телескоп, вы обнаружите скопление звезд. Горошины, брошенные на поверхность стола, рассыпаются не равномерно, а собираются в кучки. Старая поговорка гласит: «Беда не приходит одна».
Тенденция случайных событий «скапливаться» — явление хорошо известное, и его теории посвящены целые книги. Серия из семи троек в десятичном разложении числа π — лишь один из примеров случайного скопления. Если вы будете бросать монету или вращать колесо рулетки, записывая каждый раз исход бросания или выпавший номер и цвет, то без труда обнаружите, что аналогичные примеры довольно длинных серий встречаются с удивительной частотой.
Поразительный эксперимент по изучению скоплений был предложен инженером из Мичиганского университета А. Д. Муром. Свой эксперимент Мур назвал «нонпарельной мозаикой» (небольшие конфетки в виде разноцветных шариков, с которыми Мур проводил свой опыт, называются нонпарелями). Засыпьте в бутыль из прозрачного стекла поровну круглых бусин красного и зеленого цвета.
Встряхнув бутыль, перемешайте шарики. Если вы посмотрите на бутыль сбоку, то увидите не однородную смесь красных и зеленых бусин, как можно было бы ожидать, а красивую мозаику из довольно крупных скоплений красных бусин вперемежку с крупными скоплениями зеленых бусин. Скопления имеют неправильную форму. Образуемая скоплениями мозаика настолько неожиданна, что даже математики, когда впервые видят ее, считают, что одноцветные шарики слипаются вследствие какого-то электростатического эффекта. В действительности мозаику формирует случай. Узор из красных и зеленых пятен не более чем проявление случайного скапливания.
Если вам трудно в это поверить, попробуйте провести следующий простой эксперимент. На листе бумаги в клеточку начертите квадратную рамку размером 20 клеток на 20. Затем раскрасьте каждую клетку в красный или зеленый цвет, выбирая цвета в зависимости от исхода бросания монеты. Раскрасив все 400 клеток, вы увидите такую же мозаику из красных и зеленых скоплений, какая видна через стенки бутыли.
При образовании скоплений в игру нередко вступают нематематические факторы. Если за автомашинами, случайным образом распределенными на шоссе, вы будете наблюдать с вертолета, то увидите, что они распределяются вдоль шоссе неравномерно, образуя скопления. Реально наблюдаемое скопление сильнее случайного, поскольку водитель стремится не пропускать вперед машины, движущиеся примерно с той же скоростью, и прибавлять скорость на свободных участках дороги. «Пятнистость» в расположении городов на карте, дождливых дней в календаре, куртин клевера и других дикорастущих растений на лугу и т. д. обнаруживает более сильную тенденцию к скоплению, чем та, которая объясняется только игрой случая.
Перед вами удивительный парадокс, связанный с теорией скопления. Разложите колоду карт так, чтобы карты черных и красных мастей чередовались.
Разделите колоду на равные части, убедившись при этом, что нижние карты в каждой половине различных цветов.
Перетасуйте колоду. Для этого, отогнув вверх углы каждой из частей колоды, отпускайте по одной карте поочередно из каждой части так, чтобы карты ложились внахлест, после чего подровняйте все карты, не тасуя.
Снимая по две карты сверху, вы обнаружите в каждой паре по одной красной и по одной черной карте, словно не вы своими собственными руками делили колоду на две части и не тасовали их внахлест!
Этот замечательный карточный фокус — пример того, как скрытая математическая структура, вступая в игру, порождает скопления, кажущиеся загадочными и непонятными. Фокусники называют положенный в его основу трюк принципом Гилбрейта в честь первооткрывателя — математика и большого любителя фокусов Нормана Гилбрейта, придумавшего его в 1958 г. С тех пор на основе принципа Гилбрейта фокусники-профессионалы изобрели не одну сотню хитроумнейших карточных фокусов.
Докажем по индукции, что принцип Гилбрейта действует безотказно. Итак, колода делится на две части. В одной части снизу оказывается черная карта, в другой — красная. После того как при тасовании внахлест на стол падает первая карта, в обеих частях колоды снизу оказываются карты одного цвета. Если первой на стол упала красная карта, то обе нижние карты черные. Если первой на стол упала черная карта, то обе нижние карты красные. Следовательно, независимо от того, какая из нижних карт упадет второй, поверх первой карты на столе непременно ляжет карта другого цвета. Итак, в первую пару карт на столе войдет одна красная и одна черная карта.
После того как на стол сброшены две первые карты, мы возвращаемся к исходной ситуации: снизу в одной части окажется черная карта, в другой — красная. Какая бы из них ни упала на стол, снизу двух частей снова будут две карты одного цвета, поэтому и во вторую пару на столе непременно войдет одна красная и одна черная карта, после чего все опять повторится сначала.
Если вы захотите показать кому-нибудь этот фокус, то сначала вам необходимо подготовить колоду так, чтобы черные и красные карты чередовались.
Попросите кого-нибудь из зрителей сдать на стол по одной карте примерно половину колоды (после того, как зритель положит на стол верхнюю карту, нижние карты в обеих частях колоды заведомо будут различного цвета), а затем, взяв одну часть колоды в правую, а другую в левую руку, сбросить карты по одной на стол так, чтобы они легли внахлест.
Держа «перетасованную» колоду под столом так, чтобы ее не видели ни зрители, ни вы сами, объявите зрителям, будто вы можете на ощупь определять 164 цвет карт, и «в доказательство» начните выкладывать на стол карты парами — по одной красной и одной черной. Для этого вам необходимо лишь каждый раз брать по две карты сверху.
Можно ли обобщить принцип Гилбрейта и положить более широкий вариант в основу новых карточных фокусов? Попробуем проделать следующую процедуру. Подготовим колоду так, чтобы карты шли четверками — по одной карте каждой масти, например в последовательности ПЧБТ, ПЧБТ, ПЧБТ и т. д. (П — пики, Ч — червы, Б — бубны, Т — трефы).
Снимая по одной карте сверху, сдайте примерно половину колоды (точное число сданных карт не имеет значения). При сдаче последовательность мастей автоматически изменяется на обратную. Взяв в правую руку одну часть колоды (например, сданные карты), а в левую — другую часть колоды, сбросьте карты по одной из каждой части на стол так, чтобы они легли внахлест. После этого начните снимать карты с верха перетасованной колоды четверками.
В каждой четверке непременно будет по одной карте каждой масти.
А вот еще один не менее эффективный фокус.
Разложите карты четырьмя сериями по 13 карт в каждой. Карты в серии независимо от масти расположите в следующем порядке: туз, двойка, тройка, четверка, пятерка, шестерка, семерка, восьмерка, девятка, десятка, валет, дама, король. Проделайте с колодой ту же процедуру, что и в предыдущем фокусе. Отсчитайте сверху четыре серии по 13 карт.
В каждой серии непременно будет по одной карте всех значений от туза до короля!
В заключение приведем еще одно обобщение принципа Гилбрейта. Возьмите две колоды и расположите в них карты в одной и той же последовательности. Положите одну колоду на другую и сдайте сверху столько карт, чтобы осталось около 52 листов. Перетасуйте обе части удвоенной колоды внахлест и разделите 104 карты на две строго равные части. Каждая половина окажется полной колодой!
Предположим, что три кандидата— Абель, Берне и Кларк (А, В и С) — выставили свои кандидатуры на президентских выборах.
Как показали итоги выборов, 2/3 избирателей отдали предпочтение Абелю перед Бернсом и 2/3 избирателей отдали предпочтение Бернсу перед Кларком. Означает ли это, что большинство избирателей отдало предпочтение Абелю перед Кларком?
Не обязательно. Если голоса избирателей разделились так, как показано на рисунке слева, то возникла парадоксальная ситуация.
Предоставляем объяснить ее самим кандидатам.
М-р Абель. Две трети избирателей предпочли меня Бернсу.
М-р Бернс. Две трети избирателей предпочли меня Кларку.
М-р Кларк. Две трети избирателей предпочли меня Абелю!
Этот парадокс, известный еще в XVIII в., представляет собой пример нетранзитивных отношений, которые могут возникнуть при попарном выборе.
Понятие транзитивности применимо к таким отношениям, как «выше, чем» (х выше, чем у), «больше, чем», «меньше, чем», «раньше, чем», «тяжелее, чем».
Вообще, отношение R называется транзитивным, если из того, что истинны утверждения xRy и yRz следует, что истинно утверждение xRz.
Парадокс с выбором кажется столь неожиданным потому, что мы ошибочно полагаем, будто отношение «быть предпочтительнее, чем» всегда транзитивно.
Если кто-то отдает предпочтение А перед В (то есть для него А предпочтительнее, чем В), а В перед С, то естественно ожидать, что этот кто-то отдает предпочтение А перед С. Но как показывает парадокс, это верно далеко не во всех случаях. Большинство избирателей отдало предпочтение кандидату А перед кандидатом В, большинство избирателей отдало предпочтение кандидату В перед кандидатом С, и большинство избирателей отдало предпочтение кандидату С перед кандидатом А. Ситуация заведомо не транзитивная! Этот парадокс иногда называют парадоксом Эрроу в честь лауреата Нобелевской премии экономиста Эрроу, показавшего с помощью такого рода логических парадоксов принципиальную невозможность абсолютно демократической избирательной системы.
Парадокс может возникать также в любой ситуации, в которой требуется произвести выбор одной из трех альтернатив, попарно упорядоченных по трем свойствам. Предположим, что А, В и С — три претендента на руку и сердце одной и той же невесты.
Пусть строки некой матрицы 3х3 содержат оценки, даваемые невестой каким-нибудь трем качествам кандидатов в женихи, например их уму, внешности и обеспеченности. Сравнивая оценки попарно, невеста может оказаться в довольно затруднительном положении, если выяснится (а такое легко может случиться), что кандидату А она отдает предпочтение перед В, В — перед С и С — перед А!
Последуем математику Полу Халмошу и будем считать, что А означает пирожки с абрикосовым вареньем, В — с вишневым и С — со сливовым. Предположим, что в буфете в продаже всегда есть пирожки с вареньем только двух сортов. Матрица показывает, как посетитель оценивает пирожки по вкусу, свежести и размерам. По вполне разумным мотивам посетитель может предпочесть пирожки с абрикосовым вареньем пирожкам с вишневым вареньем, пирожки с вишневым вареньем — пирожкам со сливовым вареньем и пирожки со сливовым вареньем — пирожкам с абрикосовым вареньем.
Более подробно парадоксы с нетранзитивными отношениями рассмотрены в моей статье (Scientific American, октябрь 1974), а также в статье «Выбор избирательной системы» Рихарда Ниемы и Уильяма Райкера (там же, июнь 1976) и Линн Стин об избирательных системах (там же, октябрь 1980).
Мисс Лоунлихартс по профессии статистик, ей надоело коротать вечера в одиночестве.
Мисс Лоунлихартс. Хорошо бы познакомиться с одиноким интеллигентным мужчиной. Говорят сейчас есть какие-то клубы встреч. Вступлю-ка я в один из них.
Мисс Лоунлихартс записалась сразу в два таких клуба. Однажды оба клуба проводили вечер в великолепном дворце «Парадокс».
Члены одного клуба встречались в Восточной комнате, члены другого— в Западной.
Мисс Лоунлихартс. Одним мужчинам нравится носить усы, другие предпочитают бриться. Одни остроумные, приятные собеседники, другие — страшные зануды и сухари. Я бы предпочла сегодня провести вечер с приятным собеседником. Следует ли мне остановить свой выбор на мужчине с усами?
Мисс Лоунлихартс провела статистическое исследование тех мужчин, которые должны были собраться в Восточной комнате. Оказалось, что среди приятных собеседников 5/11, или 35/77, составляют усатые, а 3/7, или 33/77, — гладко выбритые.
Мисс Лоунлихартс. Решено: в Восточной комнате я все внимание уделяю усатым.
Как показано аналогичное статистическое исследование, среди приятных собеседников, которые должны были собраться в Западной комнате, усатые составляли большинство — 34/126, приходившихся на долю гладко выбритых.
Мисс Лоунлихартс. Как все просто! И в Восточной, и в Западной комнате у меня больше шансов встретить приятного собеседника среди усатых мужчин.
К тому времени, когда мисс Лоунлихартс добралась до дворца «Парадокс», оба клуба встреч решили объединиться, и все перешли в Северную комнату.
Мисс Лоунлихартс. Как быть? Если в каждом клубе у меня больше шансов встретить интересного собеседника среди усатых мужчин, то и в объединенной группе он скорее всего окажется с усами. Впрочем, расчеты превыше всего. Подсчитаю-ка я шансы.
Результаты вычислений удивили мисс Лоунлихартс. Шансы встретить интересного собеседника среди усатых мужчин на объединенной встрече оказались ниже, чем среди гладко выбритых!
Мисс Лоунлихартс. Мне пришлось изменить тактику, но зато я была вознаграждена, хотя, признаться, до сих пор не пойму, почему так произошло.
Этот любопытный парадокс можно продемонстрировать на карточной модели. Пусть красные карты соответствуют приятным собеседникам, черные — унылым сухарям, крест, поставленный карандашом на рубашке карты, — усам, а отсутствие креста — гладко выбритому лицу.
Пометим крестами 5 красных и 6 черных карт.
Добавим к ним 3 красные и 4 черные карты без крестов на рубашках. Всего у нас наберется 18 карт.
Это мужчины, собравшиеся в Восточной комнате.
Перетасуйте 18 карт и разложите их на столе вверх рубашкой. Какую карту вам следует выбрать— с крестом или без креста на рубашке, если вы хотите с наибольшей вероятностью вытянуть красную карту? Нетрудно подсчитать, как это сделано на рисунках, что вероятность вытащить красную карту максимальна, если вы выберете карту, помеченную крестом.
Аналогичным образом постройте модель компании, собравшейся в Западной комнате. Пометьте крестами рубашки 6 красных и 3 черных карты. Добавьте к ним 9 красных и 5 черных карт, не помеченных крестом. Всего у вас наберется 23 карты. Перетасуйте их и разложите вверх рубашкой. Нетрудно доказать, что и в этом случае ваши шансы вытянуть красную карту максимальны, если вы выберете карту, помеченную крестом.
Объедините теперь обе группы карт в одну колоду из 41 карты. Перетасуйте ее и разложите карты вверх рубашкой. Трудно поверить, но, проделав все вычисления, вы обнаружите, что наибольший шанс вытащить красную карту будет у вас в том случае, если вы выберете карту, не помеченную крестом.
С подобными парадоксами статистики сталкиваются, например, при анализе действия лекарств. Обратимся снова к той же карточной модели. На этот раз карты будут изображать две группы пациентов, на которых испытывалось действие лекарственного препарата. Карты, помеченные крестом, пусть означают пациентов, получивших лекарство, карты, не помеченные крестом, — пациентов, получивших «плацебо», или «пустышку», — вещество, не оказывающее никакого действия на организм, красные карты — пациентов, состояние которых улучшилось от приема лекарства, черные — пациентов, состояние которых не улучшилось от приема лекарства. При анализе действия лекарства на каждую группу пациентов в отдельности мы пришли бы к заключению, что лекарство более благоприятно сказывается на состоянии пациента, чем «плацебо». При анализе действия того же лекарства на объединенную группу вывод был бы прямо противоположным: прием «плацебо» оказывает более благоприятное действие на состояние пациента, чем лекарство! Этот парадокс показывает, как трудно придумать схему испытаний, которая давала бы надежные статистические результаты.
Примером того же парадокса может служить подлинное происшествие, приключившееся в 1978 г. при анализе статистических данных о результатах приема в Калифорнийский университет в Беркли.
Исследователей интересовало, не отдается ли при вступительных экзаменах предпочтение юношам перед девушками. В тот год в университет было зачислено около 44 % абитуриентов и около 33 % абитуриенток.
Поскольку юноши и девушки были подготовлены примерно одинаково, казалось, что приемная комиссия не отличалась беспристрастием и отдавала явное предпочтение юношам. Но при попытке установить, на каком из факультетов девушки подвергались дискриминации, выяснилось, что на каждом из факультетов университета процент принятых абитуриенток был выше, чем процент принятых абитуриентов! Как это объяснить? Парадокс возник из-за того, что гораздо больший процент абитуриенток подали заявление на более трудные факультеты, где отсев был значительно больше. Если же сравнить абитуриентов и абитуриенток, поступавших на один и тот же факультет, то доля абитуриенток, успешно сдавших вступительные экзамены и зачисленных в университет, оказывалась выше доли абитуриентов. «Дискриминация» юношей превратилась в «дискриминацию» девушек, когда все данные по факультетам свели в единые данные по всему университету. Был ли Калифорнийский университет реабилитирован после того, как парадокс разрешился? По-видимому, был. А что, если какой-то женоненавистник придумал более трудные вопросы и задачи на вступительных экзаменах именно на те факультеты, на которые особенно охотно подавали заявления абитуриентки?
Этот знаменитый парадокс о черных воронах показывает, что мисс Лоунлихартс далеко не одинока и находится в хорошей компании.
Решить его пока оказалось не по силам даже лучшим современным логикам.
Если орнитологи наблюдали лишь трех-четырех черных ворон, то их вывод о том, что «все вороны черные», мягко говоря, не слишком подкреплен фактами. Иное дело, если орнитологи (и не только орнитологи) наблюдали миллионы черных ворон. В этом случае вывод о том, что все вороны черные, основательно подкреплен фактами.
Ворона. Кар, кар! Я не черная ворона. Пока меня никто не видел, никто не знает, что утверждение «Все вороны черные» ложно.
А как насчет желтой гусеницы? Можно ли считать, что она подтверждает утверждение «Все вороны черные»?
Чтобы ответить на этот вопрос, сформулируем исходное утверждение в иной, но логически эквивалентной форме; «Все, что не черно, неворона».
Ученый. Я обнаружил нечто нечерное — желтую гусеницу. Гусеница — явно не ворона, и ее можно рассматривать как пример, подкрепляющий правильность утверждения «Все, что не черно, неворона» и, следовательно, эквивалентного утверждения «Все вороны черные».
Нетрудно найти миллионы нечерных объектов, каждый из которых не является вороной. Можно ли рассматривать их как примеры, подкрепляющие правильность утверждения «Все вороны черные»?
По мнению изобретателя этого парадокса профессора Карла Гемпеля, рыжая корова увеличивает вероятность того, что все вороны черные. Другие философы придерживались иного мнения. А как по-вашему?
Парадокс Гемпеля — наиболее известный из открытых сравнительно недавно парадоксов, связанных с подтверждением истинности того или иного утверждения. «Заманчивая перспектива, открываемая перед нами возможностью решать орнитологические проблемы, не выходя под дождь, — замечает Нельсон Гудмен (см. следующий парадокс), — настолько заманчива, что не может не таить в себе какого-то подвоха».
Проблема состоит в том, чтобы указать, где именно скрыт подвох. По мнению самого Гемпеля, наблюдение нечерного объекта, не являющегося вороной, может рассматриваться как пример, подкрепляющий утверждение «Все вороны черные», но лишь в бесконечно малой мере. Предположим, что мы проверяем гипотезу о небольшом числе объектов, например о 10 игральных картах, разложенных на столе вверх рубашкой. Пусть наша гипотеза состоит в том, что все черные карты пики. Начнем переворачивать карты одну за другой вверх картинкой. Каждый раз, когда перевернутая карта окажется пиковой масти, мы получим пример, подкрепляющий нашу гипотезу.
Сформулируем ту же гипотезу несколько иначе: «Все карты непиковой масти красные». Ясно, что каждая перевернутая нами карта непиковой масти и к тому же красная подтверждает первоначальный вариант гипотезы. Действительно, если первая карта окажется пиковой масти и, следовательно, черной, а остальные 9 карт окажутся красными и непиковой масти, то наша гипотеза блестяще подтвердится.
Эта же процедура, применяемая к нечерным неворонам, считает Гемпель, кажется нам столь странной потому, что множество неворон на Земле неизмеримо больше множества ворон, поэтому нечерная неворона подтверждает нашу гипотезу лишь в пренебрежимо малой мере. Если мы, находясь у себя дома и заведомо зная, что никаких ворон у нас нет, оглядим свое жилище в поисках неворон, то не приходится удивлятся тому, что у нас дома не окажется ни одной нечерной вороны.
Тем не менее если мы, не располагая дополнительными сведениями об отсутствии в нашем доме всяких ворон, обнаружим нечерную неворону, то в теоретическом плане такая находка подтверждает гипотезу о том, что все вороны черные.
Противники Гемпеля ссылаются на то, что открытие, например, желтой гусеницы или рыжей коровы с тем же основанием можно рассматривать как пример, подтверждающий гипотезу «Все вороны белые».
Но как может один и тот же объект подтверждать правильность и гипотезы «Все вороны черные», и гипотезы «Все вороны белые»? Парадоксу Гемпеля посвящена обширная литература. Этот парадокс играет основную роль в дискуссии о подтверждении знания, которой посвящена статья Весли Солмона «Подтверждение» (Scientific American, май 1973).
Вот еще один знаменитый парадокс теории подтверждения, основанный на том, что многие предметы со временем изменяют свой цвет. Зеленые яблоки, созревая, становятся красными, волосы к старости седеют, серебро со временем чернеет.
Нельсон Гудмен называет предмет «зелубым», если тот удовлетворяет двум условиям: во-первых, остается зеленым до конца века и, во-вторых, становится голубым после 2000-го года.
Рассмотрим два различных высказывания: «Все изумруды зеленые» и «Все изумруды зелубые». Какое из них надежно?
Как ни странно, оба утверждения подкреплены одинаково надежно! Каждое когда-либо сделанное наблюдение изумруда может рассматриваться как пример, подкрепляющий оба утверждения, в то время как ни один контрпример не известен! Объяснить сколько-нибудь вразумительно, почему одно утверждение следует принять, а другое отвергнуть, не так-то просто.
Парадоксы Гемпеля и Гудмена показывают, как мало мы понимаем истинную роль, отводимую статистике в научном методе. Мы лишь знаем, что без статистических методов наука не могла бы продолжать извечный поиск законов, действующих в нашей загадочной Вселенной.