Расчет вероятностей вызывает большой интерес у тех, кто полагает, что с помощью науки можно найти стратегию выигрыша в казино, лотереях и различных азартных играх. Однако такие люди вскоре обнаруживают, что теория вероятностей им в этом не поможет. В действительности она играет на руку не игрокам, а создателям азартных игр.
Помимо азартных игр расчет вероятностей используется во множестве областей, начиная с медицины, где производится оценка вероятностей при планировании массовой вакцинации, до контроля качества промышленного производства, где порой требуется принять решение о качестве множества деталей на основании результатов испытаний лишь нескольких из них.
Математическая теория вероятностей появилась достаточно поздно, уже в XVII веке. Определение вероятности как отношения числа благоприятных исходов к общему числу возможных исходов, данное Лапласом, было сформулировано лишь в 1814 году, хотя Архимед открыл намного менее интуитивно понятную формулу объема сферы за 2000 лет до этого. Длительное время господствовала идея о том, что случайные события непредсказуемы, не подчиняются никаким законам и, следовательно, их анализ неподвластен человеку. Кроме того, считалось, что случайность лежит в области божественного и имеет магический смысл. Поэтому изучение случайных событий длительное время считалось опасным.
Одним из первых трудов, посвященных изучению законов теории вероятностей, считается работа Галилея, написанная примерно в 1620 году по заказу некоего аристократа. Он пытался определить наиболее вероятную сумму очков, выпадающую при броске трех игральных костей. Он считал, что чаще всего эта сумма оказывается равной 10 или И, но не был уверен в этом, поэтому решил попросить совета у одного из величайших мудрецов той эпохи.
Галилей написал четырехстраничную статью, где изложил свои выводы и размышления. Он рассуждал следующим образом.
1. Игральная кость имеет шесть граней. Руководствуясь соображениями симметрии, мы можем считать, что вероятность выпадения каждой грани одинакова. Следовательно, вероятность того, что выпадет конкретное число, равна 1 к 6.
2. Для каждого из 6 возможных результатов для первой игральной кости существует 6 возможных результатов для второй игральной кости. Всего возможно 36 результатов, приведенных в следующей таблице. Результат броска первой кости обозначен К1, результат броска второй кости — К2.
Все пары очков имеют одинаковую вероятность выпадения, но вероятность выпадения сумм очков различается. Лишь в одном случае из 36 сумма выпавших очков будет равна 2 (если выпадет 1 и 1), и также всего в одном случае сумма очков будет равна 12 (6 и 6). Однако сумма очков будет равна 7 в шести случаях из 36 (то есть в одном случае из 6). Этот результат наиболее вероятен.
Портрет Галилея кисти Тинторетто. Этот итальянский ученый выполнил одно из первых исследований по теории вероятностей.
3. Если мы бросаем не две, а три игральных кости, рассуждения проводятся аналогично. Для каждого из 36 возможных результатов броска двух костей существует 6 возможных исходов при броске третьей кости, поэтому общее число вариантов равно 6·6·6 = 216. На следующей диаграмме изображены частоты для каждого из возможных исходов. В самом деле вероятность выпадения 10 или 11 одинакова: 27/216 = 0,125, вероятность выпадения 9 или 12 несколько меньше: 25/216 = 0,116.
Удивительно, насколько точно игрок предсказал, что вероятность выпадения 10 и 11 очков одинакова и слегка превышает вероятность выпадения 9 или 12 очков.
Задачами статистики в прошлом были сбор и описание демографической и другой информации, представлявшей интерес для государства. В XIX веке включение расчета вероятностей в статистику значительно расширило спектр ее возможностей. Страховые компании очень скоро начали использовать статистику смертности и теорию вероятностей, чтобы оценивать ожидаемую продолжительность жизни и точнее определять размеры страховых выплат.
Аналогичным образом при прогнозировании исходов выборов и определении степени уверенности в подобных прогнозах используются результаты предвыборных опросов и теория вероятностей. При оценке эффективности нового лекарственного препарата изучается его действие на выборке пациентов, а выводы формируются на основании полученных результатов и с помощью статистических методов, в которых применяются расчеты вероятностей.
Однако не нужно быть экспертом по теории вероятностей и необязательно уметь решать сложные задачи, чтобы понимать и применять наиболее распространенные статистические методы. Также не стоит думать, что статистика имеет отношение исключительно к азартным играм и казино. Иногда на обложках книг по статистике мы видим рулетку, игральные кости или колоду карт, хотя уместнее были бы изображения леса, операционных, школ или заводов, ведь именно в этих областях статистика имеет намного более широкое и интересное применение.
* * *
АЗАРТНЫЕ ИГРЫ И ПРОИСХОЖДЕНИЕ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Теория вероятностей стоит особняком не только потому, что она появилась сравнительно поздно, но и потому, что причины ее появления и развития были достаточно необычными. Научные открытия во все времена совершались самоотверженными учеными, которые стремились понять устройство мира и часто жертвовали собой ради блага всего человечества. Однако поводом появления теории вероятностей стало желание людей, ведущих праздную жизнь, определить стратегии выигрыша в азартных играх, которым они посвящали большую часть своего времени.
Одна из первых дискуссий, посвященных математической теории вероятностей, зафиксирована в переписке Пьера Ферма с Блезом Паскалем в 1654 году. В ней речь шла о задаче, предложенной философом (и игроком!) шевалье де Мере. В задаче ставился вопрос о справедливом разделении выигрыша в неоконченной игре, если было условлено, что выигрывает тот, кто одержал верх в трех партиях, но игра завершилась со счетом 2:1.
Один из вариантов — отдать весь банк тому, кто выигрывал на момент окончания игры, другой — поделить банк поровну. Но и Ферма, и Паскаль сходились на том, что наиболее справедливым будет разделение банка в соотношении 3 к 1 в пользу того игрока, который на момент окончания игры одержал верх в двух партиях.
Обозначим игроков А и В. А выиграл две партии. Рассуждения будут выглядеть так. Допустим, что игроки продолжают игру и вероятность победы в партии составляет 50 % для каждого из них. Возможные варианты окончания игры таковы.
1. Следующую партию выигрывает А. Так как счет станет равным 3:1, игра закончится, победу одержит А, который заберет банк. Вероятность этого исхода равна 0,5.
2. Следующую партию выигрывает В. Счет станет равным 2:2, и игра продолжится. Далее выигрывает А, счет становится равным 3:2 в пользу А, и игра завершается. Вероятность этого исхода равна 0,5·0,5 = 0,25 (выигрывает В, затем выигрывает А).
3. Следующую партию выигрывает В, затем снова выигрывает В. Игра завершается со счетом 2:3 в пользу В. Вероятность этого исхода равна 0,5·0,5 = 0,25.
Подведем итог. Если игра продолжается, то вероятность выигрыша А будет равна 0,5 + 0,25 = 0,75, вероятность выигрыша В будет равна 0,25. В трех случаях из четырех побеждает А, следовательно, будет справедливо, если ему достанется три четверти банка.
* * *
В соответствии с идеями, которые высказал еще Галилей, если существует n возможных наблюдений, имеющих одинаковую вероятность, и событие А происходит в k из этих наблюдений, то вероятность события А равна:
Иными словами,
Например, если в мешке лежит 5 шаров, 3 из которых окрашены в синий цвет, а 2 — в черный, то вероятность вытащить синий шар равна 3/3. Проще не бывает.
В некоторых случаях теоретическую вероятность можно вычислить, используя симметрию объекта, от которого зависит результат, как, например, при броске монеты или игрального кубика. Другой подход заключается в том, что вероятность рассматривается как количество наблюдений, при которых произошло событие, при бесконечном увеличении числа наблюдений. Так, чтобы узнать, какова вероятность того, что при броске монеты выпадет решка, нужно бросить монету очень много раз и посмотреть, к какому значению стремится полученное соотношение исходов. Это же верно и в случае с игральными костями. Когда мы говорим, что вероятность выпадения определенного числа очков равна 1/6, мы имеем в виду идеальную игральную кость. Реальная игральная кость может отличаться от идеальной.
Некоторые исследователи бросали монету или игральную кость множество раз и записывали полученные результаты. Одним из них был английский математик Джон Керрич, который отбывал тюремное заключение в Дании во время Второй мировой войны. Находясь в тюрьме, он бросил монету 10000 раз, при этом решка выпала 3067 раз, орел — 4933.
Соотношение числа решек к числу орлов колебалось так, как показано на следующем графике, на котором приведены не реальные данные, полученные Керричем, а результаты моделирования. По мере роста числа бросков колебания уменьшаются, и разумно предполагать, что соотношение числа исходов стремится к постоянному числу при бесконечно большом числе бросков. Это значение и будет вероятностью выпадения решки при броске этой монеты.
Изменение соотношения числа решек к числу орлов при броске монеты 10 000 раз (результаты получены с помощью моделирования).
Подобные исследования выполнили Жорж-Луи Леклерк де Бюффон, французский ученый XVIII века, который бросил монету 4000 раз (решка выпала 2048 раз), и Карл Пирсон, один из отцов современной статистики, который бросил монету 24000 раз (самостоятельно или с помощью ассистентов), из которых решка выпала 12 012 раз.
Жорж-Луи Леклерк де Бюффон. Портрет кисти Франсуа-Юбера Друз.
Наиболее известный опыт с игральными костями провел в 1850 году швейцарский астроном Рудольф Вольф, который бросил два игральных кубика (один белого, другой красного цвета) целых 20000 раз.
Полученные им результаты приведены в таблице на следующей странице.
Результаты, полученные при бросках монеты, согласуются с предположением о ее сбалансированности (вероятность выпадения решки равна 0,5), однако результаты экспериментов, проведенных с игральными костями, достаточно далеки от теоретических значений. При броске обоих кубиков, и белого, и красного, 3 и 4 очка выпадали заметно реже остальных. Представим результаты эксперимента графически, чтобы яснее увидеть эти расхождения (К = красный кубик, Б = белый кубик). В главе 3 мы поговорим о проверке статистических гипотез и обсудим, допустимо ли в этом случае предполагать, что кубики несбалансированы.
Результаты, полученные при броске красного (К) и белого (Б) кубиков 20 000 раз.
Правило «или»
Вероятность того, что произойдет событие А или другое событие В, если оба они не могут произойти одновременно, равна сумме вероятностей этих событий. Например, вероятность вытащить туза, короля, даму или валета из колоды в 52 карты (без джокеров) равна:
вероятность того, что вытащенная карта — туз: P(A) = 4/52
вероятность того, что вытащенная карта — король, дама или валет: Р(В) = 12/52
вероятность того, что вытащенная карта — туз, король, дама или валет:
Р(А или В) = Р(A) + Р(В) = (4/52) + (12/52) = 16/52
Правило «и»
Вероятность того, что произойдет событие А и другое событие В, если они являются независимыми, то есть если одно событие никак не влияет на другое, равна произведению вероятностей этих событий. Например, вероятность того, что при двух бросках игральной кости в первый раз выпадет 3 очка, а во второй 4, равна:
вероятность выпадения 3 очков: Р(А) = 1/6;
вероятность выпадения 4 очков: Р(В) = 1/6;
вероятность того, что при первом броске выпадет 3 очка, а при втором 4:
Р(А и В) = (1/6)·(1/6) = 1/36
Подсчет исходов
Подсчет благоприятных или всех возможных исходов обычно является самой трудоемкой частью исследования, хотя в некоторых ситуациях подсчеты можно упростить с помощью простых рассуждений или проведя аналогию с похожими ситуациями.
Например, пусть нам нужно попасть из пункта А в пункт С, пройдя через В. Пусть из А в В ведут три дороги, а из В в С — две дороги. Сколькими способами можно пройти из А в С? Для каждого из трех возможных путей из А в В существует два пути из В в С. Следовательно, попасть из А в С можно шестью различными способами.
Рассмотрим другой пример, который кажется более сложным. Существует три различных исхода футбольного матча: победа команды хозяев (1), ничья (X), победа команды гостей (2). Какова вероятность угадать исходы всех 14 матчей тура чемпионата?
Очевидно, что существует всего один благоприятный исход, единственная выигрышная комбинация. Кажется, что подсчитать возможные случаи сложно, но мы можем использовать тот же принцип, что и при подсчете путей из А в С: первый матч имеет три возможных исхода, каждому из которых соответствует три исхода второго матча. Если бы в туре игралось всего два матча, то общее число исходов равнялось бы 3·3 = 32. Продолжив эти рассуждения, придем к выводу, что число возможных исходов 14 матчей тура равно 314. Вероятность угадать 14 исходов, выбрав их случайным образом, равна 1/314, то есть примерно 1 к 4,8 миллиона.
Для решения подобных задач очень полезны формулы комбинаторики. О некоторых из них мы расскажем при решении задач, объясняемых далее.
Применение правил
Применим объясненные выше правила на примере. Для этого вычислим вероятность того, что при пяти бросках монеты в произвольном порядке решка выпадет три раза, а орел — два. Как вы вскоре увидите, эта задача намного важнее, чем кажется на первый взгляд. Будем решать ее последовательно.
1. Вероятности выпадения решки или орла при одном броске монеты одинаковы и равны 0,3.
2. Вероятность того, что при двух бросках выпадет решка и решка, равна 0,5·0,5 = 0,25. Мы применили правило «и», так как эти события являются независимыми, то есть выпадение решки в первый раз не увеличивает и не уменьшает вероятность того, что решка выпадет и во второй раз.
3. Вероятность того, что при пяти бросках последовательно выпадут решка, решка, решка, орел, орел, равна 0,5·0,5·0,5·0,5·0,5 = 0,53·0,52 = 0,03125 (мы могли бы записать это число как 0,53, но для понимания будет лучше представить вероятность выпадения орла и решки в виде отдельных сомножителей).
* * *
ФРЭНСИС ГАЛЬЮН И КВИНКУНКС
Фрэнсис Гальюн (1822–1911) был разносторонним ученым: сфера его интересов включала антропологию, экономику, философию, метеорологию и статистику. Он был двоюродным братом Чарлза Дарвина. Гальюн отличался целеустремленностью и тягой к знаниям, а доходы семьи позволяли ему полностью посвятить себя занятиям наукой. Он изучал медицину, но почти не практиковал, а получив семейное наследство, отправился путешествовать. Он провел два года в Африке и был награжден за свои заслуги золотой медалью Королевского географического общества.
Среди полученных им результатов отметим подробный анализ отпечатков пальцев — именно по рекомендации Гальюна они начали использоваться для опознавания преступников. Эта система применяется и сейчас. Он также изучал механизмы наследственности, заметив, что дети высоких родителей чаще всего также высокие, но не настолько, как родители, и что дети невысоких родителей также обычно низкорослые, но не настолько, как их родители. Этот эффект возврата к среднему значению он назвал регрессией к среднему. Этот новый термин занял важное место в современной статистике. Чтобы наглядно представить вариацию, вызванную случайными причинами, он разработал устройство под названием квинкункс. В это устройство опускались шары, которые затем прокатывались мимо стержней, расположенных в шахматном порядке, сталкивались и случайным образом падали влево или вправо. Окончательное расположение шаров по форме напоминало колокол Гаусса. Квинкункс до сих пор используется для наглядной демонстрации нормального распределения. Компьютерные модели квинкункса можно найти в Интернете.
* * *
Мы вычислили вероятность того, что сначала выпадет три решки (Р), затем два орла (О) в таком порядке: РРРОО. Но нам нужно вычислить вероятность выпадания трех решек и двух орлов в произвольном порядке, иными словами, вероятность того, что выпадет последовательность РРРОО, или ООРРР, или РОРОР или любой из вариантов.
Искомая вероятность будет равна сумме вероятностей каждого из этих исходов. Вероятности будут складываться по правилу «или», так как эти события являются независимыми (орел и решка не могут выпасть в одном и в другом порядке одновременно). Так как вероятность выпадения каждого из этих исходов одинакова, мы можем умножить вероятность выпадения орлов и решек в заданном порядке на число возможных вариантов (и здесь нам не обойтись без помощи комбинаторики).
Данные n предметов можно упорядочить п\ разными способами. Например, если у нас есть 5 книг и 5 мест на полке, первую книгу можно поставить на любое из пяти возможных мест, вторую — на любое из оставшихся четырех, третью — на любое из трех, четвертую — на любое из двух, а для пятой книги останется только одно место. Таким образом, общее число различных вариантов равно 5·4·3·2·1 = 120. В нашем случае также даны 5 «предметов», но не все они отличаются между собой: у нас есть три предмета, одинаковых между собой, и еще два, одинаковых между собой, поэтому мы можем не учитывать перестановки одинаковых предметов. То есть нам нужно разделить общее число вариантов на 3! и 2!. Общее число исходов, при которых выпадет 3 решки и 2 орла, равно
5!/(3!·2!) = 10
Теперь у нас есть все данные, необходимые для вычисления искомой вероятности. Она равна
Зачем нам знать вероятность того, что при пяти бросках монеты в произвольном порядке три раза выпадет решка? Эта задача сама по себе не представляет большого интереса, но далее мы покажем, что аналогичным способом можно решить много других, очень интересных задач.
29 апреля 2004 года некий читатель обратился в редакцию популярной газеты с вопросом: «Я использовал Excel, чтобы сгенерировать случайные числа с помощью функции «=СЛЧИС ()», но эти числа всегда очень маленькие и почти равны нулю. Мне нужна система, чтобы сгенерировать шесть чисел, не превышающих 49, для простой лотереи». По-видимому, читатель думал, что если число является случайным, то оно не подчиняется никаким правилам. Это не совсем так. Существует несколько видов случайных величин. Они делятся на непрерывные, например вес, длина, плотность и так далее, и дискретные (принимающие одно из множества отдельных значений), например число неисправных деталей в партии, количество автомобилей, приезжающих на заправку ежеминутно, и другие. В действительности существует целый «каталог» различных видов распределения вероятностей. Всякий раз, когда мы имеем дело со случайной величиной, следует определить, не подчиняется ли она какому-то конкретному закону распределения вероятностей. В большинстве случаев это действительно так, и нам не потребуется выводить формулы для расчета вероятностей, среднего значения и других интересных параметров: это уже сделали до нас.
Сначала может показаться, что отличить случайные величины от неслучайных непросто, подобно тому как человеку, не знакомому с музыкой, сложно разобраться в разных музыкальных направлениях. Однако несколько практических примеров помогут вам научиться с легкостью их распознавать. Далее мы расскажем о некоторых свойствах и примерах использования трех наиболее известных законов распределения вероятностей.
То, что нам уже знакомо: биномиальное распределение С помощью общих правил вычисления вероятностей мы смогли установить вероятность выпадения 3 решек и 2 орлов (в произвольном порядке) при 5 бросках монеты с помощью следующего выражения:
В целом число успешных исходов при выполнении n опытов (вероятность успешного исхода неизменна и равна р) — это случайная величина, которая подчиняется очень известному закону распределения вероятностей. Это распределение называется биномиальным. Если мы сталкиваемся с этим распределением, нам не нужно выводить новые формулы для вычисления вероятностей.
* * *
ОДНА ОЧЕНЬ ПОЛЕЗНАЯ ФОРМУЛА
Если мы отойдем от конкретных чисел и попытаемся вычислить вероятность выпадения х решек при n бросках, где р — вероятность выпадения решки, (1 — р) — вероятность выпадения орла, мы получим следующую формулу:
Интересно, что ее можно использовать не только для решения задач о броске монеты, но и для любых задач, которые подчиняются нижеприведенной схеме:
* * *
Рассмотрим три задачи.
1. При производстве на конвейере выпускается 1 % бракованных деталей. Если детали упаковываются в коробки по 50 деталей, какова вероятность того, что в одной коробке окажутся сразу две бракованные детали?
2. Баскетболист забивает 75 % штрафных бросков. Какова вероятность того, что он попадет 8 раз из 10?
3. В семье четверо детей. Какова вероятность того, что ровно двое из них — мальчики?
Что общего у этих задач? Все они следуют описанному нами сценарию, следовательно, их очень легко решить.
Расчеты можно произвести с помощью электронных таблиц. В Excel ответ можно найти, используя следующую функцию:
Последняя переменная, которая следует за вероятностью успеха, указывает, хотим ли мы вычислить только вероятность для указанного числа успешных событий (например, ровно 2 бракованные детали; в этом случае эта переменная равна 0) или же накопленную вероятность (число бракованных деталей равно 2 и менее, в таком случае этой переменной нужно присвоить значение 1).
В задаче про игрока в баскетбол мы предполагаем, что вероятность попадания со штрафного броска постоянна, то есть не зависит от давления зрителей, нервов или хода игры (одно из преимуществ хорошего игрока — сохранять процент попаданий неизменным вне зависимости от этих условий). Многие думают, что в задаче о сыновьях и дочерях наиболее вероятно, что в семье два мальчика и две девочки, однако вероятность этого исхода равна всего 38 %. Наиболее вероятным (62 %) является любое другое сочетание.
От числа погибших от удара копытом лошади в прусской армии к числу забитых мячей в чемпионате Испании по футболу: распределение Пуассона Если переменная подчиняется биномиальному закону распределения, можно подсчитать, сколько раз она примет определенное значение (число качественных и число бракованных деталей). Эта переменная также будет иметь предельное значение: число качественных деталей не может превышать общего числа деталей в партии.
Иногда мы сталкиваемся с переменными, которые обозначают число событий, произошедших в единицу времени или на единицу площади. Такие переменные не имеют верхней границы, по крайней мере с теоретической точки зрения. К классическим примерам подобных переменных относится число посещений интернет-страницы в день, число поломок лифта в год, число звонков на АТС в час и, разумеется, число писем, ежедневно приходящих вам по электронной почте. К примерам событий, происходящих в пространстве, можно отнести следующие: число точек, пораженных ржавчиной, на метр проволоки, число дефектов на квадратный метр (или 10 квадратных метров) ткани, число изюминок в ложке с хлопьями, которые вы едите на завтрак.
В 1837 году французский математик Симеон Пуассон решил найти способ изменить формулу биномиального распределения так, чтобы ее можно было применить к подобным ситуациям. Он открыл любопытное выражение, в котором для расчета вероятности любого числа событий достаточно знать лишь среднее число событий (λ). Формула вычисления вероятности того, что некое событие произойдет х раз, выглядит так:
Французский математик XIX века Симеон Пуассон.
Так, если лифт ломается в среднем два раза в год (λ = 2), вероятность того, что в течение года он не сломается ни разу, такова:
Если на интернет-страницу в среднем заходит 100 посетителей в день (будем считать, что число посетителей неизменно в любой день недели, хотя очевидно, что будет существовать определенная разница между рабочими и выходными днями), то вероятность того, что в конкретный день страницу посетит менее 80 человек, такова:
Выполнять расчеты по этой формуле не очень удобно, но нам опять помогут электронные таблицы:
В 1898 году русский экономист и статистик Владислав Борткевич опубликовал книгу, в которой доказал, что распределение Пуассона можно использовать для объяснения статистической закономерности, наблюдаемой при редких событиях. Он использовал данные о самоубийствах и несчастных случаях со смертельным исходом, но самым известным примером его работ является анализ числа солдат, умерших от удара копытом лошади в 14 корпусах прусской армии за 20 лет (с 1875 по 1894 год).
Владислав Борткевич, русский статистик, открывший новые способы применения распределения Пуассона.
В следующей таблице фактическая частота соответствует числу армейских корпусов, умноженному на число лет (14·20 = 280). Среднее число умерших за год в пересчете на один корпус равно (91 + 2·32 + 3·11 + 4·2)/280. Используя это значение в вышеприведенной формуле, получим теоретические значения частоты, приведенные в таблице.
Если мы хотим найти более современный пример, то можно рассмотреть число голов, забитых командой во время футбольного матча. Эта переменная прекрасно соответствует требованиям распределения Пуассона: события происходят в течение четко обозначенного периода времени (футбольного матча), предельного числа событий не существует, а число незабитых голов подсчитать нельзя. Так, на диаграмме слева представлено число голов, забитых каждой командой в каждом из 380 матчей испанского чемпионата 2008–2009 годов. На диаграмме справа представлены данные, вычисленные по нашей формуле.
Фактическое и теоретическое (вычисленное по модели Пуассона) распределение числа мячей, забитых каждой командой в 380 матчах сезона 2008–2009 чемпионата Испании по футболу.
Диаграммы очень похожи. Модель Пуассона хорошо объясняет изменение числа мячей, забитых командой в течение матча.
Колокол Гаусса, или нормальное распределение
Колокол Гаусса встречается в математике очень часто. Его форма соответствует форме гистограммы, на которой представлено большое множество значений, подчиняющихся так называемому нормальному распределению. Например, мешки с сахаром весом 1 кг весят не ровно 1000,000… г — некоторые весят немного больше, другие — немного меньше. Подобное колебание веса неизбежно. Оно вызвано множеством незначительных факторов, по отдельности незаметных, но в сумме имеющих ощутимый эффект. На диаграмме ниже показано, что большинство значений находятся вблизи центрального значения, и по мере удаления от него соответствующие значения встречаются все реже и реже. Это классический колокол Гаусса, или диаграмма нормального распределения.
Возможное распределение фактического веса мешков с сахаром весом 1 кг. Диаграмма имеет форму колокола Гаусса.
Математическое выражение, описывающее форму этого колокола, впервые получил французский математик Абрахам де Муавр в 1733 году. Однако эта диаграмма носит имя немецкого математика Карла Фридриха Гаусса, который использовал ее в 1809 году в своей теории ошибок измерения, в частности ошибок, возникающих при астрономических наблюдениях. Гаусс показал, что вне зависимости от расстояния до измеряемого объекта и от его размеров при повторении измерений в одних и тех же условиях полученные значения будут распределяться особым образом.
Однако нормальное распределение занимает в статистике особое место не только потому, что оно используется в теории ошибок, но и потому, что оно очень часто встречается в природе.
Портрет Гаусса на банкноте в 10 немецких марок. В центре изображена диаграмма нормального распределения.
Говоря об истоках современной статистики, следует упомянуть имя бельгийского ученого Адольфа Кетле (1796–1874), который в XIX веке провел множество исследований, стремясь обнаружить статистические закономерности, которым подчиняется число преступлений, количество новорожденных, умерших и так далее. В поиске данных, подчиняющихся нормальному распределению, его ждал неожиданный сюрприз: в шотландском журнале были опубликованы данные о росте и охвате грудной клетки более чем 5000 солдат из различных шотландских полков. Эти данные подчинялись тому же закону, что и ошибки астрономических наблюдений.
Адольф Кетле, один из крупнейших статистиков XIX века.
По словам самого Кетле, «если неподготовленный человек измерил бы одного солдата 5738 раз, то результаты не распределились бы столь равномерно… как результаты 5738 измерений шотландских солдат. Если бы нам представили два ряда чисел, не снабдив их какими-либо комментариями, мы бы могли с уверенностью определить, какой ряд чисел соответствует результатам измерений 5738 разных солдат, а какой получен в результате неумелых измерений единственного солдата».
* * *
ЗАКОН ЭПОНИМОВ СТИГЛЕРА
Многие законы, теоремы, заболевания, научные открытия и постоянные носят имена их первооткрывателей. Так, известны болезнь Альцгеймера, постоянная Эйлера, великая теорема Ферма, комета Галлея и колокол Гаусса. Название события или закона по имени человека называется эпонимом.
Стивен Стиглер, преподаватель статистики Чикагского университета и известный историк статистики, открыл закон, который вкратце звучит так: «Ни одно открытие не носит имя того, кто в действительности его совершил». Если говорить об упомянутых нами примерах, то болезнь Альцгеймера, названная в честь Алоиса Альцгеймера, была описана до него минимум пятью учеными.
Постоянная Эйлера была открыта Якобом Бернулли, великая теорема Ферма в действительности не теорема, а гипотеза Ферма, а доказал ее Эндрю Уайлс в 1995 году. Комета Галлея была известна астрономам еще до Рождества Христова, хотя именно Эдмунд Галлей вычислил ее орбиту и предсказал дату ее возвращения. Если говорить о статистике, то нормальное распределение и диаграмма в форме колокола были открыты и подробно описаны не Гауссом, а французским математиком Абрахамом де Муавром, который опубликовал свои труды по этой теме в 1733 году, почти на 80 лет раньше Гаусса.
Это не означает, что одним ученым незаслуженно достаются лавры других. Некоторые совершают важный вклад в науку или объясняют уже открытое, но не очень известное явление, и по этой причине имена этих ученых остаются в истории. Профессор Стиглер опубликовал статью, посвященную этой теме, но он был не первым: до него об этом писали многие другие ученые, в частности Роберт Мертон, которого нередко цитирует Стиглер. Получается, что закон Стиглера подчиняется сам себе.
Портрет Абрахама де Муавра, который открыл так называемый колокол Гаусса за много лет до этого знаменитого немецкого математика.
* * *
«Живая» гистограмма. Каждый человек стоит в колонне, соответствующей его росту.
(источник: Эдвард Тафти. Наглядное отображение количественной информации. Цитируется работа Brian L. Joiner «Living Histograms», опубликованная в 1975 году в журнале International Statistical Review.)
Есть и еще одна причина, по которой нормальное распределение играет столь значительную роль. Очень часто в статистических исследованиях основное внимание уделяется средним значениям: анализируется средняя урожайность в зависимости от использованного удобрения, среднее значение выборки сравнивается с предполагаемым средним значением генеральной совокупности и так далее. Средние значения варьируются в зависимости от того, каким образом была взята выборка. Их вариацию на практике можно описать с помощью закона нормального распределения, даже если исходные данные генеральной совокупности не подчиняются этому закону. Например, число очков, выпадающее при броске игральной кости, совершенно не подчиняется закону нормального распределения. Это дискретное распределение с шестью возможными значениями: 1, 2, 3, 4, 5 и 6. Вероятность выпадения каждого из них одинакова. Если мы бросаем два кубика и анализируем среднее число выпавших очков, то частота выпадения различных средних значений уже не будет одинаковой.
Наиболее вероятно, что среднее значение будет равно 3,5. Если мы бросаем четыре кубика, то столбиковая диаграмма, представляющая вероятность возможного среднего числа выпавших очков, будет напоминать колокол Гаусса. Если мы будем бросать 10 кубиков, что равносильно взятию выборки величиной 10, то на диаграмме будет очевидно вырисовываться колокол Гаусса. Таким образом, распределение средних значений подчиняется нормальному закону.
Распределение средних значений стремится к нормальному, хотя исходные значения не подчиняются нормальному закону.
Тем не менее хотя этот закон распределения встречается очень часто, название «нормальный» — не самое удачное: можно подумать, что остальные чем-то необычны. Однако это название используется повсеместно, при этом некоторые предпочитают назвать его гауссовым распределением.
Если исходные данные по своей природе подчиняются нормальному закону (это также можно проверить графически или с помощью тестов), то их распределение полностью описывается всего двумя величинами: средним арифметическим, которое определяет центр колокола Гаусса, и среднеквадратическим отклонением, которое определяет форму колокола.
Среднее значение и среднеквадратическое отклонение — две величины, характеризующие нормальное распределение.
Если вес мешков с сахаром подчиняется нормальному закону, среднее значение равно 1000 г, среднеквадратическое отклонение — 5 г, то можно рассчитать, сколько мешков будут иметь вес свыше 1010 г, сколько — от 995 до 1010 г или менее 995 г. До недавнего времени для этого требовалось выполнять расчеты и сверяться со специальными таблицами (которые до сих пор включаются в некоторые учебники по статистике), но сегодня все расчеты можно выполнить автоматически с помощью электронных таблиц Excel. Например, вероятность того, что мешок сахара весит меньше 995 г, равна
Заметим, что приблизительно 16 % мешков имеют вес менее 995 г, но о весе конкретного мешка ничего определенного сказать нельзя. По этой же причине можно говорить об ожидаемой продолжительности жизни населения, но не о конкретной дате смерти отдельного человека.
Также существуют правила, основанные на том, что вне зависимости от среднего значения (μ, читается «мю») и среднеквадратического отклонения (σ, читается «сигма») 68 % значений будут лежать в интервале μ ± σ, 95 % — в интервале μ ± 2σ, 99,7 % — в интервале μ ± 3σ. Так, в прошлом примере среднее значение μ = 1000, среднеквадратическое отклонение σ = 5. В интервале 995—1005 будет лежать 68 % результатов. Следовательно, в этот интервал не попадает 32 % значений, по 16 % с каждой стороны. Это означает, что 16 % мешков будут иметь вес меньше 995 г.
Это правило также можно использовать для интерпретации среднеквадратического отклонения. Если мы рассмотрим распределение роста людей, среднее значение может равняться 170 см. В этом случае среднеквадратическое отклонение должно лежать в интервале 6–7 см, так как 1 или 2 % населения гарантированно имеют рост выше 190 см. Следовательно, это значение превышает среднее на три среднеквадратических отклонения.
Другие виды распределения. Рассуждения о «теоретических» моделях
Существуют и другие законы распределения вероятностей. Например, если случайная величина является непрерывной и все ее значения равновероятны, распределение называется равномерным. Когда мы используем функцию «=СЛЧИС ()» в Excel для генерации случайных чисел, результаты подчиняются именно этому закону. Существует много других законов распределения. На следующей иллюстрации показаны законы распределения, включенные в пакет статистических программ Minitab.
Распределения вероятностей, для которых можно вычислить вероятности напрямую с помощью пакета статистических программ Minitab.
Однако не следует путать модель с реальностью. Например, сфера очень часто встречается во Вселенной, но не существует объектов идеально сферической формы. Зачем же тогда нужны формулы вычисления площади поверхности или объема сферы? Они позволяют получить достаточно точные значения для применения на практике. Это же справедливо и для законов распределения вероятностей.
Один из самых часто используемых примеров нормального распределения — распределение роста людей. Однако если мы возьмем точные данные о росте миллиона взрослых жителей нашей планеты, то увидим, что они не подчиняются нормальному распределению с абсолютной точностью. Этого не произойдет и в том случае, если мы разделим людей на группы в зависимости от пола, расы и других характеристик.
Нормальное распределение — это качественная модель, которая позволяет с достаточной степенью точности оценить рост людей. Тем не менее это всего лишь модель, которая не полностью соответствует реальности. Это же справедливо и для других законов распределения вероятностей, так как на практике гипотезы не выполняются с абсолютной точностью. Все эти законы описывают лишь теоретические модели (определение «теоретическая» для модели является излишним), которые тем не менее крайне полезны.
Задачи теории вероятностей могут быть достаточно сложными, даже несмотря на относительную простоту формулировки (какова вероятность того, что в выигрышной комбинации национальной лотереи встретятся два последовательных числа?). Интерес представляют необычные вероятности, которые часто противоречат тому, что подсказывает нам интуиция. В то же время сложные задачи нетрудно решить, применив немного воображения. Рассмотрим несколько примеров.
Ложноположительные результаты обследования
При медицинском осмотре у человека нашли заболевание, которое встречается всего у 1 % населения. В 5 % случаев результат обследования является ложноположительным (обследование показывает, что человек болен, когда в действительности он здоров). Какова вероятность того, что этот человек действительно болен?
Вы можете подумать, что ответ — 95 %, но это неверно. Истинная вероятность намного меньше. Из каждой 1000 результатов 50 являются ложноположительными (5 %), 1 — истинно положительным. На каждый 51 положительный результат приходится лишь один истинно положительный. Значит, вероятность того, что пациент действительно болен, равна всего 1/51, то есть немного меньше 2 %.
Задача о днях рождения
В группе 30 студентов. Какова вероятность того, что два студента или более отмечают день рождения в один и тот же день?
Многие считают, что эта вероятность невелика, но в действительности она не настолько мала, как может показаться. Сначала нужно вычислить вероятность того, что два человека родились в разные дни. Первый из них может родиться в любой день года (365 благоприятных исходов из 365 возможных), второй может родиться в любой день за исключением того дня, в который родился первый (364 благоприятных исхода из 365 возможных):
Аналогично можно вычислить вероятность того, что три человека родились в разные дни:
Вероятность того, что все 30 студентов родились в разные дни, будет равна:
Существует всего два возможных случая: либо все студенты родились в разные дни, либо минимум двое из них родились в один и тот же день. Следовательно, вероятность того, что как минимум два студента празднуют день рождения в один и тот же день, равна
* * *
СОВПАДАЮЩИЕ ДНИ РОЖДЕНИЯ
Это может показаться удивительным, но вероятность того, что в группе из 23 человек двое или более отмечают день рождения в один и тот же день, немного больше 50 % (вероятность равна 50,7 %). Если приведенные рассуждения кажутся вам неубедительными, рассмотрим разные группы из 23 человек. Проблема заключается в том, как найти такие группы людей и узнать дату рождения каждого из них. Тем не менее эту проблему можно решить.
На футбольном поле одновременно находятся 23 человека (11 + 11 + 1 судья). Стартовые составы команд и даты рождения всех игроков нетрудно найти в Интернете. Сказано — сделано[1].
Рассмотрим матчи первого тура первого дивизиона чемпионата Испании по футболу 2010 года (матчи игрались 3 января). Из 10 матчей в 5 на поле выходили игроки, отмечающие день рождения в один и тот же день, а именно:
Однако не стоит думать, что если вероятность равна 50 %, то на 10 исходов обязательно будет приходиться 5 благоприятных, ведь при 10 бросках монеты решка необязательно выпадает 5 раз. Вероятности таковы:
* * *
В группе из 30 человек двое или больше родились в один день с вероятностью порядка 70 %. В группе из 23 человек эта вероятность несколько больше 30 %, в группе из 40 человек она составляет порядка 89 %.
Вероятность того, что в группе людей два человека или более родились в один день, зависит от размера группы.
Возможен и другой вариант этой задачи, обратный исходному: какова вероятность того, что в группе из 30 человек два человека или более умрут в один день (но необязательно в один и тот же год)?
Выигрышная комбинация выпадает дважды
Рассмотрим еще один удивительный пример из теории вероятностей. Один человек всю взрослую жизнь (допустим, 30 лет) играет в лотерею. Если каждую неделю разыгрывается два тиража, какова вероятность того, что за этот период одна и та же выигрышная комбинация выпадет больше одного раза?
Существует множество различных лотерей, но, как правило, выбираются 6 чисел от 1 до 49. Число возможных комбинаций в тираже равно 13 983 816 (это число сочетаний из 49 по 6), и лишь одна является выигрышной.
Допустим, что этот человек играет 100 раз в год, 3000 раз на протяжении всей жизни. Задача аналогична задаче о днях рождения, только в этом случае в «году» 13983816 дней, а группа состоит из 3000 человек, каждый из которых родился в один из этих дней. Какова вероятность того, что два человека или более родились в один и тот же день? Применив формулы из предыдущей задачи (здесь нам не обойтись без электронных таблиц), получим, что искомая вероятность равна 59 %. Поэтому неудивительно, если за этот период одна и та же выигрышная комбинация действительно выпадет дважды.
Последовательные числа в билетах национальной лотереи
В завершение этого раздела попробуем ответить на вопрос, которым вы наверняка задавались. Какова вероятность того, что в выигрышной комбинации лотереи выпадут два последовательных числа?
Она намного выше, чем может показаться, и равна 49,5 %. Вычислить точное значение с помощью формул комбинаторики не так-то просто, но порядок этой величины можно оценить с помощью Excel.
Для этого нужно выполнить следующие действия.
1. Расположить числа от 1 до 49 в столбце А.
2. Поместить случайные числа в столбец В.
3. Упорядочить столбец В, после чего порядок чисел в столбце А также изменится.
4. Числа в столбце А упорядочены случайным образом. Скопируйте первые шесть значений в столбец С. Эти числа составят выигрышную комбинацию.
5. В столбец D поместите 15 абсолютных значений разницы между числами выигрышной комбинации. В столбце F на следующем рисунке представлены формулы, по которым рассчитываются значения в столбце D.
6. В первую строчку столбца Е поместите наименьшее значение из столбца D. Если это значение равно 1, это означает, что выигрышная комбинация содержит последовательные числа.
Выполнив эти действия, измените порядок чисел в столбце В, что снова повлечет изменение порядка чисел в столбце А. Результатом будет новая выигрышная комбинация, и все остальные числа пересчитаются автоматически. Excel удобен тем, что можно выполнить все необходимые действия один раз, а затем нажать клавишу F4, и все действия выполнятся заново. Можно проверить, что число 1 встретится в столбце Е примерно в половине случаев.
Если вам знаком какой-либо язык программирования, вы можете написать небольшую программу для симуляции розыгрыша лотереи и подсчитать, сколько раз выпадут последовательные числа.
Также можно обратиться к результатам прошлых тиражей. Результаты испанской национальной лотереи опубликованы на странице Государственной организации лотерей (www.onlae.es). Начиная с первого розыгрыша, о котором имеются данные, прошедшего 17 октября 1985 года, до 31 декабря 2009 года было проведено 2245 тиражей, в 1148 из которых (50,14 %) в выигрышной комбинации встречаются последовательные числа.
Последний аккорд: 22 августа 2002 года выигрышной комбинацией была последовательность 13, 21, 24, 26, 32 и 34. 10 декабря 2009 года… точно такая же! Это не так уж удивительно — вероятность подобного совпадения в 2245 тиражах равна 16,5 %.