Что делать, если перед нами — множество данных, из которых нужно извлечь некую информацию? Вне всяких сомнений, сначала рекомендуется оценить их «на глаз», не просматривая числа одно за другим (наш мозг не способен качественно воспринимать информацию в таком виде), а представив их в виде графиков. Кроме того, можно вычислить некоторые показатели, которые могут быть проанализированы напрямую.
Сохо — один из самых живописных районов британской столицы. Неотразимая смесь современного и традиционного делает его обязательным местом посещения многочисленных туристов, которые уже много лет гуляют мимо удивительно красивых домов, дают отдых усталым ногам в очаровательных парках, разбитых тут и там среди узких переулков. Учитывая великое множество достопримечательностей и суету, присущую центру любого большого города, вы вряд ли обратите внимание на тщательно воссозданную копию питьевой колонки XIX века, расположенную на углу улицы Бродвик. Однако этот скромный памятник установлен в память о столь важном событии, что он по праву мог бы возвышаться на сотню метров, ярко освещая ночное лондонское небо.
Колонка с питьевой водой на улице Бродвик, установленная в 1992 году в честь британского эпидемиолога Джона Сноу, расположена всего в нескольких метрах от другой точно такой же колонки, которая в 1854 году снабжала местных жителей водой из Темзы. В августе того зловещего года в районе Сохо разразилась ужасная эпидемия холеры, от которой всего за три дня умерло больше ста человек, а за две недели — свыше пятисот. Более трех четвертей населения Сохо оставило свои дома, сбегая от болезнетворных паров, которые, как считалось, и были источниками ужасной болезни.
Джон Сноу, выдающийся врач, который годом ранее лично дал хлороформ королеве Виктории во время ее восьмых родов, считал иначе. В статье, написанной в 1849 году, он утверждал, что холера передается не через воздух, а через воду.
Медицинское сообщество не обратило внимания на его доводы отчасти потому, что в своих рассуждениях Сноу не опирался на какую-то конкретную теорию. Сноу применил целый арсенал разнообразных наблюдений, которые помогли ему установить явную связь между водой и распространением холеры. Он использовал исключительно статистические данные, позволившие обнаружить причинно-следственную связь, которую, как мы уже сказали, он не мог объяснить. Несмотря на это, его наблюдения были столь убедительны и он сумел представить результаты столь удачно, что его современникам не оставалось другого выхода, кроме как признать его правоту. Так началась радикальная перестройка систем водоснабжения больших городов.
В погоне за преступником
Холера — это страшное заболевание, основными симптомами которого являются внезапная сильнейшая тошнота и диарея, могущие привести к летальному исходу от обезвоживания. Эпидемию холеры, которая разразилась 31 августа 1834 года, очень быстро стали называть крупнейшей в истории страны. При одном взгляде на цифры волосы встают дыбом: за 72 часа число жертв возросло до 127, большую часть которых составляли дети. Спустя три дня Сноу посетил зону заражения вместе с местным священником Генри Уайтхедом и обнаружил, что большинство умерших жили в домах вблизи колонки с питьевой водой на пересечении улиц Броуд (так в то время называлась улица Бродвик. — Примеч. персе.) и Кембридж. Сноу отметил:
«Изучив район, я обнаружил, что почти все смертельные случаи были зафиксированы неподалеку от питьевой колонки на улице Броуд. Всего 10 умерших жили в домах, ближайший источник воды к которым был расположен в другом месте. В пяти из этих случаев жители сообщили, что предпочитали брать воду из колонки на улице Броуд, а не из ближайшей к ним; еще в трех случаях дети — жертвы заболевания проходили мимо этой колонки по дороге в школу».
Изучив источник питьевой воды, Сноу не обнаружил заметных следов заражения. Далее он обратился к архивам и составил подробный список всех умерших за последние два дня. Ни один из рабочих пивоварни, расположенной вблизи источника, не заразился, а в приюте для бедняков, также расположенном неподалеку, где проживали более 500 человек, было зарегистрировано лишь пять летальных исходов. Газеты сообщали о новых жертвах эпидемии, проживавших в отдаленных районах: Хампстеде и Излингтоне. Казалось, что Сноу ошибался.
Он удвоил усилия: обойдя дом за домом, он убедился, что и в приюте для бедняков, и на пивоварне имелись собственные источники питьевой воды. Одно из семейств, проживавших в Хампстеде, сообщило, что женщина — жертва холеры, ежедневно приносила воду из источника на улице Броуд, так как ей нравился вкус именно этой воды. Племянница этой женщины, также умершая от холеры, поступала аналогичным образом. «А где жила ее племянница?» — нетрудно представить, что Сноу задал именно этот вопрос. «В Излингтоне», — последовал ответ.
Сноу записал: «Вывод моего исследования заключается в том, что в этой части Лондона отсутствует вспышка холеры или видимое присутствие заболевания за исключением тех, кто брал воду в упомянутом источнике». Эта простая фраза позднее изменила систему здравоохранения во всем мире.
7 сентября, когда эпидемия все еще не стихла, Сноу добился созыва срочного совещания с местными властями и сообщил им о своем открытии. Он не только выступил с речью, но и представил карту района, на которой отметил численность и место жительства умерших. Карта оказалась настолько убедительной, что уже на следующий день колонка была закрыта. Число умерших резко сократилось, и через некоторое время эпидемия остановилась.
Сила графиков
Оригинал карты, составленной Сноу, хранится в Британском музее. В 1855 году улучшенная версия карты была включена в отредактированную статью Сноу, написанную в 1849 году. Фрагмент этой карты приведен на следующей странице. Современному читателю сложно понять, насколько передовым был тогда такой способ представления данных, ведь сегодня он используется повсеместно.
Фрагмент карты района Сохо, где в 1854 году разразилась эпидемия холеры. Источник питьевой воды на улице Броуд обозначен словом PUMP в центре карты. Горизонтальные линии обозначают число умерших в каждом доме.
Умершие от холеры обозначены параллельными отрезками. При нанесении этих обозначений на обычную карту рядом с каждым домом сразу же становится понятно, где располагался очаг эпидемии. Очевидно, что большинство смертельных исходов зафиксировано рядом с источником питьевой воды (pump) на улице Броуд в центральной части карты. Если прибавить к этому скрупулезный труд Сноу по сбору информации, то связь эпидемии с источником питьевой воды не требует дополнительных подтверждений в виде какой-то конкретной теории. Именно так посчитали местные власти и приняли решение закрыть колонку. Очаг заболевания угас, что и стало доказательством того, что холера передается через зараженную воду.
Эксперименты, проведенные Луи Пастером в период с 1860 по 1864 год, сыграли ключевую роль в формировании теории патогенов и позволили дать теоретическое объяснение наблюдениям Сноу постфактум. В 1885 году немецкий ученый Роберт Кох установил, что возбудителем холеры является бактерия Vibrio cholerae, и уже в конце века системы водоснабжения большей части крупных европейских городов были заменены. Призрак холеры перестал угрожать половине мира.
Описать подозреваемого в преступлении так, чтобы другие смогли гарантированно опознать его, — непростая задача, если только у подозреваемого нет какой-то отличительной черты. Однако эксперты полиции знают, на что следует обращать внимание и какие эпитеты нужно использовать при описании преступника, чтобы другой человек мог себе его представить. Они также знают, как нужно составить фоторобот преступника, чтобы его было легче опознать.
Чем-то подобным занимается и статистика. Чтобы обобщить обширное множество данных, рассчитывается несколько показателей (их может быть, например, пять или шесть), которые содержат больше всего информации и помогают получить достаточно точное представление обо всех данных в целом. Эти показатели обычно делятся на три группы: показатели центра распределения, показатели вариации и квантили. В этом разделе мы расскажем о показателях первой группы, которые указывают, в окрестности каких значений располагаются данные.
Среднее арифметическое
Мы все рассчитывали свой средний балл, когда учились в школе или институте. Например, баллы выставляются по шкале от 0 до 10, итоговый балл рассчитывается как средний балл трех промежуточных экзаменов, а пороговая оценка равна 5. Оценки 3, 2 и 6 на промежуточных экзаменах означают, что вы не сдали экзамен; оценки 4, 4 и 7 означают успешную сдачу (а как быть, если вы получили 4, 4,3 и 6,3?).
Среднее арифметическое — это один из наиболее распространенных показателей центра распределения. Эта величина используется весьма широко благодаря своим особым свойствам и простоте расчетов. Она также демонстрирует нетривиальные свойства при некоторых расчетах. Попробуем, к примеру, найти среднее арифметическое средних арифметических. Среднее арифметическое (3, 4, 3) равно 4, среднее арифметическое (4, 6) равно 5, но среднее арифметическое всех этих чисел равно 4,4, а не среднему значению средних арифметических (4 + 5)/2 = 4,5. Как правило, если дано множество из n1 значений со средним арифметическим и второе x¯1 множество из n2 значений со средним арифметическим x¯2, то средним арифметическим значений множества из (n1 + n2) значений будет
Эта формула эквивалентна формуле расчета среднего для всех значений, так как если выборка содержит n элементов, среднее значение которых равно х¯, их сумма будет равна nх¯. Таким образом, числитель общего среднего арифметического равен сумме всех элементов выборки, а знаменатель — общему числу элементов выборки.
Рассмотрим пример. Если средний возраст сотрудников-мужчин в компании равен 36 годам, а средний возраст женщин — 32 годам, то каков средний возраст всех сотрудников? Ответ зависит от конкретной численности мужчин и женщин. Если половина сотрудников — мужчины, а половина — женщины, то средний возраст будет равняться 34 годам. Если 73 % сотрудников — мужчины, а 23 % — женщины, то средний возраст будет равен 35 годам. Заметим, что доля мужчин и женщин рассчитывается по следующим формулам: p1 = n1(n1 + n2) и р2 = n2(n1 + n2), поэтому первую формулу можно записать в следующем виде: x¯t = р1x¯1 + р2x¯2.
В некоторых случаях среднее арифметическое является не самой подходящей величиной. Если мы хотим обобщить данные о сроках доставки товара или о времени поезда в пути, среднее арифметическое не даст нам полезной информации. Может быть так, что по договору срок поставки должен составлять 10 дней, при этом в половине случаев товар доставляется за два дня, что становится неожиданностью для заказчика (на складе может не быть места для товара, к примеру), а в другой половине — за 18 (заказчик уже потерял надежду получить товар). Хотя в среднем сроки поставок соблюдаются идеально точно, означает ли это, что в компании все в порядке?
Аналогичная ситуация может произойти и в примере с поездом. Если в половине случаев мы будем приезжать на работу на полчаса раньше, это не компенсирует получасовых опозданий во второй половине случаев, особенно если в офис нельзя попасть до начала рабочего дня. В этих примерах наиболее информативной величиной будет процент опозданий или процент случаев, когда поезд опаздывает больше чем на определенное время.
Еще один недостаток среднего арифметического — сильная зависимость от крайних значений. Разумеется, странно, что число ног у большинства людей выше среднего, но это на самом деле так: у некоторых людей всего одна нога или нет ни одной (крайние значения), из-за чего среднее число ног у людей чуть меньше двух.
Медиана
Медиана — это значение, которое будет располагаться точно в центре, если мы упорядочим значения в порядке возрастания. Если даны значения 6, 7, 5, 2 и 9, их медиана равна 6 — именно это значение расположено в центре упорядоченного ряда из этих чисел. Если число элементов четно, медиана рассчитывается как среднее арифметическое двух центральных элементов. Свойства медианы частично компенсируют недостатки среднего арифметического. Кроме того, она меньше подвержена воздействию крайних значений. К примеру, среднее арифметическое вышеприведенных чисел равно 5,8, медиана — 6. Если при вводе этих чисел в компьютер мы вместо 9 случайно укажем 99, среднее арифметическое станет равно 23,8, а медиана будет по-прежнему равна 6.
Еще одним преимуществом медианы по сравнению со средним арифметическим является тот факт, что по определению ровно 50 % значений будут меньше медианы, оставшиеся 50 % — больше. Если, например, мы хотим узнать, входим ли мы в число наиболее высокооплачиваемых сотрудников, нужно сравнить нашу зарплату именно с медианой. Рассмотрим 10 сотрудников с зарплатами 0,8; 0,8; 0,9; 0,9; 1,0; 1,0; 1,1; 1,1; 1,2 и 10 тысяч евро. Все сотрудники, за исключением одного (90 % от общего числа), получают зарплату меньше средней, которая равна 1,88 тысяч евро. С медианой подобное невозможно: если наша зарплата больше медианы, мы гарантированно входим в 50 % наиболее высокооплачиваемых сотрудников.
Другой пример. Если для сдачи экзамена нужно набрать 5 баллов и более, а средняя оценка в группе равна 5, мы не знаем, сколько студентов сдали экзамен. Если экзамен сдавали 50 студентов, может случиться так, что 41 студент набрал 4 балла и не сдал экзамен, восемь студентов получили 10 баллов, еще один — 6 баллов. В результате средняя оценка равна 5, хотя распределение оценок в группе действительно немного необычно. Если медиана равна 5, то половина студентов в группе точно сдала экзамен.
Мода
Когда речь идет о показателях центра распределения, также всегда упоминается мода. Мода — это значение, которое встречается наиболее часто. В выборке 0, 2, 7, 2, 8, 2, 5, 4 мода равна 2. Ее имеет смысл использовать для качественных показателей. Так, например, если в выборке новорожденных чаще всего встречаются карие глаза, то мода равна карему цвету. Она не содержит какой-то другой информации. Использование моды в этом контексте обусловлено скорее традициями, чем реальной полезностью.
* * *
ФЛОРЕНС НАЙТИНГЕЙЛ
Летом 1853 года, разбив турецкую армаду, русский черноморский флот был готов захватить Стамбул и взять под контроль пролив Босфор, поставив под угрозу сообщение Великобритании с Индией и нанеся ущерб интересам Франции в Средиземном море. Великобритания объявила России войну, отправив войска на полуостров Крым, где к ним присоединились французская и турецкая армии. Так началась Крымская война, которая завершилась в 1856 году и унесла тысячи жизней.
Крымская война считается самой неудачной для британского военного командования. Также это первая война, зафиксированная на фотографиях и в отчетах репортеров. Эта деталь может показаться незначительной, но журналисты в своих статьях рассказывали об ужасающих условиях жизни солдат и бедствиях, вызванных некомпетентностью военного командования. В результате общество возмутилось, и британский военный министр был вынужден отправить на фронт сестер милосердия, во главе которых стояла увлеченная, умная и опытная Флоренс Найтингейл.
Прибыв на фронт, сестры обнаружили, что госпитали находятся в ужасном состоянии. Флоренс Найтингейл объяснила, что большинство смертей было вызвано не ранениями, а инфекционными заболеваниями. Она собирала и документально фиксировала данные, которые свидетельствовали о связи между переполненностью госпиталей и уровнем смертности, уделяя основное внимание санитарии, правильному питанию и уходу за ранеными.
В течение первых семи месяцев войны, до прибытия Флоренс Найтингейл, раненый британский солдат имел больше шансов выжить, если оставался на поле боя, а не поступал в военный госпиталь. В последние шесть месяцев войны благодаря изменениям в уходе за ранеными смертность снизилась с 40 до 2 %.
Флоренс Найтингейл умело отбирала данные, отражающие реальность, и проводила грамотный анализ, чтобы понять суть проблемы и возможные способы ее решения. С помощью статистических исследований и грамотно представленных результатов она смогла преодолеть бюрократию и консерватизм военных и убедить верховное командование в необходимости радикального изменения устройства военных госпиталей. Она спасла множество жизней, а многие процедуры, введенные ею, до сих пор применяются в современных больницах. Флоренс Найтингейл — первая женщина, ставшая членом британского Королевского статистического общества.
* * *
Разумеется, вы слышали шутку: если один человек съел целую курицу, а второй остался голодным, то, по статистике, каждый съел половину курицы. Или если вы положите ноги в холодильник, а голову — в духовку, то средняя температура вашего тела будет абсолютно нормальной. Подобные недоразумения возникают из-за того, что мы хотим обобщить информацию исключительно с помощью средних значений, не учитывая разброс данных. Еще один пример, указывающий на эту же ошибку, — это попытка определить благосостояние жителей страны, учитывая только средний доход на душу населения. Если бы у вас была возможность выбрать, в какой стране родиться, то следовало бы обращать внимание не только на средний доход, но и на его разброс (вариацию). Лучше жить в стране, где каждому гарантирована четверть курицы, чем в той, где в среднем каждому достается половина курицы, но велика вероятность остаться ни с чем. В конечном счете чтобы обобщить информацию, содержащуюся в объемной выборке данных, нужно также измерить их вариацию. Для этого используются различные показатели, о которых мы расскажем далее.
Размах вариации
Размах вариации — это разность между наибольшим и наименьшим значением. Например, если дана выборка 2, 6, 7,12,12,18, размах вариации равен 18 — 2 = 16. Этот показатель очень просто вычислить, но он обладает определенным недостатком: в нем не учитывается информация, содержащаяся во всей выборке. Анализ только крайних значений, которые могут встречаться очень редко, явно недостаточен, особенно если выборка велика. Если элементов выборки мало (например, 4–5), размах вариации — подходящий показатель. Если число элементов выборки равно двум, то этот показатель столь же удобен, как и все остальные.
Дисперсия и среднеквадратическое отклонение
Наиболее часто используемый показатель вариации — среднеквадратическое отклонение. Чтобы определить его, начнем с дисперсии, так как среднеквадратическое отклонение рассчитывается как квадратный корень из дисперсии.
Если бы мы хотели разработать какой-то показатель вариации, то очевидно, что в его расчете должны были бы использоваться все данные, как в случае со средним арифметическим. Например, дана выборка 1, 2, 4, 7 и 9. Можно вычислить среднюю разность между каждым значением и средней величиной, равной 4,6:
Однако этот показатель всегда будет равен нулю вне зависимости от того, какими будут элементы выборки. Следовательно, он не имеет смысла (его значение одинаково вне зависимости от вариации). Используем абсолютные значения разностей:
Этот показатель называется среднее абсолютное отклонение. Он достаточно удобен, так как большему разбросу данных соответствует большее значение этого показателя. Но все же гораздо более интересными свойствами обладает показатель, в котором проблема взаимного сокращения разностей решается путем возведения их в квадрат:
Разность между каждым значением и средним арифметическим 4,6. Дисперсия — среднее значение квадратов этих разностей.
Этот показатель называется дисперсией. Он позволяет оценить разброс значений, а также лежит в основе многих статистических методов. Дисперсия обозначается δ2. Недостаток дисперсии заключается в том, что ее единица измерения — это единица измерения исходных данных, возведенная в квадрат. Если исходная выборка состоит из значений длины в метрах, единицей измерения дисперсии будет квадратный метр, что несколько усложнит интерпретацию. Решение этой проблемы очень простое: нужно всего лишь извлечь из дисперсии квадратный корень.
Полученное значение, которое мы будем обозначать δ, называется среднеквадратическим отклонением и является самым распространенным показателем вариации. Обобщение большой выборки данных очень часто производится с помощью всего двух показателей: среднеквадратического отклонения и среднего арифметического.
* * *
НЕМНОГО ФОРМУЛ
Общая формула расчета дисперсии такова:
где xi — значения элементов выборки, μ — среднее арифметическое, N — число элементов выборки. Формула расчета среднеквадратического отклонения такова:
* * *
Коэффициент вариации
Какая величина варьируется больше — вес котов или вес коров? Допустим, что средний вес кота равен 4 кг и в 95 % случаев он лежит в интервале от 3 до 5 кг. Предположим, что вес коровы в 95 % случаев лежит в интервале от 480 до 500 кг. Если мы изучим вес котов, то увидим, что он варьируется очень сильно (некоторые коты весят почти в два раза больше других), а вес коров различается несущественно.
Среднеквадратическое отклонение веса котов будет находиться в пределах 0,5 кг. В соответствии с закономерностью вариации весов, 95 % выборки отстоит от среднего значения не более чем на два среднеквадратических отклонения. Об этом будет рассказано в следующей главе, посвященной нормальному распределению. Среднеквадратическое отклонение веса коров будет лежать в пределах 5 кг, что в 10 раз больше, однако вес коров варьируется меньше.
Чтобы разрешить этот парадокс, возникающий при сравнении вариаций, вводится коэффициент вариации, который равен частному среднеквадратического отклонения и среднего значения:
В нашем примере коэффициент вариации для веса котов равен 0,125, для веса коров — 0,01. Коэффициент вариации — безразмерная величина.
* * *
ДВЕ КЛАВИШИ ДЛЯ РАСЧЕТА СРЕДНЕКВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ
Несмотря на то что дисперсия и среднеквадратическое отклонение — важнейшие показатели статистики, их часто пытаются скрыть. При попытке обобщить большую выборку данных мы можем столкнуться с одной из следующих ситуаций.
1. Интерес представляют имеющиеся данные. Мы хотим определить среднее значение или среднеквадратическое отклонение этих данных, составляющих так называемую генеральную совокупность.
2. Имеющиеся данные являются выборкой из изучаемой генеральной совокупности. Иными словами, интерес представляет не столько среднее значение или среднеквадратическое отклонение, сколько оценка (некое представление) значений генеральной совокупности.
Расчет среднего значения в обоих случаях будет одинаков. Формула не изменится, так как наилучшей оценкой среднего значения генеральной совокупности является среднее значение выборки. Если мы хотим сделать какие-то выводы о генеральной совокупности на основании выборки, необходимо, чтобы выборка была репрезентативной.
При расчете дисперсии ситуация выглядит несколько иначе. Если дана генеральная совокупность, то нужно использовать формулу, указанную выше. Если же дана выборка, а мы хотим оценить дисперсию генеральной совокупности, используется следующая формула:
Почему? Дело в том, что при работе с выборками вариация рассчитывается с использованием среднего значения по выборке, а не среднего значения генеральной совокупности, которое мы хотим найти. Можно сказать, что среднее значение выборки подстраивается под данные выборки, что ведет к недооценке вариации генеральной совокупности. При делении на (n -1) результат будет чуть больше, и он будет точнее описывать дисперсию генеральной совокупности. При делении на 4 или на 3 разница окажется большой, но при делении на 100 или на 99 разница будет невелика. На практике для больших объемов выборки подобные расхождения не влияют на результат.
Если эта тема кажется вам сложной и вы что-то не понимаете, не волнуйтесь. Если при решении задачи вам придется выбирать между двумя формулами, считайте, что речь идет о выборке. В этом случае нужно делить на (n — 1). Если вы используете статистическую программу, где нет возможности выбора из двух формул, знайте: в программе используется формула для выборки.
х¯ — среднее арифметическое.
σn — среднеквадратическое отклонение в случае, когда расчет выполняется для всей генеральной совокупности и интерес представляет среднеквадратическое отклонение «всех» данных.
σn-1 — среднеквадратическое отклонение в случае, когда расчет выполняется для выборки и стоит задача оценить среднеквадратическое отклонение всей генеральной совокупности, из которой взята выборка.
Статистические функции на калькуляторе: одна клавиша используется для расчета среднего арифметического, две клавиши — для вычисления среднеквадратического отклонения.
* * *
Некоторые показатели используются часто, но они не характеризуют центр распределения и вариацию. С их помощью «проводят границы» на области данных и получают некие эталонные значения, с которыми можно сравнить все остальные.
Квартили
Если упорядочить данные по возрастанию, медиана разделит множество данных пополам. Первым квартилем называется медиана первой половины; 25 % значений будут меньше него, 75 % — больше. Медиана второй половины называется третьим квартилем, 75 % значений меньше него, 25 % — больше.
Допустим, что первый квартиль зарплаты в вашей компании равен 1000 евро, медиана — 1300 евро, третий квартиль — 2000 евро. Если вы получаете 800 евро, то находитесь среди 25 % тех, кто получает меньше всего. Если ваша зарплата равна 1500 евро, вы входите в 50 % сотрудников, получающих больше остальных, но минимум 25 % зарабатывают больше вас. Если ваша зарплата равна 2100 евро, вы входите в 25 % наиболее высокооплачиваемых сотрудников компании.
Перцентили
15-я перцентиль — это значение, меньше которого ровно 15 % упорядоченного множества данных. Очевидно, что 85 % значений будут больше него. Если ваша зарплата равна 70-й перцентили, это означает, что зарплата 70 % сотрудников меньше вашей, или, что аналогично, 30 % получают больше вас — если вы из тех, для кого стакан всегда наполовину пуст. Перцентили также используются при оценке результатов тестов на интеллект. Если вы находитесь в 90-й перцентили, это означает, что 90 % участников справились с тестом хуже, чем вы.
Многие впервые сталкиваются с перцентилями, когда педиатр говорит, что, например, рост вашего сына находится в 45-й перцентили. Это означает, что 45 % мальчиков (значения для мальчиков и девочек отличаются) того же возраста ниже вашего ребенка. Всемирная организация здравоохранения составляет справочные таблицы и графики, в которых указывается рост детей разного возраста.
Графики роста девочек (вверху) и мальчиков (внизу) в возрасте от 5 до 19 лет, составленные Всемирной организацией здравоохранения, с медианой и 3-й, 15-й, 85-й и 97-й перцентилями.
Чтобы выделить какой-либо важный аспект множества данных, используются проценты («65 % подростков в возрасте от 10 до 17 лет признаются, что пользовались видеоиграми для взрослых»), но в книгах по статистике эта тема не рассматривается: считается, что она либо выходит за рамки статистики, либо слишком проста и поэтому не заслуживает упоминания. Знак процента можно встретить на простейших калькуляторах. Кажется, что процентами может оперировать любой, однако они часто вызывают путаницу, поэтому будет нелишним рассказать о них подробнее.
Общие вопросы
Нужно всегда помнить, от какой величины рассчитывается процент. Рассмотрим пример. Гель для душа раньше продавался в бутылках по 750 мл, теперь же — в бутылках по 1000 мл по той же цене. Сколько процентов вы получаете в подарок?
Правильный ответ зависит от того, от какого значения будет рассчитываться процент. Мы получаем бесплатно 33 % от исходного объема и 25 % от нового.
Также следует различать проценты и процентные пункты. Так, если прибыль предприятия возросла с 2 до 4 %, то говорят, что она возросла на 2 процентных пункта (но не на 2 %!).
Аналогично нужно различать проценты от исходной величины и проценты ее изменения. Лучше понять это различие вам поможет следующий пример. Объем продаж в прошлом году составил 10 миллионов евро. Цель на текущий год — увеличение объема продаж на 6 %. Объем продаж в нынешнем году составил 10,3 миллиона евро. На сколько процентов продавец выполнил намеченную цель?
Если целью продавца является рост дохода, то она выполнена всего на 50 %. Однако если мы будем считать целевым значением объем продаж в 10,6 миллиона, а фактическим — 10,3, то получается, что цель выполнена на 97,2 %.
Операции с процентами также стоит выполнять очень внимательно.
1. Если цена товара увеличилась на 20 %, а затем снизилась на 20 %, каким будет соотношение начальной и конечной цены? Цена товара изменится: она уменьшится на 4 %. Обозначив исходную цену за х, получим, что итоговая цена равна (х + 0,2х) — 0,2(х + 0,2х) = х — 0,04х.
2. Товар состоит из 10 компонентов. Стоимость каждого компонента возросла на 2 %. На сколько увеличится стоимость товара? Она возрастет на 2 %. Цена отдельных компонентов в этом случае не имеет значения. Если вы все еще сомневаетесь, выполните расчеты вручную и убедитесь в этом самостоятельно.
3. Если Иван зарабатывает на 1000 % больше Петра, он получает в 11 раз больше, а не в 10, как может показаться. Если он зарабатывает на 100 % больше, он получает в два раза больше, если на 200 % больше — то в три раза больше.
В действительности всё не так. Парадокс Симпсона
Когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, может показаться, что налицо определенная зависимость. Однако истинная зависимость будет прямо противоположной. Это явление известно под названием парадокс Симпсона. Рассмотрим пример.
Крупная компания открывает новый завод и создает 250 рабочих мест в службе продаж, монтажа и в складской службе. На рабочие места претендовали 355 мужчин и 325 женщин. Работу получили 190 мужчин (53,5 %) и 60 женщин (18,5 %). Уровень подготовки мужчин и женщин был абсолютно одинаков. Можно ли утверждать, что имеет место дискриминация женщин при приеме на работу? Нет, это не так. Исходные данные таковы:
В действительности процент принятых на работу в каждом отделе выше среди женщин. Причина в том, что в службе, куда было принято больше всего сотрудников, рабочие места получили много мужчин и мало женщин, а в других службах, где требовалось меньше сотрудников, ситуация была обратной.
В начале раздела мы приводили цитату о том, что 65 % молодых людей 10–17 лет пользовались видеоиграми для взрослых. Взята она из реального газетного заголовка. В статье объясняется, откуда взята цифра в 65 %: автор сложил положительные ответы 50 % юношей и 15 % девушек! Любопытно, каков был бы результат, если бы на этот вопрос положительно ответили 50 % юношей и 60 % девушек?
Решим еще одну задачу. Владелец пекарни обеспокоен тем, что, как ему кажется, вес готовых булок различается слишком сильно и некоторые булки могут весить меньше, чем допускается стандартом. Для выпечки используются две печи, в которых выпекают хлеб два оператора. В какие-то дни работает первый оператор, в какие-то — второй. В следующей таблице указан вес (в граммах) для выборки булок. Измерения производились в течение 20 дней:
Вес булки должен равняться (220 ± 10) граммов. Допустим, что представленная выборка является репрезентативной. Нужно ответить на вопросы, действительно ли существует проблема; что происходит; что нужно сделать, чтобы устранить проблему, если она вообще существует.
Если вы попытаетесь сделать какие-то выводы «на глаз» на основании данных, представленных в таблице, то, скорее всего, ошибетесь. Хотя речь идет всего о 160 значениях, выводы, сделанные «на глаз», скорее всего, будут неточными. Также не следует погружаться в объемные вычисления или использовать сложные методы. Достаточно представить данные графически, как показано далее.
Гистограмма веса 160 хлебобулочных изделий.
Эта диаграмма называется гистограммой. Она крайне полезна для анализа вариации данных.
В нашем примере гистограмма указывает, что проблема действительно существует, так как вес некоторых булок меньше минимально допустимого. Иными словами, речь идет не об исключениях, а о естественной вариации веса булок.
На следующих гистограммах представлены данные по каждой печи и по каждому оператору в отдельности. Из них четко видно, что неполадки присутствуют в печи № 2, так как центральное значение на соответствующей диаграмме смещено. С печью № 1 все в порядке, и данные для обоих операторов практически совпадают.
Вес булок для каждой печи и каждого оператора в отдельности.
Даже для очень малого объема данных, например для такого:
21,1; 17,8; 19,7; 18,6; 16,8; 21,7; 28,7; 20,1; 19,5; 17,8,
на простой точечной диаграмме видны подробности, которые можно упустить при простом анализе данных «на глаз». В этом случае видно, что одно значение существенно отличается от остальных, и следует проанализировать причины подобного отклонения (возможно, это простая опечатка: оператор ввел 28,7 вместо 18,7). Эти вопросы крайне важны, так как ошибка в исходных данных может перечеркнуть всю проделанную работу.
Представление множества данных с помощью точечной диаграммы.
Если мы хотим учесть порядок выборки данных, гистограммы и точечные диаграммы нам не помогут. Для этого нужно представить данные в виде временного ряда, как показано на следующем рисунке, где четко заметно увеличение среднего роста населения Испании на протяжении XX века. Разумеется, на основе графиков подобного типа нельзя делать экстраполяции: вовсе не факт, что через 1000 лет средний рост будет находиться у отметки 2 м 70 см.
Изменение среднего роста населения Испании в период с 1910 по 1982 год.
(Источник: X. Спийкер, X. Перес и А. Камара. Изменение среднего роста населения Испании в XX веке по результатам исследования министерства здравоохранения. Журнал Estadistica Espahola, № 169, 2008 г.)
Помимо стандартных графиков, которые мы только что рассмотрели, круговых и им подобных диаграмм, можно использовать и другие, не столь известные. Существует, например, диаграмма «стебель — листья».
Рассмотрим практический пример. Группу из 92 студентов попросили измерить пульс. На гистограмме на следующей странице представлены полученные значения (все данные, использованные в этом примере, содержатся в файлах примеров пакета статистических программ Minitab).
Гистограмма и диаграмма «стебель — листья», на которых представлены данные о пульсе для группы из 92 студентов.
При построении диаграммы «стебель — листья» все значения делятся на две части. Наименее значимая часть (в этом случае единицы) образует «листья», другая (десятки и сотни) — «стебель». Наименьшим значением является 48, далее следует 54 и снова 54, затем три раза 58 и так далее до последнего значения, равного 100. Заметим, что строки диаграммы имеют ту же форму, что и столбцы гистограммы. Следовательно, диаграмма «стебель — листья» содержит информацию, представленную на гистограмме, и кроме этого обладает следующими свойствами.
1. Исходные данные можно восстановить. При взгляде на гистограмму можно увидеть, что существует значение в интервале между 45 и 50, но мы не можем сказать, чему оно равно. В диаграмме «стебель — листья» эта информация не теряется.
2. Диаграмма «стебель — листья» позволяет увидеть детали, которые остаются незамеченными на других графиках. Например, не следует думать, что студенты измеряли свой пульс в течение одной минуты. Если бы это было так, то примерно половина значений были бы четными, а половина — нечетными. Однако мы видим, что все значения четные. Это означает, что студенты измеряли пульс в течение 15 или 30 секунд, а затем умножали результат на 2 или на 4. Результаты, полученные таким образом, имеют большую погрешность по сравнению с результатами, полученными реальным измерением в течение одной минуты.
Иногда ученые разрабатывают особые диаграммы для определенных задач. В качестве примера можно привести диаграммы, которыми сопровождаются футбольные трансляции. С помощью ряда переменных на них отображается ход матча, указываются голевые моменты каждой команды, а также другая информация — от числа пасов в штрафную зону до забитых голов и незабитых пенальти.
Ход атак во время футбольного матча.
(источник: Elpais.com)
При построении графиков чаще всего используются компьютерные программы. Это могут быть пакеты статистических программ, программы для работы с электронными таблицами или системы обработки текстов.
Текстовый редактор, использованный при написании этой книги, позволяет с легкостью создавать и применять в расчетах диаграммы. С его помощью можно строить красивейшие трехмерные графики или простые плоские диаграммы. Нужно учитывать, что трехмерные диаграммы, как правило, более эффектны, но могут быть менее понятны. Тип диаграммы следует выбирать в зависимости от контекста и из соображений наглядности.
Графики, построенные в текстовом редакторе Word.
В завершение этого раздела, посвященного графическому представлению значений одной переменной, вернемся к нашему примеру с пекарней. Допустим, что в пекарне есть третья печь, для которой также были произведены измерения веса 80 готовых булок (столько же измерений было проведено для печи № 1). Как вы охарактеризуете вариацию веса хлеба, выпеченного в новой печи, по сравнению с печью № 1?
Как вы оцените печь № 3 по сравнению с печью № 1?
Если вам кажется, что вес хлеба, выпеченного в печи № 3, варьируется сильнее, чем вес хлеба, выпеченного в печи № 1, вы ошибаетесь. На обеих гистограммах представлено одно и то же множество данных. Они выглядят по-разному, так как был выбран разный масштаб. Вас сбил с толку выбранный способ представления данных. Мораль: при построении диаграмм для сравнения различных данных убедитесь, что диаграммы имеют одинаковый масштаб. Программа по умолчанию изменяет масштаб с учетом вариации данных. Нужно скорректировать масштаб вручную, иначе диаграммы будут неверно представлять данные и, образно говоря, вы попадете в сети, которые сами же и расставили.
Для представления связи между двумя переменными используются диаграммы, подобные следующей.
Соотношение цены и мощности двигателя 449 автомобилей с дизельным двигателем.
(источник: интернет-страница Королевского автомобильного клуба Испании, 10 ноября 2009 г., указанные параметры поиска: седан, дизель, 4 двери)
Можно заметить, что некоторые значения, например 150 л. с., встречаются чаще других. Также можно определить, какие автомобили дешевле аналогов с той же мощностью двигателя. Видна четкая взаимосвязь между переменными, но это не означает, что между ними существует причинно-следственная связь. Например, если мы построим подобный график, демонстрирующий связь ущерба, причиненного пожаром, с числом пожарных, задействованных при его тушении, станет очевидна четкая взаимосвязь: чем больше ущерб, тем больше пожарных, но это не означает, что ущерб причинили пожарные. Другой пример: школьники с большим размером ноги делают меньше орфографических ошибок, чем школьники с меньшим размером. В это трудно поверить, не так ли? Тем не менее чем старше дети, тем больше у них размер ноги и тем меньше они делают ошибок. В обоих случаях существует третья переменная, которая имеет взаимосвязь с двумя рассматриваемыми переменными. В первом случае это масштаб пожара, во втором — возраст школьника.
Однако в некоторых случаях причинно-следственная связь не столь очевидна. 28 декабря 1994 года в газете The New York Times была опубликована статья о возможном воздействии на здоровье умеренного потребления вина. Приводилась таблица с указанием среднего уровня употребления вина и уровня смертности от сердечно-сосудистых заболеваний в 21 стране. Эти данные представлены на диаграмме ниже.
Связь смертности от сердечно-сосудистых заболеваний с уровнем употребления вина в 21 стран.
(источник: The New York Times, 28 декабря 1994 г.)
Можно заметить, что в странах, где пьют больше вина, уровень смертности от сердечно-сосудистых заболеваний ниже. Но, как мы уже говорили, это не означает, что между этими двумя переменными обязательно существует причинно-следственная связь. Из этой диаграммы не следует, что если мы будем пить больше вина (разумеется, в разумных пределах), то риск инфаркта снизится. Страны, в которых употребляют больше всего вина, одновременно с этим являются его крупнейшими производителями. Это означает соответствующий климат, режим питания, обычаи — какой-то из этих факторов и может быть причиной низкого уровня болезней сердца. Впрочем, причиной действительно может быть умеренное потребление вина, но данные, которыми мы располагаем, этого не доказывают.
* * *
ПРОСТЫЕ ДИАГРАММЫ ДЛЯ РЕШЕНИЯ СЛОЖНЫХ ЮРИДИЧЕСКИХ ВОПРОСОВ
На президентских выборах в США в 2000 году, когда основными кандидатами были демократ Альберт Гор и республиканец Джордж Буш, их результаты оказались практически равными, что вызвало бурное обсуждение. В штате Флорида, где проживало около 6 миллионов избирателей, Буш одержал победу с преимуществом в 537 голосов. Кандидат, одержавший победу в этом штате, набирал необходимое для победы число голосов и становился президентом. Были поданы протесты, и окончательный вердикт должен был вынести суд. Не вдаваясь в юридические тонкости, приведем диаграмму, на которой отображены голоса, полученные Гором, в сравнении с голосами в пользу другого кандидата, Патрика Бьюкенена, в каждом из 67 округов штата Флорида.
Сравнение голосов в пользу Патрика Джозефа Бьюкенена и в пользу Альберта Гора в каждом из 67 округов штата Флорида.
(источник: Д. Мур. Learning from Data. «Statistics: A Guide to the Unknown», 4-е издание)
Первое, что бросается в глаза, — число голосов в Палм-Бич не подчиняется общей закономерности. Вместо закономерных 1500 голосов в его пользу было отдано 3 411 голосов. При взгляде на диаграмму становится понятно, что округ Палм-Бич должен обладать какой-то особенностью. Однако не было никакой причины, по которой Бьюкенен мог бы получить в этом округе значительно больше голосов, чем в остальных. Он сам и его сторонники заявляли, что 1000 голосов будет для них оптимистичным прогнозом. Вскоре стало ясно, что единственной особенностью была форма бюллетеня для голосования, использовавшегося в этом округе. Чтобы проголосовать за выбранного кандидата, нужно было проколоть отверстие в бюллетене. Из-за неудачного дизайна бюллетеней многие избиратели (очевидно, более 2000, достаточно взглянуть на график) проголосовали в пользу Бьюкенена, хотя в действительности хотели отдать свой голос Гору.
* * *
Для конкретного множества данных среднее значение и среднеквадратическое отклонение — это конкретные значения, не допускающие разночтений. Однако в случае с графическим представлением данных это не так. Вид гистограммы для конкретного множества данных будет зависеть от выбранного масштаба (вы уже увидели это на примере печи № 3 в нашем примере с пекарней), а также от ширины интервалов и граничных значений интервалов. К примеру, при неизменной ширине интервалов при границах 190,192,194, … гистограмма будет выглядеть иначе, чем для граничных значений 191, 193, 193, …
Например, изменение значений экономического показателя за последние шесть месяцев можно представить графиком, изображенным слева, на котором показан впечатляющий рост, или графиком, изображенным справа, из которого следует, что значение показателя практически не изменилось. Различие между этими графиками заключается в выборе масштаба вертикальной оси.
Одни и те же изменения в разных масштабах.
Изменение масштаба горизонтальной оси также может преподнести немало сюрпризов. На следующем рисунке представлен график изменения объемов продаж за последние четыре года, построенный в мае 2010 года, когда были доступны данные лишь по апрель 2010 года. Это указано в подписи к графику, но создается впечатление, что объем продаж резко упал. В действительности же, учитывая, что на период до апреля включительно приходится треть годового объема продаж, прогнозное значение продаж на 2010 год превышает 150.
Четыре значения несравнимы между собой: за 2010 год доступны данные только до апреля включительно.
* * *
КАТАСТРОФА «ЧЕЛЛЕНДЖЕРА»
Все мы хотя бы раз видели фотографию космического челнока «Челленджер» на стартовой площадке: шаттл, похожий на самолет, вертикально закреплен на огромном топливном баке, полном горючего, по бокам которого находятся ракетные ускорители, выводящие челнок на орбиту. Эти ускорители, как и другие элементы челнока, невозможно перевозить в собранном виде, поэтому они изготавливаются и доставляются по частям, а сборка происходит на космодроме. Чтобы обеспечить отсутствие утечек в местах стыков и предупредить катастрофу, используются круглые уплотнительные кольца из каучука толщиной 6 мм и диаметром 12 м.
В ночь с 27 на 28 января 1986 года группа техников и руководители завода, производившего ракетные ускорители, провели телеконференцию с коллегами из NASA, чтобы обсудить возможность переноса запуска челнока на следующий день. Их беспокоило, что, по прогнозу, температура воздуха в день запуска должна была быть существенно ниже обычной — от 26 до 29 °F (от -2 до -3 °C). Они боялись, что при таких температурах уплотнительные кольца не обеспечат полную герметичность. Имелись данные с прошлых запусков, так как обломки двигателей после каждого запуска собирались и тщательно анализировались. В одном случае были зафиксированы дефекты уплотнительных колец, но серьезных происшествий не было отмечено ни разу. После анализа данных члены рабочей группы сделали вывод, что доказательства того, что низкие температуры могут негативно отразиться на уплотнительных кольцах, отсутствуют. Было принято решение не переносить запуск.
Утром следующего дня спустя 59 секунд после запуска сквозь одно из колец, которое было не полностью герметичным, начало прорываться пламя. Огонь быстро достиг топливного бака, что привело к взрыву шаттла и гибели семерых астронавтов, находившихся на его борту. Катастрофа шокировала весь мир и привела к радикальным изменениям в космической программе NASA.
Президент Рональд Рейган создал комиссию по расследованию инцидента, куда вошли видные представители научного сообщества. Комиссия определила, что анализ имеющихся данных был недостаточным. Одной из ошибок стало то, что не были приняты во внимание данные о полетах, в которых кольца не были повреждены (рис. 1). Подробный анализ параметров уплотнительных колец во время всех запусков позволил бы увидеть взаимосвязь между отмеченными дефектами и температурой воздуха. На рис. 2 четко видно, что данные, соответствующие температуре в момент планируемого запуска «Челленджера», отсутствуют, следовательно, нельзя гарантировать отсутствие неполадок при этой температуре. Кроме того, можно увидеть, что при понижении температуры число неполадок возрастает. На рис. 3 число колец, на которых были обнаружены дефекты (вне зависимости от их серьезности), заменено оценкой, определенной комиссией по расследованию катастрофы. На этом рисунке связь видна еще более четко. Это наглядный пример того, как с помощью простого графического анализа данных можно получить много информации об анализируемой проблеме.
Рис. 1. Каждая точка обозначает запуск, во время которого были зафиксированы повреждения уплотнительных колец. На вертикальной оси отмечено число происшествий, на горизонтальной — температура во время запуска (в °F).
Рис. 2. На удлиненной горизонтальной оси отмечена прогнозная температура в момент запуска «Челленджера». На графике также содержатся точки, соответствующие запускам, во время которых не было отмечено неполадок уплотнительных колец.
Рис. 3. Для каждого запуска была произведена оценка повреждений уплотнительных колец. Она отложена вдоль вертикальной оси.
(источник: Эдвард Тафти. Visual Explanations).
* * *
Графическое представление данных также может выглядеть по-разному в зависимости от выбранной переменной. Например, если объемы продаж вашей компании падают, что показано на графике слева внизу, можно построить график объема продаж с нарастающим итогом (справа), который, очевидно, будет расти.
Два вида представления информации о продажах: ежемесячном объеме (слева) и объеме с нарастающим итогом (справа).
Не думайте, что графики — это нечто бесформенное и их можно изменять в зависимости от того, какую мысль мы хотим донести. Можно построить наглядные и очень полезные графики, которые помогут с первого взгляда получить всю необходимую информацию, как, например, гистограммы в задаче с пекарней. Графики могут быть запутанными или даже давать ошибочное представление об информации при некорректно выбранной переменной или масштабе. Как правило, внимательность, здравый смысл и немного опыта помогут вам избежать подобных неточностей.