Рис. А.1. Треугольное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел);
• мода – это может быть любое значение между ВП и НП.
Обратите внимание, что ВП и НП – это абсолютные внешние пределы 100 %-ного ДИ.
В треугольном распределении ВП и НП представляют собой абсолютные пределы, т. е. сгенерированное значение не может оказаться вне их границ. Помимо ВП и НП, у распределения также есть мода, которая может принимать любое значение между ВП и НП. Данное распределение иногда полезно использовать как замену логнормального распределения, скажем, когда нужно задать абсолютные ограничения для возможных значений, но при этом чтобы результат вычислений был близок к логнормальному. Треугольное распределение удобно в любой ситуации, когда вам известны абсолютные пределы, но наиболее вероятное значение может находиться не посередине, как в нормальном распределении.
• Ситуация применения: когда нужен контроль над тем, где находится наиболее вероятное значение относительно диапазона, и когда диапазон имеет абсолютные пределы.
• Примеры: количество потерянных записей, если вы считаете, что наиболее вероятное число находится вблизи верхнего предела диапазона, но общее количество записей ограничено, а значит, этот предел невозможно превысить.
• Формула Excel: = ЕСЛИ(СЛЧИС()<=Мода;1;0)*((Мода-НП)^2)/((ВП-НП)*(Мода-НП)) +ЕСЛИ(СЛЧИС()>Мода;1;0)*(1-((ВП-Мода)^2)/((ВП-НП)*(ВП-Мода))).
• Среднее значение: = (НП+Мода+ВП)/3.
Рис. А.2. Бинарное распределение
Параметры:
• P (вероятность события).
Обратите внимание, что P находится в диапазоне от 0 до 1. Она показывает, как часто симуляция случайным образом выдает событие.
В отличие от других упомянутых здесь распределений дискретное бинарное распределение (также известное как распределение Бернулли) генерирует только два возможных исхода: успех или неудача. Вероятность успеха равна p, а вероятность неудачи – q = (1 – p). Например, если успех означает, что при броске монеты выпадет орел, то вероятность успеха составляет p = 0,5, а вероятность неудачи – q = (1–0,5) = 0,5.
• Ситуация применения: используется в ситуациях «или/или», т. е. событие или происходит, или нет.
• Пример: возникновение утечки данных за определенный период времени.
• Формула Excel: = ЕСЛИ(СЛЧИС() < P;1;0).
• Среднее значение: = P.
Рис. А.3. Нормальное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел).
Обратите внимание, что НП и ВП в приведенной ниже формуле Excel представляют собой 90 %-ный ДИ. Существует вероятность 5 %, что значение окажется выше ВП, и вероятность 5 %, что значение окажется ниже НП.
Нормальное (или гауссово) распределение представляет собой колоколообразную кривую, которая симметрично распределена относительно среднего значения.
1. Это распределение соответствует многим природным явлениям, но в некоторых случаях его применения оно будет недооценивать вероятность экстремальных событий.
2. Эмпирическое правило: почти все точки данных (99,7 %) будут лежать в пределах трех стандартных отклонений от среднего значения.
• Ситуация применения: когда существует равная вероятность наблюдения результата выше или ниже среднего значения.
• Примеры: результаты тестирования, время в пути.
• Формула Excel: = НОРМ.ОБР(СЛЧИС();(ВП+НП)/2;(ВП-НП)/3,29).
• Среднее значение: = ((ВП + НП)/2).
Рис. А.4. Логнормальное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел).
Обратите внимание, что НП и ВП в приведенной ниже формуле Excel представляют собой 90 %-ный ДИ. Существует вероятность 5 %, что значение окажется выше ВП, и вероятность 5 %, что значение окажется ниже НП.
Если выборка может принимать только положительные значения, логнормальное распределение часто оказывается предпочтительнее нормального. Возьмем для примера ожидаемую стоимость акций в будущем. В уравнении S1 = S0 × e(r), S1 – будущая цена акций, S0 – текущая цена акций, а r – это ожидаемая норма рентабельности. Ожидаемая норма рентабельности соответствует нормальному распределению и вполне может принять отрицательное значение. А вот будущая цена акции ограничена нулем. Взяв экспоненту нормально распределенной ожидаемой нормы прибыли, мы получим логнормальное распределение, при котором отрицательная норма прибыли может оказать негативное влияние на будущую цену акций, но цена акций никогда не опустится ниже нуля. Распределение также допускает возможность экстремальных значений верхнего предела и, следовательно, подходит для некоторых явлений лучше, чем нормальное распределение.
• Ситуация применения: моделирование положительных значений, которые в основном находятся в диапазоне умеренных значений, но потенциально могут в редких случаях показывать экстремальные величины.
• Примеры: убытки, понесенные в результате кибератаки, стоимость проекта.
• Формула Excel: = ЛОГНОРМОБР(СЛЧИС();(ln(ВП) + ln(НП))/2; (ln(ВП)-ln(НП))/3,29).
• Среднее значение: = ((ln(ВП)+ln(НП))/2).
Рис. А.5. Бета-распределение
Параметры:
• альфа (1 + количество попаданий);
• бета (1 + количество промахов).
Бета-распределения чрезвычайно разнообразны. Их можно применять для генерации значений между 0 и 1 в случаях, когда одни значения более вероятны, чем другие. А полученные результаты можно использовать в других формулах для создания любого понравившегося диапазона значений. Бета-распределения очень полезны при моделировании частоты возникновения события, особенно когда частота оценивается на основе случайной выборки из совокупности или полученных ранее данных. В отличие от других распределений, здесь не так просто определить параметры, опираясь только на верхний и нижний пределы. Единственным решением является последовательный перебор различных значений альфа (α) и бета (β), до тех пор пока не получится желаемый 90 %-ный ДИ. Если α и β больше 1 и равны друг другу, то распределение будет симметричным. При этом значения вблизи 0,5 наиболее вероятны, а менее вероятные значения находятся дальше от 0,5. Чем больше значения α и β, тем ýже распределение. Если сделать α больше β, распределение окажется перекошенным влево, а если сделать β больше, оно перекосится вправо.
Чтобы проверить параметры α и β, уточните ВП и НП заявленного 90 %-ного ДИ, вычислив пятый и 95-й процентили: БЕТА.ОБР(0,05; альфа; бета) и БЕТА ОБР(0,95; альфа; бета). Проверить, соответствуют ли среднее значение и мода вашим ожиданиям, можно, вычислив: среднее = α / (α + β), мода (наиболее вероятное значение) = (α – 1) / (α + β – 2). Или можно просто воспользоваться электронной таблицей на сайте www.howtomeasureanything.com/cybersecurity, чтобы проверить все перечисленное и получить значения, близкие к тем, что получатся в результате вычислений.
• Ситуация применения: любая ситуация, которую можно охарактеризовать как набор «попаданий» и «промахов». Каждое попадание увеличивает α на 1, каждый промах увеличивает β на 1.
• Примеры: частота события (например, утечки данных), когда частота менее 1 в единицу времени (например, в год), доля сотрудников, соблюдающих меры безопасности.
• Формула Excel: = БЕТА.ОБР(СЛЧИС();альфа; бета).
• Среднее значение: = (альфа / (альфа + бета)).
Рис. A.6. Степенное распределение
Параметры:
• альфа (параметр формы);
• тета (параметр местоположения).
Степенное распределение удобно использовать для описания явлений с экстремальными, катастрофическими возможными значениями. Даже удобнее, чем логнормальное. Скажем, в подавляющем большинстве случаев площадь лесных пожаров ограничена менее чем одним гектаром. В редких случаях, однако, лесной пожар может распространиться на десятки гектаров. Толстый хвост степенного распределения позволяет делать выводы об обычных незначительных событиях, но при этом учитывать и возможные экстремальные варианты.
• Ситуация применения: когда нужно убедиться, что катастрофическим событиям, несмотря на то что они редко случаются, будет присвоена ненулевая вероятность.
• Примеры: такие явления, как землетрясения, отключения электроэнергии, эпидемии и другие типы каскадных отказов.
• Формула Excel: = (тета/x)^альфа.
• Среднее значение: = (альфа*тета/(альфа-1)).
Рис. A.7. Усеченное степенное распределение
Параметры:
• альфа (параметр формы);
• тета (параметр местоположения);
• T (усеченный предел).
Усеченное степенное распределение повторяет степенное распределение, но имеет верхний предел, накладываемый пользователем. Тяжелый хвост степенного распределения позволяет нам учитывать редкие катастрофические события, но для величины такого события может существовать теоретический предел. Если не учитывать в модели верхний предел, можно получить вводящий в заблуждение и неоправданно мрачный прогноз.
• Ситуация применения: степенное распределение должно быть усеченным, если известна верхняя граница серьезности события.
• Пример: потерю записей можно отразить с помощью степенного распределения, но вы знаете, что можете потерять лишь конечное количество записей.
• Формула Excel: = (альфа*тета^альфа/(x^(альфа+1)))/(1-(тета/T)^альфа).
• Среднее значение: = (альфа*тета/(альфа-1)).
Вы не одиноки! Количество людей, применяющих статистику для решения задач, связанных с обеспечением безопасности, растет. Все больше специалистов используют данные, которые можно было бы назвать скудными, и делают на их основе выводы о крупных рисках. Это не означает, что не стоит обращаться к большим данным и науке о данных, просто все более важным для обоснования стратегии и даже определения приоритетов в принятии тактических решений становится умение делать практические выводы на основе ограниченных эмпирических данных, суждений и симуляций. Поэтому мы включили в книгу несколько кратких статей по данной теме, написанных различными исследователями, как практиками, так и теоретиками. Следите также за новостями на сайте www.howtomeasureanything.com/cybersecurity, в наших планах размещение там еще большего количества подобных исследований.
Джим Липкис
Вице-президент и генеральный директор компании VivoSecurity Inc.
Чак Чан
Главный исследователь компании VivoSecurity Inc.
Томас Ли
Доктор философии, основатель и генеральный директор компании VivoSecurity Inc.
Актуарная наука является источником метрик и знаний, бесценных для управления кибербезопасностью в контексте бизнеса. Значимые данные за предшествующие периоды могут быть получены из широкого круга отраслевых и правительственных источников, а объединение данных из разных источников может привести к неожиданным, действенным результатам. Актуарный подход используется для прогнозирования киберрисков в долларовом выражении и генерирования профилей, показывающих концентрацию рисков для бизнеса в различных аспектах IT-инфраструктуры предприятия.
Киберриск включает в себя три основных фактора: стоимость активов, подверженных риску (в частности, данных), ожидаемое возникновение различных типов киберинцидентов и ожидаемые финансовые последствия каждого типа инцидентов относительно конкретных активов данных. Все три показателя можно оценить, наблюдая за долгосрочными тенденциями в данных за прошлые периоды, составляя статистические прогнозы на основе тенденций, а также применяя эти прогнозы в соответствии с эмпирически полученными характеристиками и показателями риска конкретной организации. В данной статье приводятся три примера: два, относящихся к частоте нарушений, и один, касающийся финансового воздействия.
Объединение источников данных часто необходимо с целью нормализации, т. е. нахождения знаменателя для преобразования абсолютного числа в коэффициент. Однако, применив творческий подход, можно найти много полезных корреляций. Например, ниже описан неожиданный результат, проливающий свет на частоту кибератак, целью которых является шпионаж, а также некоторые эффективные способы снижения этого риска.
Исследования показали, что большой процент атак извне с целью шпионажа происходит через фишинг1 и установку вредоносного ПО на компьютер подвергнувшегося фишингу пользователя. Одним из методов противодействия таким атакам является повышение осведомленности пользователей с помощью обучающих антифишинговых программ, использующих поддельные фишинговые рассылки2. Однако программа может оказаться дорогостоящей, а ее применение – неоднозначным с политической точки зрения. Актуарные данные позволили найти неожиданный, но даже более эффективный подход.
Важнейшие сведения в этом случае были получены из опубликованных компанией Microsoft данных3 о показателях блокировки вредоносного ПО на различных операционных системах. Вряд ли кого-то удивит, что, согласно данным, более новые версии Windows значительно лучше защищены от атак вредоносных программ, а MacOS и Linux безопаснее, чем Windows. А вот что является, пожалуй, неожиданным, так это то, в какой степени версия ОС может повлиять на частоту успешных атак.
Рис. Б.1. Вероятность возникновения случаев шпионажа при смоделированных изменениях в обучении и операционных системах
На рис. Б.1 представлен анализ высокотехнологичной компании, работающей в отрасли с сильной конкуренцией, где шпионаж является вполне реальным бизнес-риском. По нашим оценкам, вероятность (ожидаемая частота) шпионских атак составляет около 12 %, что отражает крайний левый столбец на диаграмме (другими словами, следует ожидать, что из восьми одинаковых компаний одна будет ежегодно терпеть убытки из-за успешных шпионских атак). На оценку влияют отрасль, количество сотрудников и IT-инфраструктура. Расчет основан на ряде тенденций и корреляций, наблюдавшихся в течение нескольких лет подряд в данных, полученных из отчетов Verizon DBIR4, Бюро переписи населения США и других источников.
Обучение противостоянию фишингу снижает ожидаемую частоту атак с 12 до 2 %, как видно по следующему столбцу диаграммы. Двигаясь дальше вправо, обнаруживаем еще более эффективную контрмеру: модернизация ОС всех компьютеров компании с Windows 7 на Windows 8 снижает вероятность шпионажа примерно до 1 % даже без обучения (на момент написания статьи еще не были доступны данные по Windows 10). А благодаря сочетанию модернизации ОС с проведением обучения или использованию MacOS вместо Windows вероятность становится намного ниже 1 %.
Обновление ОС также стоит денег, и, возможно, имеет смысл обновлять только компьютеры, используемые системными администраторами или другими сотрудниками с более широким доступом к конфиденциальным данным. Наглядное представление вероятности инцидента позволяет руководству принимать решения на основе данных, взвешивая затраты и риски.
Существует распространенное мнение, что число взломов в сфере здравоохранения стремительно растет. Действительно, только в США утечки данных в сумме составили более 30 млн записей о пациентах с момента введения обязательной отчетности о нарушениях в 2009 году. И все же паникерские заявления о резком росте числа нарушений не подтверждаются данными. За последние пять лет количество случаев взломов было довольно стабильным, если смотреть в актуарном контексте, и их количество можно обоснованно спрогнозировать на будущее.
Наши исследования показывают сильную корреляцию между числом утечек и количеством сотрудников, работающих в организации, например в медицинском учреждении (то же самое справедливо и для других отраслей). Мы взяли сведения из базы данных министерства здравоохранения об утечках личных медицинских данных, публикующихся согласно закону о медицинских информационных технологиях для экономической деятельности и клинической практики от 2009 года (HITECH Act)[10], и рассортировали частоту взломов в каждом году по штатам. Сопоставление данных о занятости в здравоохранении по штатам на рис. Б.2 выявляет линейную зависимость.
Рис. Б.2. Среднее ежегодное количество утечек данных по штатам
Можно ли использовать наклонную линию на рис. Б.2 (среднее число утечек на каждого сотрудника) для надежного прогнозирования ожидаемой частоты инцидентов в организации в будущем?
Чтобы ответить на этот вопрос, приведем изменения с течением времени на рис. Б.3. Количество нарушений на одного сотрудника резко возросло сразу после введения обязательной отчетности в 2009 году, но с тех пор остается довольно стабильным. Только в одном году (2013) оно увеличилось, и то на довольно скромные 31 %. Такая стабильность, возможно, связана с тем, что наиболее распространенная причина нарушений – случайность, а не внешние атаки. Прогнозируемую частоту происшествий можно совместить с измерениями стоимости активов данных, подверженных риску, и получить для организации надежную количественную картину риска, указанного в долларах.
Рис. Б.3. Число утечек данных по годам в зависимости от количества сотрудников
Теперь перейдем от ожидаемой частоты к финансовым последствиям взломов. Расходы, возникающие вследствие нарушения безопасности, обусловлены стоимостью взломанных активов, которая может включать в себя несколько компонентов затрат: уведомления и устранение последствий; сетевую криминалистику, юридические обязательства, а также ущерб репутации и долгосрочные последствия для бизнеса. Исследования стоимости нарушений безопасности можно найти в различных источниках, например в материалах, публикуемых Ponemon Institute5. Однако нами было выявлено, что в актуарном прогнозировании подобные данные следует применять с осторожностью.
Оценка стоимости активов данных, подверженных риску, выходит за рамки этой статьи, но обозначить ряд проблем можно и на простом примере. Рассмотрим базу, в которой хранятся данные (скажем, клиентов, сотрудников или пациентов), содержащие конфиденциальную информацию: личную, финансовую или медицинскую. Вариант просто посчитать записи и указать стоимость нарушения в расчете на одну запись кажется заманчивым, но тогда подразумевалось бы, что стоимость одной записи постоянна, а это не так.
На рис. Б.4 представлена стоимость одной записи в зависимости от величины взлома в двойном логарифмическом масштабе. Можно заметить, что стоимость нарушения одной записи уменьшается логарифмически по мере увеличения количества записей, подвергнувшихся взлому. И это неудивительно, так как относительно некоторых элементов затрат проявляется эффект масштаба. Ключевым моментом здесь является использование данных из отчетов компаний, в частности, по форме 10-K, подготавливаемых для Комиссии по ценным бумагам и биржам США (SEC), которые часто содержат подробную информацию о краткосрочных и долгосрочных затратах на крупные нарушения безопасности6.
Рис. Б.4. Сравнение данных о взломанных записях, полученных из отчета для SEC и от Ponemon Institute
Подводя итог, можно сделать вывод, что актуарная наука является благодатной почвой для достоверного прогнозирования, которое может вывести кибербезопасность в сфере управления бизнес-рисками на уровень развитости, давно реализуемый в большинстве других областей риска.
Сэм Сэвидж
Доктор философии, основатель сайта ProbabilityManagement.org, автор книги The Flaw of Averages: Why We Underestimate Risk in the Face of Uncertainty и профессор-консультант Стэнфордского университета © Copyright 2015, Сэм Л. Сэвидж
Изъян средних значений – это набор систематических ошибок, возникающих, когда неопределенные предположения заменяются отдельными «средними» числами. Наиболее серьезная ошибка, известная математикам как неравенство Йенсена, гласит, что «планы, основанные на средних предположениях, в среднем ошибочны». Суть кибербезопасности заключается в эффективном смягчении неопределенных неблагоприятных последствий. Я опишу два варианта изъяна средних значений в работе с неопределенностью гипотетической угрозы ботнета, а также покажу, как зарождающаяся дисциплина управления вероятностями может однозначно сообщать и рассчитывать такие неопределенности.
Ботнет – кибератака, осуществляемая вредоносным ПО, которое проникает во множество компьютеров, после чего командный сервер может управлять ими для создания сети, осуществляющей незаконную деятельность. Рано или поздно этот сервер будет идентифицирован как угроза, и дальнейшее взаимодействие с ним будет заблокировано. Как только опасный сайт будет обнаружен, по истории коммуникаций зараженных компьютеров можно будет точно определить, когда состоялся первый контакт с сервером злоумышленников, и получить ценные статистические данные.
Предположим, были вложены средства в два уровня сетевой защиты. Существует вероятность 60 %, что вирус ботнета обнаружит первый уровень и период до момента обнаружения составит в среднем 20 дней с распределением, показанным слева на рис. Б.5. Обратите внимание, что среднее значение можно представить как точку равновесия графика, обозначенную треугольником. В остальных 40 % случаев вирус обнаруживается только вторым уровнем системы безопасности, при этом среднее время обнаружения составляет 60 дней с распределением, показанным справа на рис. Б.5.
Рис. Б.5. Распределение времени обнаружения для каждого из двух уровней системы безопасности
Среднее общее время обнаружения вируса ботнета можно рассчитать как средневзвешенное: 60 % × 20 дней + 40 % × 60 дней = 36 дней. Таким образом, в среднем мы уязвимы для одного вируса в течение 36 дней. Дисциплина «управление вероятностями»7 дает более полное представление, четко отображая все распределение как набор прошлых или смоделированных соединений, называемых стохастическими информационными пакетами (СИП)[11]. На рис. Б.6 показаны СИПы (в данном примере – 10 000 смоделированных результатов) для обоих распределений с рис. Б.5. Выполнить вычисления с СИП (модель SIPmath) можно во многих программных средах, в том числе в обычной электронной таблице.
Рис. Б.6. СИПы 10 000 тестов для определения времени обнаружения вируса на уровнях 1 и 2
С недавних пор редактор Microsoft Excel тоже стал достаточно мощным и способен обрабатывать СИПы тысяч испытаний с помощью инструмента «Таблица данных»8. На рис. Б.7 приведена модель SIPmath. Она объединяет два распределения с рис. Б.5, создавая распределение, которое показывает общее время до обнаружения на обоих уровнях безопасности.
Рис. Б.7. Модель SIPmath в Excel для расчета распределения общего времени до обнаружения
В данной модели в качестве входных данных берутся два СИПа с рис. Б.6, а затем выполняется 10 000 вычислений ячейки C6, которая случайным образом в 60 % случаев выбирает данные распределения для первого уровня, а в 40 % случаев – данные распределения для второго уровня. В результате распределение наглядно демонстрирует оба режима обнаружения. Для выполнения нового моделирования 10 000 испытаний достаточно нажать кнопку «рассчитать» (F9 в Windows, * = в Mac). Здесь стоит обратить внимание на два момента. Во-первых, смоделированное среднее значение очень близко к теоретическому, однако 36 при этом является маловероятным исходом распределения. А во-вторых, раз распределение асимметрично, значит, шанс, что уязвимость просуществует менее, чем в среднем 36 дней, составляет не 50, а 63 %. Можно поэкспериментировать с вероятностью обнаружения на первом уровне в ячейке D3 и количеством дней в ячейке B11, чтобы увидеть, как будут меняться распределения, среднее значение и вероятность.
Формула для расчета среднего времени обнаружения для обоих уровней технически была верна в том смысле, что дала результат 36 дней, но она не сообщала никаких полезных сведений о распределении. Это то, что я называю незначительным изъяном средних значений. Значительный изъян намного хуже, так как вы даже не получите правильное среднее значение. Модель на рис. Б.7 создала собственный СИП, который теперь можно использовать для изучения влияния нескольких одновременных ботнет-атак.
Предположим, в эксплуатацию введена новая система, которую тут же атаковали несколько вирусов с одинаковым распределением времени обнаружения. Поскольку каждый вирус обнаружат в среднем за 36 дней, можно подумать, что время существования уязвимости снова составляет в среднем 36 дней, как и для одиночного вируса. Однако это не так, ведь система остается уязвимой, до тех пор пока не будут обнаружены все ботнеты.
На рис. Б.8 показаны СИПы времени обнаружения для 10 случаев ботнет-атак, сгенерированные моделью с рис. Б.7. У всех них одинаковые параметры генерации, но мы не учитывали порядок, чтобы сделать их статистически независимыми.
Рис. Б.8. СИПы времени обнаружения для 10 случаев независимых ботнет-атак
Эти СИПы используются в модели, представленной на рис. Б.9. Она рассчитывает в ячейке C14 распределение максимального времени обнаружения всех ботнет-атак. Обратите внимание, что можно настроить количество ботнет-атак от 1 до 10 с помощью счетчика (инструмент Excel «Элементы управления формы») в столбце E. Перед тем как экспериментировать с этой моделью, стоит закрыть модель, показанную на рис. Б.7, так как она содержит формулу СЛЧИС(), которая может замедлить вычисления.
Рис. Б.9. Моделирование нескольких ботнет-атак
По модели видно, что среднее количество дней существования уязвимости увеличивается по мере роста числа одновременных атак, а шанс обнаружения ее менее чем за 36 дней уменьшается. Это пример значительного изъяна средних значений, и для 10 ботнет-атак среднее значение составляет 78 дней существования, а вероятность того, что оно окажется меньше 36 дней, составляет всего 1 %.
Такое моделирование можно легко применить и к различным вариантам вирусов, атакующих не одновременно, а в случайно выбранные моменты. Аналитические выводы о том, в течение какого отрезка времени следует ожидать, что система будет уязвима, крайне важны при принятии решений об инвестициях, связанных со стратегиями смягчения последствий.
Антон Мобли
Cпециалист по анализу данных в компании GE Healthcare
В последние годы произошло несколько крупных утечек данных, нанесших огромный финансовый и репутационный ущерб. Исполнители у них были разные, в том числе хактивисты, государства и киберпреступники. Среди целей и типов нарушенных данных можно выделить следующие:
• компании Target и Home Depot – платежная информация;
• компания Anthem/WellPoint – личная медицинская информация;
• Управление кадровой службы США, Booz Allen Hamilton и HBGary – военная и разведывательная информация;
• виртуальные службы знакомств Ashley Madison и Adult FriendFinder – конфиденциальная информация.
Обычно борьбой с вредоносными программами и фишинговыми атаками занимаются специалисты по кибербезопасности, но такие взломы данных представляют собой вторичный риск для предприятий в связи с потерей учетных записей, базы данных которых часто оказываются размещены на хакерских форумах, в сети TOR и торрентах.
Взяв за основу взлом компании Adobe в 2013 году, можно смоделировать подверженность постороннему воздействию как функцию от величины компании и политики паролей. В октябре 2013 года9 компания Adobe объявила, что хакеры похитили исходный код основных продуктов Adobe, а также данные учетных записей более чем 153 млн пользователей. База данных очень быстро оказалась в открытом доступе. Некоторые пользователи, оказавшиеся в базе, скорее всего, сами придумывали пароли или вообще обходились без них. Эти данные по сей день являются одним из самых крупных источников учетных записей.
База данных содержала адреса электронной почты, зашифрованные пароли и подсказки к паролям открытым текстом, у тех пользователей, которые их добавляли. Важно, что пароли были не хешированными и не хешированными с добавлением случайной «соли», а зашифрованными алгоритмом 3DES. В этом случае потеря ключа дискредитирует надежность всей базы данных, но пока еще ключ не появился в открытом доступе. Когда «соль» в шифровании не используется, одинаковые пароли в зашифрованном виде выглядят одинаково. Подсказки к паролям хранились в открытом виде, следовательно, злоумышленник может объединить одинаковые зашифрованные пароли и получить все возможные подсказки для одного и того же пароля. Нередко в базе данных попадаются такие подсказки, как «работа», «единый вход», «пароль от Outlook» и «пароль от Lotus notes». Это означает, что один пароль используется несколько раз и, сведя зашифрованный пароль к набору применяемых подсказок, можно его легко подобрать. Кроме того, для защиты паролей применялось блочное шифрование, следовательно, злоумышленник мог взломать фрагменты паролей и использовать их для взлома учетных данных других пользователей в базе.
При моделировании подверженности постороннему воздействию организация определяется как подверженная постороннему воздействию, если соблюдены следующие критерии.
1. Пароль, используемый в электронной почте сотрудника, совпадает с паролем, применяемым для защиты выполняемой им критически важной работы.
2. Пароль можно легко восстановить по базе данных Adobe, объединив подсказки к зашифрованным паролям.
Отсюда следует, что вероятность постороннего воздействия для организации с n сотрудников, при условии что сотрудники независимы, а на частоту повторного использования пароля не влияет уязвимость пароля сотрудника, можно смоделировать следующим образом:
P(сотрудники, подвергшиеся воздействию >= 1)
= 1 – P(Любой пароль сотрудника используется повторно И тот же пароль уязвим при объединении подсказок)n
= 1 – (1 – P(пароль используется повторно)P(отдельный пароль уязвим при объединении подсказок))n.
Эксперты по безопасности придерживаются разных мнений относительно частоты повторного использования паролей в учетных записях.
В некоторых исследованиях этот показатель находится в диапазоне от 12 до 20 %10, а в исследовании, проведенном в Принстоне с использованием ограниченных данных, он составляет 49 %11. Опираясь на предыдущие результаты, полученные при подобном анализе, в данной модели взято равномерное распределение в диапазоне от 0,15 до 0,25).
Моделирование вероятности того, насколько отдельный пароль уязвим при объединении подсказок, – задача посложнее. Чтобы ее решить, нужно понимать, как пользователи выбирают пароли. Так как в прошлом много раз происходили утечки паролей, для моделирования пространства выбора пароля можно использовать реально произошедшую утечку с минимальным ограничением паролей. Скажем, случившийся в 2009 году взлом компании RockYou, разрабатывавшей плагины и виджеты для сайтов социальных сетей. При этом произошла утечка 34 млн паролей. Объединенный набор паролей (без информации о пользователях) был взят с сайта https://wiki.skullsecurity.org/Passwords. Параметр для коэффициента наличия подсказок, помогающих взломать пароль, выбран 0,0001. На самом деле данный параметр не известен, поэтому эта оценка очень осторожная. Как правило, достаточно 10–20 подсказок, чтобы пароль можно было легко угадать. Этот параметр также зависит от количества людей, имеющих одинаковые пароли, но для простоты применяется точечная оценка. Задав в качестве условий количество пользователей с одинаковыми паролями и пространство паролей RockYou в виде функции распределения вероятности, указывающей способы выбора пользователями паролей, можно смоделировать подверженность отдельных пользователей внешнему воздействию следующим образом:
V = событие, когда пароль может быть угадан;
X = событие, когда X сотрудников имеют такой же пароль, как и пользователь;
N = взломанная база пользователей Adobe: ~153 млн;
PRY = функция плотности для каждого пароля из похищенных данных компании RockYou;
h = вероятность того, что подсказка пароля достаточно простая, чтобы позволить верно угадать пароль.
Эти результаты зависят от функции распределения вероятности пространства паролей компании RockYou. Если принять во внимание политику паролей, т. е. учитывать условное распределение для компании RockYou, согласующееся с политикой определения паролей, то первоначальный набор паролей, из которых выбирает пользователь, берется из распределения с гораздо более высокой энтропией.
При моделировании различных вариантов политики создания паролей и количества совпадений для эмпирической оценки кумулятивных функций распределения при различных политиках паролей меняют количество совпадений с паролем. Количество уязвимых паролей, т. е. паролей, с которыми связана простая подсказка, зависит от числа людей, использующих одинаковый пароль, и случаев повторного использования пароля. И с его помощью вычисляются оценка вероятности по методу максимального правдоподобия и 95 %-ный ДИ быстроты рассекречивания пароля отдельного сотрудника.
Объединив распределение, показывающее частоту повторного использования пароля, с распределением подверженности отдельного сотрудника внешнему воздействию, можно получить целый диапазон результатов (приведены на рис. Б.10). Сплошные линии показывают оценку вероятности подвергнуться воздействию по методу максимального правдоподобия, а пунктирные линии отмечают нижний и верхний пределы при использовании результатов 95 %-ного ДИ с низкими и высокими значениями распределения частоты повторного использования.
Рис. Б.10. Вероятность взлома в зависимости от размера компании и политики паролей
Модель дает представление о том, какой риск представляют собой взломанные учетные записи для организации в зависимости от аккаунтов сотрудников и политики паролей. Для повышения достоверности модели можно и нужно скорректировать несколько аспектов, в том числе указанные ниже.
1. Частота повторного использования пароля и подсказки определенно зависит от сложности пароля: люди, выбирающие хорошие пароли, не так часто создают для них подсказки. Однако при оценке на это обычно не делают поправку. Кроме того, объединение подсказок делает простые подсказки очень ценными, но и это не учитывается.
2. Принудительное введение политики паролей для базы пользователей, скорее всего, приведет к распределению с меньшей энтропией, чем условное распределение для компании RockYou. Например, если будет применена политика длины/типа символов, полагаю, что увеличится количество паролей, которые будут выглядеть следующим образом: P@ssw0rd123, pr!ncess123 и Trust№ 0ne!.
Дуглас А. Самуэльсон, доктор философии, президент и главный научный сотрудник компании InfoLogix, Inc.
Одной из наиболее интересных областей кибербезопасности является киберконтрразведка – обнаружение угроз безопасности и особенно внутренних угроз. После разоблачений Сноудена федеральным агентствам было приказано разработать программы по снижению внутренних угроз, но на сегодняшний день лишь несколько агентств приняли какие-то серьезные меры.
Одно из таких агентств, являющееся, пожалуй, лидером в области борьбы с внутренними угрозами, ввело в действие компьютерную систему выявления потенциальных внутренних угроз. Система использует такую информацию, как логины, пропуски, частоту и время доступа к определенным файлам и объектам, а также иные потенциально имеющие значение факты вроде мелких нарушений правил безопасности, наличия у пользователя родственников за рубежом, финансовых трудностей и повторяющихся сценариев поездок за границу. Общая идея во многом похожа на оценку заемщика или анализ мошенничества и злоупотреблений в сфере медицинского обслуживания. Система может определять закономерности действий, которые отличаются от обычных и напоминают поведение уже известных преступников.
Ключевым новшеством является настройка распознавания сходства с нарушителями, пойманными ранее. Используя термин из области интеллектуального анализа данных, можно назвать этот поиск скорее контролируемым, чем бесконтрольным. Компьютерные методы анализа закономерностей очень хороши для выявления необычных моделей поведения, но все еще довольно плохо различают, какие из них важны. Благодаря тесному сотрудничеству со следователями были сделаны полезные выводы о ряде наиболее часто встречающихся «необычных моделей», которые не представляли особого интереса при дальнейшем рассмотрении. Модифицировав систему таким образом, чтобы она больше не учитывала подобные закономерности, удалось добиться выдачи гораздо более конструктивного набора случаев, требующих проведения дальнейшей проверки уже людьми.
Субъектами проверок являются сотрудники, имеющие допуск к работе с секретной информацией и, как следствие, отказавшиеся от многих прав на неприкосновенность частной жизни, что есть у обычных граждан. Тем не менее агентство стремится избежать чрезмерного вмешательства и ускорить восстановление в правах, которое обычно является результатом расследования очевидных аномалий. Основная цель – профилактика, а не наказание.
Применяется множество методов распознавания образов, ассоциаций, а также соответствия эмпирическим правилам. Наиболее продуктивным считается объединение нескольких подходов и тем, включая обратную связь, полученную в ходе последующих расследований специалистами-людьми. В этом случае предполагается выделение совокупностей фрагментов информации, которые сами по себе, скорее всего, безобидны, но могут представлять интерес в сочетании, например: необычное поведение по отношению к коллегам, плюс финансовые проблемы, плюс внезапное увеличение числа зарубежных поездок. С помощью подобных методов можно провести большую работу по кодированию и анализу поведенческих признаков вплоть до уровня биологических маркеров, которые могут стать частью анализа наряду с более традиционными маркерами.
Данное агентство построило наблюдательную станцию, чтобы обеспечить возможность наблюдения и сопоставления многочисленных потоков информации в одном месте и в одно время. Скажем, перемещения и доступ лиц, представляющих явный интерес (в текущих условиях), могут привлечь внимание наблюдателя-человека и подвергнуться более тщательному изучению. Другие агентства проявляют большой интерес к наблюдательной станции и, скорее всего, обзаведутся такой же или станут пользоваться имеющейся вместе.
Новая работа того же агентства касается отображения с помощью виртуальной реальности больших данных, представляющих интересующие модели поведения. Система создает пространство, в котором человек-аналитик может вести расследование. Она опирается на способность людей замечать необычные закономерности, которой машины пока еще не владеют на должном уровне.
Аресты крупных нарушителей безопасности в реальности случаются редко и никогда не обсуждаются открыто до окончания следствия, а иногда и долгое время после его окончания, чтобы не помешать работе обвинения, но и тогда опускаются многие детали выявления нарушителя и проведения расследования. Случаи предотвращения нарушений более желательны и происходят чаще, но их еще реже обсуждают открыто. Раскрытие источников и методов, с помощью которых ведется разработка и использование информации, связанной с безопасностью, считается одним из наиболее серьезных и губительных нарушений безопасности. В любом случае можно говорить о том, что данное агентство получило большую выгоду от применения указанных методов, о чем свидетельствуют два наиболее надежных показателя полезности в контексте любой организации: они продолжают закупать подобные решения, а их сотрудники, в том числе ранее настроенные скептически, стремятся узнать больше о том, как их использовать.
Скотт Странски, помощник вице-президента и главный научный сотрудник компании AIR Worldwide
Томас Гирнюс, доктор философии, руководитель и главный научный сотрудник компании AIR Worldwide
Некоторые удивляются, как компания, специализирующаяся на построении моделей для оценки убытков от ураганов и других стихийных бедствий, может применять свои методы для построения аналогичных моделей оценки потерь от кибератак.
Ураган «Эндрю» дал толчок развитию индустрии моделирования катастроф. И хотя модели катастроф существовали и до 1992 года, лица, принимающие решения, или к ним не прибегали, или не использовали весь их потенциал. Когда на южную Флориду обрушился ураган, компания AIR опубликовала смоделированную оценку убытков, которая составила около 13 млрд долл., чем вызвала насмешки страховщиков. Им цифра показалась сильно завышенной. Когда после урагана «Эндрю» стали поступать требования по страховкам, 11 страховых компаний вышли из бизнеса, а остальные участники отрасли начали осознавать ценность моделирования. «Киберураган Эндрю» еще не нанес удар по сфере страхования от киберугроз, но, когда это произойдет, компании, использующие модели, окажутся в гораздо более выгодном положении, чем те, кто опирается на так называемые страховые суждения.
Компания AIR применяет все ту же стохастическую структуру моделирования (рис. Б.11), которой успешно пользовалась при создании моделей катастроф в течение почти 30 лет. Ее проще всего описать на аналогии с моделированием ураганов. Ураганы можно наблюдать, и они хорошо изучены. Мы начинаем с данных о прошедших ураганах, имеющихся в открытом доступе в Национальном центре США по слежению за ураганами и других источниках, а также определяем распределения для различных параметров, таких как ежегодное прогнозируемое число штормов, места вдоль береговой линии, где они произойдут, степень их интенсивности и т. д. Затем с использованием всех этих распределений проводится симуляция по методу Монте-Карло и составляется стохастический «каталог» событий. Каталог содержит 100 000 смоделированных сезонов ураганов, это не предсказания будущего на 100 000 лет вперед, а лишь рассмотрение правдоподобных версий сезона ураганов на следующий год. Что касается киберсферы, то благодаря другим специалистам, работающим в нашей области, у нас есть данные, которые позволяют составлять распределения для количества атак в год, отраслей, на которые они направлены, определять, затрагиваются ли крупные или небольшие компании, а в случае утечки данных – сколько записей украдено. Такие сведения дополняют информацию о подверженном воздействию типе данных, о категориях субъектов, осуществляющих атаки, и о любых последствиях атаки, например были ли данные украдены, остановится ли работа компании, подадут ли на нее в суд. Все эти данные используются для моделирования киберсобытий методом Монте-Карло и создания каталога событий.
Рис. Б.11. Структура моделирования катастроф компании AIR Worldwide
Следующий этап модели – компонент уязвимости. Здесь для определения ущерба используется каталог вместе с информацией о самом риске. Для определения угроз от ветра можно использовать данные вычислительной гидрогазодинамики, тестов в аэродинамических трубах, обследований после катастроф и инженерных исследований. В киберсфере работа ведется с данными, помогающими дифференцировать риски в зависимости от отрасли, размеров компаний, их местоположения и других особенностей. Последним этапом является оценка убытков, в том числе среднегодовые значения, убытки из расчета 1 к 100 и 1 к 250, касающиеся индивидуальных аккаунтов, а также целых портфелей аккаунтов. Для этого необходимы данные об убытках за прошедший период. Мы получаем их от нескольких первичных страховщиков, с которыми сотрудничаем, в обмен на проведение консалтинговых исследований киберрисков и предоставление начальных результатов моделирования. Полученные данные позволяют нам калибровать и проверять сведения об убытках, которые сообщает модель.
Недавние собранные данные о кибератаках, правда всего за несколько лет, эффективно обеспечивают «левое цензурирование», о котором говорит Эндрю Джеквит. Из огромного количества киберсобытий, произошедших в последние годы, следует вывод, что доступных данных не станет меньше. Большие объемы основных киберданных определяют размер и форму аппроксимированных статистических распределений, так же как и в традиционных актуарных методах. Объем данных подобной величины гарантирует, что подобранные параметры достаточно надежны и можно делать выборку из хвостов распределений. Здесь моделирование катастроф расходится с традиционной актуарной практикой. Именно выбор случайных значений из хвоста распределения для симуляции Монте-Карло приводит к появлению экстремальных сценариев, которыми и занимается моделирование катастроф. Мы можем быть уверены в данных хвоста распределения, поскольку его тело было хорошо аппроксимировано. Это решает задачу определения отдельных экстремальных событий в каталоге.
1. Verizon Data Breach Investigation Report, 2013, 2014, 2015.
2. Brian M. Bowen et al., “Measuring the Human Factor of Cyber Security,” Homeland Security Affairs 8, supplement 5 (May 2012): 12.
3. Microsoft Security Intelligence Report, 2013, 2014, 2015.
4. Verizon Data Breach Investigation Report, 2013, 2014, 2015.
5. См., например, 2015 Cost of Data Breach Study: Global Analysis by Ponemon Institute and IBM.
6. Другие исследователи также отмечают подобное явление, в частности Джей Якобс, состоявший на тот момент в команде компании Verizon по подготовке отчетов о расследовании утечек, в статье “Analyzing Ponemon Cost of Data Breach” (December 2014) на сайте http://datadrivensecurity.info/blog/posts/2014/Dec/ponemon/.
7. См. Melissa Kirmse and Sam Savage, “Probability Management 2.0,” ORMS Today, October 2014, http://viewer.zmags.com/publication/ad9e976e#/ad9e976e/32.
8. Sam L. Savage, “Distribution Processing and the Arithmetic of Uncertainty,” Savage Analytics Magazine, November/December 2012, http://viewer.zmags.com/publication/90ffcc6b#/90ffcc6b/29.
9. Brian Krebs, “Adobe to Announce Source Code, Customer Data Breach,” Krebs on Security, October 13, 2013, http://krebsonsecurity.com/2013/10/adobe‐to‐announce‐source‐code‐customer‐databreach/
10. Keir Thomas, “Password Use Is All Too Common, Research Shows,” PC World, February 10, 2011, www.pcworld.com/article/219303/password_use_very_common_research_shows.html.
11. Anupam Das et al., “The Tangled Web of Password Reuse,” paper presented at the Network and Distributed System Security Symposium, February 23–26, 2014, www.jbonneau.com/doc/DBCBW14‐NDSStangled_web.pdf.