Конкуренция лежит в основе науки... и всей жизни. <...> Соперничество и сотрудничество делают нас такими, какие мы есть.
Во всех задачах, представленных в прошлой главе, речь шла о соперничестве: выигрыш одного игрока всегда равнялся проигрышу другого, поэтому подобные игры называются играми с нулевой суммой. Это конфликтные ситуации, участники которых имеют прямо противоположные цели. Каждый игрок стремится получить максимальный выигрыш, что будет означать максимальный проигрыш соперника.
В этой главе мы рассмотрим немного другую тему. Целью игроков по-прежнему будет выигрыш, все так же будет существовать конфликтная ситуация, но это еще не все. С одной стороны, выигрыш одного не обязательно будет соответствовать проигрышу другого, и будут существовать стратегии, в которых выиграть могут оба игрока. С другой стороны, будут существовать ситуации, в которых сотрудничество будет выгодным для обеих сторон. Таким образом, в играх возникают коммуникация и взаимное доверие, но также и угрозы, цель которых — заставить соперника выполнить обещанное. В этих случаях речь идет о не полностью конфликтных ситуациях, и мы будем различать кооперативные и некооперативные стратегии.
Вспомним, что теория игр изучает принятие решений. В настоящей главе этому аспекту уделено особое внимание, так как во многих ситуациях, о которых мы расскажем далее, будет присутствовать выбор между соперничеством и сотрудничеством. Какие решения будут принимать игроки в этих условиях? Подобные ситуации порождают так называемые дилеммы, так как оба игрока могут соперничать или сотрудничать друг с другом, и неясно, какой вариант окажется более выгодным, поскольку все будет зависеть от решения, принятого оппонентом. В целом сотрудничество игроков принесет выгоду обоим, и результат будет наилучшим для каждого из игроков, в то время как соперничество приведет к печальным последствиям. Если бы существовали лишь две эти ситуации, то дилеммы бы не было. Однако если один из игроков пытается сотрудничать с другим, а тот решает соперничать, последний будет иметь преимущество, причем оно будет больше, чем при сотрудничестве. Таким образом, дилемма очевидна.
Ввиду сложности игр подобного типа, в этой главе математические аспекты неизбежно будут смешиваться с психологическими и даже моральными. Поэтому решения часто не будут строгими решениями с точки зрения математики, а будут представлять лишь возможные исходы, которые зависят от действий игроков. Несмотря на это, подобные игры вызывают больший интерес, чем описанные в прошлой главе, так как намного чаще встречаются в реальной жизни. В реальных конфликтных ситуациях соперничество и сотрудничество очень часто сочетаются.
Можно сказать, что все множество ситуаций, изучаемых в теории игр, можно разделить на две полярные группы: игры с нулевой суммой, основанные на чистом соперничестве, и игры, основанные на чистом сотрудничестве. И те и другие легко решить, по крайней мере в теории. Игры, основанные на чистом соперничестве, рассматривались в прошлой главе. Аналогично можно анализировать ситуации, основанные на чистом сотрудничестве: действия пилота раллийного автомобиля и его штурмана, действия партнеров в танце, действия пилота самолета и диспетчера — это всё примеры ситуаций, где оба игрока имеют одну цель, и решение состоит в том, чтобы объединить усилия (эффективно координировать ходы).
Прочие игры для двух лиц, о которых рассказывается в этой главе, находятся между этими двумя крайностями. Такие игры сложнее, поскольку интересы игроков частично противоположны, а частично совпадают, хотя на первый взгляд кажется, что это не так. Представим, например, продавца квартиры и возможного покупателя. Оба заинтересованы в заключении сделки (в сотрудничестве), но не могут сойтись в цене (конфликт). Можно также рассмотреть пример слияния двух компаний или противостояние двух стран, которые ведут войну. Во всех подобных случаях большинство стратегий подразумевают конфликт, но есть возможность прийти к соглашению или подписать пакт, который частично устроит обе стороны: можно заключить перемирие или соглашение о неиспользовании ядерного оружия.
В 1944 году была опубликована работа фон Неймана и Моргенштерна «Теория игр и экономическое поведение», в которой излагался алгоритм поиска оптимальных решений в играх с нулевой суммой для двух лиц. Именно это событие считается отправной точкой теории игр. Основным предметом исследований новой теории стали кооперативные игры и анализ оптимальных стратегий в случаях, когда оппоненты могут прийти к соглашению относительно выбранных стратегий.
В 50-е годы XX века в теории игр произошел заметный прорыв. Появились первые исследования дилеммы заключенного, Джон Нэш определил понятие оптимальной стратегии для игр со множеством игроков, когда оптимальную стратегию нельзя определить заранее (подобная ситуация известна как равновесие Нэша). Этот алгоритм применим для некооперативных игр, но может быть расширен и для кооперативных. В это же время теория игр впервые начала применяться в других областях помимо экономики, например, в философии и политологии. Позднее, уже в 1970-е годы, теория игр начала применяться в биологии в основном благодаря работам Джона Мейнарда Смита, который ввел понятие эволюционно стабильной стратегии.
Фотография Оскара Моргенштерна, который вместе с Джоном фон Нейманом является создателем теории игр.
Чтобы показать разницу между играми с нулевой и с ненулевой суммой, рассмотрим ситуацию, связанную с распространением рекламы. Две компании, А и Б, хотят прорекламировать свою продукцию. В обе компании поступает предложение от телеканала: рекламу можно показать днем (когда ее увидят 40% телезрителей) или вечером (тогда ее увидят 60% зрителей), причем можно выбрать только один из предложенных вариантов. Известно, что дневная и вечерняя аудитории не пересекаются. Если обе компании закажут рекламу на одно и то же время, то их продукцию купят 30% зрителей, включивших телевизор в это время, и никто из тех, кто смотрел телевизор в другое время. Если же компании закажут рекламу на разное время, то охватят 50% аудитории, которая в тот момент находилась у экранов. Какое решение оптимально для каждой компании? Будет лучше проконсультироваться с другой компанией или скрыть свои намерения?
Эту игру можно выразить в виде платежной матрицы, значения которой будут соответствовать доле аудитории. Однако в этом случае в каждую ячейку таблицы нельзя поместить какое-то одно значение, так как выигрыш одной компании не равен проигрышу другой и каждая компания будет иметь свою выгоду. По этой причине элементами матрицы будут пары значений. Первое число в каждой паре — выгода компании А, второе — выгода компании Б в зависимости от стратегий, выбранных обеими компаниями.
Если А и Б запустят рекламу днем, то каждой компании достанется 12% аудитории (30% от 40%). Если рекламные ролики выйдут в разное время, то результаты будут симметричны: если А запустит рекламу днем, а Б — вечером, то А получит 20% (половину от 40%), компания Б — 30% (половину от 60%). Если обе компании в этом случае сменят стратегии на прямо противоположные, противоположными окажутся и результаты.
Для анализа этой игры аналогично тому, как мы это делали ранее, нужно рассматривать две матрицы (с выигрышами каждого игрока), учитывая, что каждый игрок стремится максимально увеличить свой выигрыш в соответствии с платежной матрицей.
С учетом того, что матрицы симметричны и что стратегии А указаны в строках, а стратегии Б — в столбцах, анализ обеих матриц проводится аналогичным образом. Можно выполнить те же действия, что и для игр с нулевой суммой: седловая точка отсутствует (максиминное значение равно 18, минимаксное — 12), поэтому нужно найти смешанную стратегию, чтобы определить цену игры для игрока А. Эта стратегия такова: нужно использовать стратегию 1 (выпускать рекламу днем) с вероятностью 3/5 и стратегию 2 (выпускать рекламу ночью) с вероятностью 2/5. Таким образом мы получим цену 19,2 (средний выигрыш за партию). Аналогично для игрока Б (с учетом симметрии): в каждых пяти партиях он должен произвольным образом два раза выбрать стратегию 1 и три раза — стратегию 2, при этом его средний выигрыш будет тем же. Пока что нет никаких отличий от прошлых примеров, и читатель может посчитать, что мы определили оптимальную стратегию для каждого игрока и что игра решена.
Однако более подробный анализ игры показывает, что в этом случае каждый из двух игроков ожидает выиграть больше, и при этом выигрыш другого игрока останется прежним. Поэтому предыдущее решение не является оптимальным, и цена игры, найденная для оптимальных смешанных стратегий, используемых в играх с нулевой суммой, не всегда является наибольшей.
Это происходит потому, что оптимальные стратегии в играх с нулевой суммой основаны на ограничении или уменьшении выигрыша соперника. Если игра имеет нулевую сумму, то уменьшение выигрыша одного игрока равносильно увеличению выигрыша другого, но в нашем случае это не так. Допустим, что компания Б не будет использовать смешанную стратегию и всегда будет применять стратегию 2 (выпуск рекламы вечером), в то время как компания Б будет придерживаться смешанной стратегии. В этом случае компания А в среднем получит 30 • 2/5 + 18 • 3/5 = 22,8, а компания Б — по-прежнему 19,2. Заметим, что выигрыш Б не изменился, а выигрыш А возрос. В играх с нулевой суммой это невозможно. Очевидно, компания Б может действовать подобным образом и всегда использовать чистую стратегию 2, ожидая, что А будет придерживаться смешанной стратегии. В этом случае результат Б возрастет, результат А останется на прежнем уровне.
Но что произойдет, если обе компании используют чистую стратегию 2? Обе получат лишь по 18% аудитории, выигрыш обоих игроков уменьшится одинаково. Кажется, что мы зашли в тупик: каждая компания может выиграть больше, не повредив конкуренту, но если оба игрока захотят получить больше, то, напротив, выиграют меньше среднего ожидаемого значения.
Однако возможен и другой вариант. Допустим, что оба игрока заключили соглашение, чтобы не попасть одновременно в клетки с наименьшим выигрышем, то есть не размещать рекламу в одно и то же время. В этом случае каждая компания получит больше, при этом выигрыши компаний могут стать равными: если компания А будет чередовать стратегии 1 и 2, а компания Б — чередовать стратегии 2 и 1, то средний выигрыш для обеих компаний будет равен 25% за партию. Компания А будет попеременно получать 20 и 30 процентов, компания Б — 30 и 20. Это решение кажется оптимальным и, более того, является равновесным.
Фон Нейман и Моргенштерн, изучив игры с нулевой суммой для двух лиц, перешли к анализу игр с большим числом игроков, учитывая возможные альянсы (группы из двух игроков и более, которые действуют согласованно), то есть отошли от чисто конкурентных игр. В 50-е годы XX века именно Джон Нэш расширил теорию игр, включив в нее некооперативные игры для n игроков, где альянсы были запрещены. Нэш уделял особое внимание играм с ненулевой суммой для двух и более игроков и пришел к мысли о равновесии, которое теперь известно как равновесие Нэша.
Алгоритм Нэша (или по меньшей мере его суть) кажется простым. Допустим, что разные игроки проанализировали игру и каждый выбрал определенную стратегию. Зная результат игры, зададим каждому игроку вопрос: считает ли он результат удовлетворительным? Иначе говоря, предпочел бы он действовать иначе? Если ответ положителен, то есть все участники считают, что грамотно выбрали стратегию, то, согласно Нэшу, в игре достигнуто равновесие.
Рассмотрим применение этой идеи в конкретном случае. В следующей матрице приведены результаты игры с ненулевой суммой:
Оба игрока выбрали стратегию 2. Узнав результат, они остались довольны выбором и сочли, что сделали все возможное. Первый игрок (его стратегии указаны в строках) считает, что его выигрыш, 5, был максимально возможным. Второй игрок, узнав, что первый выбрал стратегию 2, также посчитал свой выбор оптимальным: он выиграл 2, а мог не выиграть ничего.
Эту ситуацию можно оспорить, сказав, что первый игрок сделал «правильный» выбор, потому что выбранная им стратегия (2) является доминантной, а второй игрок может решить, что стоило выбирать первую стратегию, так как в этом случае он мог выиграть 100. Однако в конкурентной игре, где каждый игрок хочет увеличить свой выигрыш, подобная ситуация невозможна, если игрок 1 будет действовать рационально.
Следовательно, из четырех возможных результатов единственным, который не вызовет неприятия игроков, является (5, 2). Этот результат и является точкой равновесия Нэша. В партии с любым другим исходом один из игроков мог бы усомниться в правильности выбора. В этом случае в терминологии Нэша решение было бы нестабильным.
Примененный нами алгоритм интересен и дает рациональное решение. В этом контексте Нэш доказал, что любая конечная игра для двух лиц имеет минимум одну точку равновесия, и расширил таким образом теорему фон Неймана о минимаксе. В играх с нулевой суммой точка равновесия совпадает с точкой, найденной по теореме о минимаксе. Однако результат Нэша интересен тем, что позволяет найти точки равновесия в играх с ненулевой суммой, как мы увидели из прошлого примера. При этом найденное решение будет обоснованным.
Однако так происходит не всегда, и порой точка равновесия выглядит непривычно и имеет необычные свойства.
Возможно, труды Нэша, особенно его первые работы, являются важнейшими после работ фон Неймана за всю короткую историю теории игр. Уже в детстве Нэш продемонстрировал выдающийся интеллект и в то же время обнаружил трудности в общении с другими людьми. Он начал изучать химию, но вскоре переключился на математику, где отличался особым талантом. В 1948 году он получил стипендию Принстонского университета, где в то время работали Эйнштейн и фон Нейман, для написания докторской диссертации по теории игр под руководством Альберта Такера. В 1950 году он представил свою диссертацию — краткую и оригинальную работу о некооперативных играх. Его труд быстро нашел широкое признание среди специалистов по теории игр. Нэш придумал настольную игру на поле с шестиугольными клетками, позднее получившую название «Геке». По-видимому, Нэш не знал, что несколькими годами ранее такую же игру придумал Пит Хейн. Нэш доказал, что в этой игре должна существовать выигрышная стратегия для первого игрока.
Начиная с 1950-х годов он работал в Массачусетском технологическом институте (MIT) и в корпорации RAND — знаменитой организации ВВС США, занимавшейся стратегическими исследованиями. Спустя некоторое время после свадьбы, в 1959 году, ему пришлось пройти курс лечения от шизофрении. Впоследствии болезнь усилилась и преследовала ученого в разные годы жизни. Несмотря на болезнь, он продолжал работать и в 1994 году получил Нобелевскую премию по экономике.
В 2001 году режиссер Рон Ховард снял фильм «Игры разума», удостоенный четырех «Оскаров», в котором рассказывается о жизни Джона Нэша и в особенности о его борьбе с шизофренией, от которой он страдал на протяжении многих лет.
Примеры из предыдущего раздела показывают, что в играх с нулевой суммой иногда можно использовать стратегии сотрудничества, которые позволяют улучшить результат. Проблемы возникают, когда новый результат не распределяется между игроками поровну. Иными словами, стоит вопрос о том, как распределить «излишки» и довольны ли игроки рациональным распределением этих «излишков».
Меррил Флад, в свое время работавший в RAND, проанализировал различные ситуации из повседневной жизни, особенно те, в которых игрокам требовалось распределить между собой дополнительный выигрыш. Одна из таких ситуаций — продажа подержанного автомобиля. Допустим, покупатель готов купить машину у друга, который, в свою очередь, готов ее продать. Чтобы узнать стоимость машины, друзья отправляются в автомагазин, который согласен приобрести автомобиль за 1000 долларов и продать за 1300 долларов, получив минимум 300 долларов за свои услуги. Если продажа будет совершена без участия магазина, очевидно, что друзья сэкономят 300 долларов и смогут разделить эту сумму между собой. В этом случае наиболее рационально разделить эту сумму пополам, то есть продать машину за 1150 долларов. Таким образом, каждый из друзей получит по 150 долларов.
Это решение рационально, но не единственно. Один из игроков, например покупатель, может решить, что не готов платить больше 1100 долларов, то есть продавец получит 100 долларов в дополнение к установленной цене. И наоборот, продавец может установить минимальную цену в 1250 долларов, аргументируя это тем, что покупатель все равно сэкономит 50 долларов. Заметим, что если покупатель не примет предложение продавца, рационально рассудив, что выгода разделена «несправедливо», то повредит сам себе, потому что установленная цена все равно будет ниже цены магазина.
Однако мысль о «справедливом» распределении выгоды не всегда столь очевидна. Иногда может существовать несколько решений, которые будут казаться полностью обоснованными. Допустим, Михаил хочет отправиться из Барселоны в Мадрид (600 км) на машине, чтобы посетить важное совещание и вернуться на следующий день. Он узнает, что Петр, его друг, который живет в Сарагосе, тоже должен поехать в Мадрид в этот же день. Друзья решают вместе поехать на машине и туда, и обратно. Как нужно распределить расходы на поездку, учитывая, что Сарагоса расположена на полпути между Барселоной и Мадридом?
Вариант 1. Так как Михаил проедет в два раза больше, чем Петр, расходы нужно разделить на 3, Петр заплатит одну треть, Михаил — две трети.
Вариант 2. Так как Михаил проедет в одиночку половину пути, а другую половину друзья проедут вместе, то Михаил оплатит расходы за половину дороги плюс еще одну четверть, а оставшаяся четверть расходов (половина половины) придется на долю Петра. Получается, что расходы нужно разделить на 4, Петр оплатит одну четверть, Михаил — три четверти.
Чтобы подсчитать расходы на поездку, предположим, что поездка из Барселоны в Мадрид обойдется Михаилу в 600 евро (если он поедет один), а поездка из Сарагосы в Мадрид обойдется Петру в 300 евро. Если они поедут вместе, то сэкономят 300 евро. В первом варианте Михаил платит 400 евро (экономит 200), Петр платит 200 евро (экономит 100). Во втором варианте Михаил платит 450 евро (экономит 150), Петр платит 150 евро (также экономит 150). Получается, что во втором варианте выгода распределяется одинаково, а в первом распределение происходит пропорционально понесенным расходам. Таким образом, в конкретной ситуации может существовать несколько разумных и обоснованных решений.
Игра под названием дилемма заключенного (этот термин был предложен Альбертом Такером в 1950 году) принадлежит к числу наиболее известных задач теории игр. Это простой пример того, как две противоборствующие стороны могут соперничать или сотрудничать. Подобное встречается очень часто: в ценовых войнах, рекламных кампаниях или в гонке вооружений.
В традиционной формулировке речь идет о противостоянии двух преступников, каждый из которых может хранить молчание или свидетельствовать против другого. Однако мы рассмотрим эту дилемму на интересном практическом примере военного конфликта, которые, к сожалению, до сих пор слишком часто происходят в разных уголках планеты. Дилемма будет формулироваться так:
Две противоборствующие стороны Р1 и Р2 должны определить политику в области вооружений. Каждая из сторон может независимо от другой выбрать одну из двух стратегий:
А: отказаться сотрудничать, то есть вооружиться перед возможным военным конфликтом.
Б: сотрудничать, то есть разоружаться или наложить ограничение на некоторые виды оружия.
Такер внес важный вклад в топологию, нелинейное программирование и теорию игр. Он окончил Торонтский университет с дипломом по математике, затем защитил докторскую в Принстонском университете в 1932 году. Некоторое время он работал в Гарварде, Кембридже и Чикаго, затем вернулся в Принстон, где преподавал до 1970 года, свыше 20 лет возглавляя кафедру математики. В 1950 году он дал название самому известному и интересному парадоксу в теории игр — дилемме заключенного, а также впервые привел интерпретацию зтой задачи. Тем самым он внес фундаментальный вклад в модель соперничества и сотрудничества, над которой позднее работали Меррил Флад и Мелвин Дрешер в Принстонском университете.
Он был не только выдающимся исследователем, но и видным преподавателем, принимал участие в образовательных проектах для средней школы, за что был избран президентом Математической ассоциации Америки. Среди его учеников — нобелевский лауреат Джон Нэш.
Существует четыре возможных решения: (А, А), (А, Б), (Б, А) и (Б, Б). Первая координата в каждой паре — стратегия Р1, вторая — стратегия Р2. Возможные исходы можно представить таблицей:
Пересечениям возможных стратегий можно присвоить значения (в терминах теории игр — платежи), учитывая, что для каждого игрока они будут отличаться и в каждой ячейке будет два числа: одно означает выгоду Р1, второе — выгоду Р2. Получим следующую платежную матрицу:
Если понимать эти числа как выигрыши, то дилемма очевидна. Что нужно делать Р1? Для любого из вариантов, доступных Р2, для Р1 будет выгоднее вооружаться. Если Р2 выберет вариант А, Р1 выиграет 2 в случае вооружения и 0 в противном случае. Если Р2 выберет вариант Б, Р1 выиграет 5, если будет вооружаться, и 4 в противном случае. Так как матрица симметричная, для Р2 можно привести аналогичные рассуждения. Для любой из двух стратегий Р1 наибольший выигрыш Р2 принесет выбор в пользу вооружения. Говорят, что решение (А, А), означающее, что обе стороны вооружаются и получают выгоду в 2, является равновесным некооперативным решением, к которому стремятся обе стороны.
Однако для каждого из участников будет лучше, если противник будет разоружаться (выигрыш возрастет). Кроме того, наибольший совокупный выигрыш достигается тогда, когда разоружаются обе стороны. Следовательно, если оппоненты не будут сотрудничать, наилучший совокупный результат (4, 4) невозможен. Но если одна из сторон сделает выбор в пользу сотрудничества, при этом не зная о действиях другой стороны, то подвергнется большому риску: если оппонент не будет сотрудничать, выигрыш окажется наименьшим. Поэтому уверенность становится важнейшим элементом игры: без нее каждая сторона будет пытаться защитить себя от возможного отказа сотрудничать со стороны противника.
В реальных условиях, не столь острых, как в нашем примере, можно достичь ситуации, когда сотрудничество станет возможным. Обычно игра повторяется несколько раз, и на первый план выходят такие понятия, как репутация и уверенность, которые могут существенно повлиять на ход игры, и игроки смогут узнать о взаимной выгоде. В нашем примере разоружение очевидно имеет многие преимущества по сравнению с гонкой вооружений, которая может привести к полному разорению. Несмотря на это, сотрудничество сложно и достижимо лишь в долгосрочной перспективе.
Хотя дилемма заключенного является частью теории игр, проблема, лежащая в основе этой задачи, рассматривалась задолго до появления этой теории. Английский философ Томас Гоббс (1588—1679), автор «Левиафана», рассуждая об абсолютизме, анализирует развитие общества и рассматривает проблему, схожую с дилеммой заключенного. Гоббс писал, что изначально общество пребывает в анархии, где есть место только конкуренции. Чтобы сотрудничество стало возможным, нужно наложить ограничения и обеспечить их выполнение. Гоббс рассматривал общественный договор как результат сотрудничества и полагал, что общество должно подчиниться правительству, так как независимые решения, предполагающие сотрудничество или соперничество, не должны приниматься отдельными людьми.
Ситуации, напоминающие дилемму заключенного, также можно встретить в деловом мире. На конкурентном рынке часто случается, что конкуренты отвергают практический подход, будучи убежденными, что со временем подобное поведение окажется выгодным для всех, в том числе и для них самих. Так, соглашение книжных магазинов не предоставлять скидок выше определенного процента (например, 10%) или решение профсоюза закрывать магазины в определенный час (например, в 20:00) направлены на рост продаж. Все участники знают, что, если хотя бы один из них не выполнит соглашение, его нарушат и остальные и никто не получит выгоды; напротив, расходы лишь возрастут.
Роберт Аксельрод, преподаватель политологии в университете Мичигана, математик и доктор политических наук, является экспертом в кооперативных задачах и специалистом по играм, подобным дилемме заключенного. Среди его трудов выделяется «Эволюция сотрудничества» (The Evolution of Cooperation), где изучается развитие сотрудничества как явления. Основная мысль книги такова: стратегии, используемые людьми, эволюционируют в сторону более эффективных, где обязательным элементом является сотрудничество. Говоря о дилемме заключенного, Аксельрод замечает, что если игра проводится один раз, то нельзя узнать поведение соперника, наградить его за сотрудничество или наказать за соперничество, поэтому нужно думать о краткосрочных результатах. Напротив, если игра повторяется несколько раз, то стратегии могут основываться на предыдущих взаимодействиях и их основным принципом будет взаимность: если противник часто сотрудничал с нами, будет лучше, если мы тоже продолжим сотрудничество, но если попыток сотрудничества не было, то нам не стоит и пытаться этого делать. Так как никому не удавалось определить оптимальную стратегию, Аксельрод организовал турнир между экспертами по теории игр, чтобы изучить, как они будут действовать и как будут пытаться скрыть действенные стратегии. В результате оказалось, что лучшей из всех стратегий оказалась простейшая, так называемая «око за око». Нужно начинать с сотрудничества (и никогда не отказываться от него первым), а затем повторять стратегию, выбранную соперником на прошлом ходу. Если противник сотрудничал с нами, стоит продолжать сотрудничество, но если он отказался это сделать, то нужно сразу выразить несогласие с этим.
Эта игра похожа на дилемму заключенного и вместе с ней является одной из наиболее изучаемых игр с ненулевой суммой. Суть игры — в противостоянии двух соперников в рискованной ситуации. Тот, кто первым уступит противнику, проигрывает.
Обычно эта игра формулируется так: водители едут навстречу друг другу на огромной скорости. Каждый должен в последний момент принять решение: свернуть вправо, чтобы избежать столкновения, либо нет. Возможны следующие варианты:
1. Ни один из игроков не трусит и машины сталкиваются. Это наихудший результат, в этом случае оба игрока получают 0 очков.
2. Оба игрока в последний момент сворачивают, чтобы избежать аварии. Это хороший результат для обоих, хотя они «теряют престиж» и никого из них нельзя считать победителем. В этом случае каждый получает 3 очка.
3. Один из игроков решает свернуть, другой — нет. Первый «теряет престиж» и получает всего 1 очко, второй считается победителем и ему присуждается 5 очков.
Представим эти стратегии и платежи в виде матрицы:
Хотя ситуация, описанная в этой игре, в реальной жизни встречается редко, в некоторых конфликтах противоборствующие стороны хотят полностью доминировать (например, в вооруженных конфликтах или трудовых отношениях), и возникают пограничные ситуации, подобные описанной в игре.
Эта игра чаще встречается в кино, например в фильме Николаса Рэя «Бунтовщик без причины» (Rebel without A Cause, 1955), где подростки мчатся на машинах к обрыву и тот, кто затормозит первым, — проиграл, «цыпленок».
И эта игра, и дилемма заключенного — игры с неполным конфликтом. Они показывают, что порой следование краткосрочным интересам каждого игрока может привести к катастрофическим результатам для обоих. Однако между этими играми есть различие: в дилемме заключенного наилучший результат достигается при совпадении стратегий, в игре «Струсил — проиграл» наоборот: если использовать стратегию, противоположную стратегии соперника, то результат будет лучше, чем если мы будем следовать одной и той же стратегии.
Анализ ситуации показывает, что если оба участника хотят достичь максимального выигрыша в 5 очков, то есть не сворачивать, то оба получат наихудший результат. Кажется, что будет лучше свернуть в сторону. В этом случае оба получат хороший результат, но никто не хочет сворачивать первым, так как получит всего 1 очко, а соперник — 5.
Эту игру можно анализировать с точки зрения сотрудничества: если игрок сворачивает, это можно рассматривать как сотрудничество, если не сворачивает — как соперничество, и если оба игрока сотрудничают, то получают хороший результат. Возможно, важнее всего то, что игра представляет собой своего рода переговоры, в которых каждый участник пытается пойти на уступки как можно позже и тем самым заставить оппонента действовать «разумно» (иными словами, свернуть в сторону), чтобы избежать столкновения.
Другая отличительная черта этой игры — убедительное объявление своей стратегии до начала игры. Например, один из игроков может демонстративно заблокировать руль, чтобы заставить соперника применить противоположную стратегию, заставив его свернуть, чтобы избежать столкновения.
И эта игра, и дилемма заключенного показывают, как сложно найти решение в подобных ситуациях, когда возможно как соперничество, так и сотрудничество, и что ситуация будет менее острой, если сразу обозначить антагонизм между общими интересами группы и краткосрочными интересами отдельных лиц.
Игры, которые рассматриваются в теории игр, применимы во множестве различных ситуаций. Как правило, они часто встречаются в экономике, политике и военном деле — именно эти сферы изначально стимулировали развитие теории игр. Несмотря на это, со временем теория игр начала применяться в других областях, которые изначально казались очень далекими от понятий «сотрудничество» и «соперничество». Это относится к естественным наукам, в частности к экологии и эволюционным теориям.
Ранее считалось, что принятие решений — прерогатива только разумно мыслящих существ и, следовательно, о теории игр можно говорить только в связи с человеческой деятельностью. Однако Джон Мейнард Смит в 1978 году показал, что теория игр также применима к некоторым видам животных, которые выбирают коллективные стратегии поведения, чтобы поддерживать и улучшать развитие. Это пример не индивидуального, а коллективного поведения, которое может повлиять на биологический вид в целом. Борьбу вида за выживание можно рассматривать как соперничество, в рамках которого определенные действия отдельных особей могут привести к вымиранию остальных. Аналогично «альтруизм» отдельных особей может оказаться для них смертельным, но принесет выгоду для вида в целом.
Джон Мейнард Смит сформулировал дилемму ястребов и голубей, которую можно считать вариантом игры «Струсил — проиграл». Когда два животных сражаются за добычу, как правило, оба действуют агрессивно и пытаются нанести увечья противнику. Когда схватка вот-вот начнется, возможны два варианта: отступить, потеряв добычу, но сохранив жизнь (так поступают голуби), либо драться до победы и, возможно, потерять жизнь (так действуют ястребы).
Допустим, что в сообществе голубей появляется небольшая группа ястребов. Изначально численность ястребов будет расти, так как их стратегия более выгодна (всякий раз при встрече голубя и ястреба победителем будет выходить ястреб). По мере роста численности ястребов число стычек между ними будет возрастать, а значит, увеличится и урон, который они будут наносить друг другу. Со временем сформируется определенное равновесие между ястребами и голубями. Именно так происходит и в реальном мире.
С учетом вышесказанного Смит создал игру, присвоив платежи различным действиям ястребов и голубей. Платежи перечислены в следующей матрице:
Платежи были определены по следующему принципу: достижение цели (добычи или самки) оценивается в 10 очков, увечья приносят -20 очков. В схватке между ястребами выигрыши и проигрыши чередуются, в среднем каждый из участников получает -5 очков. В схватке ястреба с голубем победителем всегда выходит ястреб (10 очков), голубь отступает (0 очков). В схватке двух голубей пострадавших нет, но голуби тратят время и подвержены ненужному риску, поэтому Смит оценил эту ситуацию в -3 очка. В схватке между голубями победитель получает 10 - 3 = 7 очков, проигравший получает -3 очка, поэтому в среднем каждый получает 2 очка.
Джон Мейнард Смит — английский эволюционный биолог и генетик, который применял математические методы и, в частности, теорию игр при изучении эволюции.
Он учился в знаменитом Итонском колледже, затем изучал инженерное дело в Тринити-колледже Кембриджского университета. С юных лет он был членом коммунистической партии, но покинул ее в 1956 году после советского вторжения в Венгрию. Он достаточно быстро сменил сферу научной деятельности и занялся генетикой в Университетском колледже Лондона. Там же он преподавал зоологию и в 1958 году опубликовал научно-популярную книгу «Теория эволюции», ставшую чрезвычайно известной. С 1962 года работал в университете Суссекса, одним из основателей которого он являлся. В 1973 году внес свой основной вклад в теорию игр, сформировав концепцию эволюционно стабильной стратегии. Кульминацией его исследований в этой области стала книга «Эволюция и теория игр», вышедшая в 1982 году, в которой он описывает известную игру «Ястребы и голуби». В 1977 году был избран членом Лондонского королевского общества. В 1986 году получил медаль Дарвина. Европейское общество эволюционной биологии учредило премию для молодых исследователей, носящую его имя.
На основе этой игры Смит ввел понятие эволюционно стабильной стратегии, подавляющей любую возникающую мутацию. Смит показал, что популяция, состоящая только из голубей, равно как и только из ястребов, не является эволюционно стабильной. Смит отметил, что в соответствии с платежной матрицей игры в эволюционно стабильной популяции доля ястребов составит 8/13, доля голубей — 5/13. Иными словами, при таком соотношении популяция будет защищена от резкого роста численности ястребов или голубей. Правильность этого утверждения можно подтвердить, но применить его на практике несколько сложнее. Можно считать, что 8/13 популяции несут в себе ген ястреба, который определяет соответствующее поведение.
В описанной модели очевидно, что ни одна из двух стратегий не является удовлетворительной: ястребы всегда одерживают верх над голубями, но проигрывают в схватках между собой, а голуби не получают увечий в схватках между собой, но всегда уступают ястребам. Необходима независимая сторона, которая снизит число схваток между ястребами и в то же время запретит им с выгодой для себя использовать поведение голубей, сократив число агрессивных стычек. Подобная стратегия называется буржуазной.
По мере того как теория игр находила применение во все новых областях, а ее понятия получали все новые трактовки, Роберт Аксельрод применил теорию эволюции к самой теории игр, изучив кооперативные стратегии при многократном повторении одной и той же игры (эксперимент описан в разделе, посвященном дилемме заключенного).
Ранее мы говорили только об играх для двух лиц. В примерах речь шла о двух людях, двух компаниях, двух армиях или двух группах, но при любом соперничестве или сотрудничестве всегда рассматривались только две стороны. Таким образом, формирование альянсов между двумя и более игроками с целью улучшить результат в ущерб остальным было невозможно. В знаменитой работе фон Неймана и Моргенштерна «Теория игр и экономическое поведение», которая неоднократно упоминалась ранее, впервые рассматривались игры для n лиц и было представлено решение для игр подобного типа.
Чтобы объяснить основные понятия, введенные фон Нейманом и Моргенштерном для подобных игр, и уяснить предложенное ими решение, рассмотрим упрощенный пример из экономики. Три компании А, Б и В имеют равную стоимость в 1 евро. Любая компания может образовать альянс с другой. При образовании альянса его стоимость увеличивается на 9 евро. Стоимость альянса двух компаний — 11 евро, трех компаний — 12 евро. Допустим, что все три компании равноценны во всех смыслах. Какой альянс будет выгоднее и как нужно будет распределить полученную выгоду?
Говорят, что эта игра записана в характеристической форме: стоимость игроков и их коалиций определена, образованная коалиция действует как новый игрок, заменяющий отдельных членов коалиции, следовательно, в этой ситуации можно применять методы, рассчитанные на игры для двух игроков. Предполагается, что коалиция стремится увеличить собственную выгоду. Как показано в прошлой главе, если игра имеет нулевую сумму, то увеличение выгоды альянса возможно только за счет уменьшения выигрыша оппонента. Также предположим, что после формирования альянсов игра является полностью конкурентной.
Проанализируем задачу. Без образования альянсов каждая компания остается в начальных условиях и стоимость каждой по-прежнему равна 1 евро. Если три компании образуют альянс (общая стоимость 12 евро), то, учитывая симметричность ситуации, равномерным распределением выгоды, которое устроит всех участников, будет передача каждой компании 4 евро. Это обозначается тройкой (4, 4, 4). Возможно распределить выгоду и по-другому, но сумма платежей всегда будет равна 12 евро. Если альянс образуют две компании, например Б и В, третья (А) получает всего 1 евро, другие две — в сумме 11 евро. Одно из возможных распределений выгоды — (1; 5,5; 5,5).Так как в этом случае выгода двух компаний выше, чем в предыдущем, этот вариант кажется более вероятным.
Однако решение (1; 5,5; 5,5), которое кажется наиболее вероятным, нестабильно, так как компания А, не вступившая в альянс, может сделать предложение, например, компании Б, и обе получат выгоду, например (5, 6, 1). Теперь может вмешаться компания Б, которая предложит компании А уменьшить ее платеж в рамках альянса. С новым предложением также может выступить компания В. Это может происходить бесконечно. Сложно найти какое-то справедливое распределение, которое можно было бы считать решением игры.
Анализ игры для n игроков, проведенный фон Нейманом и Моргенштерном, показывает, что единственного оптимального решения не существует. Однако из анализа видно, что не всякое распределение может являться частью решения, поэтому нужно определить множество распределений, которые составят решение игры.
Для этого необходимо ввести понятие доминирования. Предполагается, что в описываемой игре за каждым предложением образовать альянс и разделить выигрыш следует новое предложение, причем новое распределение платежей будет не произвольным, а более оптимальным, чем предыдущее. Это означает, что должно присутствовать множество игроков, которые смогут сформировать новую коалицию, и соответствующее распределение платежей, при котором игроки получат строго большую выгоду, чем в прошлой коалиции.
Определив нужные понятия, мы можем сформулировать требования к множеству распределений, составляющих решение. Таких условий два.
1. Ни над каким распределением платежей, являющимся частью решения, не может доминировать другое распределение, которое также является частью этого решения.
2. Над любым распределением, которое не является частью решения, должно доминировать распределение, являющееся частью решения.
Фон Нейман и Моргенштерн считают, что при этих условиях предложенное решение, во-первых, не содержит внутренних противоречий, во-вторых, соответствует социально приемлемому поведению. Описанный метод можно применять с некоторыми ограничениями: так, игроки в любой момент времени должны одновременно и свободно обмениваться информацией.
Продолжим рассматривать игры для n игроков и проанализируем более сложные задачи. Предполагается, что игроки могут общаться между собой и заключать соглашения до начала игры. Как и раньше, наша цель — определить возможные коалиции и понять, при каких условиях достигается такое распределение выгоды, при котором все участники удовлетворены и хотят остаться в коалиции.
Три предпринимателя, Анна (А), Борис (Б) и Василий (В), заключили удачную сделку, и им нужно распределить полученную прибыль — 200000 евро. Они решают разделить деньги простым большинством: каждая персона имеет один голос, никаких других ограничений не накладывается. Существует четыре возможных коалиции, которые могут получить большинство: АБВ, АБ, АВ и БВ. Однако внутри каждой коалиции прибыль может быть распределена множеством способов.
Анна предлагает разделить деньги так: А = 68 000 евро, Б = 66 000 евро, В = 66 000 евро. Борис предлагает по-другому: А = 60 000 евро, Б = 70 000 евро, В = 70 000 евро. Этот вариант больше устраивает и Бориса, и Василия, который предлагает третий вариант: А = 70 000 евро, Б = 0 и В = 130000 евро. Этот вариант выгоднее не только для Василия, но и для Анны. Как и в примере из прошлого раздела, игроки могут выдвигать новые предложения снова и снова, и непохоже, чтобы существовала коалиция, выгодная для всех троих. Точки равновесия не существует, поскольку для любого предложения может последовать новое, которое будет более выгодным для каждого игрока в новой коалиции.
В кооперативных играх решением называется альянс и соответствующее распределение платежей, которые будут стабильны, то есть будут гарантировать согласие всех членов коалиции.
Допустим, что в прошлом примере предприниматели решили разделить прибыль согласно сделанным вложениям. Таким образом, Анна имеет 5 голосов, Борис — 3, Василий — 1 голос. Теперь большинство могут получить следующие коалиции: АБВ, АБ, АВ, А.
Анна имеет большинство, поэтому она может присвоить все деньги себе: А = 200000 евро, Б = 0 и В = 0. Распределение будет несправедливым, но стабильным. Анна согласна с таким решением, а образовать альянс без нее невозможно. Следовательно, приведенное решение удовлетворяет всем необходимым условиям, которые мы определили выше.
В подобных играх ценой игры называется платеж, который гарантирован каждому игроку, если тот будет действовать рационально, и не зависит от решений остальных участников. В примере 1 никому из них не гарантирована какая-либо сумма. Следовательно, ценой игры будет А = 0, Б = 0 и В = 0. Напротив, во втором примере ценой игры будет А = 200 000, Б = 0 и В = 0.
Усложним ситуацию еще больше, чтобы сделать ее более реальной. По результатам выборов 81 кресло в парламенте было распределено между пятью партиями следующим образом: А = 33, Б = 24, В = 15, Г = 6, Д = 3. Ни одна из партий не имеет абсолютного большинства (41 кресло), и для формирования правительства необходимо образовать коалицию. Эта коалиция займется распределением бюджетов и установит нужные обязанности. Партии имеют схожую идеологию, и предполагается, что мера ответственности определяется подконтрольным бюджетом. Кроме того, предполагается, что никто не будет нарушать процедуру голосования.
Из всех возможных альянсов (1 из пяти партий, 5 из четырех, 10 из трех, 10 из двух и 5 из одной) нам важны лишь 16 (они будут иметь минимум 41 кресло в парламенте). Так как ни одна партия не имеет большинства, цена игры для каждой партии равна 0, так как ни одна из партий не должна обязательно входить в состав коалиции, которая сформирует новое правительство.
Этот американский математик и экономист внес фундаментальный вклад в теорию игр. Он изучал математику в Гарвардском университете, откуда выпустился в 1948 году после службы в армии и участия во Второй мировой войне в звании сержанта. Затем он в течение года работал в корпорации RAND и в 1953 году получил степень доктора в Принстонском университете, где в то время работали создатели теории игр. Затем он вернулся в RAND, где проработал до 1981 года, после чего занял должность профессора в Калифорнийском университете (UCLA). Уже в своей докторской диссертации он ввел некоторые значимые понятия теории игр, например вектор Шепли. На протяжении всей своей долгой научной деятельности он публиковал и продолжает публиковать исследования по этой тематике. Является членом Национальной академии наук США с 1979 года. Лауреат множества премий, среди которых премия фон Неймана (1981).
Для подобных ситуаций экономист и математик Ллойд Шепли предложил распределение, пропорциональное числу возможных выигрышных коалиций, в которых данный игрок имеет определяющую роль (без него альянс не наберет нужного числа голосов). Платеж, получаемый каждым игроком, называется значением Шепли. Игрок не играет определяющую роль в коалиции, если его участие не обязательно для победы этой коалиции.
В нашем примере в альянсе, образованном всеми пятью партиями, ни одна из них не играет определяющую роль. Например, в коалиции БВГД партии Б и В играют определяющую роль: без их участия коалиция не наберет большинство (без партии Б коалиция будет иметь лишь 24 места, без партии В — 33). Напротив, Г и Д не играют определяющей роли: если одна из этих партий покинет коалицию, та сохранит большинство (без партии Г коалиции будет принадлежать 42 кресла, без партии Д — 45). Число коалиций, в которых определяющую роль играют те или иные партии, представлено в таблице ниже
Теперь мы можем распределить бюджет согласно модели Шепли. Допустим, что коалиция образована всеми партиями, и в их распоряжении находится бюджет в размере 2,6 млрд евро. Распределение по модели Шепли (в миллионах евро) выглядит так:
А = 1000,
Б = 600,
В = 600,
Г = 200,
Д = 200.
В любом другом альянсе каждая партия-участник получит часть общего бюджета согласно этим же правилам, и полученная сумма никогда не будет меньше полученной в составе этой коалиции. Это не единственное стабильное распределение, но для любой коалиции распределение, выполненное подобным образом, будет наиболее стабильным, и не будет способа, при котором суммы платежей для участников коалиции будут больше.
Метод фон Неймана, равно как и метод Шепли, показывает следующее: с одной стороны, решением является не единственное распределение, а множество распределений; с другой стороны, мы можем найти множество характеристик, которые помогут понять, является ли данное распределение частью «решения» или нет.
По прочтении двух последних глав читатель заметил, что чем сложнее анализируемые ситуации (и в то же время чем они ближе к реальности), тем менее категоричны математические методы, используемые при решении. Это не означает, что какое-то решение будет более корректным, чем другое. Это значит, что реальные ситуации, в которых сочетается сотрудничество и соперничество, обладают индивидуальными отличительными свойствами. Поэтому в применяемых математических методах нужно учитывать, что их корректность будет зависеть от данных конкретных свойств.