Теория игр: жизнь, Вселенная и всё остальное [Veritasium]
[музыка] Это видео о самой известной задаче в теории игр. Эта задача встречается постоянно, с ней сталкиваются конфликтующие страны, соседи по комнате, когда надо помыть посуду. Она даже легла в основу некоторых телешоу. Выбор стратегии здесь определяет итог: жизнь или смерть, война или мир, процветание или гибель планеты. А в механике этой игры мы можем обнаружить истоки удивительного явления в природе кооперации.
Глава первая. Происхождение дилеммы заключённого. 3 сентября 1949 года американский метео самолёт собрал образцы воздуха над Японией. В этих образцах были обнаружены следы радиоактивных веществ. Военно-морской флот туже подверг анализу образцы дождевой воды с кораблей и баз по всему миру и нашёл в них следы церия 141 и ИТ 91. Период полураспада этих изотопов составляет 1-д месяца, а значит, они появились совсем недавно. Причиной их образования могло стать только одно: ядерный взрыв. США в тот год испытаний не проводили, единственный возможный вывод - собственную ядерную бомбу разработал СССР. В ужасе ожидали уже давно военное превосходство, которого США достигли благодаря Манхэттенскому проекту, теперь исчезало. Проблема отношений Восточной Европы и США серьёзно усугубилась. Вероятно, повысилась угроза войны. Некоторым казалось, что лучший выход — это запустить ядерную атаку по Советскому Союзу, пока преимущество не утрачено окончательно. Выражаясь словами министра ВМС США Мэтью, стать агрессором ради мира. Автор теории игр Джон фон Нейман рассуждал: "Вы говорите, почему бы завтра не сбросить на них бомбу? А я: почему бы не сегодня?"
Вы говорите: "Сегодня в 5:00?" А я: "Почему не в час?" С ядерным оружием надо было что-то решать и быстро, но что? В 1950 году этим вопросом занялась корпорация Рен, американская исследовательская организация. Среди прочего они задействовали и теорию игр. В том же году двое математиков из Рен придумали новую игру. Они не подозревали, насколько она напоминает конфликт США и СССР. Сейчас эта игра известна как дилемма заключённого.
Давайте сыграем. Банкир с сундуком золота предлагает вам и второму участнику сыграть против друг друга в игре. Каждый получает выбор: сотрудничать или предать. Если вы оба решите сотрудничать, каждый получит по три монеты. Если только вы, то оппонент, решив вас предать, получит п монет, а вы ничего. Если от сотрудничества откажетесь, вы оба каждый получит по одной монете. Цель этой игры проста: получить как можно больше монет. Как бы вы поступили? Предположим, что второй игрок готов сотрудничать, можете последовать его примеру и получить три монеты. Если предадите, заработаете п, а значит это выгоднее. А что если второй решит предать вас? Вы либо не получите ни одной монеты, либо поступите так же и хоть одну, да, заработайте. Неважно, как поведёт себя соперник, лучшая стратегия - всегда отказываться от сотрудничества.
Если второй игрок рассуждает столь же рационально, он придёт к тому же выводу и не будет кооперироваться. Если вы оба следуете одинаковой логике, то оказываетесь в не самой оптимальной ситуации. Каждый получает монеты, но по одной, а не по три. По схожей логике и США, и СССР обзавелись десятками тысяч ядерных боеголовок, которых им хватило бы на то, чтобы уничтожить друг друга по несколько раз. Но поскольку ядерное оружие было у обоих государств, пустить его в дело они не могли.
А ведь на разработку стороны потратили около 10 триллионов долларов. Гораздо выгоднее было договориться и вообще больше не развивать соответствующие технологии. Получается, что страны действовали исключительно в собственных интересах, но ситуация ухудшалась для обеих. Дилемма заключённого - одна из самых известных во всей теории игр. В разных вариантах она рассматривается в тысячах опубликованных статей, отчасти из-за того, что встречается она повсюду.
Импалы в африканских лесах и саваннах подхватывают клещей, укусы которых грозят им инфекциями, параличом и даже смертью. Поэтому животным важно избавляться от этих паразитов. Хотя импалы чистятся сами, на теле остаются недоступные для них места, с которыми им пригодилась бы помощь сородичей. На то, чтобы почистить товарища, импалы тратят слюну, электролиты, время и внимание — и всё это ценнейшие ресурсы под жарким солнцем Африки, где в любой момент может объявиться хищник. Выгоднее всего для любой импалы никому не помогать. Но ведь каждый импала, в свою очередь, иногда нужно, чтобы кто-то помог почисти. Животным приходится выбирать: помогать другим или нет, иными словами: сотрудничать или предавать.
Если с любой другой импалы они видятся только один раз, то разумно никому не помогать, ведь встреченная импала никогда не поможет в ответ, так ради чего стараться? Но обычно дилемму заключённого приходится решать не один раз. Импалы проводят вместе день за днём. Ситуация повторяется из раза в раз, это серьёзно меняет условия задачи. Потому что играть в игру с дилеммой заключённого приходится не один, а много-много раз подряд. Если откажетесь от сотрудничества сейчас, оппонент поймёт вашу логику и в следующий раз поступит так же. Какова же самая выгодная стратегия, если в игре много раундов?
Глава вторая. Турнир. Вопросом о выигрышной стратегии задавался политолог. В 1980 году он устроил соревнование среди компьютеров. Он предложил лучшим специалистам по теории игр из разных областей написать компьютерные программы, которые могли бы сыграть друг с другом. Эти программы Аксельрод назвал стратегиями. Каждая из них должна была сразиться с остальными стратегиями и собственной копией. Каждая игра предполагала 200 раундов. Это ж демы нем за очки, но соотношение выигрышей было тем же и целью турнира было заработать как можно больше очков. Чтобы убедиться, что полученные результаты не какая-то единичная случайность, турнир повторили пять раз.
Аксельрод привёл пример возможной стратегии. Согласно ей каждый раз игрок начинал сотрудничество и выбирал предательство только когда оппонент поступит так два раза подряд. Другие стратегии случайным образом в половине случаев решают сотрудничать, а в половине предавать. Затем все стратегии загрузили в один компьютер, игра началась. Стратегия под названием "Фридман" сотрудничала до тех пор, пока оппонент хотя бы раз не выберет предательство, после чего больше не сотрудничала.
Другая стратегия, получившая название "Джос", в первом раунде выбирала кооперацию, а в каждом следующем - повторяла предыдущее действие противника. В каких случаях "Джос" решала мухлевать, выбирая предательство? Была одна хитрая стратегия. По сути, она вела себя как "Джос", но отказывалась от кооперации не с вероятностью 10%, а каждый пятидесятый раунд. Так она проверяла поведение оппонента и искала слабости, которыми можно воспользоваться. Самая хитроумная программа, стратегия под названием "Имя разглашается", состояла аж из 77 строк кода.
После завершения игр была составлена таблица. Вы будете поражены, но выиграла самая простая стратегия - программа, которая называлась "око за око". Сначала программа сотрудничает, а со второго раунда в точности повторяет предыдущий выбор соперника, то есть сотрудничает или предаёт в зависимости от того, что противник сделал в прошлом раунде. Если потом противник снова решит сотрудничать, программа поступит также. В игре стратегии "Фридман" и "око за око" обе программки до самого конца выбирали сотрудничество и набирали максимально возможное при кооперации количество очков.
В другой игре "око за око" против "Джос" последняя отказалась от кооперации на шестом раунде, и обе программки начали чередовать сотрудничество и предательство. Получился этакий каскад реакций, что напоминает мне некоторые современные политические игры: мы отомстим за то, как вы поступили. Но когда "Джос" второй раз безо всяких причин, в неожиданный момент, выбирает предательство, дело становится совсем плохо. Теперь обе программы до конца игры ни разу не сотрудничают.
Что вообще-то тоже немного напоминает современную политику и международные отношения. В результате этой цепочки, место друг другу обе стратегии набирают совсем не впечатляющие баллы. Но благодаря тому, что со многими другими программами "око за око" благополучно установила сотрудничество, она заняла первое место. И вот к нам подключается. Боже, это ведь сам профессор! А это сюрприз.
Поначалу казалось, что прямо как с шахматами для сложной игры потребуется сложная программа, но выяснилось, что ничего подобного. Лучше всего себя показала самая простая стратегия. Я решил разобраться, почему так вышло. Аксельрод выяснил, что все самые успешные стратегии, включая "око за око", обладали четырьмя качествами. Во-первых, это были добрые программы. Они никогда не предавали первыми. "Око за око" - раз из таких.
Она могла отказаться от сотрудничества, но только в качестве ответного шага к злым программам. К злым отнесём те, которые могут сделать это первыми. То есть "Джос", например, злая стратегия. Из пятнадцати стратегий восемь были добрыми, а семь - злыми. Первые восемь мест в турнирной таблице заняли добрые программы. К тому же между самой неудачной доброй стратегией и самой успешной злой был огромный разрыв по баллам. Второе важное качество — способность прощать. Такие теги могут отказа от сотрудничества, но быстро забывают плохое.
Что свойственно программе "око за око". В ответ на предательство она поступала также, но на последующее решение это никак не влияло. Стратегия "Фридман", напротив, прощать не умела совсем. Стоило сопернику единожды предать, эта стратегия поступала так в каждом раунде до конца игры. Вот так-то кап милосердия может и не дойти. Она работает не лучшим образом. Специалисты очень удивились, когда увидели, что выгоднее быть добрым и милосердным.
Создатели многих стратегий выдумывали, как держать верх, разнообразными хитростями и трюками. Но из этого ничего не получилось. Хорошие парни в этом турнире оказались на высоте. Однако возможно и более не злопамятные программы, чем "око за око". Стратегия, которую придумал Аксельрод в качестве образца, отказывается сотрудничать только после двух предательств подряд. Так сказать, "око за два око". Возможно, это звучит уж слишком великодушно, но, посмотрев на результаты, Аксельрод выяснил, что если бы кто-нибудь прислал ему подобную программу, то она и стала бы абсолютным победителем.
Это же невероятно глубокая история. Когда Аксельрод опубликовал результаты, точнее поделился ими с участниками всей этой затеи, он предложил: "Раз уж теперь все знают, как и что работает, давайте проведём второй турнир". Все правила оставались прежними, менялось только одно условие: количество раундов. В прошлый раз в каждой игре было 200 раундов, ни больше, ни меньше. Это важное обстоятельство: если вы знаете, что раунд последний, то понимаете, что смысла выбирать сотрудничество нет. Можно и предать.
Оппонент тоже это понимает и тоже решит вас предать. Однако если оба игрока предполагают, что оппонент выберет этот вариант, смысл сотрудничать и в предпоследнем раунде, как и в предыдущем, и так далее вплоть до самого первого. В турнире Аксельрода было важно сделать так, чтобы игроки не знали, какой раунд станет последним. Примерное количество было известно - около 200, но был и генератор случайных чисел для некоторой неопределённости. Да, если не знать, когда игра закончится, придётся сотрудничать, потому что заранее ссориться как-то не хочется.
На второй турнир Аксельрод получил 62 стратегии и добавил ещё одну случайную. На этот раз в разработке новых программ можно было использовать известные результаты первого турнира. Участники разделились на два лагеря. Некоторые решили положиться на то, что выгоднее быть добрым и незлопамятным и соответственно разработали стратегии, опираясь на эти качества. Кто-то даже предложил программу "око за два око".
Другие же просчитали, что многие выберут стратегию кооперации, проще разработали злые программы, которые будут этим пользоваться. Одна из таких стратегий называлась "тестер". На первом ходу она отказывалась от кооперации, чтобы посмотреть, чем ответит оппонент. Если противник тоже отказывался от сотрудничества, программа переключалась на стратегию "око за око", а если нет, то каждый второй ход она выбирала предательство.
Но хитрости снова не сработали. Выигрышной снова оказалась стратегия "око за око". Добрые снова показали себя лучше. Среди п лучших была лишь одна злая стратегия, а среди последних п только одна добрая. После второго турнира Аксельрод определил оставшиеся два качества более эффективной стратегии. Итак, третье - готовность нанести ответный удар. Реагировать на предательство надо немедленно. Нельзя быть тряпкой. В нашем случае это значит, что нельзя постоянно сотрудничать. Лег, этим воспользоваться. Стратегия "око за око" такой возможности почти не даёт.
Последнее качество успешной стратегии - ясность. Слишком туманную логику программы, похожую на случайный выбор, не получится понять. Это слишком сложно, поэтому не выходит установить нужный уровень доверия. Неясно, от чего зависит поведение, в смысле не для нас, а для той программы, с которой она играет. В таких случаях другие программы решали, что каждый раунд последний, и делали выбор в пользу предательства.
И вот что поразило лично меня: эти четыре качества - доброта, способность прощать, готовность к ответному удару и ясность. Это же очень похоже на систему морали, которую по всему миру как раз и называют "око за око", и это ведь не что-то христианское. Не подставь другую щёку. Это нечто более древнее.
Глава третья. Эмерджентность. "Око за два ока", которая стала бы чемпионом в первом турнире, во втором не поднялась выше двадцать четвёртого места. Отсюда следует важная мысль: если дилемму заключённого приходится решать много раз, невозможно выбрать лучшую стратегию. Выбор всегда зависит от того, какой стратегии придерживается оппонент. Например, если программа "око за о" будет играть против оппонентов, которые предают, она окажется на последнем месте. Я хотел выяснить, чем объясняется успех этой программы.
А вдруг "око за око" побеждает только за счёт того, что играет против определённого типа соперников? Аксельрод создал модель, в которой успешные стратегии с каждым поколением разрастались. Каррингтон Так называлась единственная злая стратегия среди 15 лидеров. Сначала показывала впечатляющий рост, а затем, когда отпали стратегии, которых она легко обыгрывала, быстро сама сдала позиции. Здесь хорошо видно, чем полезна эта модель. Она демонстрирует, насколько успешна конкретная стратегия по сравнению с другими. Успешные спустя тысячу поколений соотношение стратегий устаканится.
"Око за око" охватившее около 14,5% населения. Это всё очень напоминает эволюцию. Но есть одно отличие: в нашем случае нет никаких мутаций, что больше похоже на экологические процессы. Но что если начальные условия будут иными? Представьте себе мир, в котором очень неприятно жить. Его обитатели постоянно предают друг друга, за исключением небольшой группы тех, кто руководствуется принципом "око за око". Они очень много играют друг с другом, потому что живут особняком.
Они получают много очков. А поскольку их потомки наследуют те же принципы, среди общего числа обитателей их начнёт становиться всё больше. Аксельрод продемонстрировал, что очаги сотрудничества могут возникать и разрастаться. А в конечном итоге захватывать мир. И это просто восхитительно, как же среди игроков, каждый из которых думает только о себе, может возникнуть кооперация, если они даже не пытаются в силу личных качеств вести себя хорошо.
Здесь нет необходимости в альтруизме, исключительно в своих интересах, и это совсем не обязательно помешает им сотрудничать. Есть мнение, что этим объясняется переход от мира, полного эгоистичных организмов, где каждый забо только о себе, к кооперации от импал, спасающихся акул. Многим видам знакомы проблемы, похожие на дилемму заключённого. Но поскольку они сталкиваются друг с другом больше одного раза, всем им выгоднее сотрудничать. Для этого не нужны ни доверие, ни сознательные размышления. Кооперация может быть записана в ДНК.
Пока такая стратегия выгоднее других, у неё есть шанс захватить мир.
Глава четвёртая. Как это применять. Выводы Аксельрода искали приложения в разных областях: от эволюционной биологии до международных отношений. Но оставался аспект, который его турниры никак не охватывали. Что если в игре будет элемент случайной ошибки, этакий шум в системе? Например, один игрок хочет сотрудничать, но оппонент думает, что это предательство. Подобные искажения в реальном мире не такая уж редкость. Например, в 1983 году советская спутниковая система раннего обнаружения зафиксировала пуск межконтинентальной баллистической ракеты.
Однако США не проводили никаких пусков. За ракету система приняла солнечные лучи, которые отражались от облаков в верхних слоях атмосферы. К счастью, дежурный офицер Станислав Петров проигнорировал тревогу. Однако эта ситуация неплохо демонстрирует, какова может оказаться цена ошибки в сигнале и как важно обращать внимание на шум в этих стратегиях. Когда мы говорим "игра", кажется, что речь идёт о каких-то детских развлечениях. Похоже, называть это теорией игр вообще некорректно, ведь речь о вопросах жизни и смерти.
Как раз как в том эпизоде времён Холодной войны может встать вопрос о жизни и смерти всей планеты. Может появиться риск уничтожить всё человечество. В общем, речь совсем не об играх в каком-то обыденном смысле. Но этим термином пользуются математики и специалисты. Если "око за око" играет против такой же программы, при наличии обе начинают сотрудничество. Но если хотя бы раз сигнал о кооперации воспринимается неверно, вторая программа ответит тем же, и тогда запускается целая цепочка взаимных предательств.
Если такое недопонимание случится ещё хоть раз в долгосрочной перспективе, каждый из них заработает только треть очков, которые могли бы получить, и "око за око" покажет себя совсем не такой уж блестящей стратегией. Что же с этим делать? Нужен способ разорвать этот круг ответных реакций. Можно, например, заложить в стратегию "око за око" на 10% больше прощения. Тогда программа будет отвечать предательством на предательство не каждый раз, а лишь в девяти случаях из десяти. Таким образом, ошибка исправится, но стратегия не станет излишне мягкой.
В турнире с добавлением ошибок более милосердна "око за око" показало себя очень неплохо.
Глава пятая. Большое заблуждение. Больше всего мне нравится, что стратегия "око за око" демонстрирует успехи, но никогда не получает больше очков, чем её оппонент. Только задумайтесь, "око за око" либо проигрывает, либо выходит в ничью. Но при этом в конце концов именно эта стратегия обходит все остальные. Программа, которая всё проиграет, только выйдет в ничью или выиграет, но по итогам покажет себя очень плохо. Поэтому очень многие заблуждаются, когда считают, что ради победы нужно обязательно обыграть другого.
В шахматах и покере так и есть, когда один побеждает, второй проигрывает. Это игры с нулевой суммой. Но в жизни такое встречается редко. Для победы не обязательно забирать награду у соперника. Чаще победу мы получаем от банкира. А кто этот банкиря? Буквально всё, что нас окружает. Наше дело - находить ситуации, в которых выигрывают все и добывают награду вместе. Кооперация выгодна даже конкурентам.
С 1950 по 1986 годы США и СССР не сотрудничали и наращивали ядерный потенциал. Но с конца восьмидесятых они договорились сокращать запас ядерных. Они нашли способ разрешить конфликт. Вместо того, чтобы разом избавиться от всего ядерного оружия и свести вопрос к одной дилемме заключённого, две страны решили постепенно, год за годом, отказываться от небольшой части вооружения и проверять друг за другом соблюдаются ли договорённости, а через год повторить то же самое. А потом ещё через год. Каждый раз проходит больше лет, до сих пор изучается вопрос о том, какие стратегии лучше в каких обстоятельствах.
Исследователи пробовали разные условия, применяли разнообразные схемы вознаграждения и учитывали всевозможные ошибки. Некоторые даже допускали мутации в стратегиях "око за око" и "око за два ока". Не всегда приводят к победе, но основные выводы Аксельрода не потеряли актуальности. Проявляя доброту, не держи зла, будь готов дать отпор. Можно спросить, прислал на турнир "око за око", потому что я его об этом попросил. Он ответил: "Конечно, напишу такую программу. Но скажу сразу: стратегия, как мне кажется, так себе".
Он исследовал вопросы мира и, думаю, сам он лично склонялся к большему милосердию, был против жёсткой ответной реакции. Что один из параметров, который отличает живую природу от неживой, это способность принимать решения. Мы можем совершать выбор, эти решения меняют будущее не только для нас, но и для тех, с кем мы общаемся. На небольших временных отрезках часто окружающие условия определяют, кто из игроков победит.
Но в долгосрочной перспективе игроки решают, каковы будут условия. Давайте играть в игру под названием "жизнь" и принимать мудрые решения, потому что не знаем, кого и где они могут затронуть.
Переведено и озвучено студией Верт Дайдер.