囚徒困境(Prisoner’s Dilemma)是博弈論裡面最著名的模型,幾乎每一本關於博弈論的書籍都會提到這個模型。一般人可能不瞭解博弈論,但很有可能聽說過囚徒困境。
談論囚徒困境之前,先瞭解一些博弈論的基本知識。
博弈論(Game Theory),又譯為對策論、遊戲理論或賽局理論,是經濟學的一個分支,博弈論是對衝突與合作的研究,只要多個主體的行為相互依賴,博弈論概念就適用。這些行為主體可以是個人、團體、公司或這些的任意組合。博弈論的概念提供了一種語言來制定、建構、分析和理解戰略場景。
正式博弈論分析的最早例子是1838年古諾(Antoine Cournot)對雙頭壟斷的研究。數學家埃米爾·波萊爾(Emile Borel)在1921年提出了正式的博弈論,馮·諾依曼(John von Neumann)於1928 進一步發展了博弈論。1944年,馮·諾依曼和經濟學家奧斯卡·摩根斯坦 (Oskar Morgenstern) 出版了巨著《博弈論與經濟行為》(Theory of Games and Economic Behavior),博弈論作為一個獨立的領域而確立。這本書提供了許多至今仍在使用的基本術語和分析框架。
1950年,約翰·納什(John Nash)證明了有限博弈總是有一個均衡點,在這個點上,所有參與者都根據對手的選擇選擇最適合自己的行動。從那時起,非合作博弈論的核心概念一直是分析的焦點。在20世紀50年代和60年代,博弈論在理論上得到了擴展,並應用於戰爭和政治問題。自20世紀70年代以來,它推動了經濟理論的一場革命。此外,它還在社會學和心理學中得到應用,並與進化論和生物學建立了聯絡。博弈論在1994年受到特別關注,諾貝爾經濟學獎授予John Nash, John Harsanyi, and Reinhard Selten。
在20世紀90年代末,博弈論的一個引人注目的應用是拍賣設計。著名的博弈論專家參與了將電磁頻譜頻段的使用權分配給移動電信行業的拍賣設計。大多數這些拍賣的目的是比傳統的政府做法更有效地分配這些資源,並在美國和歐洲額外為政府籌集了數十億美元。
一個完整的博弈(遊戲)至少需要三個要素:玩家(Player)、策略(Strategy)和收益(Payoff)。玩家就是在博弈中作出決策的人,或者說就是玩遊戲的人。策略就是遊戲各方採取的行動。收益就是一個數字,也被稱為效用,它反映了玩家對結果的期望。
博弈論對人的基本假設(Assumption)是所有玩家都是理性的經濟人,這是大家所熟悉的主流經濟學對人性的假設。這個假設認為理性的玩家總是根據他對對手的預期,選擇一個能帶來他收益最大化的行動。
與其他博弈論模型不一樣,囚徒困境遊戲最初確實始於一個遊戲。它的第一次演示可能是在1950年1月由蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾設計的實驗中,這項實驗項目受到美國軍方的資助。在遊戲中,每個參與者都需要同時在不知道對方如何選擇的情況下從兩個行動中選擇一個,每個選擇都會獲得相應的收益(payoff),這種收益是參與者事先知道的。
而囚徒困境作為理論模型的探討則被認為是由R·鄧肯·盧斯和霍華德·雷法寫於1957年的《博弈與決策》這篇文章開始的。
囚徒困境故事的背景(Background of the story)
兩個嫌疑人分別被羈押起來,檢察官確定他們違反了某項法律,但並沒有足夠的證據在審判中將他們治罪。檢察官告訴兩個囚犯他們每個人都有兩個選擇:承認犯罪行為或者拒絕承認。如果他們兩個人都拒絕認罪,那麼檢察官聲明他將以一些較輕的捏造的指控對他們進行立案,比如輕微盜竊或非法持有武器,這樣兩人都將受到較輕的處罰(各坐牢1年);如果他們都認罪則都會被起訴,但檢察官將建議法庭從輕處罰(各坐牢5年);如果一個人承認而另一個人拒絕認罪,那麼認罪的人由於作為污點證人而受到寬大處理(坐牢0年,無罪釋放),另一個人則會受到嚴厲的處罰(坐牢20年)。
如上圖所示,博弈論一般用經典的收益矩陣(payoff matrix)來敘述這個故事。在這個收益矩陣裡面的A、B兩個人就是故事中的囚犯,他們各有兩種策略,承認(confess)或者拒絕承認(remain silent),裡面的資料代表兩個囚犯各自選擇策略的收益(前面是囚犯A的收益,後面是囚犯B的收益),比如(5,5)代表兩人都選擇承認,各自坐牢5年。總共有四種可能的情況出現,分別是(承認,承認)、(承認,拒絕)、(拒絕,承認)以及(拒絕,拒絕),對應的各自收益是(5,5)、(0,20)、(20,0)以及(1,1)。
現在來分析,兩個囚犯會怎麼作出選擇呢?博弈論是策略理論,決策者之間是相互影響的,所以每個參與人在作出決策的時候,必然要先考慮對方可能的決策。我們從囚犯A的視角出發來分析,A在做決策之前要思考B可能的決策是什麼,假設B選擇承認,那A的理性選擇也應該是承認,因為承認只需坐牢5年,而拒絕承認則要坐牢20年;同樣如果B選擇拒絕承認,那A的理性選擇還是承認,因為承認可以獲得無罪釋放,而拒絕承認,則坐牢1年。
所以不管B選擇什麼策略,A都會選擇承認,博弈論中將A的這種策略稱為佔優策略(Dominant strategy,不管對方選擇什麼策略,相比其他策略,某個策略總能帶來更好的收益,這個策略就是佔優策略)。當然如果我們從囚犯B的視角出發分析,同樣可以得出結論,不管A選擇什麼策略,B都會選擇承認,承認也是B的佔優策略。所以最終的結果(經濟學所謂“均衡”)是雙方都選擇承認,各坐牢5年。
那囚徒困境的“困境”是什麼呢?
囚徒困境模型的均衡解是雙方都選擇承認,非常符合主流經濟學個人理性選擇最終獲得一個均衡解的模式。但是這個均衡解並不是可欲的解,對於兩囚犯作為一個整體來說,最好的結果應該是雙方都選擇拒絕承認,這樣雙方各坐牢1年,相比其他結果都要好,但是個人理性的選擇,導致了集體的非理性結果,這就是困境所在。
這種困境引起了經濟學家的不安。現代主流經濟學基於兩個基本的信念建立起來的:一個是理性經濟人,一個是看不見的手。
理性經濟人最先由古典經濟學家穆勒提出來的,經濟學家認為人類各種動機裡面經濟動機是最重要的,將其抽象出來作為經濟學研究的對象,其目的是為了使經濟學這門學科變得更加的科學化,精準化,就如同物理學一般。所以理性經濟人其實是一種不完善的人或者說是狹隘的人,但是經濟學家認為這種抽象抓住了人行為的主要特徵,主流經濟學幾乎所有的高端理論(比如阿羅-德布魯的一般均衡理論)都是建立在這個假設基礎之上的。
而“看不見的手”則是由斯密提出來的,在《國富論》中,斯密寫到:
“我們每天所需要的食物和飲料,不是出自屠夫、釀酒師或面包師的恩惠,而是出自他們利己的打算。我們不說喚起他們利他心的話而說喚起他們利己心的話。每一個人……既不打算促進公共的利益,也不知道自己是在什麼程度上促進那種利益……他所盤算的也只是他自己的利益。在這種場合下,像在其他許多場合一樣,他受著一隻看不見的手的引導,會去盡力達到一個並非他本意想要達到的目的。他追求自己的利益,往往使他能比在真正出於本意的情況下更有效地促進社會的利益。”
斯密認為“看不見的手”指引著理性的個人追求自身利益的同時促進了公共利益。但是囚徒困境故事反駁了這一觀點,個人理性導致集體的非理性。所以經濟學家們挖空心思將囚徒困境進行拓展,期望獲得滿足這兩個基本假設的合宜均衡解。
上面的故事屬於一輪博弈,經濟學家認為多輪博弈的情況下,結果可能不一樣。多輪博弈有幾種情況,第一種情況是有限次數博弈,第二種情況是無限次數博弈,第三種是不確定次數博弈。如果是有限次數博弈,一般認為參與者都會選擇背叛(在囚徒困境故事裡面,將承認視為背叛,將拒絕承認作為合作),因為理性參與者在最後一次博弈中會選擇背叛,當然倒數第二次也會選擇背叛,推理到第一次雙方都會選擇背叛,所以有限次數的博弈結果和一次博弈是一樣的。但是在無限次數博弈或者不確定次數博弈的情況下,博弈雙方很有可能會選擇合作,因為如果選擇背叛,未來對方也肯定會進行報復,選擇背叛,雙方收益都會降低。
當然囚徒困境的故事如果將各種策略的收益改變,結果可能會不一樣。讀者可以嘗試一下。
囚徒困境作為最著名的經濟模型之一,不在於趣味性,而是在於其可拓展性。囚徒困境的應用場景非常多,以下是幾個常見的場景,讀者可以自己設計收益矩陣。
1 軍備競賽
二戰後的美蘇軍備競賽就是一種典型的囚徒困境。美蘇兩個國家可選擇的策略是增加軍備(背叛)、或是達成削減武器協議(合作)。作為理性的玩家,兩國理性的策略當然是增加軍備,因為如果己方合作,而對方增加軍備,那己方就會處於危險的境況中。當然結果是集體的非理性,古巴導彈危機差點爆發了第三次世界大戰,而且軍備競賽也讓兩國的經濟付出了很大的代價(尤其是蘇聯)。
2 貿易戰
歷史上發生過很多次貿易戰,最近一次比較著名的就是中美貿易戰。貿易爭端源起於美國總統唐納德·川普於2018年3月22日簽署備忘錄時,宣稱“中國偷竊美國智慧財產權和商業秘密”,並根據1974年貿易法第301條要求美國貿易代表對從中國進口的商品徵收關稅,涉及商品總計估達600億美元,以及設定其他貿易壁壘,旨在迫使中國改變其“不公平貿易行為”。隨後中國開始反擊。雙方都選擇了增加關稅(背叛),而不是遵守之前的關稅協定(合作),當然結果是雙方的經濟都受到傷害。
3 廣告戰
廣告在商業中是一種很常見的競爭手段,當然這也是一種典型的囚徒困境。假設兩家公司各有兩種策略:互相達成協議,減少廣告的開支(合作);增加廣告開支,設法提升廣告的品質,壓倒對方(背叛)。作為理性的廠商,佔優策略當然是增加廣告支出,同樣造成的結果是雙方大幅增加廣告支出,但市場佔有率幾乎沒什麼變化,同樣陷入困境。
4 價格戰
同廣告一樣,降低價格同樣是常見的商業競爭手段,但同樣容易陷入囚徒困境。假設兩家企業各有兩種策略:維持原價(合作),降低價格(背叛)。同樣降低價格是雙方的佔優策略,價格戰的結果是雙輸,兩家企業的市場份額沒有大的變化,收入卻變少了。所以價格戰是優秀企業避免使用的一種競爭策略。
5 卡特爾
卡特爾一般是幾家巨頭進行合謀限制產量提升價格,從而提高各方的利潤。最著名的卡特爾是中東的石油輸出國組織,競爭讓這些國家的石油收入下降了,所以他們組成了卡特爾。假設組成卡特爾之前石油價格是3美元一桶,卡特爾之後因為協議限產,石油價格變為10美元一桶。卡特爾成員國有兩種策略:維持協議的產量(合作),偷偷增加產量(背叛),作為理性的生產者,佔優策略當然是偷偷增加產量,結果是大家都增加產量,石油價格又下降到3美元一桶,各方收入又回到原來的狀態,所以卡特爾很容易陷入囚徒困境,是一種不穩定的組織。
6 公地悲劇
現實的博弈參與者不只一方,會有多方參與的囚徒困境,比如著名的“公地悲劇”。[公地悲劇(Tragedy of the commons),是一種涉及個人利益與公共利益對資源分配有所衝突的社會陷阱。這個詞起源於英國作家威廉·佛司特·洛伊在1833年討論人口的著作中所使用的比喻。1968年時,美國生態學家加勒特·哈丁在期刊《科學》將這個概念加以發表、延伸,稱為“公地悲劇”。而這個理論本身就如亞里士多德所言:“那由最大人數所共享的事物,卻只得到最少的照顧。”(wikipedia)]一塊公地比如草原,有很多的牧民,在沒有任何限制的情況下,牧民們的理性選擇是過度放牧(背叛),結果自然就是草原退化,大家的收益都降低,同樣陷入囚徒困境。
囚徒困境是一個經典的經濟學模型,也是著名的思想實驗,雖然“困境”的結論令人絕望,但不失為我們理解經濟事實一個很好的參考系。囚徒困境的現像在經濟社會中比比皆是,但是從歷史的眼光來看,“困境”來源於理性參與者的背叛,但人類並沒有一直陷入到這種困境中。原因在於人類在不斷地交往中發展出了一套信任的制度和習俗,長期來看人們懂得互惠互利的合作才是更好的選擇。 (ECONOMICS RULES)