1. 简述囚徒困境及其在经济学上的意义
都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。网上太多了~
2. 论述囚徒困境中两个囚徒之间的博弈过程(西方经济学)
囚徒困境可以简单的用图上的表格表示出来,
针对甲而言,如果乙选择了沉默,则对于甲而言,选择沉默是判罪一年,如果坦白,是立即获释;
如果已选择了认罪,则对于甲而言,选择沉默是判罪十年,选择坦白,是判罪一年。
因此,无论乙做何种选择,甲的最优策略只有选择坦白。
同理,无论甲做何种选择,乙的最优策略也只有选择坦白。
所以,囚徒困境的纳什均衡就是甲乙都选择坦白。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。该例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
3. 试用反应函数法找出囚徒困境的纳什均衡
试用反应函数法找出囚徒困境的纳什均衡
“囚徒困境”博弈是完全信息静态博弈的典型例子,被认为是上策纳什均衡,具有必 然性,但在现实中非纳什均衡也同样出现。本文就“囚徒困境”中非纳什均衡出现的问题, 对博弈的前提假设完全理性、完全信息以及概率进行了分析,得出的结论是:完全理性中的 整体思维方式和概率为零的事件的发生以及完全信息等于一致信念时引起的不确定性,都可 能导致非纳什均衡出现,而其出现的可能性则取决于采取
整体思维方式的人的比例。 关键词:囚徒困境;完全理性;概率;完全信息;整体思维方式 the analysis about the probability and reasons of non-nash equilibrium in prisoners’ dilemma “囚徒困境”博弈是图克(tucker)1950 年提出的一个著名的博弈模型,是完全信息静态博 弈的典型例子。 一、 “囚徒困境”博弈及其纳什均衡 囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证 他们所犯的罪行。 如果其中至少有一人供认犯罪, 就能确认罪名成立。 为了得到所需的口供, 警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如 果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判 1 年徒刑;如果两人中有一人 坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判 8 年徒刑;如果两人同时坦白 认罪,则他们将被各判 5 年监禁。 如果分别用-1、-5 和-8 表示罪犯被判刑 1 年、5 年和 8 年的得益,用 0 表示罪犯被立即 释放的得益,则两囚徒的得益矩阵如下: 囚 徒2 坦白 不坦白 囚徒 1 坦白 -5,-5 0,-8 不坦白 -8,0 -1,-1 在上图中, “囚徒 1” 、 “囚徒 2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各 自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人 在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同, 我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒 1 的得益,第二个数字代表决策结果后囚徒 2 的得益。 博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及 同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想 的结果 (各判 5 年) , 并且这个结果具有必然性, 很难摆脱, 因此这个博弈被称为 “囚徒困境” 。 [1] 二、 非纳什均衡出现的可能性及其原因分析 1、完全理性与非纳什均衡 囚徒困境博弈的一个假设是博弈方具有完全理性的行为能力。完全理性来源于经济学中的理 性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错 误” 。以个体利益最大为目标被称为“个体理性” ,有完美的分析判断能力和不会犯选择行为 的错误称为“完全理性” 。具体地说来,完全理性包括追求最大利益的理性意识、分析推理能 力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完 美就不属于完全理性。 [1]我们可以看出,这是一个要求非常严格的假设。即便如此,完全 理性仍在一个方面没有做出规定(至少是没有意识到或明确地规定出来) ,就是思维方式,也 即是博弈方是以将问题分解的方式来思考问题呢,还是以系统的整体的方式来思考问题的。 我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。 自幼我们就被教导把问题加以分解,把世界拆成片片段段来理解。这显然能够使复杂的问题
容易处理,但是无形中,我们却付出了巨大的代价——全然失掉对“整体”的连属感,也不 了解自身行动所带来的一连串后果。于是,当我们想一窥全貌时,便努力重整心中的片段, 试图拼凑所有的碎片。但是就如物理学家鲍姆(david bohm)所说的,这只是白费力气;就 像试着重新组合一面破镜子的碎片,想要看清镜中的真像。经过一阵子努力,我们甚至干脆 放弃一窥全貌的意图。 现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获得证据,以使 囚徒获得应有的惩罚,囚徒的目的是“获取”最少的惩罚。双方的这种矛盾使得囚徒有串通 的倾向,为了离间两个囚徒,警察确立了模型中的规则(且不论这些规则和设置合不合理) 。 对每个囚徒来说,要想达到自身的目的,而不考虑整个模型设置的让双方都坦白的目的,很 显然是不行的。囚徒该如何选择呢?答案是不坦白。如果囚徒看出了该模型的目的,若选择 坦白,以自推人,对方也会选择坦白,必然落入警察的圈套,此所谓鹬蚌相争,渔翁得利。 当两博弈方都用整体思维来考虑这个问题时,相互配合 是其最好的选择,因为在完全理性 假设前提下,自己选择坦白而另一方选择不坦白,这种机会是没有的,这种饶幸心理也是取 不得的,剩余的只有要不都坦白,要不都不坦白,所以相互配合是其最好的选择,结果一定 是不坦白。此所谓兄弟阋于墙,外御其侮,这也是空城记能够唱成的原因。如果任何博弈方 不是采用系统的思维方式来思虑这个问题的,因为一方用分解的思维方式来思考囚徒困境, 他会选择坦白,那么另一方不管用什么思维方式来思考这个问题,选择坦白都是最好的,因 此其结果必然是都坦白。 为什么分解思维方式在这儿会犯错误呢?问题在于 1+1=2。1+1=2 大家不会有任何的质疑, 依照逻辑,n 个 1 相加等于 n,大家也一样不会有疑问。举个例子,把一块砖放在另一块砖的 上面,这是大家很容易接受也很容易办到的事情,但万丈高楼却不是一块砖一块砖地盖起来 的,大家首先需要的是整体设计。我们回来说 1+1=2,在数学方面这是没有质疑的,但把它 运用到经济学领域,其逻辑是否就一定像在数学领域一样可靠?这其实要回到斯密,斯密当 年做出理性人的假设,从理论建设的角度来说,他是为了他的观点的成立。依靠这个大家从 不质疑的逻辑,他完成了他的看不见的手,但是市场失灵出现了,问题的原因一定程度上是 由于这个逻辑的可靠性。 从概率方面来说, 符合逻辑是一种可能, 不符合逻辑也是一种可能, 掷筛子(随机)同样是一种可能。斯密的理性人假设是为了把符合逻辑变成唯一的可能。但 当符合逻辑变成唯一的可能后,市场失灵仍然会出现。在《第五项修炼》上有一个啤酒的实 验例子,当情人啤酒的需求增长一倍后,大家(零售商、批发商和厂家)的理性反应却弄出来 一个痛苦的结局:情人啤酒堆积如山,不得不低价出售。这说明当符合逻辑变成唯一的可能 后,市场失灵仍然会出现。因此,1+1=2 的逻辑在经济学领域缺乏完全的可靠性。
4. 囚徒困境博弈对经济学的意义
个人最求利益最大化但在一个互动的世界中并不一定是最优!
5. 什么是经济学中的囚徒困境
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品。(回背叛)
与对答方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
6. 如何理解经济学中的囚徒困境与纳什均衡
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert
tucker)1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8
年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
7. 经济学中的“囚徒困境”是什么意思
囚徒困境中,每个人都知道自己的行为会影响到结果,所以行动都是strategic的。两内个情况的setting都不同,结论容当然有可能看起来矛盾。
ps 你可以试试假设第一定理里人们是strategic的,知道自己的决策会影响到均衡价格,哪怕只是微不足道的一小点,整个情况就变了(当然需要假设总人数fixed),更接近monopolistic competition的情况。
8. 《囚徒困境》反映了什么经济学原理
囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人回最佳选答择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
9. 怎样理解囚徒困境与福利经济学第一定律的冲突
福利经济学第一定理是指经济主体的偏好被良好定义的条件下,带有再分配的价格均衡都是帕累托最优的。而作为其中的特例,任意的市场竞争均衡都是帕累托最优的。
囚徒困境两人都选择非合作,达到了纳什均衡状态。在这种纳什均衡条件下,每个人单方面地改变博弈策略都不能为自己带来更大的好处,因此双方都不会改变原有博弈策略。然而,从二人的总收益来讲,达到纳什均衡状态下的总收益显然不是最高的。囚徒困境下的纳什均衡符合了帕累托最优的情形,但显然这种帕累托最优对于整体利益来说没有达到最大化。
10. 经济学中的“囚徒困境”是什麽意思
囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
举个例子:
1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:
甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年
乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年