,但却很好地反映了非合
作博弈的根本特征,而且这个博弈模型正是解释众多经济现象,研究经济效率问题的
非常有效的基本模型和范式.该博弈模型提出后曾引发了大量的相关研究,对博弈论
的发展起了不小的推动作用.故事如下:
警察抓住了两个罪犯,但是警察局却缺乏足够的证据指证他们所犯的罪行.如果
罪犯中至少有一人供认犯罪,就能确认罪名成立.为了得到所需的口供,警察将这两
名罪犯分别关押,防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和
面临的选择:如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判一年徒
刑;如果两人中有一人坦白认罪,则坦白者立即释放而另一人将重判10年徒刑;如
果两人都坦白认罪,则他们将被各判8年监禁.问:两个罪犯会如何选择(即是坦白
还是抵赖)?
下面可将整个博弈过程的结果用一矩阵形式表示出来.这种矩阵称为博弈的“得
益矩阵(支付矩阵)(PayoffMatrix)”.
表31A与B的得益矩阵
囚徒B
坦白
不坦白
囚徒A坦白(-8,-8)(0,-10)
不坦白(-10,0)(-1,-1)
可见1对于囚徒A来说囚徒B有“坦白”和“不坦白”两种可能的选择.如果B选择“坦白”则对A来说“不坦白”得益为10“坦白”得益为8.如果B选择“不坦白”则A“不坦白”得益为1“坦白”得益为0.若A只考虑自身的利益则“坦白”为他的最优选择.
2同样的对于囚徒B来说囚徒A有“坦白”和“不坦白”两种可能的选择.如果A选择“坦白”则对B来说“不坦白”得益为10“坦白”得益为8.如果A选择“不坦白”则B“不坦白”得益为1“坦白”得益为0.若B只考虑自身的利
4
f益则“坦白”为他的唯一选择.
由于法庭对罪犯分别审讯,因而这个问题可以归结为非合作博模型
GNS1S2u1u2.其中局中人集合N121代表囚徒A2代表囚徒B.两个人具有相同的策略集合S1S2CD其中C代表坦白D代表抗拒的策略.对于策略组合ss1s2siSii12两个局中人的支付函数如下
8
u1
s1
s2
010
1
s1s2Cs1Cs2Ds1Ds2Cs1s2D
8
u2
s1
s2
010
1
s1s2Cs1Ds2Cs1Cs2Ds1s2D
由支付函数可以看出,囚徒A的最佳策略是坦白,囚徒B的最佳策略也是坦白,
故纳什均衡为(坦白,坦白).
在囚徒困境中,每个参与人都能猜出对方的策略,则称这种纳什均衡为纯战略纳
什均衡.
囚徒困境反映了一个很深的问题,这就是个人理性与集体理性的矛盾.即使两个
囚徒在被警察抓住之前r