【囚徒困境从单次博弈到重复博弈】-全球旧事资料库

囚徒困境从单次博弈到重复博弈

在第一阶段选择不坦白，在第二阶段选择坦白。重复三次的博弈均衡如表4。
当博弈重复4次的情况如下：
在t1阶段，类似于前面的讨论，囚徒1和囚徒2都将选择D，那么他们都没有暴露自己是理性的还是非理性的，那么在t2，3，4阶段的博弈和前面讨论的3次重复博弈的情况是一致的。
∴p，q≥014时，重复4次的博弈的均衡，如表5。
当博弈重复
T
次的情况：
类似的，如果p、q≥014，理性囚徒将t1到T1阶段选择D，在tT时阶段选择C，非理性囚徒将自始至终选择D。
如果这个博弈是无限期的，那么两个囚徒都将永远选择D，当然对于囚徒博弈来说不可能无限期的进行。
结论
在现实生活中也存在有多种冲突问题的模拟，如核裁军、工资谈判、传染病预防、企业广告投入等，特别是经济活动中，参加对策的各方利益并不是完全截然相反，而是由某种共同的利益联结在一起，形成既有对抗又有合作的复杂局面。比如两家公司组成的卡特尔，在短期内，他们就不会采取欺诈行为，而会共同规定一个价格，为争夺市场的份额此时博弈的双方只要他们相信今后还需要合作就一定会在第一次博弈的基础上达成新的协议，结成行业联盟。但它们就有可能定高价，使整个行业利润最大，此时由于行业的高利润和高发展前景，必然会不断出现新产品，必然会有新的生产者进入市场。由于联盟内部成员之间总是互不信任，暗中互
f龙源期刊网httpwwwqika
comc
相欺骗，就导致联盟的短命使得该博弈过程不可能无限期的重复进行下去。由于政府的介入，如反不正当竞争和欺诈行为等，使得博弈的双方又重新开始下一轮的博弈。
对一次性囚徒困境博弈来说，无论对手的行动可能是什么，最佳策略是简单地背叛；但是在重复的囚徒困境博弈中，博弈被反复地进行，参与者最佳策略依赖于对手可能的策略，和他们怎样对背叛和合作作出反应。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。
参考文献：
1张维迎博弈论与信息经济学M上海人民出版社，19962高鸿桢管理运筹学M江西人民出版社，19973胡运权，郭耀煌运筹学教程M清华大学出版社，1998
fr