基于连续混合策略对长期蜈蚣博弈的分析①_品牌_

...早盘解析,多空博弈

韩庭轩

摘要：蜈蚣博弈给逆向归纳法带来巨大冲击，因为参与人在整体环节的最优选择，而非每一子环节最优选择的集合。该文从理论角度出发，基于理性人假设，利用连续混合策略，通过正向顺序计算收益期望，对长期蜈蚣博弈进行分析，并对其中的可能情况进行解释。

关键词：蜈蚣博弈逆向归纳法理性人假设混合策略

中图分类号：F32 文献标识码：A 文章编号：1674-098X（2017）06（c）-0214-02

蜈蚣博弈于1981年由Rosenthal提出。博弈中有两个参与人，策略包括“合作”与“终止”。博弈双方分先手与后手，轮流进行决策，当一方选择“终止”时，博弈即停止，否则双方将持续合作直到最终环节。博弈的总收益会随着过程的持续而不断增大，但是每一参与者在自己本回合选择“终止”时的自身收益，要小于对方在下一回合选择“终止”时自己的收益。根据持续的回合数，蜈蚣博弈可以被分为短期蜈蚣博弈、长期蜈蚣博弈和无限期蜈蚣博弈。

在“蜈蚣博弈”出现之前，逆向归纳法一直是博弈论中的一个重要分析方法。逆向归纳法有两个基本假设：一是理性人假设，博弈的参与者都是理性的，会做出使自己收益最大的决策；二是共同知识，博弈方对其他人行为的判断都是正确的，并且相互知道其他人了解自己的判断。“蜈蚣博弈悖论”是关于逆向归纳法的一个重要悖论。根据逆向归纳法的推理，由于双方在每个环节都会选择让自己利益最大化的选择，最终导致先手方拒绝合作，但这与实际中的选择明显不符。

1 文献综述

理论探究方面，孙洪罡等[1]基于风险偏好分析参与者的支付满意率。潘天群[2]在逆向归纳法的内涵中加入交流理性的概念。何伟等[3]着眼于预期心理，认为参与者一旦在主动选择时能获得与被动选择最大利益相同的收益，就会产生终止的动机。方志耕等[4]将“灰数规整”与顺推归纳法结合，通过计算期望值探究博弈终止时的纳什均衡。胡晓娟[5]等利用“颤抖手”方法，详细论证选择波动时，参与人合作的条件。

在实践中，McKelvey和Palfrey[6]让参与者分别在四阶段低收益蜈蚣博弈、四阶段高收益蜈蚣博弈和六阶段蜈蚣博弈中做出选择，发现参与者很少选择第一轮终止，更多选择倒数第二、三轮终止。

2 基于连续混合策略对长期蜈蚣博弈的分析

2.1 模型构架

博弈在时刻t1开始，在时刻t100结束，时刻用tn表示（1≤n≤100）。参与人1在时刻t1开始做选择，之后双方轮流做选择。参与人1、2都做完一次决策记为一轮，轮次用i表示（1≤i≤50）。若博弈持续进行，达到最终时刻t100，且选择人仍选择C，则双方收益都为51。若在tn时，某一参与人选择策略S，则其得到的收益为W（1，n），对方收益为W（2，n）。

蜈蚣博弈模型如图1所示。

在蜈蚣博弈中，会存在下列假设，以保证各子博弈中，参与者在进行纯策略选择时，总会选择S。

2.2 連续混合策略的应用

我们基于理性人假设和共同知识，采用混合策略的方法分析问题。为便于计算，我们按照轮次对参与人的选择概率及收益期望进行研究，并作出以下假设。

假设2：参与人1、2在第i轮做选择时，合作的概率分别为、。在tn时刻，参与人1、2的收益期望分别为E（1，n）、E（2，n）。收益期望函数如下：

在混合策略中，若要参与人选择合作，则需其合作的预期收益不小于终止的预期收益，并且其下次决策时的收益期望不小于本次决策时的收益期望。以参与人1为例，若其选择合作，需满足以下条件：

根据以上分析结果，我们可以得到如下推论。

推论1：作为理性经济人，参与人双方为了使自身在整个系统内获得最大利益，不仅需要在每个子环节考虑到预期收益，同时还要预测到对方合作的可能性。

逆向归纳法只考虑收益层面，忽略决策概率，并且独立分析各子环节，未充分考虑各环节间的联系，仅单纯认为整体的最优选择是各子环节最优选择的集合。

推论2：当一方认为另一方在下一轮行动中更具有合作倾向时，他在本轮就会合作；否则则会停止。

另需说明，当达到合作概率临界值时，决策人会概率性地停止合作。这一临界值又和下一轮的收益期望相关，即收益期望与合作期望是相互影响的。

依据以上阐释理论，我们可以进一步得到如下推论。

推论3：双方的共同合作，是基于共同知识下对对方的信任；而双方停止合作，是因为决策方认为对方在下一轮的合作概率将等于或低于临界值，即个人行为受对客体主观判断的影响。

推论4：在达到临界值之前，博弈一方愿意在自己决策的tn时合作，那么他在之前都会合作，这是基于他对对方的信任；在临界值之后，博弈一方在自己决策的tn时终止，那么他在之后都会选择终止，这是基于他认为对方会选择终止。

推论5：个人的收益期望与对方合作期望是相互影响的，而逆向归纳法在逆向分析对方合作期望时更有实际意义。

双方的合作期望在整体上会呈现递减的趋势，在博弈后期，提升空间有限，决策方会选择终止攫取最后的利益，这一方式尤其体现于最后四期。

3 结语

根据理性人假设，参与人应追求个人在博弈整体的最大利益，而非各子系统最优方案的集合；根据收益情况，继续博弈的潜在收益要大于过早结束的风险；根据共同知识，双方在知道对方愿意合作的前提下，在一定期间内会形成稳定的合作关系。因此，笔者提出，利用连续混合策略，正向顺序计算收益期望，进而分析参与者选择合作或终止的影响因素。该方法从整体角度对博弈系统进行剖析，将合作意愿这一与收益期望相互影响的要素独立分析，重新解读了动态博弈中对理性人假设的认识，较好地解释了蜈蚣博弈悖论。

参考文献

[1] 孙洪罡，刘亚相，王丽波.支付满意率——对博弈论理性假设的新思考[J].青岛大学学报：自然科学版，2004（9）：78-80.

[2] 潘天群.交流理性与逆向归纳法悖论的消解[J].自然辩证法研究，2005（12）：25-28.

[3] 何伟，徐飞，陈洁.蜈蚣博弈新视角——预期心理的应用[J].上海管理科学，2006（3）：1-5.

[4] 方志耕，刘思峰，施红星，等.破解“蜈蚣博弈”悖论：“灰数规整”顺推归纳法研究[J].中国管理科学，2008（2）：180-186.

[5] 胡晓娟，秦承忠，Perry Shapiro.“颤抖”蜈蚣博弈[J].产业经济评论，2011（6）：29-39.

[6] McKelvey，Palfrey.An Experimental Study of the Centipede Game[J].Econometrica，1992，60（4）：803-836.