分节阅读 12(1 / 1)

策略思维 佚名 5102 字 4个月前

lliams)在《完全策略大师》(the compleat strategyst)一书中描绘的猫捉老鼠游戏的一个更新版本。猫可能指的就是波斯人。弹20 秒之内可以走过的距离。

那艘美国舰艇的雷达会监测到伊拉克舰艇发射的这枚导弹,因此电脑会马上发射一枚反导弹。反导弹的速度和伊拉克导弹相同,也可以做同样的90度拐弯。于是,这枚反导弹的路径也可以用同样的格栅表示,只不过这次是由a点出发。但是,为了填装足够撞毁一枚导弹的爆炸物,反导弹不得不少装燃料,装的燃料只够它飞行1分钟,因此,它只能走过三个节点(比如,从a 到b点,b点到c点,然后再从c点到f点,这一路径我们用abcf表示)。

图3-7

假如在这1分钟开始之前或者结束之际,我们的反导弹将与来犯的导弹相遇,那么,反导弹就会爆炸,消除伊拉克导弹的威胁,否则伊拉克导弹就会击中我们的舰艇。问题是,应该怎样选择两枚导弹的路径?在这个博弈里,值得关注的只有第1分钟的路径。各方必须事先想好三个20秒时间段应该怎么走。将每个时间段的可能选择加起来,双方各有8条可能的路径,共有64种组合方式。我们现在就来考察全部64种组合方式,计算哪些方式下反导弹和导弹会迎头相撞,哪些方式下不会相撞。

举个例子:假设伊拉克选择ifcb,即头两个时间段直线从i点经f点到c点,然后转90度到b。对照美国的abcf策略,可见,反导弹和导弹将在两个时间段(即40秒)之后在c点相遇,因此这一组合的结果是相撞。假如伊拉克还是采取ifcb策略,而美国却选择abef迎击,反导弹和导弹就不会相撞。表面上看来,上述弹道都经过b点和f点,但反导弹和导弹是在不同时间达到这些点;比如美国反导弹20秒后到达b点,而伊拉克导弹则要在60秒后到达。

图3-8显示了所有这样的组合。伊拉克的8个策略分别标为i1到i8,同时标出具体路径,比如i1表示ifcb。同样地,美国的策略用a1到a8表示。相撞的结果记做h,不会相撞的结果记做o。

图3-8 击中与错过图

图3-8看起来好像很复杂,但只要借助消除劣势策略的法则,就能将其大大简化。美国反导弹的目标在于得到相撞的结果,因此在美国人看来,h强于o。不难看出,对于美国人,a2策略与a4策略相比处于劣势:假如你将a4行举起,盖在a2行上面,你会发现,只要是a2 得到h的地方,a4也会得到h,而且a4还多一个h,即对应伊拉克巧策略的地方。对全部可能性进行这样的分析,可以知道a2、a3、a6和a7策略与a4和a8策略相比处于劣势,a1不及a8, a8又不及a4。因此,伊拉克人可以确信美国人只会采取a4或者a8策略。伊拉克人把注意力集中在这两行,一心想避免反导弹和导弹相撞,因此在他们看来,i2、i3、i4、i6、i7和i8策略与i1或者i5策略相比处于劣势。划掉劣势策略所在的行和列之后,整个博弈就简化为图3-10 。*

*简化过程详见图3-9。——译者注

我们的两个法则不可能将图3-10进一步简化了,因为这里已经没有任何优势策略或者劣势策略可言。不过,我们已经做得很不错了。看一看表格里剩下的策略,我们发现,伊拉克导弹应该沿着格栅外围前进,而美国反导弹则应该小步曲折前进。这样,我们很快就能看到双方应该怎样从各自拥有的两个方案中进行抉择了。

图3-9,击中与错过图

图3-10,简化的击中与错过图

4 .均衡策略

利用优势策略方法与劣势策略方法进行简化之后,整个博弈的复杂程度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。接下来我们将会介绍解开这个循环的技巧,最终走出这个循环。

为了说明这一点,我们首先回到《时代》与《新闻周刊》的价格战,不过这次不会假设备选价格只有2美元和3美元两种,而是一系列价格。现在,《时代》的管理层必须针对《新闻周刊》可能选择的每一个价格确定最佳对策。假设每种杂志都有一群忠实读者,也有一群可能受到价格竞争影响的流动读者。如果出于某种原因,《新闻周刊》的管理层把价格定在1美元的水平,也就是制作成本的水平,那么,《时代》的管理层一定不会跟随这个毫无盈利的价格策略,而会定出一个较高的价格,杂志仍然可以卖给忠实读者而获得一定利润。如果《新闻周刊》提价,那么《时代》也会提价,只不过幅度较小,从而为自己赢得一定的竞争优势。假定《新闻周刊》每提价1美元,《时代》的最佳对策是提价50美分,于是,我们可以用图3-11表示《时代》针对《新闻周刊》可能选择的每一个定价而确定的最佳对策。

我们假定两本杂志的成本一样,具有同等大小的忠实读者群以及同样的吸引流动读者群的能力。那么,《新闻周刊》针对《时代》可能选择的每一个定价而确定的最佳对策将与图3-11完全一致。

现在我们可以想像两种杂志的经理正各自埋头琢磨。《时代》的经理说:“如果他卖1美元,我就卖2美元。不过,他因为知道我这么想,所以不会真的卖1美元,而是执行他在我卖2美元时的最佳对策,即2.50 美元。那样的话我就不能卖2美元,而是采用我在他卖2.50 美元时的最佳对策,卖2.75 美元。不过,他因为知道我这么想…… ”这样一层一层分析下去,究竟有完没完呢?

有的,结局是3美元。假如这位《时代》经理认为《新闻周刊》会卖3美元,那么他自己的最佳对策就是也卖3美元,反过来,从《新闻周刊》的角度分析也是一样。整个循环推理最后将聚成一点。

我们可以用图3-12 来显示这个结果,该图同时反映了两者的对策。可以看到,两条线在两家都卖3美元的一点相交。

图3-ll

图3-12

我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰·纳什(john nash)提出的。纳什的想法成为我们指导同时行动博弈的最后一个法则的基础。这个法则如下。

法则4:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。

这一定就是夏洛克·福尔摩斯和莫里亚蒂教授曾经用来看穿对方心思的秘诀。

我们还要解释一下这个法则。为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。没有一个理由本身就有足够的说服力,不过,只要把几个理由结合起来,就能形成一个有力的答案。

首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的“我知道他知道我知道…… ”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。

均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。

第三个理由是,均衡方法注重实效。要想证明一个东西是布丁,就要吃一吃。综观全书,我们将会利用均衡方法讨论许多博弈。我们希望读者来检验它对博弈结果的预测以及这种思维方式产生的行为指导方针。我们相信,这么做会使我们提供的案例更有意思,比抽象地讨论均衡方法的优点更有意义。[3]

最后,可能存在一个对均衡概念的误解,我们希望各位可以避免。当我们说博弈的结果是均衡,并不自动意味着这就是对博弈的全体参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。在第4章和第9章,我们会谈到这两种例子。

5 .盛宴还是饥荒

盛宴

均衡的概念是不是同时行动的博弈中循环推理问题的一个完全解?老天爷,不是的。有些博弈存在好几个均衡,有些博弈却一个均衡也没有,而在另外一些博弈里,均衡的概念还会由于接纳新型策略而变得更加微妙。我们现在就来描述和解释这几点。

开车的时候你应该走哪一边?这个问题不能通过运用优势策略或者劣势策略理论予以回答。不过,即便如此,答案却显得很简单。假如别人都靠右行驶,你也会留在右边。套用“假如我认为他认为”的框架进行分析,假如每个人都认为其他人认为每个人都会靠右行驶,那么每个人都会靠右行驶,而他们的预计也全都确切无误。靠右行驶将成为一个均衡。

不过,靠左行驶也是一个均衡,正如在英国、澳大利亚和日本出现的情况。这个博弈有两个均衡。均衡的概念没有告诉我们哪一个更好或者哪一个应该更好。假如一个博弈具有多个均衡,所有参与者必须就应该选择哪一个达成共识,否则就会导致困惑。

在开车行驶的例子里,一条早已制定的规则给了你答案。不过,若是遇到彼得和波拉打电话打到一半突然断了的事,你该怎么办?假如彼得马上再给波拉打电话,那么波拉应该留在电话旁(且不要给彼得打电话),好把自家电话的线路空出来。另一方面,假如波拉等待彼得给她打电话,而彼得也在等待,那么他们的聊天就永远没有机会继续下去。一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡,一个是彼得打电话而波拉等在一边,另一个则是恰好相反。

这两个人需要进行一次谈话,以帮助他们确定彼此一致的策略,也就是就应该选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必是这样。另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如彼得是在办公室而波拉用的是收费电话),那么,解决方案是拥有免费电话的一方应该负责第二次打电话。

为了检验读者协调达成一个均衡的能力,请思考下面的问题:明天某个时候你要在纽约市会见某人。他已被告知要与你会面。不过,双方都没有更多信息,不知道究竟何时或者在哪里会面。那么,你应该于何时去何地?

托马斯·谢林(thomas schelling)在他的《冲突策略》一书里使这个问题家喻户晓。这个问题只有通常最常见的答案,除此之外没有任何预先确定的正确答案。在我们的学生当中,正午时分在中央车站一直是最常见的答案。即便是普林斯顿的学生,虽然他们乘坐的到纽约的火车是在宾州车站而非中央车站停,他们的答案也是一样。1

1 也许最具创意的另一个答案来自加州大学圣迭戈分校教授塔妮亚·鲁尔曼(tanya luhrmann)。她的回答是:“纽约公立图书馆阅览室。”我们告诉她,这假如不是空前绝后的答案,也是相当少见的答案。她立即为她的选择进行了辩解。她说,这是因为,虽然她的成功机会可能很低,可她还是更有兴趣跟愿意选择纽约公立图书馆阅览室而非选择纽约中央车站的人见面!

饥荒

另一个复杂因素在于,并非所有博弈都有我们前面描述的那种均衡,哪怕是一个,在导弹截击的故事里,余下4个结果没有一个是均衡。举个例子,我们看看伊拉克i1策略遇到美国a4策略的情况。这一策略组合的结果是反导弹没能拦截导弹,假如美国转向a8策略,情况就会大不一样。不过,那样的话伊拉克就该转向i5策略,而美国反过来也要转向a4 策略,伊拉克则相应转向i1策略,如此类推。关键在于,如果一方坚守某种确定行为,另一方就会因此大占便宜。双方惟一明智的做法在于随机选择自己这一步怎么走。实际上,导弹截击问题具有很强的对称性,以至于正确的策略组合简直是显而易见的:美国的策略应该随机地“一分为二”,一半时间选择a4策略,另一半时间选择a8策略,伊拉克则以同样的概率选择i1和i5策略。

这种“混合策略”即便在双方打算合作的时候也会出现。在前面提到的打电话的例子中,设想双方都投硬币决定自己是不是应该给对方打电话,根据前面给出的条件,两人这种随机行动的组合成为第三个均衡:假如我打算给你打电话,我有一半机会可以打通(因为这时你恰巧在等我打电话),还有一半机会发现电话占线;假如我等你打电话,那么,我同样会有一半机会接到你的电话,因为你有一半机会主动给我打电话。每一个回合双方完全不知道对方将会采取什么行动,他们的做法实际上对彼此都最理想。因为我们只有一半机会重新开始被打断的电话聊天,我们知道我们(平均来说)要尝试两次才能成功接通。