机器人的威胁

发布者:Eureka Chen,发布时间:2009年6月17日 00:57

2008年的7月3-6日,就在WSOP举办地的毗邻,还进行过一场特殊的比赛,比赛在两个团队之间进行,一个团队由技艺高超的扑克教练组成,另一个团队则是一台神秘的机器人。

这台机器人名叫北极星(Polaris),实际上是一个软件程序,由加拿大亚伯达大学的计算机扑克研究小组( Computer Poker Research Group,简称CPRG )编写。我们先来简述一下比赛情况。

整个比赛要赛6场,其中2场是远程的,主要目的是为了让人类这一方适应一下与机器人交锋的感觉;另外4场是现场比赛,整个过程都要在摄像机,记者,工作人员,观众的众目睽睽之下进行。

游戏种类为有限注德州扑克,2人单挑制。比赛采用复式赛制。这种规则解释起来有点麻烦。我举个例子大家就比较容易理解了,听说桥牌里有这种规则。

复式赛制

每一场比赛都是2个人与2个机器人同时进行,它们手中的牌是互相交换的。(假设为人类甲对战机器人甲,人类乙对战机器人乙)。人类甲与机器人甲分别拿AA对KK;那么与此同时进行的另一组,人类乙与机器人乙就拿着KK对AA。人类甲与人类乙是两个人,但是机器人甲与机器人乙实际上是同一个程序的2份拷贝,它们的技巧是完全一样的,可以视为一体。这2组人员绝对隔离,彼此不通讯息(这是当然的啦,因为另外一组人拿的牌就是自己对手的牌,彼此通了讯息还比得下去吗?)。

这就相当于同一场牌局机器人与人类交换手中的牌赛2次。这样做可以最大限度地消除运气成分,因为无论好牌差牌,双方拿到的都是同样的牌,比的就是技术。

每场比赛500手,500手之后以2组人马中人类一方的筹码输赢相抵之后的净余额比较输赢。如果输赢小于25000元(25个小注),则视为平局。

如此这般经过6场比赛之后,最终结果为人类:1平3负2胜,机器人一局险胜。

实际上这并非北极星的处子秀,2007年的7.23-7.24,它就与人类交过手了。当时人类一方派出的代表是Phil Laak 和 Ali Eslami,赛制与上面介绍的相同,同样500手每场,复制赛制,单挑有限注德州扑克。经过2天4场比赛后,人类一方2胜1负1平,一局险胜。

今年的北极星二代显然是有备而来,经过一年多的历练,终于为他的前任一雪前耻。

机器人是怎么样思考的?

实际上无论是谁,每一次决断都自觉不自觉地完成了2个任务--

一:判断对手的策略与牌力;

二:根据这个判断采取最佳策略来应对。

北极星擅长做第二项任务,只要知道了对手的情况,它总能快速地找出最佳应对策略,它的死穴在于第一项任务,就目前的技术水平而言,机器人可以说没有任何自主的判断能力,所以它几乎不作判断,而是采取一种均衡策略。
 

均衡策略

在上面两场人机大战中,主办方刻意营造了风险对等的比赛模式,因为实际上同一局牌双方各持一端的牌玩了2遍,无论好牌差牌,你我都一样,所以这是一场典型的零和博弈。

在博弈论中有一项理论称作纳什均衡,纳什本人也因发现这个理论而获得诺贝尔奖。这种理论指出:在零和博弈中一定存在着一种策略集,一旦博弈中的一方采取了这个策略,另一方就将无计可施,只能采取策略集中相对应的策略来应对才能做到对自己最有利。

举例来说--

1.如果你们玩的是石头剪刀布游戏,那么纳什均衡就是严格随机地出剪刀,石头或者布,一旦有人这样做,那么对手只能同样采取这种策略,否则就必输无疑,双方都采取纳什均衡的结果就是打平。(当然要玩得次数足够多)

2.拿扑克来举例,由于扑克比上面那个例子复杂地多,所以可以抽取由中的某一阶段来寻找纳什均衡。比如所有的在50元的锅底中下注50元的动作,如果你可以严格做到,非Nuts不下注,然后夹杂1/3机会的诈唬,这就是一种纳什均衡。对手除非采取相同的策略。不然就会对他自己不利。

但是实际生活中,人是无法做到的,因为你有许多的小动作能让对手识别出你是不是在诈唬,而且你也不可能做到绝对1/3概率。可是机器人可以做到,这就是它强于人类的地方。CPRG的工作人员雄心勃勃,不仅要寻找某一部分的纳什均衡,还期望寻找整场比赛中的纳什均衡。

机器人的死穴

当然就目前而言,它还无法做到这一点,制约它的因素主要是计算机的运算能力,对于2人单挑的有限注德州扑克来说,共有10的18次幂种情形需要考虑(我也不知道怎么算出来,这是CPRG给出的数据),要在这么巨大的策略集当中寻求一个纳什均衡点,在目前的硬件水平之下是不可能完成的任务。曾有人问过CPRG的负责人,如果计算机可以动用无穷多的资源,找出纳什均衡点需要多久?答案是超过10万个星期。

另外它的纳什均衡点并非来自实际牌局,而是来自于模拟牌局,而且是精简模式的牌局。精简的办法一是人数要少,二是有限注游戏,三是将持牌分类,当然还有更多的渠道,我们就不得而知了。

所以在机器人眼中,底牌AA,KK,QQ可能都是完全一样的,在翻牌圈拿到顶对的情形也是一样的,都会同样对待。不同"智商"的机器人之间的区别只是划分范围的泛与细,高性能的机器人可能划分更细,低性能的机器人则更宽泛。

另一个死穴在于,机器人无法分析和判断对手的策略,所以它们的均衡策略是静态的,它根本不在乎你在怎么玩,怎么变换策略,它只是按照它"自以为是"的均衡策略在进行,它只是在等你出错,典型的以不变应万变。可以想像如果两台机器人对战,只要玩的足够长,它们将是一场绝对的零和游戏,不分输赢。

不过CPRG的工程师声称他们目前可以通过一些策略让北极星适当地增加诈唬的次数来更大的获利,当然这会有改善,但是显然一时半会并不会有什么显著的改变。

因为这两个死穴的制约,在面对高手作战时,机器人仍然占不到绝对优势。从这两年的赛况就能体现,去年它输了,今年也只是一局险胜。

我们有必要惧怕机器人吗?

对于顶级的玩家而言,即使像北极星这样顶级的扑克机器人,也构不成明显的威胁,但是对于水平较差的玩家来说,这的确是一种不公平。但是我们依然不必过分担心它们的泛滥,因为目前,真正有效果的机器人主要出现在两人对战的牌局中,超过三个人的牌局,机器人就无法有效地应付了,原因我们上面已经分析过了。

除非真的有那种可以看到你底牌,看到下一张未翻的牌的机器人,它们才是真正的不公平与可怕,问题是有这样的机器人吗?我没有答案,你认为呢?祝你好运!

Comments