人工智能可以击败世界上最受欢迎的赌博游戏
一种名为Pluribus的新型人工智能(AI)系统看起来同时令计算机科学家高兴,并使世界各地的职业赌徒感到恐惧。在透露论文发表在杂志科学,PLURIBUS是一个自我学习系统,可以解决六人无限额德州扑克,并击败所有的吸烟者-甚至是职业球员。
来自美国卡内基梅隆大学的发明人Noam Brown和Tuomas Sandholm的成就代表了人工智能开发的一个重要里程碑。
最近的研究已经产生了能够自我学习的系统 - 并且掌握了一个令人不安的水平,在该领域的行话中称为“超人” - 棋盘游戏Go和在线视频游戏Dota 2和星际争霸。
然而,这些逍遥时光和Pluribus青睐的纸牌游戏之间的关键区别在于,前者都被构建为双人运动。人工智能掌握的其他游戏也是如此 - 尽管受过训练,而不是自学成才 - 包括国际象棋和西洋跳棋。
布朗和桑德霍尔姆的区别不仅仅是数字问题。
根据定义,两个玩家游戏是“零和”练习 - 无论一个玩家失败,另一个玩家获胜。这意味着他们可以通过发现被称为“纳什均衡”的数学最佳点来掌握。
作者解释说,“纳什均衡”是一个策略列表,每个玩家都有一个策略,其中没有玩家可以通过偏向不同的策略来改善。
为任何给定的双人游戏找到纳什均衡相对容易。作者使用了岩纸剪刀的例子。通过以相同的概率部署三个状态,在多场比赛之后,任何一个球员都不能以任何显着的差距获胜或输掉。两者都坚持纳什均衡。
然而,一旦一个玩家改变策略,例如仅在一段时间内部署纸张,另一个玩家将获胜。
纳什均衡理论上存在于涉及两个以上参与者的游戏中,但它们更难以识别,因此很少或没有实际用途。此外,扑克等多人游戏本质上依赖于隐藏的信息 - 只有每个玩家都知道的牌值。
这是布朗和桑德霍尔姆对Pluribus采用自学方法的主要原因之一。通过对自己的早期迭代进行数千次播放,系统能够基于纯概率开发策略,不受根深蒂固的扑克习惯和传统的影响。
作者写道:“Pluribus不同意民间的智慧,'赌博'(当一个人通过电话结束前一轮下注时开始一轮投注)是一个错误。” “Pluribus比专业人类做得更频繁。”
结果是系统为扑克游戏编制了一个“蓝图”,这基本上是基于所发牌的可能策略的列表。但是,蓝图仅用于任何游戏中的第一手,然后针对每个后续手进行实时调整。
其中一个原因是人工智能系统保留了在双人游戏中融入纳什均衡的算法的使用 - 即使在多玩家情况下这样的结果实际上是不可能的。
另一种设计策略也增加了混合。Pluribus通过“甩掉”类似的手来减少并发症 - 例如,一个九高直的和一个10高的直 - 并将它们视为相同。类似的方法包括投注,系统选择14个金额中的一个在任何时候下注,而不是传统的人类扑克选择范围在100美元到10,000美元之间。
然而,作者指出,只有当Pluribus估计未来手的可能性时才会使用这种抽象。实时这样做将是一个新秀 - 而Pluribus并不是新秀。
他们写道:“信息抽象大大降低了游戏的复杂性,但可能会消除对超人表现至关重要的微妙差异。”
“因此,在与人类进行实际比赛时,Pluribus仅使用信息抽象来推断未来下注轮次的情况,而不是实际投注的实际情况。”
到目前为止,该系统对真实职业选手的挑战仅限于在线四轮练习赛,因此拉斯维加斯赌场老板的命运尚未受到威胁。
然而,在赌博业感受到技术变革的寒风之前,可能不会太久。
“Pluribus的成功表明,尽管在多人游戏中缺乏已知的强大理论保证,但仍存在大规模,复杂的多人不完全信息设置,其中精心构建的自我游戏搜索算法可以产生超人策略,”作者总结道。