人工智能已经在我们最喜欢的另一款游戏中打败了人类
人工智能已经在我们最喜欢的另一款游戏中打败了人类。由Facebook的AI实验室和卡内基梅隆大学的研究人员设计的扑克机器人在一系列六人无限制德州扑克扑克游戏中击败了一些世界顶级玩家。
超过12天和10,000手牌,名为Pluribus的AI系统在两种不同的环境中面对12名职业选手。其中一个,人工智能与五个人类玩家一起玩; 另一方面,五个版本的AI与一个人类玩家一起玩(计算机程序在这种情况下无法合作)。据研究人员称,Pluribus每手平均赢得5美元,每小时奖金约1,000美元 - 这是一个“决定性的胜利”。
“可以肯定地说,我们处于超人的水平并且不会发生变化,”Facebook人工研究的研究科学家兼Pluribus的联合创始人诺姆布朗告诉The Verge。
“我们处于超人的水平,而且不会改变。”
“Pluribus是一个非常努力的对手。在任何形式的手牌上都很难将他击败,“六次世界扑克锦标赛冠军克里斯弗格森和12名选手中的一名选手参加了人工智能,他在一份新闻声明中表示。
在“ 科学”杂志上发表的一篇论文中,Pluribus背后的科学家表示,这次胜利是人工智能研究的一个重要里程碑。虽然机器学习已经达到了国际象棋和围棋等棋盘游戏以及星际争霸II 和Dota等电脑游戏的超人级水平,但在某种程度上,六人无限制德州扑克代表了更高的难度基准。
不仅需要赢得玩家隐藏的信息(使其成为所谓的“不完美信息游戏”),它还涉及多个玩家和复杂的胜利结果。着名的Go游戏比可观察宇宙中的原子具有更多可能的棋盘组合,这使得人工智能制定下一步的动作是一个巨大的挑战。但是所有的信息都可以看到,而且游戏只有两种可能的结果:输赢。这使得在某种意义上更容易训练AI。
早在2015年,机器学习系统在双人德州扑克中击败了人类专业人士,但是将对手数量增加到5个会大大增加复杂性。为了创建一个能够应对这一挑战的计划,布朗和他的同事,CMU教授Tuomas Sandholm部署了一些关键策略。
首先,他们教Pluribus玩扑克,让它与自己的副本进行比赛 - 这个过程被称为自我游戏。这是人工智能训练的常用技术,系统能够通过反复试验来学习游戏; 与自己玩数十万手牌。这个培训过程也非常有效:使用配备少于512GB RAM的64核服务器在短短8天内创建了Pluribus。在云服务器上培训这个程序只需150美元,与其他最先进系统的十万美元价格相比,这是一个便宜货。
然后,为了应对六名球员的额外复杂性,布朗和桑德霍尔姆提出了一种有效的方式让人工智能在游戏中展望未来并决定采取何种行动 - 一种称为搜索功能的机制。而不是试图预测其对手将如何一直玩到游戏结束(计算将在几个步骤中变得非常复杂),而Pluribus的设计只是前方两三步。布朗说,这种截断的方法是“真正的突破”。
你可能会认为Pluribus在这里牺牲了短期收益的长期策略,但在扑克中,事实证明短期的敏锐性真的是你所需要的。
“它可以比任何人都更好地诈唬。”
例如,Pluribus非常擅长诈唬其对手,与其对抗的专业人士赞扬其“无情的一致性”,以及它从相对较薄的手中挤出利润的方式。这是不可预测的:扑克玩家的出色表现。而它只是通过扑克牌做到了; 例如,没有将机器视觉或面部识别的元素整合到Pluribus中以发现。
布朗说这很自然。我们经常把虚张声势视为一种独特的人类特质; 依赖于我们欺骗和欺骗的能力的东西。但他说,这种艺术仍然可以简化为数学上最优的策略。“人工智能并不认为虚张声势具有欺骗性。它只是看到了决定,使其成为特定情况下的最多钱,“他说。“我们展示的是人工智能可以虚张声势,它可以比任何人更好地诈唬。”
那么,人工智能最终将人类视为世界上最受欢迎的扑克游戏意味着什么呢?好吧,正如我们在过去的AI胜利中看到的那样,人类当然可以从计算机中学习。玩家普遍怀疑的一些策略(如“ donk博彩 ”)被AI所接受,这表明它们可能比以前认为的更有用。“每当玩机器人时,我觉得我会选择一些新东西加入到我的游戏中,”扑克职业选手Jimmy Chou说。
还有希望用于创建Pluribus的技术可以转移到其他情况。现实世界中的许多场景在最广泛的意义上类似于德州扑克扑克 - 意味着它们涉及多个玩家,隐藏信息和众多双赢结果。
布朗和桑德霍尔姆希望他们所展示的方法可以应用于网络安全,欺诈预防和金融谈判等领域。布朗说:“甚至可以用自动驾驶汽车帮助驾驭交通。”
布朗没有直接回答这个问题,但他确实说,值得注意的是Pluribus是一个静态程序。在最初的八天训练期之后,AI从未更新或升级,因此它可以更好地匹配其对手的策略。在与职业选手一起度过的12天里,他们从来没有能够在比赛中找到一致的弱点。没有什么可以利用的。从开始下注的那一刻起,Pluribus就处于领先地位。