AlphaZero算法可以在国际象棋中获得胜利走法
(科技Xplore)——deepmind人工智能已经赢得了国际象棋的桂冠。BBC称,谷歌的DeepMind部门与斯托克菲什进行了100场比赛,全部获胜或平局。
英国广播公司(BBC)表示,arXiv网站公布的细节显示,AlphaZero算法在获得国际象棋规则并被告知要通过模拟自己来学习后,仅仅4个小时就超越了Stockfish算法。
描述这项工作的团队论文发表在arXiv上。他们报告说,软件已经被普遍化,能够学习其他游戏。
作者写到AlphaZero算法实现了“白板,在许多具有挑战性的领域的超人表现”,而不仅仅是在国际象棋中。在不了解游戏规则的情况下,该算法在24小时内实现了作者所说的“超人”水平的国际象棋、日本象棋和围棋,“并令人信服地击败了世界冠军程序。”
12月5日提交的论文题目是“用一种通用的强化学习算法,通过自玩来掌握国际象棋和围棋”。
然而,值得注意的是,不仅仅是国际象棋的胜利。《边缘》(The Verge)杂志的詹姆斯·文森特(James Vincent)发现,真正非凡的壮举是“在不到24小时的时间里,同一个电脑程序能够自学如何在超人水平下玩三种复杂的棋盘游戏。”这是人工智能世界的新壮举。”(走,下国际象棋,shogi。)
英国广播公司(BBC)引用了牛津大学教授迈克尔·伍尔德里奇(Michael Wooldridge)的话。“DeepMind的一般轨迹似乎是解决一个问题,然后证明它真的可以提升性能,这非常令人印象深刻。”与此同时,伍尔德里奇观察到,这三场比赛相当“封闭”,因为他们要应付的规则有限。他解释说:“在现实世界中,我们不知道未来会发生什么。”“当你不知道未来会发生什么的时候,应对会变得复杂得多,而当DeepMind转向更开放的问题时,事情会变得更加令人兴奋。”
AlphaZero并不是专门为下棋而设计的。詹姆斯·文森特在《边缘》中写道:“在每种情况下,它都有一些基本的规则(比如骑士在国际象棋中如何移动,等等),但没有其他的策略或战术。它只是通过一遍又一遍加速地玩自己变得更好——这是一种被称为“强化学习”的人工智能训练方法。
作者说AlphaZero算法是AlphaGo Zero算法的“一个更通用的版本”,后者是在Go上下文中引入的。“它用深度神经网络和白板强化学习算法取代了传统游戏程序中使用的手工知识和特定领域的扩展。”
进一步探索
国际象棋比赛是人工智能历史上研究最广泛的领域。最强大的程序是基于复杂的搜索技术、特定领域的适应和手工评估功能的组合,这些功能经过人类专家几十年的改进。相比之下,AlphaGo零程序最近在围棋游戏中取得了超人的表现,通过白板强化学习游戏中的自我发挥。在这篇论文中,我们把这个方法概括成一个单一的AlphaZero算法,它可以在许多具有挑战性的领域中获得超人的表现。AlphaZero从随机游戏开始,除了游戏规则外没有其他领域的知识,在24小时内,AlphaZero在国际象棋和围棋(日本象棋)以及围棋中都达到了超人的水平,并令人信服地击败了一个世界冠军程序。