人工智能程序将掌握一种流行的视频游戏

人工智能2020-03-23 16:01:10
导读以前认为即使对于算法也太复杂,已经开发出可以在在线多人游戏中获胜的人工智能(AI)代理。除了基于像素的观点以及游戏状态与人类玩家相同的

以前认为即使对于算法也太复杂,已经开发出可以在在线多人游戏中获胜的人工智能(AI)代理。除了基于像素的观点以及游戏状态与人类玩家相同的知识之外,由谷歌拥有的DeepMind研究公司的Max Jaderberg领导的科学家生成AI代理人来玩流行游戏Quake III Arena的变体,名为夺旗的旗帜,让两支队伍在随机生成的环境中相互对抗,从地图上找到并夺取敌人的旗帜。

该团队使用强化学习技术在并行游戏中构建代理,并且在450,000个游戏之后,机器人能够击败专业的人类玩家 - 在如此复杂的环境中有如此多的变量,这不是一件小事。

三种机器学习范例中的一种,加上有监督和无监督学习,强化学习不使用明确的输入 - 输出对,也不要求纠正或删除不完美的动作。

相反,它平衡了对未知领域的探索和对所收集的任何知识的利用 - 适用于大量代理(例如在线多人游戏中存在的代理)中无休止变化的条件。

DeepMind研究的目的是当人类玩家所拥有的相同信息开始时真正自我学习的代理人。这意味着没有政策知识,也没有能力在游戏之外进行交流和分享笔记,而之前的类似工作的迭代给出了环境的软件模型或其他玩家的状态。

通过让代理商同时在大量游戏中放松,优化学习过程,将结果集中在一起,以自上而下的方式查看每个代理人所获取的提示和技巧,然后将这些知识分配给下一代。

就像人类玩家一样,他们收集了关于策略的经验,然后适用于新地图,即使他们对其布局和拓扑,或其他玩家的意图或位置一无所知。

在这种情况下,Jaderberg及其同事写道,“结果很不确定,无法提供有意义的学习信号”。

强化学习工作流程分为两个步骤,其中优化单个代理的奖励行为然后与整个数据集的“超参数”匹配。表现不佳的代理人被变异的后代所取代,这种后代将从全面学到的经验教训内化 - 这种做法也被称为“基于人口的培训”。

结果非常好。即使系统将代理的反应时间降低到人类平均水平,它们仍然匹配并超过人类的表现。经过几个小时的练习,人类游戏玩家在超过25%的尝试中无法击败他们,更有趣的是,AI代理人发现并采用了人类玩家常用的获胜策略。

但秘诀可能是并行的多游戏方法。类似的自学系统让AI代理人在一次练习中测试他们对自己的政策所学到的东西 - 他们实际上是在对抗自己。

虽然在Quake III Arena中表现出色的机器人可能很酷,但研究人员指出,该方法的可扩展性可以在需要稳定学习的多代理系统中提供令人兴奋的应用程序。

免责声明:本文由用户上传,如有侵权请联系删除!