Atarimaster 新AI在电子游戏挑战中击败了谷歌DeepMind
一种新的算法已经掌握了Atari电子游戏比最先进的人工智能快10倍,具有解决问题的突破性方法。
设计能够谈判规划问题的人工智能,特别是那些回报不是立即明显的问题,是推进该领域的最重要的研究挑战之一。
一项著名的2015年研究表明,谷歌深度思维人工智能学会了玩Atari电子游戏,如视频弹丸,达到人类的水平,但众所周知,在20世纪80年代,由于游戏的复杂性,未能学会第一把钥匙。
在澳大利亚墨尔本RMIT大学开发的新方法中,为自主玩Montezuma的复仇而设置的计算机从错误中吸取教训,并确定了比GoogleDeepMind更快10倍的子目标来完成游戏。
来自RMIT大学的FabioZambetta副教授本周五在美国第33届AAAI人工智能会议上介绍了这一新方法。
该方法是与RMIT教授John Thangarajah和MichaelDann合作开发的,它将“胡萝卜和大棒”强化学习与内在的动机方法结合起来,奖励人工智能好奇和探索其环境。
“真正智能的人工智能需要能够学会在模糊的环境中自主完成任务,”赞贝塔说。
“我们已经证明,正确的算法可以使用更聪明的方法来改进结果,而不是在非常强大的计算机上将问题端到端进行完全野蛮的强制。
“我们的研究结果表明,如果我们想在这一领域继续取得实质性进展,我们将离自主人工智能有多近,并可能成为关键的调查领域。”
赞贝塔的方法奖励系统自主探索有用的子目标,如‘爬那个梯子’或‘跳过那个坑’,这对计算机来说可能是不明显的,在完成一个更大的任务的背景下。
其他最先进的系统已经要求人类输入来识别这些子目标,或者决定下一步随机做什么。
Zambetta说:“我们的算法不仅自主识别相关任务的速度比GoogleDeepMind在玩Montezuma的复仇游戏时快了大约10倍,而且在这样做的过程中也表现出了相对类似人类的行为。”
例如,在你进入游戏的第二个屏幕之前,你需要识别子任务,如爬梯,跳过敌人,然后最后拿起一把钥匙,大致按这个顺序。
“这种情况最终会在大量时间之后随机发生,但在我们的测试中如此自然地发生,显示出某种意图。
“这使我们成为第一个完全自主的面向次级目标的代理在这些游戏中真正与最先进的代理竞争。”
赞贝塔说,当提供原始的视觉输入时,该系统将在电子游戏之外的广泛任务中工作。
“创建一个能够完成电子游戏的算法可能听起来微不足道,但我们设计的一个能够在任意数量的可能操作中选择模糊的算法是一个关键的进步。
他说:“这意味着,随着时间的推移,这项技术将对实现现实世界中的目标很有价值,无论是在自动驾驶汽车上,还是作为具有自然语言识别能力的有用机器人助手。”
自动推导子目标以加速学习稀疏奖励域(附件)将在2019年2月1日在夏威夷檀香山举行的第33届AAAI人工智能会议上介绍。
进一步探讨