谷歌研究人员通过让AI玩Pong来改善强化学习
深度强化学习 - 一种利用奖励推动软件政策实现目标的人工智能培训技术 - 已被用于模拟社会规范的影响,创建非常擅长玩游戏的人工智能,以及可以从恶劣的泄漏中恢复的程序机器人。但是尽管它的多功能性,强化学习(或“RL”,因为它通常缩写)有一个显而易见的缺点:它效率低下。培训策略需要在模拟或现实环境中进行大量交互 - 远远超过普通人学习任务所需的内容。
为了在视频游戏领域进行一些补救,Google的研究人员最近提出了一种新的算法 - 模拟策略学习(Simulated Policy Learning),简称SimPLe,它使用游戏模型来学习选择动作的质量策略。他们在新出版的预印纸(“ 基于模型的Atari强化学习 ”)和随附的开源代码文档中对其进行了描述。
“在高层次上,SimPLe背后的想法是在模拟游戏环境中学习游戏行为的世界模型和使用该模型优化策略(无模型强化学习)之间交替,”Google AI写道科学家ŁukaszKaiser和Dumitru Erhan。“这种算法背后的基本原理已经很好地建立,并已被用于许多最近基于模型的强化学习方法中。”
正如两位研究人员进一步解释的那样,训练AI系统来玩游戏需要在给定一系列观察到的帧和命令(例如,“左”,“右”,“前进”,“后退”)的情况下预测目标游戏的下一帧。他们指出,一个成功的模型可以产生可用于训练游戏代理政策的轨迹,这将消除依赖计算成本高昂的游戏内序列的需要。
SimPLe就是这样做的。它需要四帧作为输入来预测下一帧以及奖励,并且在完全训练之后,它产生“推出” - 用于改进策略的动作,观察和结果的样本序列。(Kaiser和Erhan指出,SimPLe仅使用中等长度的推出来最小化预测错误。)
在持续相当于两小时游戏玩法(100,000次互动)的实验中,使用SimPLe调整策略的代理人在两个测试游戏(Pong和Freeway)中获得了最高分,并产生了“近乎完美的预测”,最多可达到50步。未来。他们偶尔会努力捕捉游戏中“小而高度相关”的物体,导致失败的情况,Kaiser和Erhan承认它还不符合标准RL方法的性能。但SimPLe在培训方面的效率提高了两倍,研究团队预计未来的工作将显着提高其绩效。
他们写道:“基于模型的强化学习方法的主要前景是在交互成本高,速度慢或需要人工标记的环境中,例如许多机器人任务。” “在这样的环境中,学习的模拟器可以更好地理解代理的环境,并可以为新的,更好,更快的方式进行多任务强化学习。”