DeepMind的AI自动生成强化学习算法
在预印本服务器Arxiv.org上发表的一项研究中,DeepMind研究人员描述了一种强化学习算法生成技术,该技术通过与环境交互来发现预测内容以及如何学习。他们声称,生成的算法在一系列具有挑战性的Atari视频游戏中表现出色,实现了“非平凡”的性能,表明该技术具有普遍性。
强化学习算法(使软件代理能够使用反馈通过反复试验在环境中学习的算法)根据几种规则之一来更新代理的参数。这些规则通常是通过多年研究发现的,从数据中自动发现可能会导致算法更有效,或者算法更适合特定环境。
DeepMind的解决方案是一个元学习框架,可共同发现特定代理应预测的内容以及如何使用这些预测来改进策略。(在强化学习中,“策略”定义了学习主体在给定时间的行为方式。)他们的架构-学习策略梯度(LGP)-允许更新规则(即元学习者)决定主体的行为当框架通过多个学习代理发现规则时,输出应该是预测性的,每个学习代理都与不同的环境交互。
在实验中,研究人员直接在复杂的Atari游戏(包括Tutankham,Breakout和Yars'Revenge)上评估了液化石油气。他们发现,与现有算法相比,它可以“合理地”推广到游戏中,尽管训练环境由基本任务比Atari游戏简单得多的环境组成。此外,受液化石油气培训的特工在不依赖手工设计的强化学习组件的情况下,成功实现了14场比赛的“超人”表现。
合著者指出,LPG仍落后于某些高级强化学习算法。但是在实验期间,随着训练环境数量的增加,其泛化性能迅速提高,这表明一旦有更多的环境可用于元训练,发现通用增强学习算法可能是可行的。
“通过以数据驱动的方式使发现过程自动化,所提出的方法具有极大地加速发现新的强化学习算法的过程的潜力。如果建议的研究方向成功,这将使研究范式从人工开发强化学习算法转变为构建适当的环境集,从而使所得算法高效。”研究人员写道。“此外,提出的方法还可以用作辅助强化学习研究人员开发和改进其手工设计算法的工具。在这种情况下,根据研究人员提供的输入架构,可以使用建议的方法来了解良好更新规则的外观,
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
预约试驾比亚迪元PLUS前,需注意以下几点:首先确认车型配置与预算是否匹配,了解车辆性能及续航信息。其次,...浏览全文>>
-
小鹏G7试驾前,新手需掌握以下步骤:1 预约试驾:通过官网或APP预约,选择合适时间和地点。2 准备证件:...浏览全文>>
-
预约别克GL8试驾,4S店提供专业且贴心的服务流程。首先,可通过电话或线上平台提前预约,选择合适的时间与车型...浏览全文>>
-
试驾奇瑞新能源QQ多米,新手可参考以下流程:1 预约试驾:通过官网或4S店预约,选择合适时间。2 到店接...浏览全文>>
-
试驾宝马X1,感受紧凑型SUV中的驾驶乐趣。轻踩油门,2 0T发动机迅速响应,动力输出平顺有力,提速迅猛。方向...浏览全文>>
-
福特烈马预约试驾,线上+线下操作指南:线上预约:访问福特官网或官方App,选择“试驾预约”,填写个人信息、...浏览全文>>
-
奥德赛试驾预约,简单几步,开启完美试驾之旅。只需三步,即可轻松完成预约:第一步,访问官网或拨打热线;第...浏览全文>>
-
想要快速锁定雷克萨斯ES的试驾名额,可采取以下方法:首先,访问雷克萨斯官网或使用官方APP,填写基本信息并提...浏览全文>>
-
想体验理想L8的智能与豪华?现在即可在线下预约试驾!作为一款中大型SUV,理想L8融合了家庭出行与科技感,搭载...浏览全文>>
-
试驾SRM鑫源摩托车时,需注意以下几点:首先,确认车辆状态,检查刹车、轮胎、灯光等是否正常。其次,选择安全...浏览全文>>
- 理想L8试驾线下预约
- 宝马X1预约试驾,4S店体验全攻略
- 华晨新日预约试驾,如何享受4S店的专业服务?
- 小鹏P7+试驾,开启完美驾驭之旅
- 元UP试驾预约,快速上手指南
- 金龙汽车预约试驾,新手试驾注意事项
- 蓝电试驾预约,如何快速预约并体验驾驶乐趣?
- 乐道L60试驾,如何在4S店快速预约?
- 小鹏MONA M03试驾,开启完美驾驭之旅
- 试驾别克昂科威,轻松几步,畅享豪华驾乘
- 云度新能源预约试驾有哪些途径
- 乐道L60试驾,如何在4S店快速预约?
- 哈弗大狗试驾,开启完美驾驭之旅
- 试驾深蓝汽车深蓝S05,线上+线下操作指南
- 日产奇骏试驾怎么预约
- 鸿蒙智行问界M9预约试驾,新手试驾注意事项
- 奇瑞艾瑞泽8预约试驾怎么预约
- 荣威预约试驾全攻略
- 坦克试驾,开启完美驾驭之旅
- 吉利银河预约试驾需要注意什么