机器人在决策前使用新的AI工具可以评估所有可能性
就像人类一样,当机器人做出决定时,通常会有很多选择和成百上千的潜在结果。机器人已经能够模拟这些结果中的少数几个,从而找出哪种行动方式最有可能导致成功。但是,如果其他选择之一同样有可能成功并且更安全呢?
海军研究办公室授予史蒂文斯技术学院(MIT)机械工程师培训的布伦丹·恩格洛特(Brendan Englot)2020年青年科学家奖508美元,693美元,以利用经典人工智能工具的新变体使机器人能够预测许多行动的结果以及发生的可能性。该框架将使机器人通过了解哪些选项是最安全,最有效且最不可能失败的方法,找出实现目标的最佳方法。
恩格洛特说:“如果机器人完成任务的最快方法是走在悬崖的边缘,那会牺牲速度的安全性。”恩格洛特将率先使用这种工具(分布式强化学习)来训练机器人。“我们不希望机器人掉下悬崖,因此我们为他们提供了预测和管理完成所需任务所涉及风险的工具。”
多年来,强化学习已被用来训练机器人在水,陆地和空中自主导航。但是该AI工具有局限性,因为它实际上是基于可能的每个动作的单个预期结果来做出决策的,而实际上通常还会发生许多其他可能的结果。Englot正在使用分布式强化学习,这是一种AI算法,机器人可以使用它来评估所有可能的结果,预测每个动作成功的可能性并选择最成功的权宜之计,同时保持机器人的安全。
在将算法运用于实际机器人之前,Englot的首要任务是完善算法。Englot和他的团队创建了许多决策环境来测试他们的算法。他们经常求助于该领域最受欢迎的游戏场之一:Atari游戏。
例如,当您玩吃豆人时,您就是决定吃豆人行为方式的算法。您的目标是获取迷宫中的所有点,如果可以的话,获取一些水果。但是周围有鬼魂可以杀死你。每秒钟,您被迫做出决定。你直走,向左还是向右?哪条路径可以使您获得最多的点和点,同时又使您远离幽灵?
Englot的AI算法使用分布强化学习,将代替人类玩家,模拟一切可能的动作来安全地浏览其景观。
那么,您如何奖励机器人呢?Englot和他的团队将为不同的结果分配分数,即,如果它掉下悬崖,机器人将获得-100的分数。如果采用较慢但安全的方法,则绕行的每一步可能会得到-1分。但是,如果成功达到目标,则可能会获得+50。