两步训练有助于机器人解释人类语言
对于机器人来说,人类的指令非常复杂。即使是一个相对简单的命令,如“去房子,右边穿过树”,也可能需要数百次尝试才能学习。如果命令变为“转到房子,通过左侧的树”,机器人需要从头开始重新学习任务。
康奈尔研究人员的一篇新论文旨在通过将机器人的任务分为两个独立的阶段来解决这一挑战:首先,解释命令中的语言并绘制出轨迹; 然后执行它的旅行。在模拟中,使用这种方法训练的无人机学习如何比现有方法更快,更准确地在给定环境中操纵。
“计划去哪里是一个比去那里更简单的问题,因为它避免了代理人必须真正在环境中行动,”康奈尔科技公司计算机科学博士生和论文第一作者Valts Blukis说。将导航指令映射到具有位置 - 访问预测的连续控制动作,“在瑞士苏黎世举行的机器人学习会议上发表。“一旦它可以预测路径,就可以相对容易地遵循它,而不必关心原始指令。
该论文与康奈尔大学计算机科学博士生Dipendra Misra共同撰写; Ross Knepper,计算机科学助理教授; 和资深作者Yoav Artzi,康奈尔科技公司计算机科学助理教授。
大多数现有机器人遵循来自复杂用户界面或控制器(例如操纵杆)的指令。为了控制它们,操作员必须具备专业知识或培训,将机器人的使用限制在重复的任务和工厂等工业环境中。可以解释自然人类语言的机器人可以被非专家访问,并且可能具有更广泛的任务。
“语言是强大的,让我们表达许多想法和结构,”Blukis说。“通过语言,我们可以设想告诉我们的机器人我们想要他们做什么。”
但同样的复杂性和丰富性使语言如此有效也使机器人很难理解。例如,诸如“走向蓝色围栏,通过右边的铁砧和树”之类的命令需要计算机理解许多概念和行为。
同时,许多最近的机器人通过经验学习。通过数十万次尝试,他们纠正了他们的行为,直到他们学会了如何有效地完成每项工作。如果您试图让机器人响应自然的人类语言而不是预先学习的命令列表,那么这种方法是不可行的。
在研究人员的新模型中,机器人首先解释语言,以识别机器人在完成任务和识别正确目的地时可能访问的位置。然后它在最可能的位置之间移动到达目的地。
这两个阶段分别使用深度神经网络进行训练 - 深度神经网络是一种机器学习架构,其中计算机从数据中学习表示。该模型在观察信息时存储信息,使其能够随着时间的推移改进其预测。
布鲁基斯说:“一旦它预测了应该去的地方 - 基本上通过突出显示很可能被访问的区域 - 它会产生行动去那里。” “通过这种方式,我们可以更快地迭代指令数据,并快速教导机器人正确规划从指令到哪里,而机器人不必在环境中行动并且完全犯错误。”
研究人员使用近28,000个众源指令和近似无人机飞行的四轴飞行器模拟器测试了他们的模型,其中包括一个需要快速决策以应对不断变化的条件的现实控制器。他们发现他们的模拟无人机几乎是使用其他两种最近提出的方法的准确度的两倍,而Blukis说他们在几天内训练他们的模型,而不是几周。
虽然目前该模型仅以模拟格式存在,但未来类似的方法可能会应用于交付机器人甚至是自动驾驶车辆。他说,这个系统在大型,不熟悉或复杂的环境中特别有用,在这种环境中训练机器人以响应更具体的目标任务是不切实际的。