使用人工智能盲人可以在房间里找到熟悉的面孔
12月中旬的一天,灰蒙蒙的,下着雨,12岁的盲男孩西奥(Theo)坐在拥挤的厨房里的一张桌子旁。一个装有摄像机、深度传感器和扬声器的发带环绕着他沙棕色的头发。他左右转动头部,直到头带前面的摄像头对准柜台另一边的一个人的鼻子。
西奥从他耳朵上方的头带扬声器中听到了一个“砰”的声音,后面跟着“马丁”的名字。
“我花了五秒钟才找到你,马丁,”西奥说,他的头和身体都朝着马丁·格雷森的方向,格雷森是微软剑桥研究实验室的高级研究软件开发工程师。格雷森站在一个齐膝高的黑色箱子旁边,箱子里装着运行机器学习模型所需的计算硬件,西奥用来识别他的原型系统正是由这些机器学习模型驱动的。
伊琳,西奥的母亲,站在西奥对面的墙上,说:“我喜欢你转身去找他的方式。真是太好了。”
当西奥开始转向他的母亲时,喇叭里又响起了“蒂姆”的声音。
“蒂姆,你在这儿,”西奥高兴地说,他的目光落在了实验室的另一位高级研究软件开发工程师蒂姆·里根(Tim Regan)身上。西奥和他的母亲在里根的家里上两月一次的编程课。他们是在一个研究项目中认识的,该项目开发出了“代码跳线者”(Code jumcher),这是一种物理编程语言,适用于各种视野的儿童。
西奥现在是盲人和低视力社区的几名成员之一,他们正在与里根、格雷森、研究人员塞西莉·莫里森(Cecily Morrison)和她的团队一起进行“东京项目”(Project Tokyo)的研究,这是一项多方面的研究工作,旨在创建智能个人代理技术,利用人工智能扩展人们现有的能力。
对西奥来说,这意味着可以识别出他周围的人。
西奥说:“能够知道人们在我的环境中处于什么位置,这太令人兴奋了。”“不只是选择说话的人,还有所有沉默的人,你可以从他们的脸上看到,但我不能。”
莫里森指出,“东京项目”最终是一项研究工作,其长期目标是展示如何构建智能个人代理,以扩展所有用户的能力。她没有构建能够完成特定任务的端到端系统,而是将人工智能的未来视为一组资源,人们可以以任何他们认为合适的方式使用这些资源。
“突然之间,我们不必说,‘嘿,你瞎了,我只是让你知道这个。’我们会说,‘嘿,你是你,我刚刚建立了一个适合你的系统,’”她说。“我不需要知道你的任何事情。我不需要在你身上贴标签。我可以做一些适合你的东西,因为我有一个系统,你可以采取和适应自己。”
残奥会在巴西
“东京项目”诞生于2016年初,当时微软(Microsoft)的高管们发起了一项挑战,希望创造出超越获取体育比分、天气预报或识别物体等任务的人工智能系统。莫里森说,为盲人和低视力的人创造工具是这个项目的自然选择,因为残疾人通常是新技术的早期采用者。
“这不是说,‘让我们为盲人建造一些东西吧,’”莫里森说。“我们正在与盲人合作,帮助我们想象未来,而未来是关于人工智能的新体验。”
莫里森和她的同事埃德·卡崔尔(Ed Cutrell)被任命为该项目的负责人。埃德·卡崔尔是位于华盛顿州雷德蒙德的微软研究实验室的高级首席研究员。两家公司都擅长与盲人或低视力者合作设计技术,并决定从了解代理技术如何增强或扩展这些用户的能力开始。
开始,他们跟着一群运动员和观众与不同程度的视觉之旅从英国到2016年残奥会在里约热内卢,巴西,观察他们如何与他人互动导航机场,参加了体育场馆去观光等活动。Cutrell指出,一个关键的学习是如何丰富对社会环境的理解可以帮助盲人或低视力的人理解他们的环境。
“作为人类,我们有一个非常微妙和复杂的社会的理解如何与人互动的房间里,他们在做什么,他们的关系是什么,如何理解如果他们是否与我相关,”他说。“对于盲人来说,很多我们认为理所当然的线索都消失了。”
这一认识激发了与盲人和低视力社区的一系列讲习班,这些讲习班侧重于可能提供这种体验的潜在技术。50多岁的音频工程师彼得·波士尔(Peter Bosher)一生中大部分时间都是盲人,他与“东京项目”团队合作。
“每当我在超过两个或三个人的情况,特别是如果我不知道其中的一些,就会成倍更难对付,因为人们使用越来越多的眼神和肢体语言信号,他们想跟某某人,他们现在想说话,”他说。“作为一个盲人真的很难。”
修改后的全息透镜
一旦东京项目的研究人员理解了他们想要创造的人工智能体验的类型,他们就着手构建这种使能技术。他们从最初的微软HoloLens开始,这是一种混合现实耳机,将全息图投射到真实世界,用户可以操作。
“HoloLens为我们提供了大量我们需要的东西,来建立一个能够交流社会环境的实时人工智能代理,”格雷森在剑桥微软研究实验室的一次技术演示中说。
例如,该设备有一个灰度相机阵列,提供近180度的环境视图,以及一个用于高精度面部识别的高分辨率彩色相机。此外,用户耳朵上方的扬声器允许空间化的音频——似乎来自用户周围特定位置的声音。
东京项目小组的机器学习专家随后开发了计算机视觉算法,提供有关用户环境中谁在哪里的不同级别的信息。这些模型运行在图形处理单元,也就是众所周知的gpu上,这些图形处理单元被安置在格雷森的黑色箱子里,格雷森把箱子运到里根的家里,让西奥进行用户测试。
例如,一个模型检测环境中人们的姿势,它提供了人们离用户的位置和距离的感觉。另一种方法是分析来自高分辨率相机的照片流,以识别人们,并确定他们是否选择让系统知道他们的名字。所有这些信息都通过音频提示传递给用户。
例如,如果设备检测到用户左边一米远的人,系统就会播放一声点击,听起来好像是从左边一米远的地方传来的。如果系统识别出这个人的脸,它就会播放一个碰撞声,如果这个人也被系统识别,它就会宣布他们的名字。
当用户只听到一声点击,但想知道这个人是谁时,第二层声音就像一条松紧带,将用户的视线引向这个人的脸。当镜头的中央摄像头连接到人的鼻子时,用户听到一声尖锐的咔哒声,如果系统知道这个人,就会听到他的名字。
“我特别喜欢的东西给你视线的角度,因为我从来没有真正确定的合理的角度是什么在你的头,”波什说,曾与音频体验的项目东京团队在设计过程的早期,回到剑桥实验室讨论他的经验和查看最新的迭代。“这将是学习肢体语言的好工具。”
原型与成人
随着“东京项目”团队开发和改进了这项技术,研究人员经常邀请失明或视力低下的成年人来测试该系统,并提供反馈。例如,为了促进更直接的社会互动,研究小组将镜头从全息透镜的前部移除。
一些用户表示,他们希望在不频繁转头的情况下,不引人注意地获得系统收集的信息,这让他们感到社交尴尬。这些反馈促使Project Tokyo团队致力于开发一些功能,帮助用户快速了解周围的人,例如,询问概况,并获得系统识别的所有人的空间读出。
另一个实验性的功能是,当有人看着用户时,它会发出一个空间化的铃声,提醒用户注意。然而,与碰撞不同的是,编钟后面没有名字。
格雷森向20多岁的测试员艾米丽(Emily)解释说:“当你看着某人时,我们已经在用这个名字了。”但同时,不提名字可能会让你把注意力转向想引起你注意的人。转向他们,你就会知道他们的名字。”
我完全同意。这就是有视力的人的反应。他们用眼角的余光捕捉别人,或者你有那种感觉,然后说,‘塞西莉,’”艾米丽说。
研究人员向艾米丽展示的改良过的全息透镜还包括一个贴在摄像机带子上的LED光带。一个白光跟踪最接近用户的人,当这个人被用户识别时,它会变成绿色。该功能让交流伙伴或旁观者知道自己被人看到了,从而更自然地发起对话。
LED灯带还为人们提供了一个机会,让他们可以离开设备的视野,不被人看到,如果他们愿意的话。莫里森说:“当你知道自己即将被人看到时,你也可以决定不被人看到。”“如果你知道什么时候有人看见你,你就知道什么时候没人看见你。”
一个教授社交技巧的工具
随着技术研究的继续,“东京项目”正在探索研究过程中发现的方法:利用这项技术帮助失明或低视力儿童发展社交技能。
根据学术研究,三分之二的失明或低视力儿童表现出与自闭症儿童一致的社会行为。例如,许多失明或视力低下的儿童似乎对谈话伙伴漠不关心,常常把头放在桌子上,耳朵露在外面。
Morrison和Cutrell围绕“东京计划”进行了一项研究,探索该系统的缩小版能否用于帮助失明或低视力儿童理解他们如何利用自己的身体来启动和维持与人的互动。
因为微软的研究人员已经与西奥建立了联系,所以他们聘请他来帮助调整系统,使之适应儿童的需要,比如考虑到儿童倾向于坐得很近,同时很少坐着不动。
西奥回忆说:“当它宣布人们的名字时,它试图同时宣布两个名字,我要求改变这一做法,因为基本上很难听到任何人的名字。”
研究人员还探索了西奥如何使用这个系统。例如,在一次家庭聚餐中,他开始巧妙地,但反复地,将他的头从一边移到另一边,以迫使系统读出他正在交谈的人的名字。
莫里森说:“我们认为他是通过刷新工作记忆来支持他对一个人的空间注意力。”“这是我们从未预料到的,但这是一个非常强大的策略,可以帮助他保持注意力,如果他能保持注意力,他就能保持一个话题。”
这项技术的其他用途更符合研究人员的假设,即它将帮助他在一个由视力正常的人主导的世界中培养社交技能。
例如,像其他失明或低视力的孩子一样,西奥在社交场合把头放在桌子上,一只耳朵对着世界。研究人员与西奥一起玩了一系列的游戏,旨在强调当他使用身体和头部与视力正常的人交谈时可能产生的社会力量。
在实验室进行的一个游戏中,研究人员要解决一组问题。西奥知道答案。研究人员只知道主题,他们只能在西奥看着他们的时候说话。西奥把目光移开,他们不得不停止谈话。
莫里森说:“突然之间,他意识到自己可以应付一场对话。”“他开始理解能够看着某人的力量,这种力量在谈话中给了他力量,通过这种力量,他开启了一整套全新的社交能力,这是他以前无法做到的。”
如今,西奥说话时很少把头放在桌子上。不管戴不戴改良过的全息眼镜,他都会把身体和脸转向他想接触的人。这种变化是否会长期持续尚不清楚,研究人员也不确定其他失明或视力低下的儿童是否也会有类似的反应。
“从我们看到的西奥身上,我们有一种很好的感觉,因为我们在他身上看到了,但这只是其中之一。谁知道这种情况会不会发生。”“这就是为什么我们要进入下一个阶段,这个阶段将会有更多的儿童和更广泛的年龄范围。”
东京的未来
范围更广的“东京项目”(Project Tokyo)的研究工作仍在继续,其中包括机器学习的新方向,允许用户根据自己的偏好调整系统。剑桥大学实验室的机器学习研究员Sebastian Tschiatschek正在研究一种功能,使用户能够向系统显示他们想要听到的信息的种类和数量。
个性化的发展要求Tschiatschek采取一种非传统的方法来进行机器学习。
“我们喜欢做的是用某种数学形式把问题正式化,”他说。“在这个问题中你不可能那么容易做到。很多开发都是通过尝试,与人们进行互动,了解他们喜欢什么,不喜欢什么,并改进算法实现的。”
他解释说,对个性化的渴望之所以存在,是因为盲人或低视力者的视力水平不同,因此对信息的需求也不同。更重要的是,当系统提供用户已经知道的信息时,他们会感到沮丧。
Tschiatschek说:“为了实现东京项目的愿景,你必须把这么多没有自己解决的事情结合起来。”
最终,东京项目将演示如何构建智能个人代理,以扩展所有用户的能力。为了实现这一目标,莫里森、卡特雷尔和他们的同事将继续与失明或视力低下的人合作,包括更多的儿童。
“我们在西奥身上看到的东西非常强大,”莫里森在里根家进行系统测试的第二天在她的办公室里说。“它很强大,因为他以一种前所未有的方式控制着自己的世界。”
莫里森7岁的儿子罗南(Ronan)是参加“东京项目”的越来越多的孩子之一。罗南自出生以来就失明了。