研究人员迈向改善计算机视觉的大胆一步
神经科学家和计算机视觉科学家说,一个前所未有的新数据集-包括对四位志愿者的大脑扫描,每位志愿者查看了5,000张图像-将有助于研究人员更好地了解大脑如何处理图像。
卡内基梅隆大学和福特汉姆大学的研究人员今天在《科学数据》杂志上发表报告说,以这种规模获得功能性磁共振成像(fMRI)扫描提出了独特的挑战。
每位志愿者参加了20个小时或更长时间的MRI扫描,挑战了他们的毅力和实验者在整个扫描过程中进行协调的能力。要解开与单个图像相关的神经反应,必须做出极端的设计决定,即要在多个会话中运行相同的个体。
最终的数据集称为BOLD5000,使认知神经科学家可以更好地利用深度学习模型,这些模型大大改善了人工视觉系统。最初受到人类视觉系统架构的启发,可以通过对人类视觉如何工作的新见解以及对人类视觉的研究更好地反映现代计算机视觉方法来进一步改善深度学习。为此,BOLD5000测量了从观看两个流行的计算机视觉数据集:ImageNet和COCO拍摄的图像后产生的神经活动。
共同作者迈克尔·莫拉(Cav?i-Moura)认知与脑科学教授,CMU心理学系主任迈克尔·J·塔尔(Michael J. Tarr)说:“脑科学与计算机科学的相互融合意味着科学发现可以双向流动。”“使用BOLD5000数据集进行的视觉未来研究应有助于神经科学家更好地理解人脑中的知识组织。随着我们对视觉识别的神经基础有了更多的了解,我们也将更好地为人造视觉的发展做出贡献。 ”
首席作者Nadine Chang,博士。CMU机器人学院的一名专门研究计算机视觉的学生表示,计算机视觉科学家正在寻求神经科学来帮助在人工视觉迅速发展的领域进行创新-加强了这项研究的双向性。
Chang说:“计算机视觉科学家和视觉神经科学家本质上具有相同的最终目标:了解如何处理和解释视觉信息。”
从一开始,改善计算机视觉是BOLD5000项目的重要组成部分。高级作者艾丽莎·阿米诺夫(Elissa Aminoff)当时是CMU心理学系的博士后研究员,现在是福特汉姆(Fordham)的心理学助理教授,他与合著者,机器人研究所副教授Abhinav Gupta发起了这一研究方向。
在连接生物学和计算机视觉方面面临的挑战之一是,大多数人类神经影像学研究都很少包含刺激图像(通常不超过100个),这些刺激图像通常被简化为仅在中性背景下描绘单个物体。相比之下,BOLD5000包含5,000多个真实的,复杂的场景,单个对象和交互对象的图像。
该小组将BOLD5000视为利用现代计算机视觉模型研究生物视觉的第一步。
Tarr说:“坦率地说,BOLD5000数据集仍然太小了,”这表明,一个合理的fMRI数据集将至少需要50,000个刺激图像,而更多的志愿者则需要根据深度神经网络的类别来取得进展。分析视觉图像在数百万张图像上得到训练。为此,研究团队希望他们能够生成5,000个脑部扫描数据集的能力将为人类视觉和计算机视觉科学家之间的更大合作努力铺平道路。