新奇的数学可以把机器学习提升到一个新的水平
葡萄牙里斯本Champalimud中心的一位意大利数学家,包括一名来自Champalimud中心的神经科学家,已经证明,通过使用25年前由这个新研究的共同作者开发的数学理论,人工视觉机器可以更快速地学会识别复杂的图像。他们的结果发表在《自然机器智能》杂志上。
近几十年来,机器视觉性能有了很大的提高。人工系统现在可以学会识别几乎任何一个人的脸,或识别在坦克中移动的任何单个鱼。
事实上,这些机器是生物神经元网络的电子模型,它们的目的是模拟大脑的功能,大脑在这些视觉任务上表现出色,而我们却没有任何意识。
但是这些人工神经网络实际上是如何学习的呢?例如,在人脸识别的情况下,他们通过获得关于人类面孔以一系列肖像的形式表现的经验来做到这一点。更具体地说,在数字化成一个像素值矩阵后,每幅图像都在神经网络中“嘎吱”一声,然后从一组样本人脸(如眼睛、嘴、鼻子等)中提取出一般的、有意义的特征。
这种深入学习使机器能够提出另一组值,从而使机器能够识别以前从未见过的人脸数据库(就像指纹数据库),从而非常准确地预测该人脸属于谁。
聪明汉斯的故事
但是,在神经网络能够很好地完成这一任务之前,通常需要向它表示数千个面(即数字矩阵)。此外,尽管这些机器在模式识别方面越来越成功,但事实上,在学习任务时,没有人真正知道它们内部发生了什么。它们基本上是黑匣子。
这意味着不可能确定机器实际从初始数据中提取的特征或多少特征,甚至这些特征中的许多特征对于面部识别是真正有意义的。
研究报告的第一作者MattiaBergomi在CCU的系统神经科学实验室工作,他说:“为了说明这一点,考虑一下智慧马的范例。”这个故事,从20世纪初开始,涉及到德国一匹叫做聪明汉斯的马,他的主人声称他已经学会了算术,并宣布了加法、减法等的结果。通过把他的一个前蹄钉在地上正确的次数。许多人相信他会数数;这匹马甚至被报道过。但是,在1907年,一位德国心理学家证明,事实上,这匹马是在他的主人的身体语言中提取无意识的线索,告诉它什么时候停止敲击。
"它与机器学习是一样的;对它的工作原理,以及在培训过程中所学到的内容,没有任何控制,"贝戈米解释了。这台机器没有表面的先验知识,只是不知何故做了它的东西,而且它起作用了。
这导致研究人员询问是否有可能在训练之前将关于面部或其他物体的真实世界的一些知识注入神经网络中,以使得它探索更有限的可能特征空间,而不是考虑它们,包括那些在现实世界中不可能的特征。我们希望控制学习特征的空间,”Bergomi说。它类似于普通的棋手和专家之间的差别:首先看到所有可能的移动,而后者只看到好的运动,”他补充说。
他说,另一种说法是,“我们的研究解决了以下简单问题:当我们训练一个深层次的神经网络来区分路标时,我们如何告诉网络,只要它只关心简单的几何形状,比如圆和三角形,它的工作就会容易得多?”
科学家们推断,这种方法将大大减少训练时间,更重要的是给他们一个提示,说明机器可能会做些什么来获得结果。"允许人类驾驶学习机器的学习过程是朝着更易于理解的人工智能移动和减少当前神经网络需要训练的时间和资源的急剧成本的基础,"说。
什么是形状?
一个抽象的数学理论称为拓扑数据分析(TDA)是关键。发展TDA的第一步是1992年意大利数学家帕特里齐奥·弗罗西尼(Patrizio Frosini),目前在博洛尼亚大学(UniversityofBologna)参与这项新研究的人。“拓扑学是最纯粹的数学形式之一,”Bergomi说。直到最近,人们才认为拓扑结构在很长一段时间内不会适用于任何具体的东西,直到tda在过去几年中广为人知。
拓扑学是一种扩展的几何学,它不是用刚性的形状测量直线和角度(如三角形、方形、圆锥等),而是根据形状对高度复杂的物体进行分类。例如,对于一个拓扑学家来说,一个甜甜圈和一个杯子是同一个物体:一个可以通过拉伸或压缩变形成另一个。
现在,事情是,目前的神经网络在拓扑上不是很好的。例如,它们不识别旋转对象。对于它们,每次旋转时,同一对象将完全不同。这正是为什么唯一的解决方案是让这些网络分别"记忆"每个配置。正是作者们正计划避免使用TDA。
将TDA看作是一种数学工具,用于在任何可以表示为大量数字的复杂对象中找到有意义的内部结构(拓扑特征)。这是通过观察数据通过某些精心选择的“镜头”或过滤器来实现的。数据本身可以是关于面孔、金融交易或癌症生存率的。TDA使教授神经网络识别人脸成为可能,而不必将人脸呈现在空间中的每一个不同的方向。这台机器现在会识别出所有的面孔都是一张脸,即使是在不同的旋转位置。
在他们的研究中,科学家们通过教一个神经网络来识别手写数字来测试机器学习和tda相结合的好处。结果本身就说明了问题。
由于这些网络是糟糕的拓扑学家和笔迹可能非常模糊,两个不同的手写数字可能被证明是不可区分的,对于当前的机器-相反,他们可能会识别出两个相同的手写数字的不同实例。这项任务需要呈现网络,它对现实世界中的数字一无所知,每个10个数字都有数千幅图像,上面写着各种倾斜、书法等。
为了注射有关数字的知识,团队建立了一组先验的特征,它们认为有意义的(换句话说,一组镜头),网络将通过这些镜头看到数字,并强迫机器在这些镜头之间进行选择,以查看图像。然而,TDA增强的神经网络在保持其预测功率的同时,所需的图像(即,时间)的数量在保持其预测功率的同时下降到小于50。
"在我们的研究中我们数学描述的是如何实施某些对称性,并且这提供了一种构建机器学习代理的策略,该策略能够通过利用作为约束而注入的知识来从几个示例中学习显著特征,"说贝戈米。
这是否意味着模仿大脑的学习机器的内部运作在未来会变得更加透明,从而对大脑本身的内部运作产生新的洞察力?无论如何,这是伯戈米的目标之一。“人工智能的可懂度对于它与生物智能的相互作用和整合是必不可少的,”他说。他目前正在与他的同事Pietro Vertechi合作,开发一种新的神经网络架构,使人类能够迅速地向这些网络中注入高水平的知识,以控制和加速他们的训练。