打开自动机器学习的黑盒子

金融2020-03-23 15:27:18
导读麻省理工学院和其他地方的研究人员开发了一种交互式工具,第一次让用户看到和控制自动化机器学习系统是如何工作的。目的是建立对这些系统的

麻省理工学院和其他地方的研究人员开发了一种交互式工具,第一次让用户看到和控制自动化机器学习系统是如何工作的。目的是建立对这些系统的信心,并找到改进的方法。

为某项任务设计一个机器学习模型-如图像分类、疾病诊断和股票市场预测-是一个艰巨而耗时的过程。专家们首先从许多不同的算法中选择建立模型。然后,他们在模型开始训练之前手动调整“超参数”-这决定了模型的整体结构。

最近开发的自动机器学习(AutoML)系统迭代测试和修改算法和那些超参数,并选择最适合的模型。但这些系统以“黑匣子”的形式运行,这意味着它们的选择技术对用户来说是隐藏的。因此,用户可能不信任结果,并可能发现很难根据他们的搜索需求定制系统。

麻省理工学院、香港科技大学(科大)和浙江大学的研究人员在ACM CHI计算机系统中的人类因素会议上发表论文,描述了一种将AutoML方法的分析和控制交给用户的工具。称为ATMSeer,该工具以AutoML系统、数据集和一些关于用户任务的信息作为输入。然后,它将搜索过程可视化在一个用户友好的界面中,该界面提供了关于模型性能的深入信息。

作者之一、麻省理工学院信息和决策系统实验室(L ID S)的主要研究科学家Kalyan Veeramachaneni说:“我们让用户挑选,看看AutoML系统是如何工作的。“您可能只是简单地选择性能最好的模型,或者您可能有其他考虑,或者使用领域专门知识来指导系统搜索某些模型而不是其他模型。”

在对AutoML新手科学研究生的案例研究中,研究人员发现,使用ATMSeer的参与者中,大约85%对该系统选择的模型充满信心。几乎所有的参与者都说,使用该工具使他们足够舒适,可以在未来使用AutoML系统。

电子工程与计算机科学系(EECS)研究生、LIDS研究员米卡·史密斯(Micah Smith)说:“我们发现人们使用AutoML的可能性更大,因为打开了那个黑匣子,看到并控制了系统是如何运行的。”

“数据可视化是实现人类和机器之间更好协作的有效方法。《自动取款机》(ATMSee r)就是这一理念的典范。“ATMSeeer将主要受益于机器学习从业者,无论他们的领域是什么,(谁)有一定的专业水平。它可以减轻手动选择机器学习算法和调整超参数的痛苦。

论文中加入史密斯、韦拉马钱尼和王的是:姚明、沈巧木、刘东宇、华民曲,都是科大的;浙江大学的志华金。

调整模型

新工具的核心是一个定制的AutoML系统,称为“自动调谐模型”(ATM),由Veeramachaneni和其他研究人员在2017年开发。与传统的AutoML系统不同,ATM在尝试将模型与数据相匹配时,对所有搜索结果进行了完全编目。

自动取款机将任何数据集和编码的预测任务作为输入。系统随机选择一个算法类-如神经网络、决策树、随机森林和Logistic回归-以及模型的超参数,如决策树的大小或神经网络层数。

然后,系统根据数据集运行模型,迭代地调整超参数,并测量性能。它使用它所学到的关于该模型的性能来选择另一个模型,以此类推。最后,系统为一个任务输出了几个性能最好的模型..

诀窍在于,每个模型本质上都可以被视为一个具有几个变量的数据点:算法、超参数和性能。在这项工作的基础上,研究人员设计了一个系统,在指定的图表上绘制数据点和变量。从那里,他们开发了一种单独的技术,也允许他们实时重新配置数据。史密斯说:“关键是,有了这些工具,任何你可以想象的东西,你也可以修改。

类似的可视化工具只适合分析一个特定的机器学习模型,并允许有限的搜索空间定制。“因此,他们对AutoML过程的支持有限,在这个过程中,需要对许多搜索模型的配置进行分析,”王说。“相比之下,ATMSeer支持用各种算法生成的机器学习模型的分析。”

用户控制和信心

ATMSee的接口由三部分组成.控制面板允许用户上传数据集和AutoML系统,并启动或暂停搜索过程。下面是一个概述面板,它显示了基本的统计数据-例如搜索的算法和超参数的数量-以及按降序排列的顶级模型的“领导板”。“这可能是你最感兴趣的观点,如果你不是一个深入研究细节的专家,”Veeramachaneni说。

ATMSeer包括一个“AutoML Profiler”,其面板包含关于算法和超参数的深入信息,这些都可以调整。一个面板将所有算法类表示为直方图-一个条形图,显示算法性能分数的分布,标度为0到10,这取决于它们的超参数。一个单独的面板显示散点图,可视化不同的超参数和算法类在性能上的权衡。

没有AutoML经验的机器学习专家的案例研究表明,用户控制确实有助于提高AutoML选择的性能和效率。用户研究与13名研究生在不同的科学领域-如生物学和金融-也是有启发性的。结果表明,三个主要因素-搜索的算法数量、系统运行时和找到性能最好的模型-决定了用户如何定制他们的AutoML搜索。研究人员说,这些信息可以用来为用户定制这些系统。

韦拉马沙内尼说:“我们刚刚开始看到人们使用这些系统和进行选择的不同方式的开始。“那是因为现在这些信息都在一个地方,人们可以看到幕后发生了什么,并有能力控制它。”

进一步探索

免责声明:本文由用户上传,如有侵权请联系删除!