首页 >> 金融 >

打开自动机器学习的黑盒子

2020-03-23 15:27:18 来源：用户：

麻省理工学院和其他地方的研究人员开发了一种交互式工具，第一次让用户看到和控制自动化机器学习系统是如何工作的。目的是建立对这些系统的信心，并找到改进的方法。

为某项任务设计一个机器学习模型-如图像分类、疾病诊断和股票市场预测-是一个艰巨而耗时的过程。专家们首先从许多不同的算法中选择建立模型。然后，他们在模型开始训练之前手动调整“超参数”-这决定了模型的整体结构。

最近开发的自动机器学习（AutoML）系统迭代测试和修改算法和那些超参数，并选择最适合的模型。但这些系统以“黑匣子”的形式运行，这意味着它们的选择技术对用户来说是隐藏的。因此，用户可能不信任结果，并可能发现很难根据他们的搜索需求定制系统。

麻省理工学院、香港科技大学（科大）和浙江大学的研究人员在ACM CHI计算机系统中的人类因素会议上发表论文，描述了一种将AutoML方法的分析和控制交给用户的工具。称为ATMSeer，该工具以AutoML系统、数据集和一些关于用户任务的信息作为输入。然后，它将搜索过程可视化在一个用户友好的界面中，该界面提供了关于模型性能的深入信息。

作者之一、麻省理工学院信息和决策系统实验室（L ID S）的主要研究科学家Kalyan Veeramachaneni说：“我们让用户挑选，看看AutoML系统是如何工作的。“您可能只是简单地选择性能最好的模型，或者您可能有其他考虑，或者使用领域专门知识来指导系统搜索某些模型而不是其他模型。”

在对AutoML新手科学研究生的案例研究中，研究人员发现，使用ATMSeer的参与者中，大约85%对该系统选择的模型充满信心。几乎所有的参与者都说，使用该工具使他们足够舒适，可以在未来使用AutoML系统。

电子工程与计算机科学系（EECS）研究生、LIDS研究员米卡·史密斯（Micah Smith）说：“我们发现人们使用AutoML的可能性更大，因为打开了那个黑匣子，看到并控制了系统是如何运行的。”

“数据可视化是实现人类和机器之间更好协作的有效方法。《自动取款机》（ATMSee r）就是这一理念的典范。“ATMSeeer将主要受益于机器学习从业者，无论他们的领域是什么，（谁）有一定的专业水平。它可以减轻手动选择机器学习算法和调整超参数的痛苦。

论文中加入史密斯、韦拉马钱尼和王的是：姚明、沈巧木、刘东宇、华民曲，都是科大的；浙江大学的志华金。

调整模型

新工具的核心是一个定制的AutoML系统，称为“自动调谐模型”（ATM），由Veeramachaneni和其他研究人员在2017年开发。与传统的AutoML系统不同，ATM在尝试将模型与数据相匹配时，对所有搜索结果进行了完全编目。

自动取款机将任何数据集和编码的预测任务作为输入。系统随机选择一个算法类-如神经网络、决策树、随机森林和Logistic回归-以及模型的超参数，如决策树的大小或神经网络层数。

然后，系统根据数据集运行模型，迭代地调整超参数，并测量性能。它使用它所学到的关于该模型的性能来选择另一个模型，以此类推。最后，系统为一个任务输出了几个性能最好的模型..

诀窍在于，每个模型本质上都可以被视为一个具有几个变量的数据点：算法、超参数和性能。在这项工作的基础上，研究人员设计了一个系统，在指定的图表上绘制数据点和变量。从那里，他们开发了一种单独的技术，也允许他们实时重新配置数据。史密斯说：“关键是，有了这些工具，任何你可以想象的东西，你也可以修改。

类似的可视化工具只适合分析一个特定的机器学习模型，并允许有限的搜索空间定制。“因此，他们对AutoML过程的支持有限，在这个过程中，需要对许多搜索模型的配置进行分析，”王说。“相比之下，ATMSeer支持用各种算法生成的机器学习模型的分析。”

用户控制和信心

ATMSee的接口由三部分组成.控制面板允许用户上传数据集和AutoML系统，并启动或暂停搜索过程。下面是一个概述面板，它显示了基本的统计数据-例如搜索的算法和超参数的数量-以及按降序排列的顶级模型的“领导板”。“这可能是你最感兴趣的观点，如果你不是一个深入研究细节的专家，”Veeramachaneni说。

ATMSeer包括一个“AutoML Profiler”，其面板包含关于算法和超参数的深入信息，这些都可以调整。一个面板将所有算法类表示为直方图-一个条形图，显示算法性能分数的分布，标度为0到10，这取决于它们的超参数。一个单独的面板显示散点图，可视化不同的超参数和算法类在性能上的权衡。

没有AutoML经验的机器学习专家的案例研究表明，用户控制确实有助于提高AutoML选择的性能和效率。用户研究与13名研究生在不同的科学领域-如生物学和金融-也是有启发性的。结果表明，三个主要因素-搜索的算法数量、系统运行时和找到性能最好的模型-决定了用户如何定制他们的AutoML搜索。研究人员说，这些信息可以用来为用户定制这些系统。

韦拉马沙内尼说：“我们刚刚开始看到人们使用这些系统和进行选择的不同方式的开始。“那是因为现在这些信息都在一个地方，人们可以看到幕后发生了什么，并有能力控制它。”

进一步探索

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！