通过预处理或后处理数据 人类可以介入以纠正机器学习模型

人工智能2020-08-26 17:00:20
导读

人工智能(AI)的主要问题之一是“人工”部分。另一个是“智能”。虽然我们想假装我们正在设置机器人智能,以摆脱人类的偏见和其他缺点,但实际上,我们经常将故障一次转移到AI中,一次一个数据集。

数据科学家汉娜·戴维斯(Hannah Davis)指出了这一点,认为“数据集就是世界观”,充满了主观含义。但是她并没有留下AI希望垂死的希望,而是提供了一些方法来改善我们告知AI的数据。

人工智能一直都是关于人的

摆正我们有多“数据驱动”的姿势已变得十分必要,而AI完全依赖于要使用的数据,这已成定局。例如,机器学习算法的奇迹之一就是它们能够以多快的速度筛选大量数据以发现模式并做出相应的响应。但是,必须对此类模型进行培训,这就是为什么数据科学家倾向于将其聚集在已建立的高质量数据集周围。

不幸的是,正如戴维斯指出的那样,这些数据集不是中立的:

[A]数据集是世界观。它涵盖了收集和收集数据人员的世界观,无论他们是研究人员,艺术家还是公司。它涵盖了标签商的世界观,无论它们是手动,不知不觉地还是通过诸如Mechanical Turk之类的第三方服务对数据进行标签,该服务都有其自身的人口统计学偏差。它涵盖了组织者创建的固有分类法的世界观,这些组织在许多情况下是其动机与高质量生活直接不相容的公司。

看到问题了吗?机器学习模型仅与提供它们的数据集一样聪明,并且这些数据集受到塑造它们的人的限制。正如一位《卫报》编辑感叹的那样,这可能会导致机器更快地犯下我们相同的错误:“人工智能的承诺是,它将使机器具有从数据中发现模式的能力,并能比人类更快更好地做出决策。 。如果他们更快地做出更糟糕的决定会怎样?”

进一步使事情复杂化的是,我们自己的错误和偏见又由机器学习模型决定。正如Manjunath Bhat所写的那样:“人们以数据的形式消费事实。但是,可以对数据进行突变,转换和更改,而这一切都是为了使其易于使用。我们别无选择,只能生活在高度情境化的世界观的范围内。”换句话说,我们没有清楚地看到数据。我们的偏见塑造了我们输入到机器学习模型中的模型,这些模型又反过来塑造了可供我们使用和解释的数据。

免责声明:本文由用户上传,如有侵权请联系删除!