科学家们可以看一下ML系统 并建议如何减少它的偏差
现在,机器学习系统被用于确定从股票价格到医疗诊断的所有内容,看看他们如何做出决策从未如此重要。
麻省理工学院的一种新方法表明,罪魁祸首不仅仅是算法本身,而是数据本身的收集方式。
“计算机科学家通常很快就会说,让这些系统偏向性的方法就是简单地设计更好的算法,”主要作者Irene Chen说,他是麻省理工学院教授David Sontag和博士后助理Fredrik D. Johansson的博士生。 。“但算法只能与他们使用的数据一样好,我们的研究表明,你可以通过更好的数据做出更大的改变。”
观察具体的例子,研究人员能够找出准确性差异的潜在原因,并量化每个因素对数据的个体影响。然后,他们展示了如何改变他们收集数据的方式可以减少每种类型的偏差,同时仍保持相同的预测准确度。
“我们将此视为一个工具箱,帮助机器学习工程师弄清楚他们的数据要问什么问题,以便诊断他们的系统为什么会做出不公平的预测,”Sontag说。
陈说,最大的错误观念之一就是更多的数据总是更好。获得更多参与者并不一定有帮助,因为从完全相同的人群中抽取通常会导致相同的子群体不足。即使是流行的图像数据库ImageNet,其数百万张图像,也被证明偏向北半球。
根据桑塔格的说法,关键是走出去从那些代表不足的群体中获取更多数据。例如,该团队研究了一个收入预测系统,发现将女性员工错误分类为低收入和男性员工的可能性是高收入的两倍。他们发现,如果他们将数据集增加了10倍,那么这些错误的发生率会降低40%。
在另一个数据集中,研究人员发现,系统预测重症监护病房(ICU)死亡率的能力对亚洲患者来说不太准确。减少歧视的现有方法基本上只会使非亚洲预测的准确性降低,这在您谈论医疗保健这样的环境时可能会有生命或死亡的问题。
陈说,他们的方法允许他们查看数据集,并确定需要多少来自不同人群的参与者来提高准确度较低的群体的准确性,同时仍然保持准确性较高的群体的准确性。
“我们可以绘制轨迹曲线,看看如果我们增加2,000多人而不是20,000人将会发生什么,从中可以看出,如果我们希望拥有最好的世界,数据集的大小应该是多少,”陈说。“通过这种更加细致入微的方法,医院和其他机构可以更好地进行成本效益分析,看看获取更多数据是否有用。”
您还可以尝试从现有参与者处获取其他类型的数据。然而,如果额外数据实际上并不相关,那么这不会改善事情,例如关于智商研究人员身高的统计数据。那么问题就变成了如何确定何时以及为谁收集更多信息。
一种方法是识别具有高精度差异的患者群。对于ICU患者,称为主题建模的文本聚类方法显示,心脏病和癌症患者在准确性方面存在较大的种族差异。这一发现可能表明,对心脏病或癌症患者进行更多诊断测试可以减少种族差异的准确性。
该团队将于12月在蒙特利尔举行的神经信息处理系统(NIPS)年会上发表论文。