Daniel Rubin博士将开发新的AI算法

人工智能2020-08-18 09:07:58
导读

在SIIM20虚拟会议期间的一次网络研讨会上,斯坦福大学生物医学数据科学教授兼生物医学信息学总监Daniel Rubin博士指出,开发健壮的AI算法面临挑战。

鲁宾解释说,大多数AI模型仅由一两个机构的数据构建而成,可能不会推广到以前从未见过的数据。它可能无法区分患者人群的差异以及成像设备或参数的差异,并且罕见疾病可能不足。鲁宾说:“这些数据可能无法代表现实世界。”

最近的一项研究对来自三个用于检测的不同机构的近16万张胸部X射线进行了研究,发现结果基于用于训练和测试的数据集而有所不同。

“总的来说,可靠性是一个问题,取决于如何训练数据,”鲁宾说。

解决该问题的一种方法是扩充数据,并在其他图像上训练模型。

“最终,这还不够,”鲁宾说。“您确实需要获取尽可能多的带注释的数据。而且,不可能获得无数的质量注释数据,因为在完成本研究并试图说服放射科医生注释病例后,将这些注释完成是非常昂贵的。您知道他们免费为这些注释做些什么。”

可以使用尚未注释的图像生成所谓的“弱数据”,并为其生成标签。鲁宾引用了最近的一项研究,即针对200,000个带有弱标签的案例的算法要比针对20,000个带有高质量标签的案例进行训练的算法更好。

鲁宾说:“您拥有的数据越多,性能越好”。

最好从多个站点收集数据,但这具有挑战性,涉及与存储和合法性有关的问题。鲁宾说,一种解决方案是联合学习,即“将模型带入数据,而不是将数据带入模型”。但是,集中式数据通常更好,跨站点数据的异质性会降低联合学习,跨站点的标签存在差异,并且并非所有机构都具有足够的IT硬件。

哈佛大学医学院放射学副教授,麻省总医院神经科学助理Jayashree Kalpathy-Cramer指出,在算法启动和运行时进入障碍很低,尤其是在时代。尽管如今创建AI算法非常容易,但是创建宽泛,健壮,公正,公正,自我意识并提供不确定性度量的AI算法却很困难。

Kalpathy-Cramer说:“大多数出版物对数据集的偏见都非常大,因为与正常病例或相比,它们对COVID病例使用了不同的数据集。”“我们最终看到的是,这些应该以如此高的水平执行的算法实际上只是在学习数据集之间的差异。”

免责声明:本文由用户上传,如有侵权请联系删除!