谷歌DeepMind基于人工智能的乳腺癌检测还不是一个自动诊断专家
如果你“相当正确”——意思是正确多于错误——你能得到多少学分?
如果你是一个人工智能算法,你会得到很多赞誉。人工智能程序不一定要有一个明确的答案,只是一个概率性的答案,一个正确答案的百分比可能性,不管这个任务是执行自然语言翻译还是诊断癌症。
的最新例证艾未未的概率achievementsis在本周出版的《自然》杂志,题为“国际评估乳腺癌筛查的人工智能系统,”,是由一群31学者从谷歌谷歌健康单元,其DeepMind单元,和伦敦帝国理工学院,由作者斯科特•梅耶麦金尼戈t . Sieniek Varun Godbole,乔纳森·戈德温(DeepMind首席执行官黛米斯是作者之一)。
另外,谷歌的谷歌健康学者Shravya Shetty, m.s.和Daniel Tse, M.D.也在博客上发表了评论
谷歌谷歌健康团队,其DeepMind单元,和伦敦帝国理工学院的三个三个不同的深度学习神经网络,组成的,从顶部,Facebook艾未未的“RetinaNet”,加上谷歌“MobileNetV2”,紧随其后的是现在标准ResNet-v2-50中间部分,最后对底层ResNet-v1-50。每个人都以不同的方式挑选出乳房x光检查中可疑的区域,然后将这些发现汇总起来,得出一个关于癌症或无癌症的概率决定。
头条新闻是,谷歌的科学在事后数年的乳房x光检查中战胜了英国和美国的放射学家,并宣布是否存在癌症,显示了“绝对的减少……误报和……在错误的否定中。”人工智能技术甚至击败了一个由六名受委托进行这项任务的放射科医生组成的小组,他们查看了500张乳房x光片,并给出了诊断结果。
结果是在人工智能工具方面的一个重要贡献,可能对医生非常有用。但这并不意味着它可以取代人类的评估。仔细研究一下这些数字是很重要的,因为它们有很多看跌期权和买入期权。
考虑设置。科学家们从英国三家不同的医院收集了13918名女性的数据,这些女性在2012年至2015年期间接受了乳腺癌筛查,并在年龄和体检等方面达到了一定的标准。这就是他们用来训练系统的东西。另外26000个案例在系统被训练之后被用来测试系统。他们还对美国西北纪念医院(Northwestern Memorial hospital) 2001年至2018年收集的数据进行了同样的处理,后者的样本要小得多。
科学家们训练了一组巧妙的神经网络,它们由三种不同的神经网络组成,每一种神经网络都以不同的细节水平来观察乳房x线照片。这种深度学习设置的细节令人着迷,或许代表了机器学习网络结合的最新技术。其中一个是ResNet V-1 50,这是一种经典的图像识别方法,由何开明和他在微软的同事在2015年开发。第二种网络是由Facebook人工智能研究学者在2017年开发的RetinaNet。第三个是去年谷歌科学家公布的MobileNet V2神经网络。这是一个非常棒的混合方法,展示了代码共享和开放的科学出版物如何丰富每个人的工作。详细信息包含在补充材料纸中,该补充材料纸链接到主要自然纸的底部。
现在,棘手的部分来了:训练有素的网络所判断的病例中,是否有乳腺癌病例在随后的活组织检查中得到确认,这是“基本事实”。换句话说,诊断不仅仅是图像上的东西是什么样子的,而是后续的医学测试通过明确提取一块癌变组织发现了什么。在这种情况下,答案是明确的是或不是癌症的存在。
但是上面描述的三种深度学习神经网络的精致集合并不能产生一个是或否的答案。它产生一个从0到1的分数,作为一个“连续值”,而不是一个二元判断。换句话说,人工智能可以是非常正确的,也可以是非常错误的,这取决于它与正确值的距离,0或1,在任何给定的情况下。
为了将这个概率分数与人类做出判断时的行为匹配起来,McKinney和他的同事必须将人工智能的概率分数转换成二进制值。他们通过一组单独的验证测试来挑选出每个人的答案。对人类判断的“优越性”的比较,是人工智能在其产生的更广泛的总答案集合中给出的答案的选择。
正如作者解释,“人工智能系统本身产生一个连续得分表示癌症存在的可能性,”所以,“支持与预测人类的读者,我们阈值这个分数产生类似的二进制筛选决策,”“阈值”在这种情况下,是否意味着挑选一个比较:“对于每一个临床指标,我们使用了验证设置为选择一个不同的操作点;这相当于一个分数阈值,将积极的决定和消极的决定区分开来。”
与英国的数据相比,人工智能在预测癌症方面的表现与人类差不多。正如报告所说,这个术语是“非劣”的,意思是,它并不比人类的判断更差。人工智能网络做得更好的地方是所谓的“特异性”,这是一个统计术语,意思是神经网络在避免假阳性方面做得更好,也就是说,在疾病不存在的情况下预测疾病。这当然很重要,因为被误诊为癌症对女性来说意味着过多的压力和焦虑。
但是,再次强调,要注意细则。在这种情况下,人类的得分来自医生,他们必须根据乳房x光片来判断是否需要进行进一步的检查,比如活检。可以想象,在诊断的早期阶段,医生可能会给出一个过于宽泛的评估,以便让病人进行进一步的检测,从而避免未被发现的癌症的风险。这是医生决定病人下一步去哪里和机器猜测未来几年的结果概率之间的根本区别。
换句话说,坐在病人面前的医生通常不会去猜测未来几年的结果概率,而是去决定病人下一步的关键步骤是什么?例如,即使人工智能根据乳房x光检查确定某个特定病例患癌的几率很低,患者是否希望医生谨慎行事,开出活检处方,以确保安全,而不是感到遗憾?他们可能非常欣赏这种谨慎。
科学家们在总结部分写道,即使人工智能发现了医生们漏掉的病例,它也漏掉了医生们发现的几个癌症病例。这一点在附加的“读者研究”中体现得尤为明显。在这项研究中,6名人类放射科医生研究了500例癌症筛查。研究人员发现了“一个被所有6名放射科医生遗漏,但被人工智能系统正确识别的癌症样本”,但也“一个被所有6名放射科医生发现,但被人工智能系统遗漏的癌症样本”。
有些令人不安的是,作者写道,人工智能在每种情况下成功或失败的原因尚不完全清楚:“尽管我们无法确定这些情况之间的明确模式,但这些边缘情况的存在表明,人工智能系统和人类读者在得出准确结论方面可能发挥互补作用。”
也许,但肯定的是,人们想知道更多关于三种深度学习神经网络是如何进行它们的概率猜测的。可以说,他们看到了什么?这个问题,网络代表什么,在研究中没有涉及,但在如此敏感的应用中,这对人工智能来说是一个至关重要的问题。
综上所述,我们面临的一个大问题是:对于一个能够比一些必须进行初步评估的医生更准确地预测未来癌症发展概率的系统,我们应该付出多大的努力?如果这些概率分数能够帮助医生在一些“边缘案例”中做出决定,那么,帮助医生使用人工智能的价值将是非常高的,即使在这一点上人工智能并不能真正取代医生。
顺便说一句,这项研究同时考察了英国和美国的数据,得出了一些关于比较医疗体系质量的令人困惑的发现。总的来说,英国医生的准确性水平似乎明显高于美国医生。从对检测的初步审查来看,他们得出的结论是,某些东西将被证明是癌症。
考虑到使用的数据集的差异——在英国有13981个数据来自三家医院,而在美国只有一家医院有3097个数据,真的很难知道如何获得这些不同的结果。显然,与人工智能一样有趣的是,人类医生在两种不同医疗系统中的相对能力。