夸大人工智能在诊断方面胜过医生的说法可能会损害病人的安全
许多研究声称,人工智能(A I)在解释图像和诊断医疗条件方面比医生做得更好或更好。 然而,最近在2020年3月发表在BMJ上的一项研究表明,这项研究的大部分都是有缺陷的,结果被夸大了。 其结果可能是,将人工智能作为病人护理的一部分的决定是基于错误的前提,损害了数百万人的病人护理质量。
人工智能是一个先进的计算领域,有许多发现和成就值得赞扬。 它的创新水平也令人瞩目。 由于它的灵活性和从过去的经验中“学习”的能力,它被吹捧为一种解决方案,以帮助改善病人的护理,并从有太多事情要做的保健专业人员的肩膀上卸下一些工作。 特别是,深度机器学习是人工智能的一个领域,被认为在正确解释医学图像方面非常有用。
更多关于深度学习在这一领域的应用的研究正在出现。 无论是研究文章还是媒体头条,似乎都暗示深度学习在这项任务上可以比医生表现得更好,这有助于推动将这一点纳入常规临床实践的需求。 然而,缺失的因素是公正地审查这一主张背后的证据,以及评估将这些任务委托给机器的风险。
这种研究的重点是卷积神经网络(CNN),这些网络被原始数据馈送,然后发展自己的机制来识别数据中的模式。 由CNNs进行学习的特点是算法本身来识别有助于将图像分类为正确类别的图像特征。 这与传统的编程形成了鲜明对比,传统的编程依赖于人类的输入来选择正确的特性..
根据研究人员的说法,这一领域的夸大说法是有风险的。 “危险在于,公众和商业对医疗保健人工智能的胃口超过了为支持这一相对年轻的领域而建立的严格证据基础的发展。 相反,他们指出需要首先开发和验证一种算法,包括演示其预测所选条件的有效性。 第二步是评估它在通过良好和透明的试验检测疾病方面的实际效用。
目前的研究集中在对过去十年发表的所有研究进行审查。 主要目的是比较深度学习算法在医学成像和医学专家中的表现。
令人惊讶的是,只有两项随机对照试验和81项非随机研究符合研究标准。 这些研究旨在利用医学图像将人归类为有或没有疾病状况。
在后一组中,只有9项前瞻性试验,在这些试验中,通过跟踪单个参与者来收集数据。 其中,只有6例发生在实际临床情况中。 这使得比较临床医生与机器学习的性能具有挑战性。 结果可能是不可接受的高假阳性率,这是没有报告或迅速明显。 此外,回顾性研究通常被引用作为批准申请的证据,尽管诊断不是事后作出的。
平均而言,在所有研究中,只有4名人类专家对机器进行了测试。 本研究的研究人员还发现,很少有原始数据或代码被公布,限制了他们独立审查结果的能力。
他们还发现在58/81项研究中存在偏见的可能性很高。 偏差意味着研究设计没有足够的谨慎来避免可能改变研究结果的问题。 其次,他们发现这些研究往往没有遵循公认的报告标准。
在大约75%的试验中,结论的措辞表明人工智能的表现以及或优于人类专家。 相比之下,只有38%的研究表明需要以前瞻性研究或随机对照试验的形式进行更多的研究。 本研究作者评论说:“在研究和新闻稿中明智和负责任地使用语言,这会影响证据的强度和质量,有助于”-对研究结果作出适当的解释。
目前的研究有其局限性,例如可能遗漏了一些相关的研究,并且只考察了人工智能在深层机器学习形式中的作用。 因此,这些结论可能无法推广到其他类型的人工智能。
另一方面,他们说,有许多可能夸大的说法,在研究世界中,机器学习的同等或优越的性能比临床专家。 用他们的话说,“许多可以说是夸大了的说法,声称与临床医生相当(或优于),这对社会一级的病人安全和人口健康造成了潜在的风险。
换句话说,使用炒作的语言来呈现不那么有希望的结果会导致媒体和公众的误解。 因此,他们说,这可能导致“可能提供不适当的护理,不一定符合病人的最大利益。
研究人员说,相反,“发展更高质量和更透明的报告证据基础将有助于避免炒作,减少研究浪费,并保护病人。”