Meta分析揭示放射学人工智能研究的正面和负面消息
放射学人工智能(AI)研究的Meta分析发现,该技术在胸部和乳腺成像方面具有很高的整体准确性。但同时也广泛存在着方法学和报告的问题,使得无法对其临床实用性进行明确的评估。
4月7日发表在NPJ Digital Medicine上的一份报告中,伦敦帝国大学的一个团队分享了他们对200多项研究的分析,这些研究涉及在乳腺和呼吸系统成像应用中使用深度学习算法。尽管模型提供了较高的总体诊断性能,但研究者告诫说,这些研究也高度混杂各异,在方法学,术语和结果测量中存在广泛的差异。“尽管结果表明,深度学习当前具有较高的诊断准确性,但重要的是,这些研究中存在不良设计、执行和报告,这种情况下的假设发现,会导致偏差和高估这些算法的能力”,第一作者Dr. Ravi Aggarwal和通讯作者Dr. Hutan Ashrafian及其同事们写道。这项研究旨在解决AI在放射学领域的潜在缺陷,其中包括:
l 一个英国研究组的最新研究,强调了COVID-19 AI研究的缺陷(COVID-19 AI studies)
l 一封研究信件,详细介绍了AI培训数据的地理多样性中的缺陷(flaws in the geographic diversity of AI training sets)
l 一项研究,描述数据中性别失衡的风险(gender imbalance in datasets)
l 2020年的一份报告,许多医学影像AI研究质量不佳且结论夸大(poor quality and exaggerated claims)
l 2019年的一项研究报告,大多数放射学AI研究缺乏合理的验证(most radiology AI studies lacked proper validation)
在Meta分析中,研究者试图量化AI在放射学专科应用中的诊断准确性,以及对方法学差异的评估,和对基于深度学习的放射学诊断报告的评估。在最初确定了将近12,000个用于医学影像的深度学习的文献摘要之后,Aggarval等人最终将名单降到了总共279项研究,包括呼吸科的115项,乳腺癌的82项和眼科的82项。研究者发现放射学AI应用具有较高的整体性能:
l 胸部X线或CT诊断肺结节或肺癌:ROC曲线下面积(AUC)范围=0.864-0.937
l 乳腺X射线摄影、超声、MRI或数字乳腺体层合成(DBT)诊断乳腺癌:AUC范围=0.868-0.909
作者发现了用于在CT和X线胸片上识别胸部病理的算法具有很高的灵敏度,特异性和AUC。CT上的深度学习算法对肺结节的检测具有更高的灵敏度和AUC,而胸部X射线算法具有更高的特异性,阳性预测值和F1评分。此外,CT的深度学习模型在诊断癌症或肺部肿块方面,比胸部X线模型具有更高的敏感性。
在乳腺成像中,研究人员发现,在乳腺X射线摄影,超声和DBT上识别乳腺癌的诊断准确性通常很高,并且各模式之间的AI表现非常相似。然而,由于乳腺MRI的数据少和仅仅使用2D图像,AI在乳腺MRI中的诊断准确性较低。利用更大的数据库和多参数MRI可以提高诊断准确性。研究者称,尽管结果显示AI具有高准确性,但很难确定在临床上是否可以接受,或是否临床可用。他们写道:“这部分归因于文献中发现的广泛差异和偏见风险。此外,在疾病和临床场景中,对于临床可接受的阈值和对错误的耐受性的定义差别很大。”研究人员发现这些研究的试验方法,参考标准,术语和报告存在很大差异。最常见的差异包括:数据的质量和数量、报告性能的指标选用、以及验证方法等。研究者提供了五项建议,以提高未来AI研究的质量:
l 具有注释的大型,开源,多样的匿名数据集
l 与学术中心合作,利用他们在现实试验设计和方法学上的专业知识
l 创建AI特定的报告标准
l 开发特定工具以评估研究的偏倚风险和适用性风险
l 建立更新伦理和法规框架
本篇为新闻译文,全篇原文发表于AuntMinnie.com,作者为该网站特约撰稿人EriK L.Ridlly