协和医院杨爱明团队开发多模态人工智能模型:创新胰腺实体病变诊断

07-26 07:29

原创 转网 转化医学网


本文为转换医学网原创,转载请注明出处。


作者:Tracy


【简介】在本研究中,团队开发了多模态AI模型(联合AI模型),并对前瞻性数据进行了交叉实验,以评估该模型帮助内窥镜医生诊断胰腺疾病的能力,以及未来临床治疗的优势和潜在路径。


2024年7月19日,中国医学科学院协和医院胃肠科杨爱明团队在期刊上《JAMA》上面发表了题为“Diagnosing Solid Lesions in the Pancreas With Multimodal Artificial Intelligence: A Randomized Crossover Trial"研究论文。通过开发多模态AI模型,结合临床信息和EUS图像,促进胰腺实性病变的诊断。


https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2821351?resultClick=1


选题背景


01


胰腺癌是胰腺硬块的常见原因,5年内存活率约为10%。超声内窥镜(EUS)它已经成为诊断胰腺癌的宝贵技术,对计算机断层扫描和磁共振成像,特别是直径小于3厘米的肿瘤,具有极好的敏感性。但是,其它恶性小肿瘤(如胰腺神经内分泌肿瘤或实体假状肿瘤)和良好的胰腺疾病(如慢性胰腺炎和自身免疫性胰腺炎)也可以表现为胰腺硬块。由于胰腺癌的治疗和治愈与其它疾病有很大不同,因此,准确诊断尤为重要。但是,EUS在区分恶性肿瘤和良好硬块方面的特异性并不理想,其范围为50%-60%。尽管EUS指引下的细针穿刺或活检(EUS-FNA/B)显著提高了整体诊断的准确性,达到80%-90%的可靠性和92%-99%的特异性,但对该技术的敏感性和阴性预测值相对较低。(NPV)焦虑仍然存在,敏感度在80%-89%之间,NPV在46%-75%之间。


近几年,人工智能(AI)该模型在肿瘤学领域具有潜力,有利于筛查、诊断、治疗指导和愈后预测。对医学图像分析,卷积神经网络(CNN)它是应用最广泛的深度学习算法之一。尽管CNN模型在EUS图像中显示出区分胰腺癌的前景,但之前的研究主要是缺乏外部验证,阻碍了临床转换。现有的深度学习模式仅以单一方式运行,忽略了病史、化验检查、放射学等其它方面的潜在诊断效果。整合多种模式,可以提高诊断模式的稳定性。预计多模态人工智能模型将比单模态模型更适合临床实践。


在这项研究中,该团队开发了一种多模态AI模型,利用EUS图像和临床信息来区分癌症和非癌症病变,并对该模型进行了内部、外部和前瞻性数据集中测试。该团队还评估了该模型在交叉实验中的辅助潜力,并检查了可解释性分析是否能促进临床治疗。


研究进展


02


对内部测试而言,模型1在图像阶段完成了0.975(95%CI,AUC是0.969-0.981)。但是,在外部测试数据集中,模型1的AUC较低,在0.802(95%CI,0.648-0.941和0.871(95%CI,在0.848-0.892之间。


通过整合相关临床信息,团队希望提高模型的可推广性。团队采用多种机器学习算法,从不同类别中选择显著的临床特征,根据其诊断准确性,从原来的36个特征中获得24个特征。该团队对三种数据融合策略的诊断性能进行了比较,并对模型3进行了比较。战略B在图像阶段完成了0.996(95%CI,最高AUC为0.993-0.998,准确度为0.98(95%CI,0.98-0.99)。类似地,策略B在患者期间完成了最高AUC。


人工智能模型在区分癌症和非癌症疾病方面的表现。


基于策略B建立的模型3,团队对外部测试数据集进行了进一步评估。图像阶段的准确度为0.84(95%CI,从0.79-0.87到0.89(95%CI,在患者阶段,0.87-0.91的准确率为0.84(95%CI,从0.74-0.91到0.91(95%CI,0.73-0.98)。与单模态模型1相比,模型3表现出更强的性能。与模型1相比,模型3的NJDTHAUC在图像阶段显著增加(0.9555) [95% CI,0.940-0.968] vs 0.871 [95% CI,0.848-0.892];P < .001)、PUMCH (0.924 [95% CI, 0.888-0.955] vs 0.825 [95% CI, 0.783-0.868];P < .BJFH,001) (0.976 [95% CI, 0.942-0.995] vs 0.802 [95% CI, 0.648-0.941];P < .001)。类似地,模型3在患者阶段的表现优于模型3。 1。< .001)、PUMCH (0.924 [95% CI, 0.888-0.955] vs 0.825 [95% CI, 0.783-0.868];P < .001)和BJFH (0.976 [95% CI, 0.942-0.995] vs 0.802 [95% CI, 0.648-0.941];P < .001)。同样,模型3在病人阶段的表现,优于模型 1。


为了进一步评估人工智能模型的性能和辅助能力,团队进行了前瞻性交叉实验。在只提供EUS图像的情况下,模型1的表现优于内窥镜医生(0.74) [95% CI,0.59-0.85)比专家内镜医生(0.93 [95%CI,0.85-0.97];P = .02)、高级内镜医生(0.62 [95%CI,0.50-0.73];P < .与新手内镜医生(0.56) [95%CI, 0.46-0.66];P < .001)更敏感 。在诊断基于临床信息和EUS图像时,模型3在诊断性能方面仍优于模型1。模型3比高级内镜医生更敏感 (0.92 [95%CI, 0.84-0.96] vs 0.72 [95% CI, 0.61-0.82];P = .02),比高级内镜医生更准确(0.92) [95% CI,0.86-0.96] vs 0.77 [95% CI,0.68-0.84];P = .001)。它也比新手内镜医生更敏感(0.61) [95%CI,0.51-0.70];P < .001),比新手内镜医生更准确。 (0.69 [95% CI, 0.61-0.76];P < .001)。在AI的额外帮助下,新手内窥镜医生的敏感性(0.91 [95%CI,0.83-0.95];P < .001和准确度(0.90) [95%CI, 0.83-0.94];P < .001)显著改善。在AI的额外帮助下,新手内窥镜医生的敏感性(0.91 [95%CI,0.83-0.95];P < .001和准确度(0.90) [95%CI, 0.83-0.94];P < .001)显著改善。但是,专家和高级内窥镜医生并没有从人工智能的帮助中受益。专家和高级内镜医生的总抵抗力明显高于新手内镜医生(比例为2.15) [95%CI,1.12-4.16];P = .02) 。与高级内镜医生相比,专家和高级内镜医生的总抵触率达到了与新手内镜医生相当的水平(比例为0.71。 [95%CI,0.32-1.58];P = .40)。因此,团队也观察到了错误去除率的下降。< .001)和新手内镜医生(0.56 [95%CI, 0.46-0.66];P < .001)更敏感 。当确诊基于临床信息及EUS图像时,模型3在诊断性能方面,依然优于模型1。模型3比高级内镜医生更敏感 (0.92 [95%CI, 0.84-0.96] vs 0.72 [95% CI, 0.61-0.82];P = .002),比高级内镜医生更准确(0.92 [95% CI,0.86-0.96] vs 0.77 [95% CI,0.68-0.84];P = .001)。它也比新手内镜医生更敏感(0.61 [95%CI,0.51-0.70];P < .001),比新手内镜医生更准确 (0.69 [95% CI, 0.61-0.76];P < .001)。在AI的额外协助下,新手内窥镜医生的敏感性(0.91 [95%CI,0.83-0.95];P < .001)和准确度(0.90 [95%CI, 0.83-0.94];P < .001)显着提高。然而,专家和高级内窥镜医生,并未从人工智能协助中受益。专家和高级内镜医生的总抵触率,显着高于新手内镜医生(比率比,2.15 [95%CI,1.12-4.16];P = .02) 。专家和高级内镜医生的总抵触率,达到了与新手内镜医生相当的水准(比率比,0.71 [95%CI,0.32-1.58];P = .40)。相应地,团队还观察到错误去除率的减少。


该团队向这项研究的参与者发送了一份问卷。与EUS-CNN模型相比,内窥镜医生联合AI模型诊断的平均值(SD)影响力更大,更受欢迎(3.46 [0.69] vs 2.54 [0.93];P = .06) 。


在交叉实验中,内窥镜医生和人工智能模型的确诊性能


研究结果


03


联合AI模型有许多优点:


1.多模态特征。与以往只控制EUS图像的单模态模型研究相比,AI模型与EUS图像和各种临床信息相结合。在整个训练过程中,临床和图像特征之间的关系逐渐改善,性能明显提高。


2.可推广性。该团队为了形成外部验证集,在三个独立中心招募了189名患者。该模型仍然稳定,包括来自两家医院的130名患者的前瞻性数据集。


3.与临床工作流程一致。现有人工智能模型用于胰腺疾病分类,主要关注计算机断层扫描或EUS图像。临床决策过程可以通过结合EUS图像和临床数据来模拟,可以很容易地将AI模型集成到临床工作过程中。


建议团队进行临床转换,主要有两个方向。第一,在不同的数据集中中,联合人工智能模型总是表现出强大的灵敏度(0.88-0.99)和NPV(0.86-0.99)。该模型的高灵敏度和净现值可能是通过EUS。-FNA提供可靠的补充信息,具有重要的临床表现。在病理结果不确定的复杂情况下,这些信息最终可能会使临床医生做出明智的决定。


其次,内窥镜医生的诊断能力因EUS检查的深度学习曲线和缺乏标准化和充分的培训程序而有很大差异,尤其是对于缺乏经验的人。内窥镜医生和联合AI模型的相互作用,可能会改善这一状况。即便如此,深度学习模型的黑匣子特性也受到了质疑,这可能会阻碍其临床治疗。对未来临床治疗,可解释性分析的结果和预测,应由人工智能模型同时报告。由于临床医生能够验证AI模型的预测,是否基于EUS图像和临床特性的正确性,因此,他们更容易接受模型的预测。另外,临床医生可以参与模型推理,并将其作为支持决策过程的补充工具,而非将模型视为黑匣子。


在诊断胰腺实体病变的随机交叉试验中,人工智能辅助诊断过程显著提高了新手内窥镜医生的表现,而可解释性分析提高了更有经验的内窥镜医生对人工智能预测的接受度。未来,这种联合人工智能模型在决策过程中具有更好的透明度,可能会促进胰腺实体病变的诊断。


参考资料:


1.Cai J, Chen H, Lu M, et al. Advances in the epidemiology of pancreatic cancer: trends, risk factors, screening, and prognosis. Cancer Lett. 2021;520:1-11.


2.Kitano M, Yoshida T, Itonaga M, Tamura T, Hatamaru K, Yamashita Y. Impact of endoscopic ultrasonography on diagnosis of pancreatic cancer. J Gastroenterol. 2019;54(1):19-32.


阅读原文


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com