补充
内容

引用

图1所示。不同的显示模式可用于人工智能的输出

查看大下载

显示颜色热图(A),灰度等值线图(B),结合地图(C),和单色地图(D)。

图2。接受者操作特性曲线的深度学习人工智能(AI)算法对目标的发现和对读者的性能比较

查看大下载

图表显示数据结节(A),胸膜腔积液(B),肺炎(C),气胸(D),对角线表示行回归。表示参加放射学家;F,研究员;R,居民。

表1。分布的研究

查看大下载

表2。敏感性,特异性,AUROC个人读者

查看大下载

表3。总结人工智能独立性能检测的目标发现胸片有或没有不属预定目标的结果

查看大下载

1。

麦库姆提单,钟JH,瑰柏翠TD,等;专家小组在胸成像。ACR适当性标准^®常规胸片。J Thorac成像。31 (2):2016;W13-W15。doi:10.1097 / RTI.0000000000000200 PubMed 谷歌学术搜索 Crossref

2。

梅特勒FA,马赫什•MBhargavan-Chatfield M, et al。病人接触从美国放射和核医学程序:程序体积和有效剂量为2006 - 2016年期间。放射学。2020,295 (2):418 - 427。doi:10.1148 / radiol.2020192256 PubMed 谷歌学术搜索 Crossref

3所示。

de Groot点,卡特BW,雅培GF,吴CC。在胸部影像学解释陷阱:盲点。Semin Roentgenol。50 2015;(3):197 - 209。doi:10.1053 / j.ro.2015.01.008 PubMed 谷歌学术搜索 Crossref

4所示。

奥斯汀JH,罗姆尼BM,戈德史密斯LS。错过了支气管癌:影像学在27个潜在可切除的患者病变明显的回想起来。放射学。1992,182 (1):115 - 122。doi:10.1148 / radiology.182.1.1727272 PubMed 谷歌学术搜索 Crossref

5。

约翰逊J,克莱恩JA。Intraobserver interobserver协定的解释儿童胸片。紧急情况Radiol。2010;17 (4):285 - 290。doi:10.1007 / s10140 - 009 - 0854 - 2 PubMed 谷歌学术搜索 Crossref

6。

Rueda ZV蒙直流,,Macias,苏亚雷斯T,奥尔特加H,维。阅读和解释成人社区获得性肺炎的胸部x光片。布拉兹J感染说。2011;15 (6):540 - 546。doi:10.1016 / s1413 - 8670 (11) 70248 - 3 PubMed 谷歌学术搜索 Crossref

7所示。

墨菲希尔LC Albaum MN,,,等;港口调查人员。Interobserver胸片在社区获得性肺炎的可靠性。胸部。1996,110 (2):343 - 350。doi:10.1378 / chest.110.2.343 PubMed 谷歌学术搜索 Crossref

8。

戴尔K Melbye H,。Interobserver变化成人门诊病人的影像学诊断肺炎。Acta Radiol。1992;33 (1):79 - 81。PubMed 谷歌学术搜索

9。

坎贝尔SG,穆雷DD,哈瓦斯,厄克特D, Ackroyd-Stolarz,麦克斯韦D。协议急救医生诊断和放射学家报道:社区获得性肺炎患者解除紧急部门。紧急情况Radiol。2005;11 (4):242 - 246。doi:10.1007 / s10140 - 005 - 0413 - 4 PubMed 谷歌学术搜索 Crossref

10。

轮辋。放射科医生短缺让病人护理风险,皇家学院警告说。BMJ。2017;359:j4683。doi:10.1136 / bmj.j4683 PubMed 谷歌学术搜索 Crossref

11。

只是Y,山田K,主角K,小林K。放射科医生供应和工作负载:国际comparison-Working群日本大学放射学。Radiat地中海。2008年,26 (8):455 - 465。doi:10.1007 / s11604 - 008 - 0259 - 2 PubMed 谷歌学术搜索 Crossref

12。

Yarmus L, Feller-Kopman D。气胸的危重病人。胸部。2012,141 (4):1098 - 1105。doi:10.1378 / chest.11 - 1691 PubMed 谷歌学术搜索 Crossref

13。

拉P,Sundaram B。深度学习在胸部x线摄影:自动利用卷积神经网络分类的肺结核。放射学。2017,284 (2):574 - 582。doi:10.1148 / radiol.2017162326 PubMed 谷歌学术搜索 Crossref

14。

Topol EJ。高性能医学:人类与人工智能的融合。Nat地中海。2019;25 (1):44-56。doi:10.1038 / s41591 - 018 - 0300 - 7 PubMed 谷歌学术搜索 Crossref

15。

公园黄EJ,,金k - n,等;DLAD发展和评估小组。开发和验证的深度上优于自动检测算法主要胸疾病胸片。JAMA Netw开放。2019;2 (3):e191095。doi:10.1001 / jamanetworkopen.2019.1095 PubMed 谷歌学术搜索 Crossref

16。

公园,李SM,李KH,等。基于深度学习检测系统的多级胸片病变:与观察者读数。欧元Radiol。2020;30 (3):1359 - 1368。doi:10.1007 / s00330 - 019 - 06532 - x PubMed 谷歌学术搜索 Crossref

17所示。

黄EJ, JH,李KH, et al .深入学习算法用于监测肺活检后气胸:多中心的诊断群组研究。欧元Radiol。2020;30 (7):3660 - 3671。doi:10.1007 / s00330 - 020 - 06771 - 3 PubMed 谷歌学术搜索 Crossref

18岁。

公园,李SM,金正日N,等。基于深度学习的应用计算机辅助检测系统:检测活检后气胸在胸部。欧元Radiol。2019;29 (10):5341 - 5348。doi:10.1007 / s00330 - 019 - 06130 - x PubMed 谷歌学术搜索 Crossref

19所示。

公园南詹,,黄EJ, et al。深度的开发和验证上优于胸片上恶性肺结节自动检测算法。放射学。2019,290 (1):218 - 228。doi:10.1148 / radiol.2018180237 PubMed 谷歌学术搜索 Crossref

20.

南詹,金米,公园J, et al。开发和验证的学习算法检测10常见异常胸片。欧元和J。57 2021;(5):57。doi:10.1183/13993003.03061 -2020 PubMed 谷歌学术搜索 Crossref

21。

Thurfjell E,Thurfjell毫克,Egge E, Bjurstam N。敏感性和特异性的乳房x光检查筛查乳腺癌计算机辅助检测。Acta Radiol。1998年,39 (4):384 - 388。doi:10.1080 / 02841859809172450 PubMed 谷歌学术搜索 Crossref

22。

塔普林SH芬顿JJ,亚伯拉罕L,, et al。计算机辅助检测的有效性在社区实践乳房x光检查。中华肿瘤杂志。2011;105 (15):1152 - 1161。doi:10.1093 / jnci / djr206 PubMed 谷歌学术搜索 Crossref

23。

de Bucourt Meyl TP,,伯格霍夫别墅,et al . Subspecialization放射学:对诊断的影响光谱的放射学家和报告周转时间在瑞士大学医院。Radiol地中海。2019,124 (9):860 - 869。doi:10.1007 / s11547 - 019 - 01039 - 3 PubMed 谷歌学术搜索 Crossref

24。

Eng J, Mysko工作,韦勒蒙古包,et al .急诊科射线照片的解释:一个比较的急诊医学医生和放射科医生,居民与教师、与数字显示和电影。杂志是J Roentgenol。2000,175 (5):1233 - 1238。doi:10.2214 / ajr.175.5.1751233 PubMed 谷歌学术搜索 Crossref

25。

辛格SP, Gierada DS,平斯基P, et al .读者可变性在鉴别肺结节胸片国家肺筛查试验。J Thorac成像。27 2012;(4):249 - 254。doi:10.1097 / RTI.0b013e318256951e PubMed 谷歌学术搜索 Crossref

26岁。

麻省理工学院计算生理学实验室。重症监护医学信息万博manbetx平台首页集市。2021年4月访问。https://mimic-cxr.mit.edu

27。

Homayounieh F, Digumarthy, Ebrahimian,等。基于人工智能的胸部x光片模型对人类结节检测精度的多中心研究。JAMA Netw开放。2021;4 (12):e2141096。doi:10.1001 / jamanetworkopen.2021.41096 PubMed 谷歌学术搜索 Crossref

28。

岛崎山本建筑师D,,, et al .人工intelligence-supported肺癌的检测多读者多供应商胸片:一项回顾性临床验证研究。BMC癌症。2021;21 (1):1120。doi:10.1186 / s12885 - 021 - 08847 - 9 PubMed 谷歌学术搜索 Crossref

29。

香港W,黄EJ,李JH,公园J,咕JM,公园厘米。深度学习检测气胸穿刺活检后胸片:临床实现。放射学。2022,303 (2):433 - 441。doi:10.1148 / radiol.211706 PubMed 谷歌学术搜索 Crossref

30.

张周L,阴X,, et al .检测和半定量的分析心脏肥大,气胸、胸腔积液胸片。Radiol Artif智能。3 (4):e200172。2021;doi:10.1148 / ryai.2021200172 谷歌学术搜索 Crossref

31日。

Ebrahimian, Homayounieh F, Rockenbach MABC, et al。人工智能匹配预测主观评估严重性肺炎病人的结果,需要机械通气:队列研究。Sci代表。2021;11 (1):858。doi:10.1038 / s41598 - 020 - 79470 - 0 谷歌学术搜索 Crossref

32。

Homayounieh F, Digumarthy SR, Febbo JA,等。比较基线,bone-subtracted和增强胸片发现气胸。可以Assoc Radiol J。2021,72 (3):519 - 524。doi:10.1177 / 0846537120908852 PubMed 谷歌学术搜索 Crossref

33。

Seah JCY,唐CHM, Buchlak QD,等。全面深度学习的影响模型的准确性胸部x光片由放射科医生解释:一个回顾,multireader多波研究。柳叶刀数字健康。3 (8):2021;e496-e506。doi:10.1016 / s2589 - 7500 (21) 00106 - 0 PubMed 谷歌学术搜索 Crossref

34。

瓦格纳Haberle L,,嘉年华PA, et al .描述乳腺图像通过使用通用的纹理特性。乳腺癌Res。2012;14 (2):R59。doi:10.1186 / bcr3163 谷歌学术搜索 Crossref

35。

Qure。人工智能技术。qXR: AI胸部x光检查。2022年2月4日通过。https://qure.ai/product/qxr/

36。

Annalise-AI。综合医学成像人工智能的解决方案。2022年2月4日通过。https://annalise.ai/

37岁。

可卡尔拉辛格R,, Nitiwarangkul C, et al .深度学习在胸部x线摄影:检测结果和变化的存在。《公共科学图书馆•综合》。2018;13 (10):e0204155。doi:10.1371 / journal.pone.0204155 谷歌学术搜索 Crossref

38。

任他K,张X,,太阳J。深层残留图像识别的学习。2016年:IEEE计算机视觉与模式识别会议(CVPR)。IEEE;2016:770 - 778。2022年8月1日通过。https://www.computer.org/csdl/proceedings-article/cvpr/2016/8851a770/12OmNxvwoXv

39岁。

Cubuk EDZoph B,鬃毛D, Le QV Vasudevan V,。AutoAugment:学习增强政策的数据。计算机视觉基础。2018。2022年8月1日通过。https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf

40。

J金米,公园,Na,公园厘米,Yoo D。相比之下学习视觉上下文。arXiv。网上发布2020年7月15日。2022年8月1日通过。https://arxiv.org/abs/2007.07506

41岁。

Caruana R。多任务学习。机器学习。1997;28:41 - 75。doi:10.1023 /:1007379606734 谷歌学术搜索 Crossref

根据你的兴趣注册电子邮件

每周邮件

每月的邮件

保存参数

cn.manbetx |使用条款

别人也喜欢

最初的调查

成像

8月31日,2022年

与读者协会人工Intelligence-Aided胸片解释性能和效率

郑大世Seok安¹;马里兰州Shadi Ebrahimian^2、3;Shaunagh麦克德莫特博士²;等马里兰州Sanghyup李¹;劳拉Naccarato博士²;马里兰州约翰·f·迪加普亚²;马库斯·吴y²;埃里克·w·张²;马里兰州毛皮披肩缪斯²;本杰明米勒,废话^2、4;法Sabzalipour废话^2、4;贝尔纳多·c·Bizzo,医学博士^2、4;基思•j•德雷尔,博士学位^2、4;马里兰州Parisa Kaviani²;Subba r . Digumarthy, MD²;Mannudeep k·卡尔拉^2、4

作者的从属关系条信息万博manbetx平台首页

¹Lunit公司,韩国首尔
²胸分工成像,放射学,马萨诸塞州总医院和哈佛医学院波士顿,马萨诸塞州
³内科,伊坎在西奈山医学院,出现大批医院中心,纽约打折活动
⁴数据科学办公室,质量一般的布里格姆,马萨诸塞州的波士顿

JAMA Netw开放。 2022;5 (8):e2229289。doi: 10.1001 / jamanetworkopen.2022.29289

要点

问题一个人工智能(AI)引擎使用报告胸片时同时提高读者性能?

发现在这个队列研究涉及497胸片和6读者,接受者操作特征曲线下的面积和报告时间改善当读者使用人工智能在解释。改善是显著性气胸和结节检测,和敏感的读者为所有发现当使用AI明显改善。

意义这些发现表明,读者的性能评价胸片是通过人工授精技术改进。

文摘

重要性放射图像的高效和准确的解释是至关重要的。

客观的评估是否深上优于人工智能(AI)引擎同时使用可以提高读者的性能和效率在解释胸片异常。

设计,设定和参与者这个多中心队列研究从2021年4月至11月进行,涉及放射科医生,包括参加放射科医生,胸放射学研究员,独立和居民参与2观察者性能测试会话。课程包括阅读会话AI和会话没有人工智能,在随机交叉方式与四周冲刷时期之间。人工智能产生热图和映像级别的概率referrable病变的存在。使用的数据收集在2第四纪学术医院在波士顿,马萨诸塞州:贝斯以色列女执事医疗中心(重症监护的医疗信息集市胸部x光片[MIMIC-CXR])和马萨诸塞州总医院(MGH)。万博manbetx平台首页

主要结果和措施地面真理的标签创建通过自愿阅读2胸放射科医生。每位读者记录他们的发现在一个定制的报告模板,在4胸片结果和目标读者的信心的存在找到记录。报告每个胸片所花费的时间也被记录下来。敏感性,特异性,接受者操作特征曲线下面积(AUROC)计算每个目标的发现。

结果总共6放射科医生(2参加放射科医生,2胸放射学学者,和2)居民参加了实验。这项研究涉及497额从MIMIC-CXR胸片- 247数据集(患者没有人口数据)和250年从MGH胸片(意思是(SD)时代,63年[16];133人[53.2%])——从成人患者和没有目标发现4(肺炎、结节、气胸、胸腔积液)。497年目标的发现是在351年发现胸片。所有发现的人工智能与更高的灵敏度与读者(结节,0.816(95%可信区间,0.732 - -0.882)和0.567 (95% CI, 0.524 - -0.611);肺炎、0.887 (95% CI, 0.834 - -0.928)和0.673 (95% CI, 0.632 - -0.714);胸腔积液、0.872 (95% CI, 0.808 - -0.921)和0.889 (95% CI, 0.862 - -0.917);气胸,0.988(95%可信区间,0.932 - -1.000)和0.792 (95% CI, 0.756 - -0.827))。AI-aided解释与显著提高读者敏感目标发现,没有特异性的负面影响。总的来说,读者的AUROCs改善所有4目标发现,显著改善检测气胸和结节。 The reporting time with AI was 10% lower than without AI (40.8 vs 36.9 seconds; difference, 3.9 seconds; 95% CI, 2.9-5.2 seconds;P<措施)。

结论和意义这些发现表明,AI-aided解释与读者的性能和效率提高胸识别主要发现在胸部x光照片。

介绍

胸部x线摄影是世界上最常见的成像模式的可移植性,低成本和可访问性。¹^,2它提供了有价值的信息与临床检测胸疾病和帮助万博manbetx平台首页决策在管理他们。尽管大量的测试数据,胸片解释和报告是一种固有的困难和主观任务,与先前的研究显示低到中度interreader协议在最后的放射学报告。³^{- - - - - -9}此外,胸片的及时报告一个问题在发展中国家和发达国家由于缺乏合格的读者。¹⁰^,11胸片的准确和高效的阅读是一个重要的临床目标,尤其是在检测临床气胸等重要或紧急的发现。¹²

因此,已经有越来越多的兴趣,随着深度学习的兴起和人工智能(AI)应用在医学成像、创建胸片的人工智能算法,可以帮助临床医生准确、有效地检测关键射线的发现。¹³^,14研究表明,人工智能算法可以提高读者使用时的性能以并行的方式。¹⁵^{- - - - - -19}然而,人们担心的影响,人工智能将在现实世界中,鉴于大多数研究是在模拟环境中进行的,而一个观察者性能工具,模拟真实的工作流程。

还有一个缺乏证据AI在读者的影响效率,尤其是读者所花费的时间来完成他们的报告。^20.与先前的计算机辅助检测技术,如在乳房x光检查,之前的研究²¹^,22报道工作流障碍由于特异性低,导致大量的假阳性。人工智能的担忧减少读者胸片的效率特别高,因为大量的胸片在医院,低还款,短的有经验的放射科医生报告时间。²³^,24因此,广泛采用人工智能算法的胸片解释和报告,这是至关重要的,没有阻抗精度和时间完成报告与AI-assisted解释。

在这项研究中,我们探讨了人工智能对读者的影响性能,无论是精度和效率。我们已经反映了现实世界的环境通过创建一个定制版本的观察者性能测试平台,包含报告模板和措施所花费的时间的读者完成解释和报告的任务。

方法

数据源和批准

该研究使用的数据从2来源。第一个是密集的公开可用的医疗信息集市Care-Chest x射线(MIMIC-CXR)数万博manbetx平台首页据库2.0.0版本,这是一个大数据集来自贝斯以色列女执事医疗中心的胸片,马萨诸塞州的波士顿。胸片的第二个来源是另一个第四纪医院(马萨诸塞州总医院(MGH),波士顿,马萨诸塞州)。这一回顾性队列研究机构审查委员会批准MGH,放弃了知情同意的必要性,因为回顾性质的数据收集和使用匿名的图像。研究了健康保险携带和责任法案的要求准则。这手稿遵循加强流行病学的观察性研究报告(选通脉冲为观察性研究)报告指导方针。

数据收集

胸片的入选标准是成人患者不论性别,额胸片的可用性,和1或更多的4影像学发现:肺炎、肺结节,气胸、胸腔积液。因为高interobserver变异和主观性评价胸片的肺结节,²⁵只有结节大于6毫米意味着维度胸片和坚持随访或前胸片或最近胸部计算机断层扫描图像(3个月内)包括在这项研究。我们只包括1每个病人胸片,排除重复或后续从同一个病人胸片。重复或后续胸片从相同的患者被排除在外。胸片和不完整的包含整个胸部或构件的存在也被排除在外。为了避免偏见/闪光灯指南,我们选择连续胸片有或没有4的目标结果。正直和便携式胸片都包含在队列以确保在射线照相技术的普遍性。

确定合格的情况下,我们回顾了放射学MIMIC-CXR数据集的报告。MGH数据集,我们使用专有的放射学报告搜索引擎渲染,关键词的结节,气胸、胸腔积液、肺炎。我们还包括105胸片没有任何结果(普通射线照片)在同一时间框架的胸片与目标的发现。

人工智能算法

商用AI算法(Lunit洞察力CXR版本3.1.2.0;Lunit Inc)被用来处理胸片图像。看到的eAppendix补充为更多的细节。

地面实况创造

两个训练胸放射科医生(S.R.D. 16年的经验和M.K.K.有14年经验的)独立审查所有胸片和记录的存在射线的发现。目标的发现包括肺结节、气胸、胸腔积液、肺炎(包括焦的经典模式或多病灶的整合和非典型性肺炎)。此外,由于存在干扰或不属预定目标的发现可以影响人类读者和人工智能算法的性能,我们包括扩大等不属预定目标的发现心脏轮廓,骨折,胸膜增厚,肺不张,心包钙化。地面真理创建两组的结果反映了临床报告尽可能多。报告模板中使用的阅读会话创建匹配这个(eFigure 1补充)。

2放射科医生指定每个找到的位置在不同的肺区(上、中、和低区)在每一个肺。之间的任何差异2 ground-truthers解决联合复习课到达共识。

观察者性能测试工具

我们使用一个定制版本的在线观测器性能测试工具(BestImage 0版本;IRM)为读者学习。工具模仿现实世界的图像存档和通信系统(PACS)和有几个基本的pac查看器的功能,如窗口宽度和水平调整,旋转,缩放,平移,测量功能。此外,该工具使射线的发现和报告记录的时间。

该工具允许用户每个胸片使用多项选择题问题报告模板(eFigure 1补充)。当气胸,胸膜腔积液在场,每个读者选择这些发现的侧边性(或双边、左、右)。肺结节和肺炎,每个读者选择1或多个肺区位置的这些研究结果:正确的上,中,低,上,中,低区。为每个4目标影像学(胸腔积液、肺炎、气胸和结节),每一个读者也录制了信心分数从0%到100%不等,在6个李克特量表(0%,1%,-20%,21% - -40%,41% - -60%,61% - -80%,或81% - -100%)。这代表读者的信心的存在或没有病变。此外,读者还被要求评论其他(不属预定目标的发现)常见胸部x光发现。这样做是为了确保读会话尽可能反映真实的报告,这样的性能和效率可以测量临床相关的方式。一旦提交的一份报告中,读者无法做出任何进一步的改变,从而反映出真实的报道。

基于人工智能工具也使工作列表中优先级分数,在用户的自由裁量权,这是旨在模拟真实世界的pac和工作列表管理。运行此工具的物理服务器是位于美国减少web界面上的延迟。读者研究的截图工具eFigure 2中给出补充。报告时间被定义为从加载胸片对报表单击提交按钮。

观察者性能测试

六放射科医生,包括2胸放射科医生(V.M.有25年的经验和克里15年的经验),2胸成像同伴与6 - 8个月的培训(E.W.Z.和M.Y.W.胸成像研究员),和2二年级放射居民(L.N.和J.F.D.), MGH参与了这项研究的独立和盲法测试读者。没有放射科医生参与地面真理创造了读者。放射科医生被蒙蔽信息与地面真理、病例选择、AI供应商,和细节的研究假设。万博manbetx平台首页在每次复习课之前,所有的放射科医生回顾了10个单独的胸片,没有分析数据的一部分,作为训练集,让用户熟悉多项选择题的问题报告形式和观察者性能工具。

读者研究是在2021年4月和11月间进行,用一半的读者解读胸片AI输出和另一半报告胸片没有AI援助。图1说明了不同显示模式的人工智能输出。避免并发症与混合交替胸片的解释,没有人工智能输出,我们没有随机的胸片,没有人工智能输出任何6读者。每个解释会话,然而,有一组连续的胸片没有人工智能输出一组单独的胸片和AI输出。第一阶段完成后,至少有一个四周冲刷之前开始第二次会议。AI-aided会话,每个读者都能够审查原始的,未经胸片和胸部x光照片视图切换AI输出叠加。

统计分析

所有统计分析与R统计软件版本进行操作(R项目统计计算)。我们估计接受者操作特征曲线下的面积(AUROC) AI独立性能和读者性能有无AI输出。AUROCs使用DeLong进行对比测试。因为我们的研究的目的是要注意发现水平性能与人工智能,所有分析对个人发现(即数据措施包括> 1的数据点一些胸片与多个相似或不同类型的结果)。敏感性和特异性对比AI-aided与广义估计方程的解释执行。观察者的性能测试、敏感性和特异性的读者之间2会话使用McNemar检验法进行对比测试。估计敏感性和特异性,我们认为任何发现超过0%的分数作为预测结果。Kolmogorov-Smirnov测试用于测试数据的正态分布报告时间。对于非正态的分布,我们估计的值和差值。

报告时间为每个胸部比较使用配对2之间的会话t测试。我们排除了解释时间情况下需要超过3分钟(2倍平均倍)。这些结果从错误与失败的一部分读者单击submit按钮的注销或失败解释工具的一个解释。这些错误都意识到对数据的统计分析。对于所有的测试,双向的P< . 05被认为是重要的。

结果

这项研究包括497额胸片(便携式前后的和竖立后前位的预测)。247年第一个胸片MIMIC-CXR数据集的随机选择²⁶(病人的人口数据是不可用),另外250胸片MGH(意思是(SD)时代,63年[16];133名男性(53.2%)和117名女性[46.8%])。模拟报告数量在我们医院,我们选择胸片的数量代表胸片的近似数/ 2天,个别放射科医生报告。

每个目标的最终分布在351年发现异常胸片如下:114肺结节,肺炎,195 80 149胸腔积液、气胸。共有146个胸片没有异常影像学发现目标。完整的分布的结果中可以找到表1。

AI独立的表现

从单机性能的角度来看,人工智能识别4目标胸片发现与敏感性的0.816到0.988和0.728到0.986的特异性。气胸的最高计算敏感性和特异性检测(敏感性,0.988;特异性,0.986;AUROC, 0.999(95%可信区间,0.997 - -1.00))。图2总结了AUROC深度学习算法为每个目标的发现和对读者的性能比较。最低的诊断精度计算肺结节检测灵敏度,0.816;特异性,0.731;AUROC, 0.858(95%可信区间,0.819 - -0.897))。AI独立性能检测4发现了目标表2。

与真实相比,在一个独立的基础上,人工智能与肺结节的检出率为82.5%(94 114年的发现),88.7%的肺炎(173 195年的发现),胸膜腔积液为87.2%(130 149发现的),和100.0% pneumothoraces(80 80年的结果)。没有显著整体AUROC AI差异在胸片有或没有独立的表现不属预定目标的结果(0.955 (95% CI, 0.933 - -0.976)和0.898 (95% CI, 0.838 - -0.958);P=。08)(表3)。

读者的性能

2地面实况的科恩κ统计放射科医生共识之前,阅读0.794为目标的发现。影像学对所有4目标发现,AI-assisted解释与显著改善敏感性而无助的报告(没有vs AI:结节,0.567(95%可信区间,0.524 - -0.611)和0.629 (95% CI, 0.586 - -0.671);肺炎、0.673 (95% CI, 0.632 - -0.714)和0.719 (95% CI, 0.679 - -0.758);胸腔积液、0.889 (95% CI, 0.862 - -0.917)和0.895 (95% CI, 0.868 - -0.922);气胸,0.792(95%可信区间,0.756 - -0.827)和0.965 (95% CI, 0.949 - -0.981);P<措施)。然而,没有特异性的变化之间的单独的测试放射科医生AI-assisted和无助的解释(没有vs AI:结节,0.885(95%可信区间,0.858 - -0.913)和0.881 (95% CI, 0.852 - -0.929);肺炎、0.862 (95% CI, 0.832 - -0.892)和0.832 (95% CI, 0.799 - -0.865);胸腔积液、0.928 (95% CI, 0.906 - -0.951)和0.937 (95% CI, 0.916 - -0.959);气胸,0.988(95%可信区间,0.978 - -0.997)和0.986 (95% CI, 0.976 - -0.996);P= . 07)。与AI独立性能相比,人类读者敏感性较低有或没有AI援助(AI独立与人类没有人工智能与人类与人工智能:结节,0.816(95%可信区间,0.732 - -0.882)和0.567 (95% CI, 0.524 - -0.611)和0.629 (95% CI, 0.586 - -0.671);肺炎、0.887 (95% CI, 0.834 - -0.928)和0.673 (95% CI, 0.632 - -0.714)和0.719 (95% CI, 0.679 - -0.758);胸腔积液,0.872(95%可信区间,0.808 - -0.921)和0.889 (95% CI, 0.862 - -0.917)和0.895 (95% CI, 0.868 - -0.922);气胸,0.988(95%可信区间,0.932 - -1.000)和0.792 (95% CI, 0.756 - -0.827)和0.965 (95% CI, 0.949 - -0.981))。表2总结了所有读者的平均性能变化。

个体读者性能队列研究的总结表2。所有读者的灵敏度高与不同层次的体验发现气胸AI-assisted解释与独立读出(没有vs AI:参加放射学家1,0.975(95%可信区间,0.913 - -0.997)和1.000 (95% CI, 0.955 - -1.000);参加放射学家2、0.812 (95% CI, 0.71 - -0.891)和0.975 (95% CI, 0.913 - -0.997);1,0.713(95%可信区间,0.600 - -0.808)和0.950 (95% CI, 0.877 - -0.986);2,0.775(95%可信区间,0.668 - -0.861)和0.983 (95% CI, 0.860 - -0.979);居民1 0.787 (95% CI, 0.682 - -0.871)和0.963 (95% CI, 0.894 - -0.992);居民2、0.688 (95% CI, 0.574 - -0.787)和0.963 (95% CI, 0.894 - -0.992);P= .009)。2胸成像研究员报道肺炎与更高的灵敏度与AI援助(没有vs AI: 1, 0.728(95%可信区间,0.660 - -0.789)和0.856 (95% CI, 0.799 - -0.902);2,0.467(95%可信区间,0.395 - -0.539)和0.641 (95% CI, 0.569 - -0.708);P<措施)。对肺结节检测,2人,1居民目睹了更高的灵敏度和没有AI(人工智能与解释没有vs AI: 1, 0.456(95%可信区间,0.363 - -0.552)和0.640 (95% CI, 0.545 - -0.728);2,0.482(95%可信区间,0.388 - -0.578)和0.632 (95% CI, 0.536 - -0.72);居民2、0.561 (95% CI, 0.465 - -0.654)和0.693 (95% CI, 0.60 - -0.720);P= .02点)(表2)。

协会的目标和不属预定目标的发现与读者性能变量,见eTable 1补充。肺炎灵敏度高(没有vs不属预定目标的发现:没有人工智能,0.727(95%可信区间,0.676 - -0.778)和0.609 (95% CI, 0.542 - -0.677);AI, 0.775(95%可信区间,0.727 - -0.822)和0.654 (95% CI, 0.588 - -0.720);P<措施)、结节(没有vs不属预定目标的发现:没有人工智能,0.598(95%可信区间,0.542 - -0.653)和0.519 (95% CI, 0.450 - -0.588);AI, 0.674(95%可信区间,0.621 - -0.727)和0.557 (95% CI, 0.488 - -0.626);P<措施),气胸(没有vs不属预定目标的发现:没有人工智能,0.820(95%可信区间,0.777 - -0.864)和0.766 (95% CI, 0.707 - -0.825);AI, 0.965(95%可信区间,0.944 - -0.986)和0.964 (95% CI, 0.938 - -0.990);P<措施)检测的读者,当没有不属预定目标的结果。同样,特异性更高的患肺炎(没有vs不属预定目标的发现:没有人工智能,0.922(95%可信区间,0.892 - -0.952)和0.757 (95% CI, 0.698 - -0.817);AI, 0.893(95%可信区间,0.858 - -0.928)和0.726 (95% CI, 0.664 - -0.788);P<措施)、胸腔积液(没有vs不属预定目标的发现:没有人工智能,0.953(95%可信区间,0.929 - -0.977)和0.870 (95% CI, 0.823 - -0.916);AI, 0.962(95%可信区间,0.940 - -0.984)和0.878 (95% CI, 0.832 - -0.923);P<措施),气胸(没有vs不属预定目标的发现:没有人工智能,0.994(95%可信区间,0.984 - -1.000)和0.979 (95% CI, 0.959 - -0.999);AI, 0.994(95%可信区间,0.984 - -1.000)和0.974 (95% CI, 0.956 - -0.991);P<措施),当有不属预定目标的结果。这些发现可以eTable 1中找到补充。

真理与地面相比,没有人工智能援助,放射科医生发现45.6%(52 114结果)到73.7%(84 114年发现)的肺结节,46.7%(91 195年发现)78.5%(153 195年发现)的肺炎,84.6%(126 149年发现)93.3%(139 149年发现)胸膜腔积液,98.8%和68.8%(55 80发现)pneumothoraces(79 80年的结果)。AI的援助,放射科医生发现49.1%(56 114结果)到77.2%(88 114年发现)的肺结节,64.1%(125 195年发现)85.6%(167 195年发现)的肺炎,79.9%(119 149年发现)95.3%(142 149年发现)胸膜腔积液,100.0%和95.0%(76 80年发现)pneumothoraces(80 80年的结果)。

范围(最小最大数量的发现个别读者)的额外或分散结果超出了4胸片发现探测到目标读者包括肺不张(96 - 348年的发现),肺水肿(42 - 116发现),纤维化(他一直发现),胸膜钙化(0-23发现),胸膜增厚(2 - 63发现),胸膜结节(0 - 9的结果)。如上所述的宽范围,有相当大的个体数量的变化目标发现检测到不同的放射科医生。

解释x光照片的时间

eTable 2补充总结个人测试读者并没有解释时间AI-assisted解释。我们排除异常数据与解释时间(> 3分钟)81的和75 AI-aided解释。有一个小但显著减少的解释时间与AI-assisted解释而无助的解释(中位数(差),36.9(23.5 - -53.7)秒和40.8秒(27.5 - -58.2);差异,3.9秒;95%置信区间,2.9 - -5.2秒;P<措施)。有显著减少报告时间的学员(居民,居民2,研究员2)。在整个数据集的解释*包括那些局外人(解释时间> 3分钟),AI-assisted解释明显快于独立解释(中位数(差),37.9秒(24.1 - -56.1)和42.0秒(28.2 - -60.2);差异,4.1秒;95%置信区间,3.0 - -5.4秒;P<措施)。

讨论

在这个队列研究中,使用的人工智能算法与敏感性收益为所有4目标胸片发现所有读者不管他们的经验和培训的地位。这样改善检测结果与人工智能在几个之前的研究报道。¹⁵^,16,19^,27^,28之前的研究²⁷^,29日^,30.与我们的人工智能以及其他商业智能算法研究和报道类似或降低气胸的诊断性能检测,胸腔积液,肺炎和肺结节。虽然独立性能的人工智能算法与放射科医生和实习生的敏感性,特异性较低。的原因之一AI独立性能的低特异性肺炎可能是人工智能引擎输出设计标签领空和肺炎间质混浊。相比之下,真实和测试放射科医生使用典型的空域模式在胸片上标签找到肺炎。这种差异在标签可能导致的低特异性从更高的人工智能AI独立性能和进一步明显特异性胸片上没有任何不属预定目标的结果。

尽管与AI更高频率的假阳性结果,改进的敏感性与AI-aided解释没来的代价显著改变他们的特异性。换句话说,所有的读者能够拒绝AI-detected假阳性结果而受益于接受真阳性结果检测和标记的人工智能算法。这种情况下的例子可以发现在eFigure 3补充。

大多数的研究²⁷^,31日^,32要么不包括分散结果(不属预定目标的人工智能研究)或不评估对解释效率评估的影响在我们的研究中。考虑到巨大的体积的胸片,检测的准确性与效率同样重要的报告胸片在12到24小时内及时收购。

在这种背景下,我们的研究发现一个小但明显显著改善及时报告胸片AI-aided解释与解释没有人工智能。因为AI是有限的协助与4的检测发现,这可能是一个有意义的报告时间减少。我们包括11不属预定目标的人工智能研究并将它们纳入我们的报告模板。这样做是为了反映真正的临床实践和胸能被探测到的异常,除了4目标结果。我们的研究强调了方法和需要未来的研究和临床采用人工智能算法同时评价的诊断准确性和工作流效率。

的主要影响我们的研究目标是提高精度检测4胸片发现(肺炎、肺结节、胸腔积液、气胸)AI-aided解释而改善报告目标和总体效率不属预定目标的结果。具体来说,提高解释方面找到检测和解释时间是最著名的居民和胸的四分之三都成像。尽管参加放射学家与人工智能提高了阅读效率,有一个改善检测目标的发现与使用AI的放射科医生。演示的非解释时间和AI vs non-AI解释与人工智能算法扩展他们的目标将变得更加重要发现除了少数全面、multifinding检测。³³

我们研究的另一个含义与使用一个结构化的、基于表单的报告格式,而不是传统的自由文本,dictation-based报告系统用于我们的部门。虽然类似的结构,基于表单的报告系统通常用于筛查性乳房x光检查,³⁴在胸片报告它的使用是有限的。然而,几项研究³⁵强调了需要生成结构化报告模板和格式来提高一致性,减少错误,提高放射科医生之间的可读性。除了人工智能算法在我们的研究中,其他商业AI供应商³⁶^,37还提供了一个结构化的AI-detected和注释结果列表。除了提供可测量的数据研究、质量控制和胸片的审计发现,这种基于检查表的报告也可以帮助AI的看门人发现存档,转入pac和/或电子医疗记录(真阳性或真阴性)和那些被删除(AI)的假阳性输出前的AI输出成为存档。这些信息可万博manbetx平台首页用于监视AI性能在一个连续的,临床使用,因为转换自由文本报告格式是乏味的,容易出错,和不一致的。我们研究的另一个含义与读者改进AI援助的可能性是受到一些因素的影响,如大小、程度,和/或数量的发现。真正影响报告关于人工智能的性能需要单独评估这些因素,这并不在我们的研究评估。³⁸^{- - - - - -41}

限制

在我们的研究中也是有限度的。首先,地面真理得到额胸片,这可能会导致一些错误。然而,大多数先前的研究²⁷^,28从胸片仅使用multireader地面真理。其次,考虑到困难将研究软件集成到临床报告界面,评估现实世界是不可能的,临床胸片解释工作流。读者研究工具用于我们的模拟实践结构化报告的格式。虽然在我们的研究中使用的检查表类型的报告格式不符合实地,自由文本,在临床工作流程结构化报告模板,这不是可行的自由文本报告转换成可测量的数据进行统计分析。但是,这种限制可以限制我们的研究评估的应用程序真正的报告有无AI效率。第三,我们排除了数据与解释时间大于3分钟,这代表了不到10%的整体胸片的解释。等报道在结果部分,排除没有改变数据报告效率或靠近AI-assisted胸片的解释。第四,我们没有执行权力分析来确定样本容量的充分性或测试读者的数量。第五,尽管人工智能算法可以检测超过4目标发现,我们专注于4发现,因此,不能评论的读者性能或报告效率当其他人工智能研究也包括在内。可能更多的人工智能研究和标记,更多的假阳性或额外的真阳性注释可以减缓读者。 The latter, however, will result in improved reader performance from detection of additional findings. Sixth, because of the small number of diverse nontarget findings (eg, lines and tubes, cardiac silhouette enlargement, mediastinal widening, and bony abnormalities), we did not assess the effect of AI-aided or unaided interpretation on detection of the nontarget findings. Although loss of performance in detection of nontarget findings from the use of any AI algorithm will be detrimental, none of the AI algorithms cleared by the US Food and Drug Administration can detect or triage all possible findings on chest radiographs.

结论

总之,使用人工智能算法与改进的敏感性检测4目标胸片发现(肺炎、肺结节、胸腔积液、气胸)放射科医生,胸成像研究员以及放射居民,同时保持特异性。这些发现表明,人工智能算法可以提高读者的性能和效率在解释胸片异常。

回到顶部

条信息万博manbetx平台首页

发表:2022年7月15日。

发表:2022年8月31日。doi:10.1001 / jamanetworkopen.2022.29289

通讯作者:胸Mannudeep k -卡尔博士的成像,放射学,马萨诸塞州总医院和哈佛医学院,75年开花Ct,波士顿02114 (mkalra@mgh.harvard.edu)。

作者的贡献:卡尔拉博士已经完全访问所有的数据研究和负责数据的完整性和数据分析的准确性。Drs安和Ebrahimian同样的合作者。

概念和设计:安,李,米勒,Bizzo德雷尔,卡尔拉。

数据的采集、分析或解释:安、Ebrahimian麦克德莫特,李、Naccarato Di加普亚,吴张缪斯,Sabzalipour, Kaviani, Digumarthy,卡尔拉。

起草的手稿:安、Ebrahimian Di加普亚,米勒,Sabzalipour, Digumarthy,卡尔拉。

关键的修订手稿的重要知识内容:安、Ebrahimian麦克德莫特,李、Naccarato Di加普亚,吴张缪斯,Bizzo,德雷尔,Kaviani,卡尔拉。

统计分析:安、Ebrahimian Di加普亚,吴,Kaviani。

行政、技术或材料支持:安、Ebrahimian麦克德莫特,李,缪斯女神,米勒,Sabzalipour, Bizzo,德雷尔。

监督:李,Di加普亚、Bizzo德雷尔,Digumarthy,卡尔拉。

利益冲突的披露:Naccarato博士报告接收个人费用,马萨诸塞州综合医院的时间解释胸片的行为研究。Digumarthy博士报告接收个人费用从Lunit西门子Healthineers和赠款,通用电气,Vuno,和QureAI外提交工作;Digumarthy博士还提供了独立的图像分析hospital-contracted临床研究试验项目默克公司,辉瑞,百时美施贵宝公司,诺华,罗氏,北极星,Cascadian, Abbvie, Gradalis,拜耳,哉实验室、上海生物科学,Biengen,共振,河边的,注意。卡尔拉博士报道收到Lunit授予公司,对于一个学习外提交的工作无关。没有其他信息披露报告。

资金/支持:这项工作是由Lunit格兰特,Inc .)

资助者的角色/赞助商:资金没有参与这项研究的设计和实施;的收集、管理、分析和解释数据;准备、审查或批准的手稿;并决定提交出版的手稿。

引用

1。

2。

3所示。

de Groot点,卡特BW,雅培GF,吴CC。在胸部影像学解释陷阱:盲点。Semin Roentgenol。50 2015;(3):197 - 209。doi:10.1053 / j.ro.2015.01.008 PubMed 谷歌学术搜索 Crossref

4所示。

5。

6。

7所示。

8。

戴尔K Melbye H,。Interobserver变化成人门诊病人的影像学诊断肺炎。Acta Radiol。1992;33 (1):79 - 81。PubMed 谷歌学术搜索

9。

10。

轮辋。放射科医生短缺让病人护理风险,皇家学院警告说。BMJ。2017;359:j4683。doi:10.1136 / bmj.j4683 PubMed 谷歌学术搜索 Crossref

11。

12。

Yarmus L, Feller-Kopman D。气胸的危重病人。胸部。2012,141 (4):1098 - 1105。doi:10.1378 / chest.11 - 1691 PubMed 谷歌学术搜索 Crossref

13。

14。

Topol EJ。高性能医学:人类与人工智能的融合。Nat地中海。2019;25 (1):44-56。doi:10.1038 / s41591 - 018 - 0300 - 7 PubMed 谷歌学术搜索 Crossref

15。

16。

17所示。

18岁。

19所示。

20.

南詹,金米,公园J, et al。开发和验证的学习算法检测10常见异常胸片。欧元和J。57 2021;(5):57。doi:10.1183/13993003.03061 -2020 PubMed 谷歌学术搜索 Crossref

21。

22。

23。

24。

25。

26岁。

麻省理工学院计算生理学实验室。重症监护医学信息万博manbetx平台首页集市。2021年4月访问。https://mimic-cxr.mit.edu

27。

28。

29。

30.

张周L,阴X,, et al .检测和半定量的分析心脏肥大,气胸、胸腔积液胸片。Radiol Artif智能。3 (4):e200172。2021;doi:10.1148 / ryai.2021200172 谷歌学术搜索 Crossref

31日。

32。

33。

34。

瓦格纳Haberle L,,嘉年华PA, et al .描述乳腺图像通过使用通用的纹理特性。乳腺癌Res。2012;14 (2):R59。doi:10.1186 / bcr3163 谷歌学术搜索 Crossref

35。

Qure。人工智能技术。qXR: AI胸部x光检查。2022年2月4日通过。https://qure.ai/product/qxr/

36。

Annalise-AI。综合医学成像人工智能的解决方案。2022年2月4日通过。https://annalise.ai/

37岁。

38。

39岁。

40。

J金米,公园,Na,公园厘米,Yoo D。相比之下学习视觉上下文。arXiv。网上发布2020年7月15日。2022年8月1日通过。https://arxiv.org/abs/2007.07506

41岁。

Caruana R。多任务学习。机器学习。1997;28:41 - 75。doi:10.1023 /:1007379606734 谷歌学术搜索 Crossref

与读者协会人工Intelligence-Aided胸片解释性能和效率

专题文章

USPSTF语句

博客

看到更多

根据你的兴趣注册电子邮件

选择你的兴趣

获得最新的研究根据你感兴趣的领域。

别人也喜欢

引用

下载引用文件:

与读者协会人工Intelligence-Aided胸片解释性能和效率