补充
内容

引用

图1所示。流程图的研究包含

查看大下载

^一个其他来源包括向前/向后文献检索、参考相关文献搜索,或贸易名称搜索和会议摘要条目在Cochrane中央注册导致出版物的对照试验。万博ManBetX网页

图2。偏见的风险分配分数

查看大下载

100%的总代表37包括研究诊断精度的质量评估研究(QUADAS-2) (A)和偏见的风险Non-Randomised Studies-Intervention (ROBINS-I) (B)域。

表1。包括研究的特点

查看大下载

表2。联系ML-Based信用违约互换使用和临床表现^一个

查看大下载

表3。人类的贡献和系统性能之间的联系^一个

查看大下载

1。

CBInsights。国家的医疗报告Q2 20:部门和投资趋势看。2021年1月24日通过。https://www.cbinsights.com/research/report/healthcare-trends-q2-2020/

2。

美国大学的放射学数据科学研究所。FDA允许人工智能算法。2020年9月10日通过。https://www.acrdsi.org/DSI-Services/FDA-Cleared-AI-Algorithms

3所示。

L库Faes刘X,,羽衣甘蓝盟,等。比较深度学习表现和卫生保健专业人员从医学成像检测疾病:系统回顾和荟萃分析。柳叶刀数字健康。1 (6):e271-e297。2019;doi:10.1016 / s2589 - 7500 (19) 30123 - 2PubMed 谷歌学术搜索 Crossref

4所示。

陈Nagendran M,,洛夫乔伊CA, et al。人工智能与临床医生:系统回顾的设计、报告标准,深入学习研究。BMJ。2020;368:m689。“https://www.bmj.com/content/368/bmj.m689”doi:10.1136 / bmj.m689PubMed 谷歌学术搜索 Crossref

5。

Haselton毫克,荨麻D,博士穆雷。认知偏见的进化。:巴斯DM,艾德。进化心理学的手册。约翰威利& Sons . n:行情);2015:968 - 987。doi:10.1002/9781119125563. evpsych241

6。

Croskerry P。的重要性认知错误诊断和策略来最小化。阿德莱德大学的地中海。2003,78 (8):775 - 780。doi:10.1097 / 00001888-200308000-00003 PubMed 谷歌学术搜索 Crossref

7所示。

库克RI,伍兹DD。操作最狠:人为错误的复杂性。艾德:Bogner女士。人为错误在医学。CRC出版社;2018年。

8。

财富N,Panagioti米,阿拉姆R,等。电子鉴别诊断的有效性(DDX)发电机:系统回顾和荟萃分析。《公共科学图书馆•综合》。2016;11 (3):e0148991。doi:10.1371 / journal.pone.0148991PubMed 谷歌学术搜索

9。

黄亮TJ,, Dhurjati R,等。影响临床决策支持系统:一个系统的复习。安实习生地中海。2012年,157 (1):29-43。doi:10.7326 / 0003-4819-157-1-201207030-00450PubMed 谷歌学术搜索 Crossref

10。

雅斯贝尔斯微波加工,Smeulers米,Vermeulen H, Peute LW。影响医生的临床决策支持系统性能和病人结果:合成高质量的系统评价结果。J是通知协会。2011;18 (3):327 - 334。doi:10.1136 / amiajnl - 2011 - 000094PubMed 谷歌学术搜索 Crossref

11。

加戈AX, Adhikari NKJ,麦当劳H, et al。计算机临床决策支持系统对从业者的影响性能和病人结果:系统回顾。《美国医学会杂志》。2005,293 (10):1223 - 1238。doi:10.1001 / jama.293.10.1223PubMed 谷歌学术搜索 Crossref

12。

Varghese J,Kleine米,Gessner SI, Sandmann,Dugas米。计算机决策支持系统实现对病人的影响结果住院护理:系统回顾。J是通知协会。2018;25 (5):593 - 602。doi:10.1093 /地点/ ocx100PubMed 谷歌学术搜索 Crossref

13。

塞缪尔·艾尔。一些研究机器学习中使用的跳棋游戏。IBM J Res Dev。3 (3):210 - 1959;29。doi:10.1147 / rd.33.0210谷歌学术搜索 Crossref

14。

泰兹拉夫莫赫D, Liberati,,奥特曼DG;棱镜组。首选项报告系统评价和荟萃分析:棱镜声明。BMJ。2009;339:b2535。doi:10.1136 / bmj.b2535PubMed 谷歌学术搜索 Crossref

15。

Covidence系统评价软件,Veritas健康创新,澳大利亚墨尔本。2021年1月24日通过。http://www.covidence.org

16。

怀廷PF, Rutjes AWS,韦斯特伍德我,等;QUADAS-2组。QUADAS-2:修订诊断精度的质量评估研究的工具。安实习生地中海。2011,155 (8):529 - 536。doi:10.7326 / 0003-4819-155-8-201110180-00009PubMed 谷歌学术搜索 Crossref

17所示。

Sterne江淮,马赫尔南,李维斯BC, et al。ROBINS-I:风险评估的工具的偏见non-randomised干预措施的研究。BMJ。2016;355:i4919。“https://www.bmj.com/content/355/bmj.i4919”doi:10.1136 / bmj.i4919PubMed 谷歌学术搜索 Crossref

18岁。

Aissa J, Schaarschmidt BM,低于J,等。基于机器学习的性能及临床影响肺结节检测使用血管抑制黑色素瘤患者。中国成像。2018;52:328 - 333。doi:10.1016 / j.clinimag.2018.09.001PubMed 谷歌学术搜索 Crossref

19所示。

Aslantas, Dandil E, Saǧlam,Cakiroǧlu米。CADBOSS:全身骨显像扫描的计算机辅助诊断系统。J癌症Res。2016;12 (2):787 - 792。doi:10.4103 / 0973 - 1482.150422PubMed 谷歌学术搜索 Crossref

20.

Bargallo X,Santamaria克、德尔Amo M, et al。单一的阅读与计算机辅助检测由选定的放射科医生在乳腺癌筛查程序。欧元J Radiol。2014,83 (11):2019 - 2023。doi:10.1016 / j.ejrad.2014.08.010PubMed 谷歌学术搜索 Crossref

21。

Barinov L,Jairaj,贝克尔M,医生的数据显示性能的影响等。利用基于人工智能的计算机辅助诊断和决策支持系统。J数字成像。2019年,32 (3):408 - 416。doi:10.1007 / s10278 - 018 - 0132 - 5PubMed 谷歌学术搜索 Crossref

22。

奥兰多Bartolotta电视,,Cantisani V, et al .焦乳房病变特征根据BI-RADS我们词汇:计算机辅助决策支持的作用。Radiol地中海。2018,123 (7):498 - 506。doi:10.1007 / s11547 - 018 - 0874 - 7PubMed 谷歌学术搜索 Crossref

23。

好N, Rajpurkar P,球RL, et al . Deep-learning-assisted膝关节磁共振成像诊断:发展和MRNet回顾性验证。科学硕士。2018;15 (11):e1002699。doi:10.1371 / journal.pmed.1002699PubMed 谷歌学术搜索

24。

van den Biggelaar FJHM, kessel啊,van Engelshoven气象厅,Boetes C,Flobbe K。计算机辅助检测在细致的数字乳房x光检查在临床人口:放射科医生和技术人员的性能。Res乳腺癌治疗。2010,120 (2):499 - 506。doi:10.1007 / s10549 - 009 - 0409 - yPubMed 谷歌学术搜索 Crossref

25。

Blackmon KN,弗罗林C, Bogoni L, et al。计算机辅助检测肺栓塞的CT肺动脉造影:能提高性能缺乏经验的读者吗?欧元Radiol。2011;21 (6):1214 - 1223。doi:10.1007 / s00330 - 010 - 2050 - xPubMed 谷歌学术搜索 Crossref

26岁。

Cha KH, Hadjiiski LM, Cohan RH, et al。CT诊断准确性的膀胱癌治疗反应预测,没有计算机决策支持。阿德莱德大学Radiol。2019;26 (9):1137 - 1145。doi:10.1016 / j.acra.2018.10.010PubMed 谷歌学术搜索 Crossref

27。

我Chabi毫升、Borget,•阿迪莱斯R, et al .评估精度的计算机辅助诊断(CAD)系统根据放射科医生在乳房超声检查的经验。阿德莱德大学Radiol。2012;19 (3):311 - 319。doi:10.1016 / j.acra.2011.10.023PubMed 谷歌学术搜索 Crossref

28。

曹E,金正日EK、歌曲可,Yoon JH。应用计算机辅助诊断的乳腺超声:评估诊断性能和协议的放射科医生根据不同级别的经验。J超声波。2018年,37 (1):209 - 216。doi:10.1002 / jum.14332 PubMed 谷歌学术搜索 Crossref

29。

崔JHKang BJ,门敏我,李HS,金SH。应用计算机辅助诊断乳房超声检查解释:改善诊断性能根据读者的经验。超声。37 2018;(3):217 - 225。doi:10.14366 / usg.17046 PubMed 谷歌学术搜索 Crossref

30.

崔JS,韩寒BK, Ko ES, et al。影响深度学习基于框架的计算机辅助诊断系统在放射科医生的诊断性能区分恶性和良性乳腺超声质量。韩国J Radiol。2019;20 (5):749 - 758。doi:10.3348 / kjr.2018.0530PubMed 谷歌学术搜索 Crossref

31日。

科尔EB,张Z,品牌商品,爱德华·亨德里克RYaffe MJ,皮萨诺。计算机辅助检测系统对放射科医师的影响精度与数字乳房x光检查。杂志是J Roentgenol。2014,203 (4):909 - 916。doi:10.2214 / AJR.12.10187PubMed 谷歌学术搜索 Crossref

32。

Endo M,Aramaki T,仓叶K,等。基于内容图像复现系统在胸部计算机断层扫描一个孤独的肺结节:方法和初步的实验。Int J第一版协助Radiol杂志。2012;7 (2):331 - 338。doi:10.1007 / s11548 - 011 - 0668 - zPubMed 谷歌学术搜索 Crossref

33。

Engelke C,施密特,奥尔F, Rummeny EJ,貂K。计算机辅助检测肺栓塞提高严重程度评估和风险分层在急性肺栓塞?中国Radiol。2010,65 (2):137 - 144。doi:10.1016 / j.crad.2009.10.007PubMed 谷歌学术搜索 Crossref

34。

Giannini V, Mazzetti,阿曼德E,等。前列腺Multiparametric磁共振成像与计算机辅助检测:有经验的观察者性能研究。欧元Radiol。2017;27 (10):4200 - 4208。doi:10.1007 / s00330 - 017 - 4805 - 0PubMed 谷歌学术搜索 Crossref

35。

公园黄EJ,,金KN,等;DLAD发展和评估小组。开发和验证的深度上优于自动检测算法主要胸疾病胸片。JAMA Netw开放。2019;2 (3):e191095。doi:10.1001 / jamanetworkopen.2019.1095PubMed 谷歌学术搜索

36。

Daluiski林赛•R, Chopra, et al .深层神经网络提高了骨折临床医生的检测。《美国国家科学院刊年代。2018;115 (45):11591 - 11596。doi:10.1073 / pnas.1806905115PubMed 谷歌学术搜索 Crossref

37岁。

公园HJ,金正日SM, La Yun B,等。使用人工智能计算机辅助诊断系统的诊断和鉴定乳腺肿块超声:没有经验的乳房放射学家附加值。医学(巴尔的摩)。2019年,98 (3):e14146。doi:10.1097 / MD.0000000000014146PubMed 谷歌学术搜索

38。

Rodriguez-Ruiz, Krupinski E, Mordang JJ, et al .检测乳腺癌的乳房x光检查:人工智能支持系统的影响。放射学。2019,290 (2):305 - 314。doi:10.1148 / radiol.2018181371PubMed 谷歌学术搜索 Crossref

39岁。

罗梅罗C, Varela C,穆尼奥斯E,Almenar,平托JM,Botella米。影响乳腺癌的诊断多学科单元合并后乳房x光检查的数字化和计算机辅助检测系统。杂志是J Roentgenol。2011,197 (6):1492 - 1497。doi:10.2214 / AJR.09.3408PubMed 谷歌学术搜索 Crossref

40。

Samulski M, Hupse R, Boetes C,亩RDM,窝Heeten GJ, Karssemeijer N。在乳房x光检查作为一个决策支持使用计算机辅助检测。欧元Radiol。2010;20 (10):2323 - 2330。doi:10.1007 / s00330 - 010 - 1821 - 8PubMed 谷歌学术搜索 Crossref

41岁。

桑切斯戈麦斯,托雷斯Tabanera M,织女星玻利瓦尔,et al . CAD系统的影响在screen-film乳房x光检查筛查计划:一个前瞻性研究。欧元J Radiol。2011年,80 (3):e317-e321。doi:10.1016 / j.ejrad.2010.08.031PubMed 谷歌学术搜索 Crossref

42。

塞尔R,故事,Rahimy E,等。使用集成学习算法和梯度的解释来帮助糖尿病性视网膜病变的分级。眼科学。2019,126 (4):552 - 564。doi:10.1016 / j.ophtha.2018.11.016PubMed 谷歌学术搜索 Crossref

43。

Shimauchi,生姜毫升、Bhooshan N, et al .评价临床乳腺成像先生与原型进行计算机辅助诊断乳腺影像工作站先生:读者研究。放射学。2011,258 (3):696 - 704。doi:10.1148 / radiol.10100409PubMed 谷歌学术搜索 Crossref

44岁。

孙C,公元前Angic, Sossalla, Konietschke F, Obenauer。CAD在细致的数字mammography-influence读者的经验和应用CAD的解释。中国成像。2010年,34 (6):418 - 424。doi:10.1016 / j.clinimag.2009.10.039PubMed 谷歌学术搜索 Crossref

45岁。

施泰纳DF,麦克唐纳R,,等。影响深度学习援助组织病理检查淋巴结的转移性乳腺癌。我中华病理学杂志。2018年,42 (12):1636 - 1646。doi:10.1097 / PAS.0000000000001151 PubMed 谷歌学术搜索 Crossref

46岁。

贝克Stoffel E,, Wurnig MC, et al。叶状柄瘤和纤维腺瘤的区别使用深度学习在乳腺超声图像分析。欧元J Radiol开放。2018;5:165 - 170。doi:10.1016 / j.ejro.2018.09.002PubMed 谷歌学术搜索 Crossref

47岁。

Y太阳L,李,张欧美,et al。计算机辅助诊断算法改善了左心房血栓的多角度的准确性:单中心前瞻性研究。J超声波。2014;33 (1):83 - 91。doi:10.7863 / ultra.33.1.83 PubMed 谷歌学术搜索 Crossref

48。

Kim YJSunwoo L,崔SH, et al。计算机辅助检测脑转移的3 d成像先生:观察者性能研究。《公共科学图书馆•综合》。2017;12 (6):e0178265。doi:10.1371 / journal.pone.0178265PubMed 谷歌学术搜索

49。

唐FH, Ng dk, Chow DHK。图像特征方法的计算机辅助检测缺血性中风。第一版生物医学。2011;41 (7):529 - 536。doi:10.1016 / j.compbiomed.2011.05.001PubMed 谷歌学术搜索 Crossref

50。

泰勒JC,,罗曼诺夫斯洛伦茨E, C罗,Bandmann阿芬纳J。计算机辅助诊断(^123年我)FP-CIT成像:对临床报告的影响。EJNMMI Res。2018;8 (1):36。doi:10.1186 / s13550 - 018 - 0393 - 5PubMed 谷歌学术搜索 Crossref

51。

他L, Traverso,Agnello米,等。基于云的肺结节计算机辅助检测系统提高了识别extra-thoracic恶性血液病患者的ct扫描。欧元Radiol。2019;29 (1):144 - 152。doi:10.1007 / s00330 - 018 - 5528 - 6PubMed 谷歌学术搜索 Crossref

52岁。

渡边在,Lim V, Vu HX, et al .改进癌症检测使用人工智能:错过了癌症的回顾性评价乳房x光检查。J数字成像。2019年,32 (4):625 - 637。doi:10.1007 / s10278 - 019 - 00192 - 5PubMed 谷歌学术搜索 Crossref

53岁。

陈T,惠普,Hadjiiski L, et al。计算机辅助诊断肺结节的CT扫描:中华民国研究影响放射科医生的性能。阿德莱德大学Radiol。2010;17 (3):323 - 332。doi:10.1016 / j.acra.2009.10.016 PubMed 谷歌学术搜索 Crossref

54。

余王张J,,,张X,。应用计算机辅助诊断颈部淋巴结的超声评价。Ultrason成像。2016年,38 (2):159 - 171。doi:10.1177 / 0161734615589080PubMed 谷歌学术搜索 Crossref

55。

IMDRF软件作为医疗设备(SaMD)工作小组。“软件作为一个医疗设备:“可能的风险分类框架和相应的注意事项。9月18日,2014年出版。2021年1月24日通过。https://www.fdanews.com/ext/resources/files/10-14/10-14-IMDRF-SaMD.pdf?1520753258

56。

汉族学生,公园我,恩常,et al。增强情报皮肤病:深层神经网络使医学专家诊断皮肤癌和预测134皮肤疾病的治疗方案。J投资北京医学。2020,140 (9):1753 - 1761。doi:10.1016 / j.jid.2020.01.019 PubMed 谷歌学术搜索 Crossref

57。

Wellman RD雷曼CD, Buist博士DSM, Kerlikowske K, Tosteson, Miglioretti DL;乳腺癌监视财团。诊断精度的数字和不使用计算机辅助检测筛查性乳房x光检查。JAMA实习生地中海。2015,175 (11):1828 - 1837。doi:10.1001 / jamainternmed.2015.5231 PubMed 谷歌学术搜索 Crossref

58岁。

塔普林SH芬顿JJ,亚伯拉罕L,,等;乳腺癌监视财团。计算机辅助检测的有效性在社区实践乳房x光检查。中华肿瘤杂志。2011;103 (15):1152 - 1161。doi:10.1093 / jnci / djr206PubMed 谷歌学术搜索 Crossref

59。

芬顿JJ,邢G,爱尔摩詹,et al .短期使用计算机辅助检测筛查性乳房x光检查的结果:医保患者的以人群为基础的研究。安实习生地中海。2013,158 (8):580 - 587。doi:10.7326 / 0003-4819-158-8-201304160-00002 PubMed 谷歌学术搜索 Crossref

60。

马歇尔哈里斯D,斯坦顿NA,,等。利用夏尔巴人预测design-induced飞行甲板上的错误。Aerosp Sci抛光工艺。2005;9 (6):525 - 532。doi:10.1016 / j.ast.2005.04.002 谷歌学术搜索 Crossref

61年。

艾萨克,Shorrock圣科文B。欧洲空中交通管理的人为错误:赫拉项目。完整性Eng系统Saf。2002,75 (2):257 - 272。doi:10.1016 / s0951 - 8320 (01) 00099 - 0 谷歌学术搜索 Crossref

62年。

Rantanen托马斯•LC。实现先进的航空技术:人为因素问题的错误警报和座舱显示器的交通信息。万博manbetx平台首页尔刚Sci理论的问题。2006;7 (5):501 - 523。doi:10.1080 / 14639220500090083 谷歌学术搜索 Crossref

63年。

斯坦顿NA,鲑鱼P,詹金斯D,沃克G。人为因素在中央控制室的设计和评估操作。CRC出版社;2009年。doi:10.1201 / 9781439809921

64年。

卡瓦略PVR,多斯桑托斯,戈麦斯乔,夫人博尔赫斯,娇兰。人为因素人类系统接口的方法来评估和重新设计的核电站模拟器。显示。2008;29 (3):273 - 284。doi:10.1016 / j.displa.2007.08.010 谷歌学术搜索 Crossref

65年。

价格K。任何你可以做,我可以做得更好(没有你不能)…。第一版Vis图形象的过程。1986年,36 (2):387 - 391。doi:10.1016 / 0734 - 189 x (86) 90083 - 6 谷歌学术搜索 Crossref

66年。

范Ginneken B, Kerkstra, Meakin J。挑战:大挑战。2020年9月10日通过。https://grand-challenge.org/challenges/

67年。

刘X,里维拉SC,莫赫D,卡尔弗特MJ,丹尼斯顿AK;SPIRIT-AI CONSORT-AI工作组。报告指南临床试验报告干预涉及人工智能:CONSORT-AI扩展。BMJ。2020;370:m3164。doi:10.1136 / bmj.m3164 PubMed 谷歌学术搜索 Crossref

68年。

里维拉SC,刘X,陈w,丹尼斯顿AK,卡尔弗特MJ;SPIRIT-AI CONSORT-AI工作组。临床试验方案干预指南涉及人工智能:SPIRIT-AI扩展。BMJ。2020;370:m3210。doi:10.1136 / bmj.m3210 PubMed 谷歌学术搜索 Crossref

69年。

柯林斯GS, Reitsma JB,奥特曼DG,卫星KGM。透明的报告个人预后和诊断的多变量预测模型(三脚架):三脚架的声明。安实习生地中海。2015年,162 (1):55 - 63。doi:10.7326 / m14 - 0697 PubMed 谷歌学术搜索 Crossref

70年。

柯林斯GS,卫星KGM。报告的人工智能预测模型。《柳叶刀》。2019,393 (10181):1577 - 1579。doi:10.1016 / s0140 - 6736 (19) 30037 - 6 PubMed 谷歌学术搜索 Crossref

根据你的兴趣注册电子邮件

每周邮件

每月的邮件

保存参数

cn.manbetx |使用条款

别人也喜欢

" data-type="string">

最初的调查

卫生信息学

3月11日,2021年

协会临床医生诊断与机器性能上优于决策支持系统:系统回顾

巴普蒂斯特维西,毫米¹;Stephan Ursprung,毫米²;本杰明中心,二元同步通信³;等艾略特·h·泰勒,二元同步通信¹;尼尔•马洛面交^1、4;妮可Bilbro博士⁵;彼得Watkinson博士⁶;彼得•麦卡洛克博士¹

作者的从属关系条信息万博manbetx平台首页

¹纳菲尔德外科学系,牛津大学,英国牛津大学
²放射学、剑桥大学、英国剑桥大学
³医学院,伦敦帝国理工学院,英国伦敦
⁴牛津大学医院NHS信托基金会、英国牛津大学
⁵迈蒙尼德医学中心外科学系,纽约布鲁克林
⁶急救护理研究小组,纳菲尔德系临床神经科学,牛津大学,英国牛津大学

JAMA Netw开放。 2021;4 (3):e211276。doi: 10.1001 / jamanetworkopen.2021.1276

要点

问题是临床医生诊断性能与使用基于机器学习的相关临床决策支持系统?

发现在37的系统性回顾研究中,没有发现强有力的证据表明基于机器学习临床的使用之间的关联算法支持而不是取代人类决策和提高临床医师的诊断性能。

意义谨慎评估时应观察当前机器学习算法的能力影响病人护理,并强调人机交互的评估是必要的。

文摘

重要性越来越多的机器学习(ML)的临床决策支持系统(cds)医学文献中所描述的,但是这项研究几乎完全集中于比较cds直接与临床医生(人类和计算机)。对这些系统的结果当作为附庸人类决策(人类和人类与计算机)。

目标进行系统回顾调查之间的关系互动使用ML-based诊断信用违约掉期和临床表现和检查信用违约互换的人为因素的程度评估。

证据审查搜索的MEDLINE和Embase, PsycINFO,灰色文献之间进行了1月1日2010年5月31日,2019年。用英语发表的同行评审研究比较人类的临床表现有或没有互动使用ML-based诊断包括信用违约掉期。所有指标用来评估人类性能被认为是结果。偏见的风险评估使用质量评估的诊断准确性的研究(QUADAS-2)和偏见的风险Non-Randomised Studies-Intervention (ROBINS-I)。叙述总结生产的主要结果。鉴于医疗条件的异质性,感兴趣的结果,和评估指标,没有进行荟萃分析。

发现共有8112项研究最初检索和5154摘要筛选;其中,37个研究符合入选标准。参与临床医生的平均次数是4(四分位范围,3 - 8)。的107年业绩报告的统计意义,54(50%)增加了信用违约互换的使用,4(4%)下降,49(46%)没有改变或不清楚。子群的研究在代表进行临床设置,之间没有联系的使用ML-based诊断信用违约掉期和提高临床医生可以观察到的性能。Interobserver协议通常报道结果的改变是最密切相关的信用违约互换使用。四个研究(11%)报告用户的反馈,,除了1例,临床医生决定至少覆盖算法的一些建议。28(76%)研究被评为高偏差的风险至少1的4 QUADAS-2核心领域,和6研究(16%)被认为是在严重或关键的风险使用ROBINS-I偏见。

结论和意义这个系统综述发现,只有稀疏的证据表明使用ML-based cds与提高临床医生的诊断性能。大多数研究的参与者,是偏见的风险高或不清楚,很少或根本没有考虑人的因素。时应该小心谨慎评估当前毫升改善人类的潜力诊断性能,和更全面的评估应该在部署之前进行ML-based cds在临床的设置。结果突出的重要性考虑支持人类决策作为终点,而不是仅仅是独立的信用违约掉期输出。

介绍

人工智能已经成为医学文献和医疗保健行业的流行词。虽然我们仍然远离真正的人工智能,数学建模和计算能力的进步导致的增加的数量发表的算法。声称关于人工智能在医学上的潜在范围从使用临床医生在他们的决策过程中人工智能超过人类专家。人工智能在卫生保健经费逐年增加,¹和监管机构批准,越来越多的软件作为医疗设备(SaMDs)先进的机器学习(ML)算法的基础上,主要在医学成像。²最近的证据表明,表现最佳的系统现在人类专家的性能匹配。³然而,一些随机临床试验或进行前瞻性研究,和大多数非随机试验的风险高的偏见。⁴

基于机器学习的临床决策支持系统(cds)是一类SaMDs旨在支持卫生专业人员的决策提供病人或问题特定的信息从一个理想的训练过程中大量的临床病例。万博manbetx平台首页尽管他们的名字,大多数cds目前专门针对人类专家评估但很少在他们的结果与人类临床医生使用时不同的资历。证明计算机可以像人类一样好诊断任务有一些有用的应用程序,尤其是对于大型人口筛查的患者可能无法及时看医生。然而,这种方法忽略了任何医疗遇到的一个重要因素:人类的临床医生。只要医生的最终责任签署诊断或治疗计划,这将是他们的信用违约互换output-not输出而会影响病人的治疗。人类的决策是受许多外部因素和认知偏差的影响。⁵^{- - - - - -7}是不明智的假设没有进一步的证据表明,人类操作员将遵循一个诊断cds建议没有问题。进一步扩展这个论点,我们也几乎没有证据患者如何应对完全自动化诊断或治疗计划。因此,重要的是评估任何新的信用违约互换使用时的性能与人类互动合作的临床医生,不仅仅表现在硅片(例如,测试数据集)。

先前的系统评价研究协会的信用违约掉期与临床表现或其代理的临床结果。⁸^{- - - - - -12}然而,大多数的包括研究描述系统参数被定义为他们的开发人员或诊断发电机手工知识库的基础上,因此不能完全代表真正的ML的承诺:成为比它的创造者“学习没有明确设定。”¹³在本系统评价中,我们调查了当前关于证据之间的关系ML-based诊断cds和人力的使用性能和检索的方法评估这些系统包括所有研究比较人类临床医生执行诊断任务有或没有ML-based cds援助。

方法

搜索策略和选择标准

我们的文献进行了系统回顾,本研究遵循的有关部分首选项报告系统评价和荟萃分析(棱镜)报告指南。¹⁴这项研究是在普洛斯彼罗(注册CRD42019140075)。

搜索策略建立在4添加剂概念(机器学习,决策支持系统,临床医生,和绩效评估)设计专业图书管理员的支持下,可以发现在研究协议(eAppendix 1补充)。搜索是在MEDLINE、Embase, PsycINFO之间的1月1日,2010年和2019年5月31日。最初的搜索是在5月20日进行的,2019年最后搜索识别可能晚指数化在指定的时间窗内进行6月1日,2020年。一轮系统向前和向后引用所有包含搜索进行了研究。执行一个额外的搜索最近使用的名字算法得到美国食品和药物管理局的批准。灰色文献搜索包括世界卫生组织国际临床试验注册平台,会议摘要(从2017年起),和Cochrane中央登记的对照试验进行了使用一个适应搜索策略(eAppendix 2的补充)。

入选标准是同行评议的文章发表在英语语言,人类医生为研究人口的交互使用ML-based诊断cds干预,人类医生没有信用违约互换作为控制,任何变量用来衡量人类表现的主要结果,任何变量测量独立计算机的性能(即性能通过计算机输出没有后续的人工干预),以及任何变量描述人类操作员的信用违约掉期的评估作为一个次要的结果。信用违约掉期被认为是诊断如果其输出产生定性信息(例如,良性与恶性)的本质病变或损伤的检测是否本身足以构成影响诊断和治疗选择(如肺栓塞的存万博manbetx平台首页在)。排除标准监视、警报或detection-only系统;系统基于验证分数;基于自然语言处理系统;和系统依赖于手工制作的知识或规则基地。具体的关键概念的定义和eAppendix 1中可以找到完整的排除标准补充。检索标题和摘要都是独立接受至少2人(容积,S.U.,E.H.T., N.M., and N.B.). Conflicts were adjudicated by a third reviewer (S.U. or B.B.). Full-text articles were independently reviewed for eligibility by at least 2 of us (B.V., S.U., B.B., E.H.T., N.M., and N.B.). Conflicts were resolved in consensus. The abstract screening and full-text review were conducted using the Covidence software.¹⁵

人口数据提取研究,患者人群中,数据集的特点,实验描述,系统特点,评估人类性能指标,指标评估计算机的性能和研究资金。数据项的完整列表可以在eAppendix 1的补充。调查人员没有联系。每个包括偏见的风险研究是评估使用诊断精度的质量评估研究(QUADAS-2)工具所修改的财富⁸^,16和偏见的风险Non-Randomised Studies-Intervention (ROBINS-I)工具。¹⁷QUADAS-2被用来评估偏差的风险有关的信用违约掉期的诊断准确性,和ROBINS-I用来考虑偏差的风险评估结果差异的性能。研究包括在分析独立于偏见的风险。数据提取和偏见进行独立评估都至少2人(容积,S.U.,就,E.H.T., N.M., and N.B.) using piloted forms. Conflicts were resolved by consensus. To ensure consistency, the main reviewer (B.V.) screened all abstracts and full texts for eligibility, extracted data, and assessed risk of bias on all included studies.

Meta-bias研究通过搜索世界卫生组织国际临床试验注册平台和Cochrane中央对照试验注册登记寻找未发表的试验和选择性报告的证据。起源的研究资助和协议的存在也会考虑。

数据分析

叙述总结生产为主要和次要的结果。根据协议,子群分析对于临床医生的经验水平(有经验的新手vs),使用的数学模型,模型的支持度(单输出和信息流程),和读者范式(第一和第二的读者)。万博manbetx平台首页第一读者支持显示模型输出的同时临床数据,其次读者支持显示模型输出后,观察者有机会做出自己的决定。额外的亚组分析研究评估ML-based cds代表临床环境中(显然连续报道或nonaugmented随机患者样本和访问通常可用临床数据的决策)。患者的立场结果优先lesion-level结果总结的主要结果。病人或病变类型子群分析分别进行了综述。鉴于医疗条件的异质性,感兴趣的结果,和评估指标,没有进行荟萃分析。所有研究都包括在分析无论偏见的风险。

结果

共有8112个冠军,其中有2774人副本,184人不是用英语发表;5154摘要筛选,156这些被选为全文的审查。156年的研究评估,22有资格加入。15额外出版物满足入选标准检索从其他来万博ManBetX网页源,包括向前/向后引用搜索、商品名称搜索,搜索相关文献引用,从灰色文献的搜索和出版物跟踪。37出版物最终被包括在本文万博ManBetX网页中。¹⁸^{- - - - - -54}图1介绍了棱镜流程图。

所有包括研究描述基于成像模式,信用违约掉期乳腺癌和肺部疾病是最常见的医疗条件。20(54%)调查研究信用违约互换技术与指定的商标名在刚出版的时候。

31个研究(84%)评估信用违约互换属于国际医疗器械监管机构论坛的风险4级(最高的类别)⁵⁵的25项研究(68%)使用第二个读者范式(参见数据分析部分)的信用违约互换的支持,8例(22%)使用第一读者范例1(3%)用于研究,研究(8%)没有指定。三项研究(8%)使用相同的情况下,训练集和测试集和3研究(8%)没有明显报告测试集独立。事件的平均比例(即目标条件)的测试集是44%(四分位范围,32% -54%)。临床医生的平均数量的参与者观察测试4(四分位范围,3 - 8),与每一个阅读的中位数123种不同的情况下(四分位范围79 - 300年)。表1概述包括研究的特点。

十大最常见的指标用于量化人类性能包括研究敏感性(81%)、特异性(70%)、接收机操作曲线下的面积(51%)、精度(38%)、interobserver协议(30%),阳性预测值(PPV)(30%),阴性预测值(30%)、阅读时间(22%)、召回率的进一步调查(11%),和进一步的积极价值调查(8%)。等效指标聚合。评价指标的完整列表出现eTable 1中可以找到的补充。

表2报告总结信用违约互换使用之间的相关性和十大最常见的人类绩效评估指标。三个研究报道了超过1信用违约掉期(或在不同模式使用相同的信用违约掉期)。²¹^,31日^,42共有107个主要结果与统计显著性报道,41没有它被报道。大多数研究定义的统计学意义P<。05,with some applying correction for multiple comparisons. Of the results reported with statistical significance, 54 studies (50%) showed an increase in their metrics, 4 (4%) reported a decrease, and 49 (46%) noted no change or an unclear change. The area under the receiver operating curves, accuracy, interobserver agreement, and PPV were usually increased with interobserver agreement showing the clearest change. The sensitivity, specificity, negative predictive value, rate of recall for further investigation, and PPV of further investigations remained unchanged in most cases, and the CDSS association with reading time showed no clear pattern. Sixteen studies also reported analyses on subgroups of patients or lesion types. A summary of these additional analyses can be found in eTable 2 in the补充的详细清单,包括研究的结果发表在eTable 3中补充。

6研究^20.^,22^,24^,29日^,39^,41评估信用违约互换在代表临床环境中同样的10个评价指标,20个结果报告与统计学意义。其中,16例(80%)显示,性能没有区别,和4(20%)报告增加敏感性,接受者操作曲线下的面积,PPV或interobserver协议(eTable 4补充)。

19研究中比较是可能的,信用违约互换更常与性能的增加经验较少的医生相比,他们的资深同事(eTable 5补充)。读者范式也似乎与人类相关的性能,研究调查信用违约互换在第二个读者模式似乎更常与增加的指标(eTable 6补充)。子群分析根据所使用的数学模型(eTable 7中补充)和程度的支持(eTable 8补充)没有产生额外发现。

27对cds独立性能的研究报道。除了1不清楚的情况下,⁵⁰人类参与者总是决定覆盖至少一些信用违约互换的建议。75年的主要结果报告使用10个最常见的应用指标,人类改变了系统性能的贡献70例(93%)。与独立的计算机的性能相比,增加人类的智慧增加了度量值45例(60%),下降25例(33%)。只有3结果(4%)提到的统计学意义;其中,1显示无统计学差异,2指出精度大幅提高。这些结果报告的概述表3eTable 9中,小组的总结分析补充,详细的结果列表eTable 10的补充。

37的包括研究、15(41%)试图增加模型的可解释性呈现的一些中介计算导致模型的最终输出,和13个研究(35%)包括用户的培训开始前的数据收集。4(11%)报道了对信用违约互换用户反馈,其中3例(8%)收集反馈通过形式化的过程。Van den Biggelaar et al²⁴^(p501)要求参与者表示他们评价形式如果cds标志着“有价值的诊断信息添加到自己的原始评价”,但没有报告这一结果。万博manbetx平台首页泰勒等人⁵⁰^(p5)打开和关闭的问题采访“设计提供一个洞察CADx(计算机辅助诊断)放射科医师关系[和]评估CADx软件医生决策的影响。“研究参与者报告好协议他们的决定和cds输出之间,小到中度影响他们报告的决定。参与者还被认为是小的温和的好处如果cds将显示更多信息如何产生的决定,认为信用违约互换可以温和的实质利益支持培训和改善经验的临床医生的性能。万博manbetx平台首页Endo等³²邀请参与者提供直接反馈cds输出通过分级相关性的一个特定的任务;87%的输出被认为令人满意。额外的人力factor-related特征包括研究eTable 11中可以找到的补充。

研究使用QUADAS-2, 28(76%)被评为高偏差的风险至少1的4核心领域,并没有被认为是低风险的偏见在所有4个核心领域。病人选择和指标测试2域最常发现高危的偏见。使用ROBINS-I 6研究(16%)也被认为严重或有偏见的关键风险由于成立,偏离预期的干预,或者可能选择的报告结果。只有1的研究被认为是低风险的偏见在所有7域。⁴⁷图2显示了每个类别的偏见的整体风险评估的工具。

六项研究报告(16%)私人部门资金,和12(32%)没有或不清楚的信息关于他们的资金来源。万博manbetx平台首页只有2研究(5%)引用的一项协议。⁴⁷^,54灰色文献搜索检索1随机临床试验协议(与预期完成后存在审查的搜索时间),1会议文摘(导致出版审查的搜索时间)后,⁵⁶1会议摘要,并没有导致任何出版物。

讨论

这个系统的审查没有发现有力证据表明使用ML-based算法更好的临床医师的诊断性能。任何结论的证据薄弱,因为高风险的偏见在许多研究和较低的研究参与者的数量。几乎一半的报告与统计显著性结果显示性能无显著差异或不使用信用违约互换。在研究清楚地报道代表临床环境,这种观察是更加明显,80%的指定结果显示性能没有显著改变。这些发现证实了其他研究的结论评估信用违约掉期的结果用在人口众多的乳房x光检查,发现很少或根本没有好处。⁵⁷^{- - - - - -59}在我们这样的cross-specialty评论,表达一个简单的判断信用违约掉期的好处通常是困难的,因为它严重依赖于诸多因素,比如常见的临床实践字段或目标的流行状况。这个因素是我们总结的原因之间的联系使用信用违约互换和临床表现的指标,它们使读者决定是否特定的变化是理想的专业。interobserver协议指标的变化似乎是最明显的相关信用违约掉期的使用。使用信用违约互换似乎也有更显著的联系增加了缺乏经验的临床医生和性能与增加interobserver协议有关临床医生的经验水平。这样,cdss不需要仅仅用来表现最有经验的临床医生,但可以通过设计有针对性的向那些缺乏经验的人可能会得到更多的好处。

小是考虑人为因素包括研究。这个结果是令人感到意外,因为作为人类临床医生应该测试系统的主要受益者。在只有13个研究是观察者在信用违约掉期在测试前培训。考虑到可能存在的学习(或信任)曲线Rodriguez-Ruiz et al,观察到³⁸这个疏忽很可能会扭曲的结果。用户反馈在只有4的研究报道,因此阻碍任何迭代改善人机交互。这一结果与其他安全性至关重要的行业,如航空或能源行业,多年来一直常用的人为因素原则。⁶⁰^{- - - - - -64年}

除了1研究中可用的信息,操作员决定覆盖至少有一些系统的建议,和目万博manbetx平台首页前仍不清楚人类智慧在多大程度上影响整个系统的性能。这两个观察强调计算机模拟不足以单独定义一个信用违约掉期的有效性和安全性。在临床情况下,人类有责任为诊断或治疗的选择,他们会有意或无意地将其他因素比cds输出变量,可能会优先考虑自己的临床判断的冲突。因此,它是人类处理算法的输出,而不是输出本身,会影响病人的治疗。因此,重要的是要评估这个共享决策过程而不是信用违约互换独立性能。

高危的许多包括研究偏见,呼应了最近的一次审查评估研究的结果比较深上优于算法临床医生。⁴这个偏差主要是归因于风险升高3因素:(1)缺乏前瞻性或随机选择样本情况下,(2)在测试期间没有可用的临床数据,否则在真实的环境中,和(3)缺乏协议。此外,研究结果的普遍性,这削弱了没有任何动力计算和中等数量的参与者只有4。在许多情况下,我们也观察到混淆统计学意义在病人和医生的水平。引导产生的临床病例P例如,价值不会透露半点其他医生发现的普遍性。相反,它将评估的可能性相同的临床医生将显示类似的改善病人的新样品。

除了列出的问题已经有明显异质性指标用于评估信用违约掉期。在一起,这些矛盾使一个可靠的比较不同的系统几乎不可能。性能问题的相似性是众所周知的领域和发起创建数据的挑战,尤其是在医学图像分析,评估竞争算法执行常见的数据集。^65年^,66年这种协调工作现在应该扩展到下一个阶段的信用违约掉期评价途径,尤其是第一次使用人类的临床医生。报告指南将提供一个可行的解决方案。

优势和局限性

系统评价方法学方法遵循最佳实践标准,和每一步的过程是由至少2评论者独立执行。本研究,据我们所知,第一个把人类的临床医生,而不是算法,系统回顾的最前沿的临床使用ML-based信用违约掉期。这种方法提供了重要的信息,细微差别通常描绘认为人工智能跨专业可能很万博manbetx平台首页快就会大大提高临床医师的诊断性能。这种方法还强调了当前缺乏考虑人为因素在评估新信用违约互换的潜在好处。此外,本文提供了材料,可以通知进一步的发展指导ML-based cds评价,补充现有的或即将到来的报告指南。^67年^{- - - - - -70年}这样的指导会特别相关的安全性和有效性评估之前的执行大规模的临床试验。

本文有一定的局限性。是可能的,一些相关文献检索并不是由于(1)的异构描述目标在医学专业信用违约掉期,(2)只在许多研究商业名称的使用,和(3)唯一最近的分类技术在专业搜索引擎(机器学习添加网2016年在PubMed术语)。我们解决这些问题,进行向前和向后包括研究的文献检索以及额外的寻找共同的或新的商业名称。考虑到广泛的信用违约掉期评估,确定入选标准必须非常精确定义,和一些这些定义都是有争议的,因为没有在文献中广泛共识。

结论

这个文献的系统回顾提供结果,为当前和未来的争论毫升在卫生保健的评价。我们没有发现强有力的证据表明使用ML-based cds与改进的诊断性能有关临床医生在临床环境的代表。我们也强调,关于这个主题的研究大多数是在高或不清楚风险的偏见和有一个低数量的参与者。此外,我们发现人类的运营商几乎总是决定覆盖至少一些信用违约互换的建议。因此,我们建议更全面评价ML-based cds,更多的是考虑到人类组件的辅助诊断。这些变化在实践中应该接受审判的原则指导下进行和报告,避免重复的错误指出在当前文学。增加监管审查也有一个重要的角色在确保安全、有效的翻译病人床边。这项审查的结果不应该被解释为玷污的前景ML-based诊断信用违约掉期。相反,我们鼓励定性改善未来的研究。更好的方法和评估将允许信用违约掉期充分展示他们的潜力,最终改善病人护理。

回到顶部

条信息万博manbetx平台首页

发表:2021年1月20日。

发表:2021年3月11日。doi:10.1001 / jamanetworkopen.2021.1276

通讯作者:巴普蒂斯特维西,毫米,纳菲尔德外科学系,牛津大学海丁顿,英国牛津OX3 9 du (baptiste.vasey@nds.ox.ac.uk)。

作者的贡献:维西先生完全访问所有的数据研究,负责数据的完整性和数据分析的准确性。麦卡洛克博士是该研究的担保人。

概念和设计:维西、Ursprung马洛、Bilbro麦克洛克。

数据的采集、分析或解释:维西、Ursprung中心,泰勒,马洛,Bilbro Watkinson。

起草的手稿:维西,马洛。

关键的修订手稿的重要知识内容:Ursprung中心,泰勒,马洛,Bilbro Watkinson,麦克洛克。

统计分析:维西。

行政、技术或材料支持:维西,中心,泰勒。

监督:Watkinson,麦克洛克。

利益冲突的披露:维西先生参与报道CS数字医疗以外的股票基金(参与出售2020年1月)提交的工作。先生Ursprung报道从剑桥英联邦奖学金,欧洲&国际信托奖学金期间进行的研究。Watkinson博士报道接受赠款从国家卫生研究所(NIHR)期间进行的研究;从NIHR赠款,康,Sensyne健康;从Sensyne卫生和个人费用。他是首席医疗官Sensyne健康和持有该公司的股票在提交工作。没有其他信息披露报告。

资金/支持:维西先生是贝罗基金(林肯大学,牛津大学);Ursprung先生是剑桥英联邦的支持下,欧洲&国际信托;和支持Watkinson NIHR博士生物医学研究中心,牛津。

资助者的角色/赞助商:资金来源没有发挥作用的研究设计、数据收集、分析,或决定提交出版。

额外的贡献:Tatjana Petrinic,拓展图书管理员(牛津大学图书馆图书馆、牛津大学),设计了搜索策略和提供指导在所有阶段的评审;没有提供工资以外的经济补偿。贝罗先生维西感谢基金会,林肯大学,牛津大学的支持,没有这个研究是不可能的。

引用

1。

CBInsights。国家的医疗报告Q2 20:部门和投资趋势看。2021年1月24日通过。https://www.cbinsights.com/research/report/healthcare-trends-q2-2020/

2。

美国大学的放射学数据科学研究所。FDA允许人工智能算法。2020年9月10日通过。https://www.acrdsi.org/DSI-Services/FDA-Cleared-AI-Algorithms

3所示。

4所示。

5。

Haselton毫克,荨麻D,博士穆雷。认知偏见的进化。:巴斯DM,艾德。进化心理学的手册。约翰威利& Sons . n:行情);2015:968 - 987。doi:10.1002/9781119125563. evpsych241

6。

7所示。

库克RI,伍兹DD。操作最狠:人为错误的复杂性。艾德:Bogner女士。人为错误在医学。CRC出版社;2018年。

8。

9。

10。

11。

12。

13。

塞缪尔·艾尔。一些研究机器学习中使用的跳棋游戏。IBM J Res Dev。3 (3):210 - 1959;29。doi:10.1147 / rd.33.0210谷歌学术搜索 Crossref

14。

泰兹拉夫莫赫D, Liberati,,奥特曼DG;棱镜组。首选项报告系统评价和荟萃分析:棱镜声明。BMJ。2009;339:b2535。doi:10.1136 / bmj.b2535PubMed 谷歌学术搜索 Crossref

15。

Covidence系统评价软件,Veritas健康创新,澳大利亚墨尔本。2021年1月24日通过。http://www.covidence.org

16。

17所示。

18岁。

19所示。

20.

21。

22。

23。

24。

25。

26岁。

27。

28。

29。

30.

31日。

32。

33。

34。

35。

36。

37岁。

38。

39岁。

40。

41岁。

42。

43。

44岁。

45岁。

46岁。

47岁。

48。

49。

50。

51。

52岁。

53岁。

54。

余王张J,,,张X,。应用计算机辅助诊断颈部淋巴结的超声评价。Ultrason成像。2016年,38 (2):159 - 171。doi:10.1177 / 0161734615589080PubMed 谷歌学术搜索 Crossref

55。

56。

57。

58岁。

59。

60。

61年。

62年。

63年。

斯坦顿NA,鲑鱼P,詹金斯D,沃克G。人为因素在中央控制室的设计和评估操作。CRC出版社;2009年。doi:10.1201 / 9781439809921

64年。

65年。

66年。

范Ginneken B, Kerkstra, Meakin J。挑战:大挑战。2020年9月10日通过。https://grand-challenge.org/challenges/

67年。

68年。

69年。

70年。

柯林斯GS,卫星KGM。报告的人工智能预测模型。《柳叶刀》。2019,393 (10181):1577 - 1579。doi:10.1016 / s0140 - 6736 (19) 30037 - 6 PubMed 谷歌学术搜索 Crossref

协会临床医生诊断与机器性能上优于决策支持系统:系统回顾

专题文章

USPSTF语句

博客

看到更多

根据你的兴趣注册电子邮件

选择你的兴趣

获得最新的研究根据你感兴趣的领域。

别人也喜欢

引用

下载引用文件:

协会临床医生诊断与机器性能上优于决策支持系统:系统回顾