要点
问题是临床医生诊断性能与使用基于机器学习的相关临床决策支持系统?
发现在37的系统性回顾研究中,没有发现强有力的证据表明基于机器学习临床的使用之间的关联算法支持而不是取代人类决策和提高临床医师的诊断性能。
意义谨慎评估时应观察当前机器学习算法的能力影响病人护理,并强调人机交互的评估是必要的。
重要性越来越多的机器学习(ML)的临床决策支持系统(cds)医学文献中所描述的,但是这项研究几乎完全集中于比较cds直接与临床医生(人类和计算机)。对这些系统的结果当作为附庸人类决策(人类和人类与计算机)。
目标进行系统回顾调查之间的关系互动使用ML-based诊断信用违约掉期和临床表现和检查信用违约互换的人为因素的程度评估。
证据审查搜索的MEDLINE和Embase, PsycINFO,灰色文献之间进行了1月1日2010年5月31日,2019年。用英语发表的同行评审研究比较人类的临床表现有或没有互动使用ML-based诊断包括信用违约掉期。所有指标用来评估人类性能被认为是结果。偏见的风险评估使用质量评估的诊断准确性的研究(QUADAS-2)和偏见的风险Non-Randomised Studies-Intervention (ROBINS-I)。叙述总结生产的主要结果。鉴于医疗条件的异质性,感兴趣的结果,和评估指标,没有进行荟萃分析。
发现共有8112项研究最初检索和5154摘要筛选;其中,37个研究符合入选标准。参与临床医生的平均次数是4(四分位范围,3 - 8)。的107年业绩报告的统计意义,54(50%)增加了信用违约互换的使用,4(4%)下降,49(46%)没有改变或不清楚。子群的研究在代表进行临床设置,之间没有联系的使用ML-based诊断信用违约掉期和提高临床医生可以观察到的性能。Interobserver协议通常报道结果的改变是最密切相关的信用违约互换使用。四个研究(11%)报告用户的反馈,,除了1例,临床医生决定至少覆盖算法的一些建议。28(76%)研究被评为高偏差的风险至少1的4 QUADAS-2核心领域,和6研究(16%)被认为是在严重或关键的风险使用ROBINS-I偏见。
结论和意义这个系统综述发现,只有稀疏的证据表明使用ML-based cds与提高临床医生的诊断性能。大多数研究的参与者,是偏见的风险高或不清楚,很少或根本没有考虑人的因素。时应该小心谨慎评估当前毫升改善人类的潜力诊断性能,和更全面的评估应该在部署之前进行ML-based cds在临床的设置。结果突出的重要性考虑支持人类决策作为终点,而不是仅仅是独立的信用违约掉期输出。
人工智能已经成为医学文献和医疗保健行业的流行词。虽然我们仍然远离真正的人工智能,数学建模和计算能力的进步导致的增加的数量发表的算法。声称关于人工智能在医学上的潜在范围从使用临床医生在他们的决策过程中人工智能超过人类专家。人工智能在卫生保健经费逐年增加,1和监管机构批准,越来越多的软件作为医疗设备(SaMDs)先进的机器学习(ML)算法的基础上,主要在医学成像。2最近的证据表明,表现最佳的系统现在人类专家的性能匹配。3然而,一些随机临床试验或进行前瞻性研究,和大多数非随机试验的风险高的偏见。4
基于机器学习的临床决策支持系统(cds)是一类SaMDs旨在支持卫生专业人员的决策提供病人或问题特定的信息从一个理想的训练过程中大量的临床病例。万博manbetx平台首页尽管他们的名字,大多数cds目前专门针对人类专家评估但很少在他们的结果与人类临床医生使用时不同的资历。证明计算机可以像人类一样好诊断任务有一些有用的应用程序,尤其是对于大型人口筛查的患者可能无法及时看医生。然而,这种方法忽略了任何医疗遇到的一个重要因素:人类的临床医生。只要医生的最终责任签署诊断或治疗计划,这将是他们的信用违约互换output-not输出而会影响病人的治疗。人类的决策是受许多外部因素和认知偏差的影响。5- - - - - -7是不明智的假设没有进一步的证据表明,人类操作员将遵循一个诊断cds建议没有问题。进一步扩展这个论点,我们也几乎没有证据患者如何应对完全自动化诊断或治疗计划。因此,重要的是评估任何新的信用违约互换使用时的性能与人类互动合作的临床医生,不仅仅表现在硅片(例如,测试数据集)。
先前的系统评价研究协会的信用违约掉期与临床表现或其代理的临床结果。8- - - - - -12然而,大多数的包括研究描述系统参数被定义为他们的开发人员或诊断发电机手工知识库的基础上,因此不能完全代表真正的ML的承诺:成为比它的创造者“学习没有明确设定。”13在本系统评价中,我们调查了当前关于证据之间的关系ML-based诊断cds和人力的使用性能和检索的方法评估这些系统包括所有研究比较人类临床医生执行诊断任务有或没有ML-based cds援助。
我们的文献进行了系统回顾,本研究遵循的有关部分首选项报告系统评价和荟萃分析(棱镜)报告指南。14这项研究是在普洛斯彼罗(注册CRD42019140075)。
搜索策略建立在4添加剂概念(机器学习,决策支持系统,临床医生,和绩效评估)设计专业图书管理员的支持下,可以发现在研究协议(eAppendix 1补充)。搜索是在MEDLINE、Embase, PsycINFO之间的1月1日,2010年和2019年5月31日。最初的搜索是在5月20日进行的,2019年最后搜索识别可能晚指数化在指定的时间窗内进行6月1日,2020年。一轮系统向前和向后引用所有包含搜索进行了研究。执行一个额外的搜索最近使用的名字算法得到美国食品和药物管理局的批准。灰色文献搜索包括世界卫生组织国际临床试验注册平台,会议摘要(从2017年起),和Cochrane中央登记的对照试验进行了使用一个适应搜索策略(eAppendix 2的补充)。
入选标准是同行评议的文章发表在英语语言,人类医生为研究人口的交互使用ML-based诊断cds干预,人类医生没有信用违约互换作为控制,任何变量用来衡量人类表现的主要结果,任何变量测量独立计算机的性能(即性能通过计算机输出没有后续的人工干预),以及任何变量描述人类操作员的信用违约掉期的评估作为一个次要的结果。信用违约掉期被认为是诊断如果其输出产生定性信息(例如,良性与恶性)的本质病变或损伤的检测是否本身足以构成影响诊断和治疗选择(如肺栓塞的存万博manbetx平台首页在)。排除标准监视、警报或detection-only系统;系统基于验证分数;基于自然语言处理系统;和系统依赖于手工制作的知识或规则基地。具体的关键概念的定义和eAppendix 1中可以找到完整的排除标准补充。检索标题和摘要都是独立接受至少2人(容积,S.U.,E.H.T., N.M., and N.B.). Conflicts were adjudicated by a third reviewer (S.U. or B.B.). Full-text articles were independently reviewed for eligibility by at least 2 of us (B.V., S.U., B.B., E.H.T., N.M., and N.B.). Conflicts were resolved in consensus. The abstract screening and full-text review were conducted using the Covidence software.15
人口数据提取研究,患者人群中,数据集的特点,实验描述,系统特点,评估人类性能指标,指标评估计算机的性能和研究资金。数据项的完整列表可以在eAppendix 1的补充。调查人员没有联系。每个包括偏见的风险研究是评估使用诊断精度的质量评估研究(QUADAS-2)工具所修改的财富8,16和偏见的风险Non-Randomised Studies-Intervention (ROBINS-I)工具。17QUADAS-2被用来评估偏差的风险有关的信用违约掉期的诊断准确性,和ROBINS-I用来考虑偏差的风险评估结果差异的性能。研究包括在分析独立于偏见的风险。数据提取和偏见进行独立评估都至少2人(容积,S.U.,就,E.H.T., N.M., and N.B.) using piloted forms. Conflicts were resolved by consensus. To ensure consistency, the main reviewer (B.V.) screened all abstracts and full texts for eligibility, extracted data, and assessed risk of bias on all included studies.
Meta-bias研究通过搜索世界卫生组织国际临床试验注册平台和Cochrane中央对照试验注册登记寻找未发表的试验和选择性报告的证据。起源的研究资助和协议的存在也会考虑。
叙述总结生产为主要和次要的结果。根据协议,子群分析对于临床医生的经验水平(有经验的新手vs),使用的数学模型,模型的支持度(单输出和信息流程),和读者范式(第一和第二的读者)。万博manbetx平台首页第一读者支持显示模型输出的同时临床数据,其次读者支持显示模型输出后,观察者有机会做出自己的决定。额外的亚组分析研究评估ML-based cds代表临床环境中(显然连续报道或nonaugmented随机患者样本和访问通常可用临床数据的决策)。患者的立场结果优先lesion-level结果总结的主要结果。病人或病变类型子群分析分别进行了综述。鉴于医疗条件的异质性,感兴趣的结果,和评估指标,没有进行荟萃分析。所有研究都包括在分析无论偏见的风险。
共有8112个冠军,其中有2774人副本,184人不是用英语发表;5154摘要筛选,156这些被选为全文的审查。156年的研究评估,22有资格加入。15额外出版物满足入选标准检索从其他来万博ManBetX网页源,包括向前/向后引用搜索、商品名称搜索,搜索相关文献引用,从灰色文献的搜索和出版物跟踪。37出版物最终被包括在本文万博ManBetX网页中。18- - - - - -54图1介绍了棱镜流程图。
所有包括研究描述基于成像模式,信用违约掉期乳腺癌和肺部疾病是最常见的医疗条件。20(54%)调查研究信用违约互换技术与指定的商标名在刚出版的时候。
31个研究(84%)评估信用违约互换属于国际医疗器械监管机构论坛的风险4级(最高的类别)55的25项研究(68%)使用第二个读者范式(参见数据分析部分)的信用违约互换的支持,8例(22%)使用第一读者范例1(3%)用于研究,研究(8%)没有指定。三项研究(8%)使用相同的情况下,训练集和测试集和3研究(8%)没有明显报告测试集独立。事件的平均比例(即目标条件)的测试集是44%(四分位范围,32% -54%)。临床医生的平均数量的参与者观察测试4(四分位范围,3 - 8),与每一个阅读的中位数123种不同的情况下(四分位范围79 - 300年)。表1概述包括研究的特点。
十大最常见的指标用于量化人类性能包括研究敏感性(81%)、特异性(70%)、接收机操作曲线下的面积(51%)、精度(38%)、interobserver协议(30%),阳性预测值(PPV)(30%),阴性预测值(30%)、阅读时间(22%)、召回率的进一步调查(11%),和进一步的积极价值调查(8%)。等效指标聚合。评价指标的完整列表出现eTable 1中可以找到的补充。
表2报告总结信用违约互换使用之间的相关性和十大最常见的人类绩效评估指标。三个研究报道了超过1信用违约掉期(或在不同模式使用相同的信用违约掉期)。21,31日,42共有107个主要结果与统计显著性报道,41没有它被报道。大多数研究定义的统计学意义P<。05,with some applying correction for multiple comparisons. Of the results reported with statistical significance, 54 studies (50%) showed an increase in their metrics, 4 (4%) reported a decrease, and 49 (46%) noted no change or an unclear change. The area under the receiver operating curves, accuracy, interobserver agreement, and PPV were usually increased with interobserver agreement showing the clearest change. The sensitivity, specificity, negative predictive value, rate of recall for further investigation, and PPV of further investigations remained unchanged in most cases, and the CDSS association with reading time showed no clear pattern. Sixteen studies also reported analyses on subgroups of patients or lesion types. A summary of these additional analyses can be found in eTable 2 in the补充的详细清单,包括研究的结果发表在eTable 3中补充。
6研究20.,22,24,29日,39,41评估信用违约互换在代表临床环境中同样的10个评价指标,20个结果报告与统计学意义。其中,16例(80%)显示,性能没有区别,和4(20%)报告增加敏感性,接受者操作曲线下的面积,PPV或interobserver协议(eTable 4补充)。
19研究中比较是可能的,信用违约互换更常与性能的增加经验较少的医生相比,他们的资深同事(eTable 5补充)。读者范式也似乎与人类相关的性能,研究调查信用违约互换在第二个读者模式似乎更常与增加的指标(eTable 6补充)。子群分析根据所使用的数学模型(eTable 7中补充)和程度的支持(eTable 8补充)没有产生额外发现。
27对cds独立性能的研究报道。除了1不清楚的情况下,50人类参与者总是决定覆盖至少一些信用违约互换的建议。75年的主要结果报告使用10个最常见的应用指标,人类改变了系统性能的贡献70例(93%)。与独立的计算机的性能相比,增加人类的智慧增加了度量值45例(60%),下降25例(33%)。只有3结果(4%)提到的统计学意义;其中,1显示无统计学差异,2指出精度大幅提高。这些结果报告的概述表3eTable 9中,小组的总结分析补充,详细的结果列表eTable 10的补充。
37的包括研究、15(41%)试图增加模型的可解释性呈现的一些中介计算导致模型的最终输出,和13个研究(35%)包括用户的培训开始前的数据收集。4(11%)报道了对信用违约互换用户反馈,其中3例(8%)收集反馈通过形式化的过程。Van den Biggelaar et al24(p501)要求参与者表示他们评价形式如果cds标志着“有价值的诊断信息添加到自己的原始评价”,但没有报告这一结果。万博manbetx平台首页泰勒等人50(p5)打开和关闭的问题采访“设计提供一个洞察CADx(计算机辅助诊断)放射科医师关系[和]评估CADx软件医生决策的影响。“研究参与者报告好协议他们的决定和cds输出之间,小到中度影响他们报告的决定。参与者还被认为是小的温和的好处如果cds将显示更多信息如何产生的决定,认为信用违约互换可以温和的实质利益支持培训和改善经验的临床医生的性能。万博manbetx平台首页Endo等32邀请参与者提供直接反馈cds输出通过分级相关性的一个特定的任务;87%的输出被认为令人满意。额外的人力factor-related特征包括研究eTable 11中可以找到的补充。
研究使用QUADAS-2, 28(76%)被评为高偏差的风险至少1的4核心领域,并没有被认为是低风险的偏见在所有4个核心领域。病人选择和指标测试2域最常发现高危的偏见。使用ROBINS-I 6研究(16%)也被认为严重或有偏见的关键风险由于成立,偏离预期的干预,或者可能选择的报告结果。只有1的研究被认为是低风险的偏见在所有7域。47图2显示了每个类别的偏见的整体风险评估的工具。
六项研究报告(16%)私人部门资金,和12(32%)没有或不清楚的信息关于他们的资金来源。万博manbetx平台首页只有2研究(5%)引用的一项协议。47,54灰色文献搜索检索1随机临床试验协议(与预期完成后存在审查的搜索时间),1会议文摘(导致出版审查的搜索时间)后,561会议摘要,并没有导致任何出版物。
这个系统的审查没有发现有力证据表明使用ML-based算法更好的临床医师的诊断性能。任何结论的证据薄弱,因为高风险的偏见在许多研究和较低的研究参与者的数量。几乎一半的报告与统计显著性结果显示性能无显著差异或不使用信用违约互换。在研究清楚地报道代表临床环境,这种观察是更加明显,80%的指定结果显示性能没有显著改变。这些发现证实了其他研究的结论评估信用违约掉期的结果用在人口众多的乳房x光检查,发现很少或根本没有好处。57- - - - - -59在我们这样的cross-specialty评论,表达一个简单的判断信用违约掉期的好处通常是困难的,因为它严重依赖于诸多因素,比如常见的临床实践字段或目标的流行状况。这个因素是我们总结的原因之间的联系使用信用违约互换和临床表现的指标,它们使读者决定是否特定的变化是理想的专业。interobserver协议指标的变化似乎是最明显的相关信用违约掉期的使用。使用信用违约互换似乎也有更显著的联系增加了缺乏经验的临床医生和性能与增加interobserver协议有关临床医生的经验水平。这样,cdss不需要仅仅用来表现最有经验的临床医生,但可以通过设计有针对性的向那些缺乏经验的人可能会得到更多的好处。
小是考虑人为因素包括研究。这个结果是令人感到意外,因为作为人类临床医生应该测试系统的主要受益者。在只有13个研究是观察者在信用违约掉期在测试前培训。考虑到可能存在的学习(或信任)曲线Rodriguez-Ruiz et al,观察到38这个疏忽很可能会扭曲的结果。用户反馈在只有4的研究报道,因此阻碍任何迭代改善人机交互。这一结果与其他安全性至关重要的行业,如航空或能源行业,多年来一直常用的人为因素原则。60- - - - - -64年
除了1研究中可用的信息,操作员决定覆盖至少有一些系统的建议,和目万博manbetx平台首页前仍不清楚人类智慧在多大程度上影响整个系统的性能。这两个观察强调计算机模拟不足以单独定义一个信用违约掉期的有效性和安全性。在临床情况下,人类有责任为诊断或治疗的选择,他们会有意或无意地将其他因素比cds输出变量,可能会优先考虑自己的临床判断的冲突。因此,它是人类处理算法的输出,而不是输出本身,会影响病人的治疗。因此,重要的是要评估这个共享决策过程而不是信用违约互换独立性能。
高危的许多包括研究偏见,呼应了最近的一次审查评估研究的结果比较深上优于算法临床医生。4这个偏差主要是归因于风险升高3因素:(1)缺乏前瞻性或随机选择样本情况下,(2)在测试期间没有可用的临床数据,否则在真实的环境中,和(3)缺乏协议。此外,研究结果的普遍性,这削弱了没有任何动力计算和中等数量的参与者只有4。在许多情况下,我们也观察到混淆统计学意义在病人和医生的水平。引导产生的临床病例P例如,价值不会透露半点其他医生发现的普遍性。相反,它将评估的可能性相同的临床医生将显示类似的改善病人的新样品。
除了列出的问题已经有明显异质性指标用于评估信用违约掉期。在一起,这些矛盾使一个可靠的比较不同的系统几乎不可能。性能问题的相似性是众所周知的领域和发起创建数据的挑战,尤其是在医学图像分析,评估竞争算法执行常见的数据集。65年,66年这种协调工作现在应该扩展到下一个阶段的信用违约掉期评价途径,尤其是第一次使用人类的临床医生。报告指南将提供一个可行的解决方案。
系统评价方法学方法遵循最佳实践标准,和每一步的过程是由至少2评论者独立执行。本研究,据我们所知,第一个把人类的临床医生,而不是算法,系统回顾的最前沿的临床使用ML-based信用违约掉期。这种方法提供了重要的信息,细微差别通常描绘认为人工智能跨专业可能很万博manbetx平台首页快就会大大提高临床医师的诊断性能。这种方法还强调了当前缺乏考虑人为因素在评估新信用违约互换的潜在好处。此外,本文提供了材料,可以通知进一步的发展指导ML-based cds评价,补充现有的或即将到来的报告指南。67年- - - - - -70年这样的指导会特别相关的安全性和有效性评估之前的执行大规模的临床试验。
本文有一定的局限性。是可能的,一些相关文献检索并不是由于(1)的异构描述目标在医学专业信用违约掉期,(2)只在许多研究商业名称的使用,和(3)唯一最近的分类技术在专业搜索引擎(机器学习添加网2016年在PubMed术语)。我们解决这些问题,进行向前和向后包括研究的文献检索以及额外的寻找共同的或新的商业名称。考虑到广泛的信用违约掉期评估,确定入选标准必须非常精确定义,和一些这些定义都是有争议的,因为没有在文献中广泛共识。
这个文献的系统回顾提供结果,为当前和未来的争论毫升在卫生保健的评价。我们没有发现强有力的证据表明使用ML-based cds与改进的诊断性能有关临床医生在临床环境的代表。我们也强调,关于这个主题的研究大多数是在高或不清楚风险的偏见和有一个低数量的参与者。此外,我们发现人类的运营商几乎总是决定覆盖至少一些信用违约互换的建议。因此,我们建议更全面评价ML-based cds,更多的是考虑到人类组件的辅助诊断。这些变化在实践中应该接受审判的原则指导下进行和报告,避免重复的错误指出在当前文学。增加监管审查也有一个重要的角色在确保安全、有效的翻译病人床边。这项审查的结果不应该被解释为玷污的前景ML-based诊断信用违约掉期。相反,我们鼓励定性改善未来的研究。更好的方法和评估将允许信用违约掉期充分展示他们的潜力,最终改善病人护理。
发表:2021年1月20日。
发表:2021年3月11日。doi:10.1001 / jamanetworkopen.2021.1276
开放:这是一个开放的分布式根据文章CC-BY许可证。©2021维西B等。狗万体育下载地址《美国医学会杂志》网络开放。
通讯作者:巴普蒂斯特维西,毫米,纳菲尔德外科学系,牛津大学海丁顿,英国牛津OX3 9 du (baptiste.vasey@nds.ox.ac.uk)。
作者的贡献:维西先生完全访问所有的数据研究,负责数据的完整性和数据分析的准确性。麦卡洛克博士是该研究的担保人。
概念和设计:维西、Ursprung马洛、Bilbro麦克洛克。
数据的采集、分析或解释:维西、Ursprung中心,泰勒,马洛,Bilbro Watkinson。
起草的手稿:维西,马洛。
关键的修订手稿的重要知识内容:Ursprung中心,泰勒,马洛,Bilbro Watkinson,麦克洛克。
统计分析:维西。
行政、技术或材料支持:维西,中心,泰勒。
监督:Watkinson,麦克洛克。
利益冲突的披露:维西先生参与报道CS数字医疗以外的股票基金(参与出售2020年1月)提交的工作。先生Ursprung报道从剑桥英联邦奖学金,欧洲&国际信托奖学金期间进行的研究。Watkinson博士报道接受赠款从国家卫生研究所(NIHR)期间进行的研究;从NIHR赠款,康,Sensyne健康;从Sensyne卫生和个人费用。他是首席医疗官Sensyne健康和持有该公司的股票在提交工作。没有其他信息披露报告。
资金/支持:维西先生是贝罗基金(林肯大学,牛津大学);Ursprung先生是剑桥英联邦的支持下,欧洲&国际信托;和支持Watkinson NIHR博士生物医学研究中心,牛津。
资助者的角色/赞助商:资金来源没有发挥作用的研究设计、数据收集、分析,或决定提交出版。
额外的贡献:Tatjana Petrinic,拓展图书管理员(牛津大学图书馆图书馆、牛津大学),设计了搜索策略和提供指导在所有阶段的评审;没有提供工资以外的经济补偿。贝罗先生维西感谢基金会,林肯大学,牛津大学的支持,没有这个研究是不可能的。
7所示。
库克RI,伍兹DD。操作最狠:人为错误的复杂性。艾德:Bogner女士。人为错误在医学。CRC出版社;2018年。