要点
问题机器学习的干预措施是如何被纳入随机临床试验(相关的)在卫生保健?
发现在这个系统的回顾41机器学习相关的干预措施,尽管大量的医学基于机器学习算法的发展,进行一些相关的这些技术。发表的相关,大多数没有完全遵守接受报告准则和包含有限的参与者来自未被充分代表的少数民族。
意义这些发现强调医疗机器学习方面的关于质量的问题相关的并提出改善报告的透明度和包容性的机会,应该考虑在未来试验的设计和出版。
重要性尽管机器学习的潜力来改善病人护理的多个方面,采用临床障碍依然存在。相关的随机临床试验往往是先决条件的大规模采用临床干预,和重要的问题仍然是关于机器学习的干预措施是如何被纳入临床试验在卫生保健。
客观的系统地研究设计、报告标准偏差的风险,和包容性的医疗机器学习相关的干预措施。
证据审查在这个系统综述,Cochrane图书馆、谷歌学者,奥维德Embase,奥维德MEDLINE, PubMed,斯高帕斯,科学核心收集在线数据库和Web搜索和引文追逐是为了找到相关文章发表《盗梦空间》的每个数据库到10月15日,2021年。搜索条件为机器学习、临床决策和相关的。排除标准包括non-RCT设计的实现,缺乏原始数据,临床前评价干预措施。数据提取发表文章。审判特点,包括主要干预,人口结构,坚持CONSORT-AI报告指南,和Cochrane偏见的风险进行了分析。
发现文献检索了19 737篇文章,其中41相关涉及的中位数294名参与者(范围、17 - 2488参与者)。总共16个相关(39%)在2021年发表的21例(51%)在单一的网站,和15(37%)内窥镜检查。没有试验坚持所有CONSORT-AI标准。常见原因不依从没有评估劣质或无法输入数据(38试验[93%]),而不是分析性能错误(38[93%]),和不包括声明代码或算法的可用性(37 [90%])。整体风险的偏见在7试验(17%)高。11个试验(27%),种族和民族报道数据,未被充分代表的少数民族团体的参与者的平均比例为21%(范围,0% - -51%)。
结论和意义这个系统综述发现,尽管大量的医学基于机器学习算法的开发,进行一些相关的这些技术。在出版相关的,有高可变性坚持报告标准,偏差和缺乏参与者的风险未被充分代表的少数民族。这些发现值得关注,应考虑在未来个随机对照试验设计和报告。
机器学习有潜力提高疾病的诊断和预后,提高临床护理。面对日益增多的数字数据生成从日常医疗、可用的计算处理能力,研究进展,如深度学习,已经有大量的兴趣应用机器学习技术来改善病人护理医学学科。1,2模型研究了任务,如改善癌症诊断,急诊分诊,重症监护室决策支持。3- - - - - -5然而,最近的失败成功地实现机器学习系统在临床设置突出了这一技术的局限性,产生失望和不信任医学的潜在影响。6,7这些机器学习系统故障往往归因于缺乏普遍性,无法适应系统训练数据从1上下文来执行在一个新的,8或者不能证明临床有意义的好处。7提出了缓解策略以确保其适用性,如更大、更多样化的使用数据集和直接与临床专家的合作开发模式。9- - - - - -11我们研究了一种不同的、互补的研究领域的机器学习模型试验过程、随机临床试验(相关的),这可能会影响他们最终使用异构临床设置。
随机临床试验被认为是黄金标准评估临床护理干预的影响,12和当前景观的相关机器学习在卫生保健继续进化。随机临床试验,特别是那些有透明的和可再生的方法,对展示很重要的临床实用机器学习的干预给这些模型固有的不透明度和黑盒和难以破译的机械基础模型预测。13,14此外,机器学习模型的性能在临床使用依赖于训练数据的模型开发和推广不好的患者群体从训练数据的分布。15地理位置等因素16和种族、民族和性别特点,模型训练数据通常被忽视;因此,包括一系列的相关的人口背景是至关重要的避免偏见可以传播和深化基于有缺陷的训练数据。17,18
因此,我们进行了系统综述,以便更好地理解机器学习相关的景观和审判的品质影响再现性,包容性,概括性,成功实现人工智能(AI)或机器学习临床护理干预措施。我们审查关注试验,利用人工智能和机器学习临床干预,患者随机分配到治疗手臂与基于机器学习的治疗或护理标准的手臂。
这个系统回顾首选报告项目用于系统评价和荟萃分析(棱镜)19和合成不荟萃分析(游泳)20.报告指南。协议注册一个先天(CRD42021230810)。
系统搜索的文献是由一个医学图书馆员(A.A.G.)在Cochrane图书馆、谷歌学者,奥维德Embase,奥维德MEDLINE, PubMed,斯高帕斯,和网络科学的核心集合数据库找到相关文章发表《盗梦空间》的每个数据库到10月15日,2021年,最终在所有数据库进行搜索这个日期。搜索同行评议的第二个医学图书馆员使用电子搜索策略的同行评审(新闻)指导方针。21数据库搜索使用受控词汇表和自由文本条款AI,临床决策,和相关的。搜索并不限于语言或一年。完整的细节eAppendix 1中给出的搜索策略补充。的citationchaser22包R软件,版本4.0.3 (R统计计算的基础)是用于搜索的参考书目包括研究和检索文章,列举了包括研究找到更多相关研究不检索数据库搜索。
引用所有数据库的导入到一个尾注20库(Clarivate分析),重复被移除。删除处理结果导入到Covidence系统回顾管理项目筛选和数据提取。两个独立的安检人员执行一个标题和抽象审查,与第三筛选器来解决分歧。这一阶段的筛选是由5人(聚合度,D.L.S.,A.A.G.、可靠,一个nd B.H.K.). The full texts of the resulting articles were then independently reviewed for inclusion by 2 screeners (D.P., D.L.S., and A.S.) and a third screener (B.H.K.) to resolve disagreements. Articles were included if they were deemed by consensus to be RCTs in which AI or machine learning was used in at least 1 randomization arm in a medical setting. Search strategies are available in the eAppendix 1 in the补充排斥,原因是发现图1。
我们两个(聚合度和D.L.S.)独立提取数据和评估偏见的风险为每一个研究使用标准化的数据提取形式。形式完成每个比较;分歧是通过审查和讨论来解决,另一个人(B.H.K.)作为最后的仲裁者。作者并没有额外的未发表的数据联系。偏见的风险评估使用Cochrane偏见的风险,版本2相关的工具。23这个工具开发的风险评估相关的偏见,有5个领域,包括偏差的风险由于随机化过程中,偏离预期的干预(分配干预)的影响,缺失的结果数据,测量的结果,和选择的报告结果。
再现性评估和报告的透明度,我们坚持条最近出版的综合评估报告Trials-Artificial情报(CONSORT-AI)报告的标准指南,24这是配偶的扩展准则通过举办国际多方利益相关者组织发展共识。基于机器学习相关的定期报告建议扩展的标准除了核心的配偶物品。我们两个(聚合度和D.L.S.)独立提取数据和评估每个11 CONSORT-AI每篇文章扩展标准。分歧被审查和讨论解决,与另一个人(B.H.K.)作为最后的仲裁者。
评估包容性,我们评估报告的性,种族和种族。我们计算的比例未被充分代表的少数民族在每个研究的参与者使用的美国国立卫生研究院的定义组未被充分代表的生物医学研究25;定义指定美国印第安人或阿拉斯加本地人,黑人或非裔美国人,西班牙裔或拉丁裔,和夏威夷本土或其他太平洋岛民未被充分代表的少数民族。评估其他品质与普遍性和临床应用,我们评估了使用的临床和临床前结束点,是否审判是由单一网站或多个网站,和地理位置。其他品质评估措施的使用和没有性能阈值,该疾病的试验中,模型训练数据类型和类型的机器学习模型。所有提到的项目是独立的数据提取2人(聚合度和D.L.S.)对于每一篇文章,分歧通过审查和讨论来解决,另一个人(B.H.K.)作为最后的仲裁者。摘要统计信息都是计算使用R软件,版本4.0.3。
搜索结果28 159条记录;737年重复被移除后,19日 呆了标题和摘要筛选,其中19 621被排除在外(图1)。没有额外的文章从引文追逐。116篇文章全文回顾进行;其中,75项研究被排除在外,因为他们会议摘要(n = 19),有错误的研究设计(n = 16),执行错误的干预(n = 14),包含重复的研究数据(n = 11),不涉及临床决策(n = 6),不使用人工智能或机器学习(n = 3),只提供了初步结果(n = 2),没有在医疗环境中进行(n = 2),没有评估结果影响临床决策(n = 1),或没有写在英语(n = 1) (eAppendix 1和eAppendix 2补充)。总的来说,41相关的涉及294名参与者中值(范围、17 - 2488参与者)符合入选标准。26- - - - - -66年
主要研究特点所示表以及eAppendix 3补充。没有进行定量分析由于在临床试验报告结果的异质性。的数量在研究期间发表相关的大幅增加。的41包括相关的,26- - - - - -66年16(39%)从1月到2021年10月出版42,47- - - - - -51,53- - - - - -57,59- - - - - -63年和36(88%)从2019年1月至2021年10月(图2)。26,27,29日,31日- - - - - -35,37- - - - - -39,41- - - - - -45,47- - - - - -66年试验通常是在美国进行的(15 [37%])29日- - - - - -33,36,40,44,46,49,55,59,61年- - - - - -63年(32%)和中国(13),27,37- - - - - -39,43,45,48,52,54,56,60,65年,66年和6(15%)进行了多个国家的研究。26,29日,42,47,50,57的品质与普遍性,20相关26,28- - - - - -30.,32- - - - - -34,39,42,44,47,50,51,54,56,57,59,62年- - - - - -64年(49%)在多个站点,21个相关(51%)在一个网站。27,31日,35- - - - - -38,40,41,43,45,46,48,49,52,53,55,58,60,61年,65年,66年只有11个试验(27%)报道种族和民族(图2)30.- - - - - -33,36,44,49,55,59,61年,63年;在这些试验中,平均21%(-51%),0%的参与者来自未被充分代表的少数民族。
个随机对照试验评估的透明度和再现性,我们评估试验坚持CONSORT-AI标准(图3)。我们发现没有个随机对照试验符合所有的标准。共有13个相关(32%)遇到了至少8 11标准(eAppendix 3补充)。28,29日,38,42,45,47,49,51,59,60,62年,63年,65年最常见的原因缺乏指南依从性没有评估劣质或无法输入数据(38试验[93%]),26- - - - - -37,39- - - - - -46,48- - - - - -50,52- - - - - -66年不分析性能错误(38 (93%)),26- - - - - -28,30.- - - - - -46,48- - - - - -61年,63年- - - - - -66年和缺乏一份声明中对代码或算法的可用性(37 [90%])。26,27,29日- - - - - -49,51- - - - - -58,61年- - - - - -66年
偏见的风险相关的总结图4。整体风险的偏见在7试验(17%)高。27,36,40,46,48,55,58偏见的测量结果通常观察到的类型,至少有一些关心偏见在19个试验(46%)。27,33,38,40- - - - - -46,48,49,51,55,56,59,63年,65年,66年
关于临床相关的用例,最常见的临床专业代表是胃肠病学(16 [39%])27,30.,34,37,38,43,45,50- - - - - -52,54,56,60,63年,65年,66年;大多数的这些相关的涉及内窥镜成像。27,34,37,38,43,45,50- - - - - -52,54,56,60,63年,65年,66年大多数研究涉及临床注册用例成人患者(36 [88%])。27,29日,30.,32- - - - - -38,40- - - - - -48,50- - - - - -66年四个试验(10%)进行初级保健设置,和所有这些试验涉及用户输入数据33,40,44,57;4其他试验(10%)在心脏病或心脏手术35,47,48,59,心电图,可穿戴设备、超声心动图或动脉波形数据。两个试验(5%)在新生儿进行设置,26,28评价癫痫和生理痛苦,3(7%)进行主要研究儿科人群更广泛地说,31日,39,49评估哮喘、自闭症谱系障碍儿童白内障。大多数涉及相关的临床结果的措施(34 (83%))26,27,29日- - - - - -39,42- - - - - -46,48- - - - - -55,57- - - - - -60,63年- - - - - -66年和结果的措施没有性能阈值(32 [78%])。28,31日- - - - - -36,38- - - - - -40,42,44,46- - - - - -58,60- - - - - -66年的数据源,15个试验(37%)主要用于内窥镜成像进行干预,27,34,37,38,43,45,50- - - - - -52,54,56,60,63年,65年,66年5(12%)使用patient-inputted数据,33,40,44,55,572(5%)主要使用电子健康记录的数据,32,61年2例(5%)心电图数据使用,48,59和2(5%)使用blood-based数据(葡萄糖和胰岛素水平)。29日,42共20篇文章深度学习神经网络(49%)使用。27,30.,34,37,38,43,45,46,48,50- - - - - -52,54,56,59,60,62年,63年,65年,66年
这系统回顾发现缺乏医疗机器学习相关的干预措施和强调了需要额外的精心设计,透明和包容为机器学习相关的干预在临床推广使用。越来越多的担心,新的机器学习模型被释放后初步验证研究没有跟进能力正式在金本位个随机对照试验显示优势。67年,68年值得注意的是,目前有343美国食品和药物管理局(FDA)批准了医学人工智能或机器学习干预措施。69年我们发现41的医疗机器学习相关的显示,大多数fda批准的机器learning-enabled医疗设备批准没有效果演示了在一个随机对照试验。这一发现可能解释说,在某种程度上,低负担的证据所需的人工智能或机器学习算法间隙(通常是由FDA分类软件作为医疗设备)与药品。70年据我们所知,本文是第一个严格试图量化这种差距。
之前的研究表明在这个领域缺乏前瞻性测试但没有严格评估的数量相关的使用PROSPERO-registered方法或打破僵局的仲裁71年或者只分析了测试技术与成像数据。72年此外,这些研究没有探讨研究坚持CONSORT-AI标准或评估未被充分代表的少数民族的包容性和女性在研究人群中。最后,我们的审查与之前相比工作范围不同;我们的工作主要集中在临床的使用人工智能和机器学习的干预被用作临床实验相关的武器。我们排除了使用传统的统计模型和相关的相关的人工智能或机器学习是研究协议中包含但并不随机干预的一部分。这样,我们强调相关的,直接将人工智能和机器学习与标准的护理和相关的设计来展示高水平的临床实用程序的证据。比较之前的试验包括在这项研究工作中可用eAppendix 4的补充。
我们最初搜索28 159条记录和后继屈服只有41相关26- - - - - -66年表明转化发展差距和临床影响。大多数相关的包括在本文进行了2019年1月至2021年10月(36 [88%]),26,27,29日,31日- - - - - -35,37- - - - - -39,41- - - - - -45,47- - - - - -66年和16个研究(39%)2021年1月到10月之间进行,42,47- - - - - -51,53- - - - - -57,59- - - - - -63年显示的速度随着时间的推移增加新的机器学习相关的干预措施。这些技术通常涉及临床用例内窥镜成像在胃肠病学(15 [37%])27,34,37,38,43,45,50- - - - - -52,54,56,60,63年,65年,66年和招收成人患者(36 [88%])。27,29日,30.,32- - - - - -38,40- - - - - -48,50- - - - - -66年
关于试验报告,没有个随机对照试验包括在本文坚持所有的机器学习具体报告标准(即CONSORT-AI扩展准则24)。具体地说,37试验(90%)没有共享代码和数据和研究结果,26,27,29日- - - - - -49,51- - - - - -58,61年- - - - - -66年38(93%)没有分析劣质或没有输入数据,26- - - - - -37,39- - - - - -46,48- - - - - -50,52- - - - - -66年和38(93%)没有评估性能错误,26- - - - - -28,30.- - - - - -46,48- - - - - -61年,63年- - - - - -66年所有这些都可能导致问题的再现性。这些结果表明,机器学习个随机对照试验报告的质量需要改进。CONSORT-AI指南有助于确保透明度和再现性个随机对照试验的方法,24中观察到的指南依从性的和缺乏相关的综述临床应用可能成为另一个障碍。值得注意的是,CONSORT-AI标准发表在2020年9月,当大部分的试验分析综述发表或在同行评审。未来的工作应该重新评估的百分比guideline-adherent相关的出版在2021年评估的影响CONSORT-AI个随机对照试验设计的指导原则。
关于RCT包容性、试验中选择基于我们的搜索条件,我们发现只有20(49%)进行了超过1网站。26,28- - - - - -30.,32- - - - - -34,39,42,44,47,50,51,54,56,57,59,62年- - - - - -64年此外,我们发现缺乏人口信息研究的报告,只有11个相关(27%)报告参与者种族或民族。万博manbetx平台首页30.- - - - - -33,36,44,49,55,59,61年,63年在这个子集,研究了平均21%的注册参与者属于未被充分代表的少数民族,整合数量或比例略高于之前的系统评价分析医学相关的报道。73年,74年试验通常是在美国进行的(15 [37%])29日- - - - - -33,36,40,44,46,49,55,59,61年- - - - - -63年(32%)和中国(13),27,37- - - - - -39,43,45,48,52,54,56,60,65年,66年只有6个(15%)在多个国家进行了研究。26,29日,42,47,50,57综上所述,缺乏参与相关的患者群体的多样性表明,他们的研究结果的普遍性临床网站无从联邦监管的日益关注机器学习的干预医疗设备。75年
关于偏见的风险,高风险7试验中被发现27,36,40,46,48,55,58(17%);虽然重大,这一比例低于高风险研究发现的比例的横断面研究non-machine学习干预措施76年的研究发现,平均的50%有偏见的风险很高。这种差异表明,缺陷在设计、执行和报告相关的试验并不比其他更广泛的医疗干预措施。
这个系统回顾发现较低,但越来越多的机器学习相关的干预措施在卫生保健。这种低数量与初步验证的大量研究机器学习的医学干预和越来越多的食品及药物管理局批准在这个研究领域;许多这些技术已达到临床实现阶段没有黄金标准通过一个随机对照试验评估疗效。69年不实用的正式评估每一个潜在的迭代的新技术通过一个随机对照试验(例如,使用机器学习算法在医院系统,然后使用相同的临床场景在另一个地理位置)。特别是,当一个算法只有间接影响病人的治疗(如危险分层,提高诊断)、地方、独立验证研究可能提供充足的证据,鼓励采用早期,尽管这是争论的一个领域。基线个随机对照试验干预的有效性将有助于确定一个新的工具提供临床效用和价值。这个基线评估可以紧随其后回顾或潜在外部验证研究演示一种干预的有效性概括了随着时间的推移和在临床的设置。
本研究也有一些局限性。值得注意的是,这只分析选择相关的机器学习干预评估直接影响临床决策。额外的工作可以做量化的使用机器学习在替代设置(例如,工作流效率或改善clinician-facing工具评估患者分层,包括生物标志物的发现和验证工作)。未来工作的目标应该是将这些更广泛的定义的临床工具评估机器学习中的跨不同步骤的影响临床护理管道。尽管如此,我们假设这样的文学包含了大量的初步结果相似,缺乏相关的评估控制机器学习的相关性,临床设置。另外一个限制是,这个的研究领域是快速发展的,我们的工作是2021年10月只有电流。未来的机器学习系统评价干预措施在卫生保健需要更频繁的更新和研究结果可用。
系统回顾发现低但越来越多的为机器学习相关的卫生保健干预措施。这些结果强调需要医疗机器学习相关的促进临床安全有效的实施。结果也强调关注的领域的医疗机器学习相关的质量和机会来改善报告透明度和包容性,应该考虑在未来试验的设计和出版。
发表:2022年8月11日。
发表:2022年9月29日。doi:10.1001 / jamanetworkopen.2022.33946
开放:这是一个开放的分布式根据文章CC-BY许可证。©2022术后D等。狗万体育下载地址《美国医学会杂志》网络开放。
通讯作者:人工智能在医学,医学博士本杰明·h·萤石计划,布莱根妇女医院,哈佛医学院,洛伍德大街221号,442套房,波士顿02115 (benjamin_kann@dfci.harvard.edu)。
作者的贡献:女士和Shung博士举办了这项研究同样co-first作者。萤石博士已经完全访问所有数据的研究,负责数据的完整性和数据分析的准确性。
概念和设计:术后,Shung唱,萤石。
数据的采集、分析或解释:术后,Shung Grimshaw Saraf,萤石。
起草的手稿:术后,Shung Grimshaw,萤石。
关键的修订手稿的重要知识内容:所有作者。
统计分析:术后,Shung。
获得资助:Shung。
行政、技术或材料支持:术后,Shung Grimshaw Saraf,萤石。
监督:Shung,萤石。
利益冲突的披露:没有报道。
资金/支持:本研究是K23-DK125718赠款支持(Shung博士)和K08-DE030216(萤石)博士从美国国立卫生研究院,格兰特T32GM007753国家综合医学科学研究所(Ms)举办,国家癌症研究所和格兰特F30-CA260780 (Ms)举办。
资助者的角色/赞助商:资金组织没有参与这项研究的设计和实施;的收集、管理、分析和解释数据;准备、审查或批准的手稿;并决定提交出版的手稿。