要点
问题模型报告准则共同要求哪些项目,部署的临床预测模型的文档是否报告这些信息?万博manbetx平台首页
发现该系统综述结合了15个报告准则模型,并确定了220个不同的要求项目。对来自单个供应商的12个已部署模型的文档的回顾发现,项目完成率的中位数为39%,尽管经常请求的项目被高度报道,但至少有一半的文档可以提供更多关于可靠性(包括外部验证)和公平性的信息。万博manbetx平台首页
意义这些发现表明,指南所要求的项目构成了很大的报告负担,而关于可靠性和公平性的补充可能会改善其文档。
重要性已经提出了各种模型报告指南,以确保临床预测模型的可靠性和公平性。然而,对于报告哪些模型细节是必要的还没有达成共识,报告指南之间的共性和差异还没有被描述出来。此外,还没有研究部署模型的文档如何很好地遵循这些指导方针。
目标评估模型报告准则所要万博manbetx平台首页求的信息,以及由单个供应商开发的常用机器学习模型的文档是否提供了所要求的信息。
证据审查MEDLINE查询使用机器学习模型卡而且报告机器学习2020年11月4日至12月6日。对参考文献进行了审查,以找到其他出版物,没有具体报告建议的出版物被排除在外。万博ManBetX网页要求提交报告的类似内容合并为代表性项目。四名独立评审员和一名裁决者评估了由单个供应商开发的最常用模型的文档报告项目的频率。
发现从15个模型报告准则中,确定了220个代表集体报告需求的独特项目。尽管通常需要12个项目(由10个或更多指南请求),但仅1个指南就需要77个项目。来自单一供应商的12种常用模型的文档报告中位数为39% (IQR, 37%-43%;范围,31%-47%)来自集体报告要求的项目。许多常见要求的项目有100%的报告率,包括有关结局定义、受试者工作特征曲线下面积、内部验证和预期临床使用的项目。有几个项目报告了一半或更少的时间与可靠性有关,例如外部验证、不确定性度量和处理丢失数据的策略。其他经常未报告的与公平有关的项目(汇总统计和亚组分析,包括种族、民族或性别)。
结论与相关性这些发现表明,对于临床预测模型,需要一致的报告建议,以便模型开发人员共享模型部署所需的信息。万博manbetx平台首页许多已出版的指南加起来需要报告200多个项目。来自1个供应商的模型文档报告了模型报告准则中最常要求的项目。然而,在与模型可靠性和公平性相关的报告项目中发现了有待改进的地方。此分析导致了对供应商的反馈,从而为将来的用户更新文档。
尽管在诸如接收器工作特征(AUROC)曲线下面积等指标上具有良好的预测性能,但使用在电子健康记录数据上训练的机器学习模型1指导护理往往没有被证明能以更好的医疗护理、更低的成本或更公平的结果的形式转化为可衡量的临床收益,2-4导致了一个被称为“人工智能鸿沟”的鸿沟。5造成这种鸿沟的一些潜在原因是,目前的模型没有用,4,6,7可靠,8,9还是公平的。10-18然而,预测模型经常被部署在卫生保健环境中,缺乏透明度或独立验证,19,20.他们随后的失败偶尔会引起公众的强烈抗议。2,21-23
遵守模型报告准则是提高可靠性的一种方法,24-28公平,29,30.和有用性25,31-34临床预测模型。长期以来,报告指南一直被用于评估临床试验的强度,35,36观察,37和诊断38研究。关于报告预测模型性能的指南正受到越来越多的关注,包括美国国立卫生研究院,39还有更多的指导方针正在制定中。40-42
然而,关于这些不同指南的重叠覆盖范万博manbetx平台首页围的信息有限,使得社区参与者很难理解应该预期的共同项目集,更不用说在实践中可以报告哪些项目了。因此,文档中经常缺少重要的信息。万博manbetx平台首页例如,一项综述检查了科学文献中描述的164个模型43发现人口统计学变量如种族(36%)和社会经济地位(8%)的报告率较低,外部验证率也较低(12%)。对已发表的COVID-19诊断和预后模型的批判性回顾44发现大多数模型由于报告不佳而存在较高的偏倚风险。
本系统综述的目的是总结临床预测模型报告指南,并描述指南中要求项目的频率。此外,我们评估了通常部署模型的文档是否提供了模型报告准则所要求的信息。万博manbetx平台首页与之前的工作相比,43,44我们专注于伴随模型的面向用户的产品文档,这使我们能够分析已经在实践中部署的模型,而不局限于同行评审出版物中描述的模型。万博ManBetX网页此外,我们全面衡量了所有指南中涵盖的每个请求项目的报告率。
我们的分析分为两个阶段。我们首先编译了模型报告准则,并对其进行了总结,以确定它们所要求的独特报告项,并分析了所有准则中要求最多和最少的项目。一个由4个评审人员(j.h.l.、a.c.、b.s.p.和K.E.M.)和1个评审人员(D.D.)组成的团队随后评估了一个模型文档样本,以确定他们报告的项目以及报告中的任何差距。中的eMethods中详细描述了每个阶段,并提供了其他信息万博manbetx平台首页补充.通过评审过程,我们处理了系统评审和元分析的首选报告项目(棱镜)适用于本研究的报告指南。
我们通过PubMed搜索MEDLINE,使用查询机器学习模型卡而且报告机器学习2020年11月4日至12月6日。我们审查了引文以找到更多的出版物。万博ManBetX网页最后,我们排除了没有给出具体模型报告建议的万博ManBetX网页出版物。
然后,我们在这些报告指南中收集了一组可报告的元素,并将相似的元素合并为不同的、具有代表性的项目,以消除重复。例如,“报告模型的预期用户”31以及"描述外部验证策略"24都是独一无二的物品。首先,我们通过检查每个报告准则,包括解释和阐述文档以及AI扩展来确定初始元素集,以验证每个准则的元素都被捕获了。其次,我们审查了每个元素,并使用专家判断,将那些要求相同信息的元素合并到同一项中。万博manbetx平台首页我们记录了每项研究中描述元素的短语,以便能够完整地追溯哪些元素被合并到每个项目中。最后,我们创建了每个项目的一行摘要,以供审阅人员参考补充).
为了评估这组可报告项在面向用户的文档中的使用情况,我们在2021年3月获得了一个方便的模型文档样本。我们审查了1个供应商(Epic Systems Corporation)提供的面向用户的文档(类似于药品包装插入),他们称之为认知计算模型简介(下称示范摘要)(表格1载于补充).每个模型概要都有一个社区采用得分,该得分代表使用特定模型的组织和使用任何模型的组织的比例,并从1到3的范围内取值。我们选择了2021年3月社区采用评分为2或3分的所有模型。社区采用得分为3分的模型简报是退化指数,45败血症的早期发现,46计划外重新入学的风险(版本2)47患者缺席的风险(版本2)48儿科住院和急诊科就诊,49住院或急诊科的风险(第二版)50模型。社区采用的三分之二的模型简报是关于住院患者跌倒风险的,51预计区块利用率,52剩余逗留时间,53心力衰竭住院人数54哮喘住院和急诊科就诊,55和高血压。56请注意,模型概要由供应商定期更新,我们评估了在我们研究时可用的最新版本。
4名审稿人阅读了12份模型摘要中的每一份,并独立评估了它们是否报告了e附录中总结的项目中指定的信息万博manbetx平台首页补充方法中的方法描述补充).具体来说,对于每个项目,每个评审人员首先确定该项目是否适用于模型,如果确定适用,则是否报告该项目。例如,“到临床试验注册的链接”这一项被确定为不适用于文档不打算描述临床试验的模型。审稿人的具体评估都是可用的(附录补充).审查员然后决定示范摘要是否报告了项目中要求的信息,记录示范摘要中支持他们决定的相关部分。万博manbetx平台首页审稿人是信息学专家(J.H.L.和A.C.)和临床医生(B.J.P.和K.E.M.),他们在我们的学术医疗中心拥有机器学习部署方面的专业知识。
审查员(D.D.)然后审查审查员之间存在分歧的项目,以做出最终决定。裁决者只能从审查员已经选定的选项中进行选择。裁判员也是一名临床医生,在部署机器学习模型方面具有类似的专业知识。的方法中提供了详细的术语和统计计算摘要补充.
研究人员对报告准则模型进行了文献检索,结果列出了27种出版物,万博ManBetX网页25,29-34,38,41,57-74一篇引文综述产生了另外3篇论文。万博ManBetX网页26-28我们排除了没有提供具体模万博ManBetX网页型报告建议的出版物,产生了15个模型报告指南(表1).24-35,57-59,74-80
这些模型报告准则已在计算机科学刊物(万博ManBetX网页公平、问责和透明问题会议论文集29而且2017年IEEE大数据国际会议论文集25)、生物医学信息学期刊美国医学信息学协会杂志,30.NPJ数字医学,31而且医学互联网研究杂志57),以及临床刊物(内科学年鉴,26,75,77,80BMJ,33,79BMJ开放,76自然医学,32,58心,24,74欧洲心脏杂志,27《公共科学图书馆·医学》杂志上,28NEJM催化剂,34临床流行病学杂志,78国际外科杂志,35而且英国外科杂志59).2010年至2015年发布的4份指南被其他文章引用超过1000次,而2019年之后发布的4份指南迄今被其他文章引用不到50次。
在15个报告准则中,11个有如何完成所要求项目的示例。25-27,29-31,38,74,78-80然而,只有5人展示了一个完整的例子,完成了一个模型的所有项目,27,29-31,74这些模型中只有一个在医疗系统中得到了实际应用。31,81
重复数据删除后,报告指南中要求了220个不同的项目(e附录)补充).的表2列出220个项目与15项报告指引的对照表补充.例如,个人预后或诊断多变量预测模型透明报告(TRIPOD)报告指南有更多要求预处理细节的项目,59而关于临床人工智能建模的最低信息(MI-万博manbetx平台首页CLAIM)则有更多要求模型检查细节的条目。58
表2根据映射到机器学习模型创建和评估的每个阶段的项目数量总结了模型报告指南(Jung等人的图4)7).例如,卡片模型29对模型开发中的公平性贡献最多的项目(n = 29),而模型事实标签(n = 10)31或试验报告综合标准(CONSORT)-AI (n = 10)32为用例评估贡献最多的项目。
表3列出15个报告准则中至少10个所要求的项目。最常要求的项目与任务相关,例如预处理、处理缺失数据、模型性能(包括处理不确定性(例如ci、统计显著性)或AUROC)以及内部验证。共有28个不同的性能指标被要求(表3在补充),包括AUROC、灵敏度、阳性预测值和校准图。
最后,仅1项报告准则就要求77项(表4)补充).其中12项是模型性能指标,例如F得分。ML测试分数有20个与模型部署和监控相关的独特项目,例如模型更新过程。联合体-AI和标准方案项目:介入性试验建议(SPIRIT)-AI总共有21个临床试验特定项目,这些项目大多不适用于Epic系统公司的模型概要。
评价者之间对项目报告评估的一致性为76%(对于所有审稿人,以及给定模型摘要的每个项目)。在220项中,176项(80%)适用于至少一项示范摘要。其中119项(68%)至少被一种模式简报报道。模型简报报告中位数为39% (IQR, 37%-43%;范围,31%至47%)的适用项目补充).在排除了与绩效指标相对应的项目后——为了避免因没有报告多个几乎冗余的绩效指标而惩罚模型简报——适用项目的中位完成率为43% (IQR, 41%-48%;范围内,33% - -52%)。总体而言,各模型简报的项目报告率中位数为25% (IQR, 0-83%;范围0 - 100%)。
超过90%的模型摘要报告了40个项目(表6)补充).这些通常报告的项目包括关于模型开发和制定的信息,特别是训练数据集、预处理、模万博manbetx平台首页型类型、内部验证和性能指标。这些项目包括报告指引中12项最常要求项目中的9项(表3).所有12个模型概要都报告了以下与用例相关的项目:模型如何在临床护理中使用,谁将使用模型,模型可能影响临床护理的方式,以及使用的基本原理。
少于10%的模型摘要报告了75个项目(表7)补充).这些项目包括缺失的数据统计、预测器和/或结果评估者的盲化、性能测量的可变性(例如ci)、模型系数或大多数预测特征的报告、包括性能误差和交叉子组分析在内的模型检查、面向用户的材料和何时停止使用模型的警告,以及输入数据和模型预测的监测。此外,在要求的28个不同的性能指标中,超过五分之一的模型摘要仅报告了AUROC(100%)、阳性预测值(67%)和敏感性(42%)补充).
表4显示对个别报告准则的遵守率,这是模型摘要对每个报告准则所要求的项目的平均完成率。模式报告指南的中位依从率为53% (IQR, 50%-63%;范围内,18% - -74%)。ML测试分数的中位数坚持率最低(18% [IQR, 11%-25%]),而模型事实标签的坚持率最高(74% [IQR, 71%-80%])。在像以前一样剔除绩效指标对应的项目后,坚持率的中位数保持不变,为57% (IQR, 50%-70%;范围内,16% - -73%)。
我们确定了15个报告准则中至少4个要求的29个项目,但50%或更少的模型摘要报告了这些项目(表5).这些较少报道的项目中有许多与可靠性测量有关。其中包括外部验证的性能(33%)和模型性能指标的ci或统计意义(0)。关于缺失数据量(8%)和如何处理缺失数据(50%)的统计报告也很低。此外,与公平性相关的项目(例如,数据集代表性和跨子组的表现)的报告较少。这些包括训练数据集关键特征的汇总统计(报告率,50%)或按子组(33%)分解表现。年龄(50%)、性别(33%)和其他相关因素(50%)等人口统计因素既缺乏汇总统计数据,也缺乏分类表现。此外,关于如何将机器学习模型部署到临床工作流程(33%)、模型将有哪些面向用户的材料(0)以及如何更新模型(42%)的指导报告较少。最后,一些与透明度相关的项目较少提供,包括模型系数(8%),谁资助了这项研究(这可能与利益冲突有关)(0),以及如何访问数据集(0)。
研究界已经发布了许多模型报告指南,其目标是提高预测模型的透明度,以便对部署哪些模型做出明智的决定。然而,在15个报告准则中,共有220个项目被要求,这对模型开发人员来说是负担,对最终用户来说是压倒性的。我们发现,所检查的文档始终报告了这个集合中请求最多的项目,但总体而言,可报告的适用项目的中位数为39%。这种差异强调了迫切需要确定在实践中可行的项目,以及支持部署给定临床预测模型的决定所必需的项目。坚持一个单一的模型报告指南可能是不够的,因为没有一个单一的指南是完全全面的,并且一些项目可能只对某些模型开发社区熟悉,或者只是最近才被认为是相关的。我们的方法根据指南中经常要求的项目和报告中相应的差距确定了模式,为研究团体和模型开发人员提供了以下关于报告模型信息的建议。万博manbetx平台首页
对于模型开发人员,我们建议优先报告最常见的请求项(表3).示范简报在报告这些方面表现出色:12个最常要求的项目中有9个项目的报告率为100%。这些信息包括关于模型开发和使用万博manbetx平台首页的信息,例如结果定义,以及模型打算如何使用。这些通常被要求的项目——往往是关于模型性能的——对于做出部署决策并不总是最重要的,并且不能告诉我们一个模型是否有用。7,82
这12个通常要求的项目只是指南认为重要的报告的一部分。因此,我们建议额外关注要求但不经常报告的项目(表5),例如与可靠性有关的项目:外部验证、数据缺失和监控。具体示例项目包括外部验证策略、不确定性度量(如ci)、校准图、与基线的性能比较、缺失数据统计和缺失处理策略、如何更新和调优模型,以及用于监控输入数据或新数据中预测质量回归的方法。我们进一步建议报告与公平性(在本解释中,指的是数据集代表性和子组的模型性能)和透明度相关的项目,这些项目也经常被要求但没有被报告(表5).为了公平起见,模型文档应报告按性别、年龄、种族和民族以及其他相关属性的汇总统计数据或分类表现,以及子组和交叉分析的结果。我们承认这是对公平的一种有限的看法(一个专门的学术领域正在更好地定义公平)83这些项必须根据模型的使用方式和数据收集方式进行上下文化。例如,有偏见的结果测量将不会在绩效的亚组分析中浮出水面。6为了透明度,我们建议报告模型系数、模型可重复性、如何访问数据集以及谁资助了研究,这可能与利益冲突的目的有关。尽管演示外部验证的压力越来越大,但考虑到公司必须保护知识产权(如模型架构细节和系数),这些项目很少在文档中报告也就不足为奇了。19,84
我们建议研究界直接参与模型开发人员和信息技术人员,以确保发布的建议是可行的,并与部署决策相关。万博manbetx平台首页作为一个积极的进展,基于文章的预印本,与Epic Systems Corporation的数据科学团队的对话导致了对模型概要的更新,包括性能指标的ci,关于所使用的缺失数据imputation策略的信息,以及关于算法类型的附加细节,包括在适用的情况下,用于网格搜索的参数和惩罚类型。万博manbetx平台首页47,85,86这样的交互,但是在更大的范围内发生,对于通过确保开发人员提供关于他们的模型的最相关和最必要的信息来弥合实现差距是必要的。万博manbetx平台首页
因为许多模型报告准则29-31,34,58为了支持模型开发人员和用户,我们认为建议适用于模型概要,需要一个双向对话的开放论坛。的表格2及e附录补充,我们将220个条目按任务分组,以便能够讨论哪些附加条目是相关的。最后,我们建议部署团队使用项目作为检查表,以确保模型开发、有用性、工作流能力和可靠性监控中的质量25并且团队在项目启动时审查项目。87
这项研究有几个关键的局限性。首先,我们只分析了来自单一供应商Epic Systems Corporation的模型文档。其他供应商的模型文档,如Cerner患者量模型,88也可以通过这个框架进行分析。此外,为了尊重版权,我们不能发布我们的审稿人在报告项目时用来证明的模型概要的部分。此外,尽管审稿人是独立工作的,但未来的工作可以改进我们的裁决过程。76%的评级者认为有改善报告的机会。在所有模式摘要中缺乏共识的项目(表8)补充)通常需要主观判断,例如,如果模型摘要不是一项研究,某些项目是否适用(例如,“描述参与者是如何被招募到数据中的”或“描述用于收集数据的研究设计”)。另一些则涉及到对什么样的报告是充分的判断,比如“讨论这项研究的局限性和注意事项。”评估报告依从性的方法可以通过第三方审查员的更细粒度的规则(例如,“部分提供”或“不知道”类别)变得更加一致和具体。
我们的发现应谨慎解释,因为我们的重复数据删除过程可能会掩盖指南之间的某些差异(例如,一些指南提供了明确的说明和示例,而其他指南仅要求报告)。我们还警告不要过度解读所有物品的完成率,因为物品不是可交换的实体。“缺失数据统计”和“敏感性”这两个项目提供不同的信息,因此我们建议在可能的情况下考虑单个项目的完成。万博manbetx平台首页此外,我们无法直接评估哪些项目对制定部署决策有用,因此并不是每个项目对报告都同样重要。最后,为了提供报告质量的上限,审查员被告知,在他们不确定如何对特定项目进行评分的情况下,最好确认该项目已得到解决。例如,对于简单地表示要联系支持代表以验证模型的语句,我们给予了“描述在部署之前如何在新设置中测试模型”的信任。
已经制定了模型报告指南,以确保部署的临床预测模型是可靠和公平的。虽然已经发表了许多,但据我们所知,它们还没有被收集和分析。在这项研究中,我们从15个报告指南中汇编了可报告的项目,发现指南总共要求220个不同的项目。如此广泛的项目共同为模型开发人员带来了巨大的报告负担。为了提供已部署模型报告质量的快照,我们检查了来自一个广泛使用的健康状况供应商的12个最广泛采用的模型。我们发现文档报告了最常请求的项目。但是,文档可以提供更多关于可靠性、透明度和公平性的信息。万博manbetx平台首页与供应商的直接接触导致了对未来用户文档的改进。总的来说,需要更好地确定医疗保健预测模型报告项目的优先级,从而有助于就部署哪些模型做出明智的决定。
接受出版:2022年7月4日。
发表:2022年8月19日。doi:10.1001 / jamanetworkopen.2022.27779
开放:这是一篇开放获取的文章,根据CC-BY许可证.©2022卢建华等。狗万体育下载地址JAMA网络开放.
通讯作者:Jonathan H. Lu, MS,斯坦福大学医学院生物医学信息研究中心,121校区博士,ap1316a,斯坦福,CA 94305 (jhlu@stanford.edu).
作者的贡献:陆先生可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。卡拉汉、帕特尔和莫尔斯博士对这项工作做出了同样的贡献。
概念及设计:卢,帕特尔,普费弗,沙阿。
数据的获取、分析或解释:陆,卡拉汉,帕特尔,莫尔斯,达什。
文稿起草:陆,卡拉汉,达什。
对重要知识内容的手稿的批判性修订:所有作者。
统计分析:陆,卡拉汉。
支持:行政、技术或物质上的支持:菲沙。
监督:Callahan, Pfeffer, Shah。
利益冲突披露:Patel博士报告了谷歌LLC的雇佣情况和Alphabet的所有权股权,这发生在首次提交这项工作之后。没有其他披露的报道。
资金/支持:这项研究得到了斯坦福大学医学院MedScholars的资助(Lu先生)和斯坦福医疗保健人工智能医学项目的支持,该项目由Debra和Mark Leslie以及医学院和斯坦福医疗保健部门的捐赠资助。
资助者/发起人的角色:发起人在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。
额外的贡献:Scott Fleming, BS(斯坦福大学生物医学数据科学系),李思云,BASc(斯坦福大学医学院生物医学信息研究中心),Arjun Gokhale, MD(斯坦福大学医学系),Wui Ip, MD(斯坦福大学医学院儿科系),Lillian Sung, MD, PhD(加拿大多伦多儿童医院),Ron Li, MD(医院医学部),斯坦福大学医学院)提供了项目反馈和指导。Shah实验室和斯坦福医学技术与数字解决方案数据科学团队的成员提供了创意和反馈。Stephen Pfohl博士(斯坦福大学医学院生物医学信息研究中心)提供了读者的反馈。这些合作者没有因为他们对这个项目的支持而获得经济补偿。最后,Alejandro Muñoz del里约热内卢,博士;香农·根特-尼登,马萨诸塞州;保罗·索班斯基,胡扯;Stephen Dove, ScM;马特·温克曼,BS; Canna Heibel, BS; Christina Miles, BS; and Seth Hain, MS, from the Epic Systems data science team provided a constructive conversation after this study’s preprint regarding areas to improve their documentation, which led to the stated revisions to their Model Briefs as well as corrections for 2 items’ grading for 1 model brief (that did not change the overall results and conclusions of the manuscript). They did not receive financial compensation for their support for this project.
附加信息:万博manbetx平台首页的e附录补充包含用于方法的所有数据和代码,包括指南的合并、项目的重复删除、将项目映射到模型开发和任务的阶段、模型概要的分级、裁决和分析,包括“项目摘要”表上每个项目的报告率。
16.
刘刚,陈志勇,陈志强,陈志强,陈志强。CheXclusion:深胸x线分类器的公平性差异。
Pac Symp Biocomput.2021; 26:232 - 243。
PubMed
谷歌学者
29.
马晓明,吴珊[,张晓明],等。用于模型报告的模型卡。:公平、问责和透明问题会议论文集.计算机协会;2019年1月29日。
87.
Jimmerson C。A3解决医疗保健问题:消除浪费的实用方法.生产力的新闻;2007.