基于机器学习的软件作为医疗设备需要有针对性的标签

¹杜克大学医学院生物统计与生物信息系，北卡罗来纳州达勒姆
²杜克人工智能健康，杜克大学医学院，达勒姆，北卡罗来纳州
^3.北卡罗来纳州达勒姆市杜克大学医学院放射学系
⁴北卡罗来纳州达勒姆独立监管顾问

美国医学会网络公开赛。 2022; 5 (11): e2242351。doi: 10.1001 / jamanetworkopen.2022.42351

基于机器学习(ML)的临床决策支持(CDS)工具越来越多地成为医疗保健领域的一部分。这些工具有可能自动识别模式，并以人类医生无法做到的方式分配健康风险。如果实施得当，这有可能提供更优化和更便宜的卫生保健。然而，也有一个缺点，即终端用户(他们不一定了解底层ML算法的操作方式)需要相信这些工具的准确性。正如Hsu等人最近发表的论文¹据报道，有时这种信任可能是没有根据的。

医学成像的ML模型是ML算法的成功案例之一。²医学图像由复杂的模式组成。这些模式对人类来说很难破译;然而，可以训练ML模型来解开它们。成像人工智能模型已经成功地应用于各种成像模式。乳房x线照相术是1998年美国食品和药物管理局(FDA)批准的CDS系统中ML的早期应用。从那时起，早期CDS系统的有效性就受到了质疑。^3.随后，随着深度学习的引入及其在图像分析方面的巨大成功，该领域取得了实质性的技术进步。

评估ML算法的一种常用方法是将可用的总体分为训练集和测试集，使用训练集开发模型，并使用测试集对其进行评估。然而，这种类型的评估忽略了一个问题，即对于具有不同特征和使用不同扫描仪获得的图像的人群，模型将如何表现。Hsu等人;¹随着这类研究的增多，随之而来的是一种不同类型的评价。他们采用了一套用于乳房x光检查的ML算法，这些算法最初是使用DREAM乳房x光检查挑战的数据开发的，并在具有不同人口统计学和临床特征的独立大数据集上进行了评估。研究人员发现，这些模型在某些女性亚群中表现较差(例如，乳腺组织致密的女性和有乳腺癌病史的女性)。特别是，他们发现模型的表现比放射科医生阅读的图像更差。

这就提出了一个重要的问题，即我们如何考虑在临床环境中使用这些工具。FDA已经为软件作为医疗设备制定了指导草案。基于乳房x光检查诊断乳腺癌的工具将被视为医疗设备，需要获得监管部门的批准。⁴所有医疗器械监管框架的一部分是对预期使用人群进行标注。正如目前的研究表明的那样，这一点至关重要。当ML cd的训练和测试种群与应用程序种群不同时，性能就不再得到保证。在监管过程中，作为最后临床验证步骤的一部分，应分析输出数据，以确保它们满足软件作为目标人群和临床护理背景下的医疗设备的预期目的。然而，并没有说明工具需要在多大程度上匹配其预期人口。正如指南草案所述，软件在某些领域不同于典型的医疗器械，因此需要不同的监管要求(例如临床评估)。因此，有机会进一步推动这一标签要求。机器学习工具的一个独特方面是有机会在大范围的子群体中测试工具的性能。因此，开发人员可以在更有针对性的人群(如乳房组织致密的妇女)中回顾性地测试他们的软件，而不是在成人和儿童人群中标记工具的使用，并适当地标记他们的工具。正如Hsu及其同事在论文中所看到的，¹这种有针对性的评估既可行又至关重要。

作为对此的回应，杜克大学等机构正在为部署CDS工具建立治理框架。⁵我们流程的一个关键方面是对CDS工具进行本地测试，并在部署之前评估其在不同患者群体中的表现。我们认为这是确保任何光盘的高质量和公平性能的重要一步。然而，这带来了额外的挑战，因为大多数医疗保健环境没有足够的资源在本地测试所有(甚至任何)模型。⁶因此，对于本地采用者来说，重要的是要认识到ML工具是针对谁开发的，以及该人群如何与当地环境产生有意义的差异。将软件作为医疗设备进行标签要求的更大规范将有助于这一过程。

我们承认，进行这种有针对性的检测并不总是那么简单。最大的障碍之一是访问不同的数据集。目前，该领域由基准数据集主导，这些数据集并不总是反映预期使用人群的人口统计学和临床多样性。将NIH研究支持的数据公开的新要求将有助于更大程度地获取不同的数据。正如我们之前写过的，⁷这些数据可以存储在云环境中，允许开发人员和最终用户评估他们的工具在不同患者群体中的表现。

最终，将机器学习工具整合到临床实践中是我们的任务。FDA已经创建了一个框架，以适应当前基于ml的软件的医疗器械法规。如Hsu等人的工作¹因此，除了标准化的基准数据集之外，迫切需要对这些工具进行更多的评估，并进入反映真实患者多样性的临床环境。此外，还需要生成目标标签，以允许最终用户了解工具最适合谁。在这些组之外应用工具应该需要额外的评估。在资源和专门知识允许的范围内，卫生系统可以通过创建本地化评价框架来协助这一进程。最终，CDS工具对卫生保健具有变革潜力，但前提是这些工具值得信赖和公平。更好的预期用途标签有可能在这方面提供帮助。

回到顶部

条信息万博manbetx平台首页

发表:2022年11月21日。doi:10.1001 / jamanetworkopen.2022.42351

通讯作者:Benjamin A. Goldstein，博士，杜克大学医学院生物统计学和生物信息系，2424 Erwin Rd, Ste 9023, Durham, NC 27705 (ben.goldstein@duke.edu)．

利益冲突披露:Mazurowski博士报告收到了来自Astra Zeneca, Aravive, Akesobio, GSK, Merck, Seattle Genetics的研究基金，这些研究基金支付给提交工作以外的机构;马祖罗斯基博士报告了一项用于提取预测图像特征的系统和方法的专利。没有其他披露的报道。

参考文献

徐伟[，Hippe ds[， Nakhaei nj]，等。人工智能自动乳房x线摄影解释集成模型的外部验证。JAMA网络公开赛．2022; 5 (11): e2242343。doi:10.1001 / jamanetworkopen.2022.42343 谷歌学者

奥伦·欧文，格什·比尔，巴特·比尔。医学成像中的人工智能:从放射学病理数据转向临床有意义的终点。柳叶刀手指健康．2020; 2 (9): e486-e488。doi:10.1016 / s2589 - 7500 (20) 30160 - 6 PubMed 谷歌学者 Crossref

Fenton jj_， Taplin sh_， Carney pa_，等。计算机辅助检测对乳腺x线筛查性能的影响。[英]医学．2007; 356(14): 1399 - 1409。doi:10.1056 / NEJMoa066099 PubMed 谷歌学者 Crossref

食品和药物管理局。临床决策支持软件草案指导工业和食品药品监督管理局的工作人员。2019年出版。于2022年10月21日生效。https://www.fda.gov/regulatory-万博manbetx平台首页information/search-fda-guidance-documents/clinical-decision-support-software

Bedoya ad_， Economou-Zavlanos nj_， Goldstein ba_，等。一个监督和在当地部署安全和高质量预测模型的框架。美国医学信息协会．2022; 29(9): 1631 - 1636。doi:10.1093 /地点/ ocac078 PubMed 谷歌学者 Crossref

李建军，刘建军，刘建军，等。是什么阻碍了医院采用计算机化决策支持系统?定性研究和实施框架。实现科学．2017; 12(1): 113。doi:10.1186 / s13012 - 017 - 0644 - 2 PubMed 谷歌学者 Crossref

戈尔茨坦·巴，潘西娜·m·j。检验临床预测模型。《美国医学会杂志》．2020; 324(19): 1998 - 1999。doi:10.1001 / jama.2020.19392 PubMed 谷歌学者 Crossref

基于机器学习的软件作为医疗设备需要有针对性的标签

其他人也喜欢

专题文章

USPSTF建议声明

博客

基于机器学习的软件作为医疗设备需要有针对性的标签

查看更多信息

引用

下载引文文件:

选择你的兴趣

根据你感兴趣的领域获取最新的研究。

其他人也喜欢