要点
问题现有的人工智能(AI)算法在皮肤科、牙科和眼科中作为决策支持系统是否具有成本效益?
发现在这项经济评估中,分析了之前成本效益研究中使用的3个马尔可夫模型的数据,人工智能的使用与结果的适度改善有关。所有的益处都高度依赖于诊断后假定的治疗效果,并且对使用人工智能所支付的费用非常敏感。
意义这些结果表明,即使人工智能能够达到比普通医生更好的诊断能力,这可能不会直接转化为更好或更便宜的护理,使用这种技术的分析应该根据具体情况进行。
客观的评估人工智能(AI)在支持临床医生检测和分级皮肤科、牙科和眼科疾病方面的成本效益。
重要性人工智能被认为是实现更精确、个性化和更安全的医疗保健的推动者,据报道,人工智能算法的诊断准确率达到或超过皮肤科、牙科和眼科医生的平均水平。
设计,设置和参与者这项经济评估分析了之前成本效益研究中使用的3个马尔可夫模型的数据,这些数据被用于比较人工智能与标准护理在检测皮肤照片上的黑色素瘤、x光片上的龋齿和视网膜眼底成像上的糖尿病视网膜病变方面的差异。研究对象分别是美国50岁和德国12岁的普通人群,以及巴西40岁的糖尿病患者。蒙特卡罗微模拟和敏感性分析用于捕获终身疗效和成本。选择了一个年周期长度。数据分析时间为2021年2月至2021年8月。
曝光人工智能与护理标准。
主要成果和措施人工智能与牙科牙齿保留年数和皮肤科和眼科患者质量调整生命年(QALYs)的关系诊断成本。
结果在1000个随机样本的1000个微模拟中,人工智能作为诊断支持系统显示出有限的成本节约和牙齿保留年和质量年的收益。在皮肤病学中,AI显示平均成本为750美元(95% CI, 608- 970美元),与86.5 QALYs (95% CI, 84.9-87.9 QALYs)相关,而对照组显示更高的成本759美元(95% CI, 618- 970美元),与类似的QALY结果相关。在牙科领域,每颗牙齿保留62.4年(95% CI, 60.7-65.1年),人工智能累计成本为320欧元(95% CI, 299- 341欧元)(购买力平价[PPP]换算,429美元[95% CI, 400- 458美元])。对照组与较高的成本相关,为342欧元(95% CI, 318- 368欧元)(PPP, 458美元;95% CI, 426- 493美元)和更少的牙齿保留年限(60.9年;95% CI, 60.5-63.1年)。在眼科,人工智能应计成本为1321雷亚尔(95% CI, 1283- 1364雷亚尔)(PPP, 559美元;95% CI, $543-$577), 8.4 QALYs (95% CI, 8.0-8.7 QALYs),而对照组则更便宜(R $1260;95% ci, r $ 1222-r $1303) (ppp, $533;95% CI, $517-$551),并与相似的qaly相关。 Dominance in favor of AI was dependent on small differences in the fee paid for the service and the treatment assumed after diagnosis. The fee paid for AI was a factor in patient preferences in cost-effectiveness between strategies.
结论与相关性这项研究的结果表明,使用人工智能时诊断准确性的边际提高可能会转化为结果的边际改善。从成本效益的角度来看,目前支持人工智能作为决策支持的证据有限;人工智能应根据具体病例进行评估,不仅要了解成本和支付机制的差异,还要了解诊断后的治疗情况。
人工智能(AI)通常被认为是更精确、个性化和更安全的医疗保健的推动者。1,2人工智能的一个主要用途是决策支持(即帮助医生检测和分级疾病,例如通过皮肤照片的图像分析)。3.据报道,在皮肤科,人工智能算法的诊断准确率达到或高于医生的平均水平,4牙科,5和眼科6等等。
尽管美国监管机构(包括食品和药物管理局[FDA])在2018年批准了首个用于检测糖尿病视网膜病变的人工智能诊断解决方案,7这项技术在现有治疗途径上可能产生的好处尚未得到彻底评估。8,9人工智能诊断解决方案目前正在美国、印度、泰国、中国、澳大利亚、10和新加坡。11重要的是,这些研究经常采取第三方的观点,不推断病人的一生。此外,部署人工智能解决方案的环境和开发人工智能解决方案的地点之间的差异,可能会引发与讨论不断上升的医疗保健费用有关的成本效益新问题。12有必要进行新的研究,以确定人工智能是否可以单独降低成本和改善结果,或者它是否甚至可能增加现有资源的压力。13知情的了解有助于决定在诊断中使用人工智能的可能报销情况,并引导研究和开发朝着可预期获得最大健康和经济效益的方向发展。14
人工智能的成本效益很可能取决于它对假设用例的诊断准确性(即,它是在帮助医生还是病人?)目前筛查该疾病的标准是什么?)、患者群体(所研究疾病的患病率和治疗费用是多少?)以及卫生保健环境的特定因素(检测的频率是多少?)在确诊后,患者在疾病的每个阶段接受什么治疗?
据我们所知,之前没有研究针对不同场景下的不同用例对现有人工智能算法的成本效益进行建模。15我们的目的是评估人工智能在不同国家作为皮肤科、牙科和眼科诊断支持系统的成本效益,使用具有生命周期的马尔可夫模型进行健康经济建模。我们决定将人工智能作为收费服务,并通过敏感性分析探索如何将其纳入成本效益(人均)。我们的研究目标是测试一个假设,即一个具有卓越诊断准确性的人工智能作为决策支持系统,总是会明显降低成本并改善结果。更好地理解这些方面对于评估人工智能解决方案的决策者以及决定在使用人工智能的决策支持系统中投入资源的开发人员来说尤为重要。
从付款人的角度对不同医学学科的3种诊断程序(皮肤科黑色素瘤检测、牙科龋齿检测和眼科糖尿病视网膜病变检测)进行了3个基于模型的成本-效果分析。人工智能作为一种诊断支持系统,以前被用于帮助检测和/或分级皮肤摄影上的黑色素瘤病变4;x光片上的龋齿损害16;糖尿病视网膜病变的眼底摄影。17我们的经济评估使用了以前发表的研究的数据和模型,这些研究对每个用例进行了成本效益分析,而不涉及人工智能(表格)。在所有病例中,将人工智能作为诊断支持系统的敏感性和特异性与标准护理系统进行比较。
对这3个用例、人工智能应用和卫生经济模型进行了总结表格符合综合卫生经济评估报告准则(干杯)报告指引。的附录1到3中详细解释了状态之间的转换和转换概率补充.不同研究的设置为美国黑色素瘤,德国龋齿检测和巴西眼科,所有参数如患病率和预期寿命都根据这些设置进行调整。只有1项研究考虑了人工智能应用的研发成本,我们将其外推到其他2个用例中,这是药物经济学中的常见做法。23我们在敏感性分析中探讨了价格变化的影响。所有的经济模型都是用马尔可夫链构建的,并在生命周期下以离散的年间隔进行模拟。在我们进行建模练习时,没有要求伦理委员会的批准;数据被去识别,不使用原始数据。
所有3项分析均在3种不同的卫生保健环境中采用了支付方视角。美国医疗保健系统在全球医疗保健支出中排名第一。24支出由自愿医疗保险、雇主保险和自付支出共同供资,但老年人、残疾人和低收入人口的例外情况由政府控制。25在德国,包括牙科在内的医疗保险是两级的,大多数人(即超过87%)是公共保险,只有少数人是私人保险。26对于使用公共保险的会员来说,几乎所有的程序都是完全覆盖的,而只有一些治疗是部分或全部自付的。27巴西的全民公共卫生保健系统是由联邦、州和市政府税收资助的,尽管有局限性,但它为大多数人口提供了全面的健康覆盖。28
对于皮肤科用例,考虑了在检测步骤、可能的组织学验证以及可能的治疗和后续治疗中产生的美国系统中医疗保健支付者的直接成本(即医疗保健系统成本和患者共同支付的总和)。两组患者(人工智能组和对照组)进入模型计算发病率、死亡率和费用。两个队列中的个体最初都处于完全健康状态。该模型评估了他们患黑色素瘤、被皮肤科医生诊断和治疗的风险,两组之间的唯一区别是人工智能支持的帮助。
对于牙科用例,考虑了德国法定保险产生的费用以及私人保险的共付费用或自付费用,包括有无人工智能支持的检测费用以及终身治疗和再治疗费用。分析的单位是牙齿;根据先前研究得出的患病率数据,两颗牙齿都是健康的,或者有初步或晚期的龋齿损伤。29
对于眼科用例,采用了巴西纳税人的观点。经济模式所产生的所有费用,包括治疗费用,都由巴西国家卫生局承担。我们在我们的模型中纳入了一组有发展成某种形式的糖尿病视网膜病变风险的2型糖尿病患者。参与者每半年接受一次测试。
对于皮肤病学,对照组(即不使用人工智能)接受皮肤科医生使用皮肤镜的标准评估;该组的准确性是从以前的研究中提取的。30.纳入的治疗方法来源于我们研究中用作参考的卫生经济模型。18试验组(AI)由卷积神经网络(CNN)组成,用于对145名皮肤科医生标记的12张 378张皮肤镜图像进行训练的皮肤照片进行分类。4
在牙科方面,对照组是通过每年两次的视觉触觉评估和牙医每年两次的咬牙x线片来检测近端龋齿病变。19以卫生经济模型为参照。31在试验组中,假设使用CNN对3293张图像进行训练,对252张图像进行验证,并对141张图像进行测试(每张图像由4位专家标记),以人工智能辅助放射学龋齿检测。11
在眼科方面,对照组是巴西眼科医生进行的糖尿病视网膜病变的标准筛查;20.用符合经济规律的模型作为研究的参考。32诊断的准确性是建立在以前用于经济评估的数字眼底摄影分析的基础上的,作为我们的数据源。33测试组是一个CNN,根据视网膜图像中自动病变检测的框架对超过100万个病变进行了训练。34
对于所有3种马尔可夫模型,包括初始和后续健康状态,以及每次转换的成本和应计效用。在皮肤病学模型中,患者在48岁时进入模型。以牙科为例,患者在12岁时进入模型,假设他们的恒牙发育完全。以眼科为例,糖尿病患者在40岁时进入模型,因为根据美国疾病控制和预防中心的指导方针,扩大筛查策略在该年龄似乎是合理的。35
所有的模型都根据它们的设置取了一生的视界。在黑色素瘤的情况下,我们区分了黑色素瘤死亡风险和整体死亡风险。在牙科的案例中,我们跟踪了牙齿保留超过平均预期寿命,因为牙齿脱落是一生中几乎可以完全避免的事件。在眼科的案例中,我们反映了每个阶段的效用,因为糖尿病视网膜病变是一种对生活质量有很大影响的非致命性疾病。在所有情况下,疾病的发展及其进展都是根据从先前发表的同行评议模型中反映的荟萃分析中提取的概率来建模的。在诊断和治疗后,模型将患者转移到另一个阶段,在这个阶段,他们要么保持稳定,要么继续疾病的自然进展,要么过渡到死亡、牙齿脱落或失明的吸收状态。
在模型允许的情况下,我们还包括检测到病变后选择不同治疗途径的结果。在所有情况下,模型验证都是通过改变关键参数来进行的,以检查它们如何与结果相关联,并进行单变量和多变量敏感性分析。然后将所有结果与各自领域的现有研究进行比较。
输入变量是从元分析作者用来构建模型的先前研究中提取出来的。诊断准确性也从以前的研究中提取出来。综述了不同人工智能应用的经济模型和诊断准确性研究报告的参考文献图14,19,22,29,33,36-54和表格.4,18-22患病率的概率以及来源见附录1至3补充.
对于皮肤科和眼科用例,健康结果表示为质量调整生命年(QALYs),对于牙科用例,牙齿保留的平均时间(以年为单位)。从支付方角度进行的成本计算建立在美国案例(即皮肤科用例)中从患者角度估计的自付成本(OOP),德国案例(牙科用例)中从法定保险支付的公共服务目录和私人服务目录中提取的价格组合,以及巴西案例(眼科用例)中的支付方角度。
应用人工智能的费用作为服务费收取。对于牙科用例,根据研究、开发、运营和间接费用的直接成本,原始出版物中假设每个应用程序的费用为8欧元。我们继续在其他情况下以当地货币收取相同金额,然后进行单变量敏感性分析。
在所有3例病例中,成本和牙齿保留年限均以每年3%折现,单变量敏感性分析在0%至10%之间变化。55考虑到我们研究的观点,机会成本并没有被考虑在内。
我们用1000个独立的个体或牙齿进行了蒙特卡罗微模拟。在比较两种策略时,使用增量成本-效果比(ICERs)来表示每个QALY或平均牙齿保留年的成本差异。3种模型随机抽取1000个样本进行了1000次蒙特卡罗微模拟后的结果见表格.为了引入参数不确定性,我们从原始模型中报告的分布中随机抽样转移概率,并计算95% ci或参数范围。56在龋齿级数的情况下,我们使用均匀分布。
通过估算牙科的成本(以美元、欧元和巴西雷亚尔计算)和年数,以及皮肤科和眼科的QALY,每种策略组合的净效益被计算为每个队列的平均值,使用以下公式:个人净收益= WTP ×质量aly或牙齿保留年的变化-成本变化,其中WTP表示愿意支付的上限阈值,即决策者愿意为获得额外的质量aly或牙齿保留年而承担的额外成本。32如果WTP大于成本变化除以质量年或牙齿保留年的变化,则替代干预被认为比比较物更具成本效益,尽管可能更昂贵。56我们使用净效益方法来计算每个干预措施在不同WTP上限阈值支付者的成本效益方面被接受的概率。此外,还进行了单向敏感性分析,以评估如果将关键输入参数更改为极值,哪种策略与最低成本或最大质量年或牙齿保留年的增加相关,从而探索不确定性和异质性的影响。欧元和雷亚尔采用2020年经济合作与发展组织购买力平价(PPP)进行换算。57分别为1美元兑0.746欧元和2.362雷亚尔。采用95% ci,百分位数分别为2.5%和97.5%确定显著结果。所有分析均使用R2 Healthcare version 2.1 (TreeAge)进行。
在皮肤科,人工智能的平均费用为750美元(95% CI, 608- 970美元),没有人工智能的皮肤科医生的平均费用为759美元(95% CI, 618- 980美元),健康结果相似(人工智能,86.6质量年;95% CI, 84.9-88.0 QALYs;标准视觉识别,86.6 QALYs;95% CI, 84.9-88.0 QALYs)。ICER为- $27 580 / QALY (图2A).可接受度曲线(图2B)表明人工智能在较低WTP时更有可能更具成本效益;WTP的增加逐渐增加了不确定性(图2B,图3B,图4B)。对0% ~ 10%贴现率的单变量敏感性分析对结果没有显著影响(见附录4)补充)。对人工智能使用费用的单变量敏感性分析表明,当服务费超过16美元时,人工智能成为主导策略。
在牙科,人工智能与牙齿固位增加有关(平均牙齿固位,62.4年;95% CI, 61.6-63.1年),成本更低(320欧元;95% ci, 299欧元- 341欧元)(429美元;95% CI, $400-$458)比没有人工智能的龋齿病变检测(平均牙齿保留时间,60.9年;95% CI, 61.5-63.1年;成本,€342.24;€318(€368)。总费用为每年- 15.01欧元(20.12美元)(图3A).结果对诊断后建模的治疗路径非常敏感;当考虑对检测到的病变采用侵入性方法时,人工智能与牙齿保留时间较短和成本较高相关。可接受度曲线显示,与所研究的成本效益无关,人工智能更有可能更具成本效益(图3B)。贴现率在0%到10%之间的单变量敏感性分析显示,当贴现率低于6%时,人工智能优于标准诊断方法补充)。对人工智能使用费用的单变量敏感性分析表明,当服务费用超过16欧元(21.44美元)时,人工智能成为主导策略。
在眼科方面,平均费用为1321雷亚尔(95% CI: 1283- 1364雷亚尔)(559美元;人工智能的95%置信区间,543- 577美元)和1260雷亚尔(95%置信区间,1222- 1303雷亚尔;)(533美元;95% CI, 517- 551美元)。两种策略产生了非常相似的8.4 (0.04)qaly的平均(SD)效用;然而,人工智能使成本增加了61雷亚尔(25.82美元)。ICER为R - $91 760 (US - $38 848)(图4A)。可接受度曲线显示,尽管较高的WTP增加了最优策略的不确定性,但护理标准更有可能更具成本效益(图4B)。
我们的结果表明,每个QALY的增量(每人)成本将为39雷亚尔 705(16美元 809);作为参考,巴西2020年人均购买力平价GDP为14雷亚尔 563(6165美元)。根据世界卫生组织(WHO)建议的阈值,58在这些情况下,每个获得的质量质量所支付的最大成本可能高达人均GDP的3倍(在我们的例子中,43雷亚尔 689[18美元 496]),被认为是具有成本效益的。对贴现率的敏感性分析不影响护理标准的优势(见《临床医学文献》的附录4)补充),亦不受使用人工智能支援所收取的费用(见附录5)补充)。
人工智能的成本效益已经被广泛研究和讨论,因为它有可能改善诊断,14,59促进筛查,10,60优化实验室检查和手术预约61,62在其他用例中。63-66当人工智能被用于帮助确定患者的护理选择时,我们的研究结果证实了对人工智能用于健康应用的可靠经济评估的呼吁。67
据我们所知,这是第一个针对护理标准对几种人工智能解决方案进行建模的研究。这项研究的主要优势在于它的设计,它允许对用于检测不同疾病的相同技术的相同用例进行比较。我们的研究结果表明,人工智能与护理标准的成本效益应该针对每个环境和用例进行专门评估,不仅要考虑人工智能应用本身产生的潜在成本,还要考虑诊断后的治疗。
所有用作决策支持系统的人工智能解决方案仅显示出适度的成本效益改善。可以假设,如果预期人工智能的进一步改进,其成本效益也可能提高,因为没有人工智能支持的医生诊断的准确性不太可能提高。此外,应该进一步探讨围绕人工智能的监管、遵循人工智能建议的激励措施,或者在使用人工智能或不使用人工智能时效率和诊断过程的差异,以更现实地了解人工智能在诊断支持系统中的成本效益。我们的研究结果进一步表明,人工智能不一定在医学专家手中发挥最大的作用(它的优势是有限的),但它可以促进非专业环境下的患者筛查,从而实现有针对性的转诊,比如眼科。59评估这些差异将需要建立新的评估模型和方法,其中可能会产生更大的影响。
我们分析中包含的模型对人工智能支付的费用很敏感,只受到折现率的适度影响。我们的研究表明,在这个用例中,价格的微小变化可以改变策略之间的主导地位,使这些数字工具的经济影响对实施、设置、付款人观点和用例假设的各个方面都很敏感。有必要对人工智能的不同支付方式进行更多的研究,以便进行有力的比较,并就与人工智能技术相关的卫生经济结果得出明确的结论,并确定人工智能在改善基于价值的护理方面可以发挥的作用。
这项研究有几个局限性。首先,关于研究、运营和间接费用以及纳入万博manbetx平台首页人工智能所涉及的支付机制的信息有限,无法进行详细的比较。与数据采集所需的硬件相关的成本等方面是未知的,可能会极大地改变我们的结果。这种不确定性使从第三方付款人的角度确定人工智能服务的最佳定价变得复杂,值得进一步的科学分析。有关后续处理步骤的规定也将严重影响总体成本效益,应反映在模式中。监管机构和决策者在确保开发的人工智能解决方案对患者保持安全并帮助改善结果方面发挥着重要作用,同时也充分激励进一步发展,使数字健康能够实现它产生的一些期望。57,58在诊断技术的改进进入市场后,分析现实世界的证据似乎是一种明智的方法,可以优先考虑患者和临床的成本效益,并可以阐明诊断准确性的提高如何影响人工智能的成本效益。未来的研究可以考虑信息分析的期望值,以评估一系列参数的不确定性的相关性,包括诊断准确性,并相应地指导研究万博manbetx平台首页和发展。
其次,重要的是要认识到,我们的模型结果的差异可能是由于不同收入环境之间人工智能使用的不一致。应研究低收入和中等收入国家的流行病学因素和较低的服务收费,以避免人工智能不会加剧现有的卫生不平等。这一事实要求我们更好地了解流行病学差异(如某种疾病的发病率和发病率)如何影响报销人工智能服务的决定。正因为如此,未来的研究可以专注于开发分析框架,以促进从不同角度、不同环境和不同结果对人工智能的比较。这可以为最有影响力和成本效益的用例提供更有针对性的人工智能解决方案开发。
第三,我们假设医生会根据人工智能检测结果采取行动,即完全一致。然而,这并不是既定的——医生可能不同意人工智能诊断,并做出改变最终诊断准确性的决定(既有利于也不利于最终的综合准确性)。这同样适用于由此产生的治疗方法。因此,我们邀请读者将我们的结果视为基本情况,因为在实践中可能会偏离我们的发现。评估医生如何与软件互动的新研究将是理解人工智能如何最好地与医疗从业者协同工作的基础。
在这一经济评估中,人工智能作为决策支持系统具有有限的成本效益优势,这些优势不仅对分配给人工智能的成本敏感,而且对诊断后假设的后续治疗路径敏感。人工智能开发人员需要与监管机构和医学界共同努力,确保将新的人工智能解决方案部署在最能改善结果的地方。制定适当的支付机制似乎是激励使用这种技术的新的具有成本效益的疗法的根本。
接受发表:2021年12月30日。
发表:2022年3月15日。doi:10.1001 / jamanetworkopen.2022.0269
开放:这是一篇开放获取的文章,在CC-BY许可证.©2022 Gomez Rossi等。狗万体育下载地址JAMA网络开放.
通讯作者:Jesus Gomez Rossi, DMD,硕士,口腔诊断,数字健康和健康服务研究部门,Charité-Universitätsmedizin柏林,Aßmannshauser Str 4-6, 14197柏林,德国(jesus.gomez-rossi@charite.de)。
作者的贡献:Gomez Rossi和Schwendicke博士对研究中的所有数据都有完全的访问权,并对数据的完整性和数据分析的准确性负责。
概念与设计:戈麦斯·罗西,罗哈斯,施文迪克。
数据的获取、分析或解释:戈麦斯·罗西,罗哈斯,克罗斯。
手稿起草:戈麦斯·罗西,施文迪克。
对手稿重要知识内容的批判性修改;所有作者。
统计分析:所有作者。
行政、技术或物质支持:戈麦斯罗西。
监督:罗哈斯。
利益冲突披露:戈麦斯·罗西博士在提交的工作之外报告了德国国家法定基金的兼职工作。Schwendicke博士和Krois博士是dentalxr的创始人。ai Ltd .是一家开发牙科诊断人工智能的公司。
资金/支持:该项目部分由柏林研究基金会和Charité-Universitätsmedizin开放获取出版基金资助。
资助者/保荐人的角色:资助者在研究的设计和实施中没有任何作用;收集、管理、分析和解释数据;审稿:手稿的准备、审查或批准;并决定投稿发表。
额外的贡献:我们衷心感谢汉堡大学Dimitrij achhelrod博士为本研究中使用的数据分析所做的无偿工作。
13.
Alami h_, Lehoux p_, Auclair y_, de Guise m_, Gagnon mp_, Shaw j_, Roy d_, Fleet r_, Ahmed m_, Fortin jp_。人工智能和健康技术评估:预计复杂性将达到新的水平。
J Med Internet Res.2020; 22 (7): e17707。doi:
10.2196/17707
谷歌学者
14.
斯诺斯韦尔cl_,泰勒ml_,科曼斯ta_,史密斯ac_,格雷lc_,卡弗里l_。确定远程医疗是否可以降低卫生系统成本:范围审查。
J Med Internet Res.2020; 22 (10): e17298。doi:
10.2196/17298
PubMed
谷歌学者
16.
Schwendicke f_, Rossi jg_, Göstemeyer g_, Elhennawy k_, Cantu ag_, Gaudin r_, Chaurasia a_, Gehrung s_, Krois j_。人工智能近端龋齿检测的成本效益。
J邓特·雷斯.2021, 100(4): 369 - 376。doi:
10.1177 / 0022034520972335
谷歌学者
Crossref
31.
沃尔夫,鲍林,凯克,鲍姆巴赫。人工智能对医疗保健的经济影响:系统回顾。
J Med Internet Res.(2): 2020; 22 e16866。doi:
10.2196/16866
谷歌学者
32.
德拉蒙德mf_,雕塑家mj_,托伦斯gw_,奥布莱恩bj_,斯托达特gl_。卫生保健方案的经济评价方法.牛津大学出版社;2005.
39.
Sandru a, Voinea s, Panaitescu e, Blidaru a。转移性恶性黑色素瘤患者的生存率。
医学生活.2014; 7(4): 572 - 576。
PubMed
谷歌学者