要点
问题一个人工智能(AI)模型可以预测孕龄胎儿biometry-based估计精度高于标准通过利用标准平面超声图像和飞到超声视频吗?
发现在这个诊断研究中测试集的404名参与者,所有图像,视频和合奏AI模型在统计学上优于标准胎儿biometry-based估计孕龄来源于图像被专家超声波检验师。整体模型平均绝对误差,最低的平均差−1.51天。
意义这些发现表明,人工智能模型有可能授权培训超声运营商估计孕龄较高的准确性。
重要性确认孕龄胎儿超声至关重要(GA), GA和准确的评估是重要的识别提供适当的保健在整个孕期和并发症,包括胎儿生长障碍。推导GA的手动测量胎儿生物统计学(即头、腹部和股骨)是依赖于运营商和耗时。
客观的发展人工智能(AI)模型来估计GA与更高的精度和可靠性,利用标准生物统计学和飞到超声视频图像。
设计,设定和参与者改进遗传算法的估计,这个诊断研究使用AI解释标准平面超声图像和飞到超声视频,这是5 - 10秒视频,可以自动记录作为标准治疗的一部分,之前还捕捉图像。三个人工智能模型开发和确认:(1)图像模型使用标准平面图像,(2)使用飞到视频,视频模型和(3)一个整体模型(结合图片和视频模型)。模型训练和评估胎龄,机器学习的数据倡议(FAMLI)队列,其中包括参与者从2研究地点在教堂山,北卡罗莱纳(美国),和卢萨卡,赞比亚。参与者有资格成为本研究的一部分,如果他们收到这些网站的常规产前保健1,18岁以上,有一个可行的子宫内的单例妊娠,并可能提供书面同意。他们没有资格如果他们知道子宫或胎儿异常,或有任何其他条件,使参与安全或复杂的解释。从1月到2022年7月执行数据分析。
主要结果和措施GA的主要分析结果的平均差之间的绝对误差临床标准遗传算法模型估计和估计,与地面真理从最初的遗传算法GA推断估计初始检查。
结果总群的3842名参与者,数据计算测试集的404名参与者平均28.8(5.6)岁(SD)登记。胎儿biometry-based所有模型在统计学上优于标准遗传算法估计来自图像被专家超声波检验师。整体模型的最低平均绝对误差与临床标准胎儿生物统计学(意思是(SD)差异,−1.51[3.96]天;95%可信区间,1.90−−1.10天)。所有3模型比标准更可观的利润率胎儿,生物统计学的预测小GA。
结论和意义这些发现表明,人工智能模型有可能让训练有素的运营商估计GA和更高的精度。
胎儿超声是产前成像的基础,并提供关键信息来指导母婴保健,如估计孕龄(GA)和评价胎儿生长障碍。万博manbetx平台首页目前,临床评估标准遗传算法和诊断胎儿生长障碍决定通过手工采集胎儿生物测量,如二顶的直径,头围,腹部周长(AC)、股骨长度、或crown-rump长度。无数的回归公式GA估计胎儿生物存在的不同组合的基础上测量。Hadlock公式是最受欢迎的公式之一,包括大多数超声设备包。先前的研究已经表明,尽管胎儿生物测量跨运营商通常是可再生的,有增加方差在怀孕晚期,当许多关键的临床决策。1,2
生物统计测量的准确性和效率取决于超声波检验师的技能和经验。胎儿胎儿运动和定位等因素很难准确位置的超声探头获取生物统计学测量。1,2有广泛的研究使用人工智能(AI)系统协助评估,通常是通过自动生物参数的估计,然后使用Hadlock公式。3- - - - - -7最近的研究8,9显示胎儿生物统计学技术发展水平精度评估,分类模型是用来识别标准超声飞机和分割模型用于胎儿生物统计学估计从标准超声飞机,这些作品关注胎儿生物统计学估计与检验性能在生物统计学测量,而我们的工作集中在GA估计不需要测量获取或使用的回归公式,使模型的机会来提高遗传算法估计精度检验评估。我们最近表明,GA模型估计使用预定义的清洁工是一系列标准的胎儿超声视频生物统计学估计。10
在这项研究中,我们进一步扩展使用超声视频通过开发3端到端AI模型:(1)图像模型使用胎儿超声图像被超声波检验师在生物统计学测量;(2)使用飞到视频,视频模型被定义为5到10秒的视频图像捕获前;和(3)一个模型使用图像和飞到视频。在生物统计学测量标准回顾性收集的所有数据。所有3模型直接估计GA,无需测量获取或使用的回归公式。据我们所知,这是第一次尝试使用AI对标准治疗超声视频捕获Hadlock程序为所有三学期制没有估计生物统计学预测GA直接测量标准平面图像。
这个诊断研究遵循的标准报告诊断的准确性(标准)报告指南。所有参与者提供书面知情同意,批准的这项研究是北卡罗莱纳大学(UNC)机构审查委员会和大学的生物医学研究伦理委员会赞比亚。
我们开发了3深度学习神经网络模型来预测GA:图像,视频和一个方法相结合。生成的图像模型GA预测,以天,直接从每个胎儿生物统计学标准平面图像,图像像素的固定尺寸作为输入。视频生成模型GA预测直接从飞到视频序列,与固定长度的序列图像像素值作为输入。遗传算法模型还提供了一个估计的估计的信心对于一个给定的视频或图像序列。不需要中间胎儿生物测量在训练期间或生成推理。
模型开发和评估使用数据集前瞻性收集的胎龄,机器学习计划(FAMLI),11超声数据收集的研究网站在教堂山,北卡罗莱纳(美国)和赞比亚卢萨卡。这个前瞻性收集的数据集的目的是加速技术的发展来估计。我们训练模型的研究从所有三学期制与被培训视频和图片的超声波检验师使用标准超声设备(SonoSite Turbo-M在赞比亚;通用电气在北卡罗来纳州Voluson 8;在赞比亚GE Logiq C3),不包括图片和视频捕获使用低成本的便携式超声设备(蝴蝶智商;蝴蝶网络)和新手研究,为了使适用性设备类型中使用标准的护理。超声检查的数据集是由多个超声波检验师在每个站点,和运营商培训根据两国的正常标准。内置的人工智能研究处于关机状态,和考试是完全依赖运营商。研究参与者被随机分配到1的3个数据集分割:火车,调整,或测试。我们使用以下比例:60%的训练,20%,和20%的测试。 The tuning set was used for tuning model hyperparameters.
图像模型训练所有crown-rump长度标准平面图像从怀孕前期研究(GA (SD), 78.6(14.0)天;范围,44 - 97天),头围,AC,股骨长度标准平面图像从怀孕中期(意思是(SD), 156.0(27.4)天;范围,98 - 195天)和后期(GA (SD), 229.0(18.1)天;范围内,196 - 258天)的研究。视频模型训练数据可以获得当前stand-of-care程序。具体而言,这包括sonographer-acquired盲扫12(15清洁工每个病人),以及sonographer-acquired飞到视频捕获5到10秒前超声波检验师获得了胎儿生物统计学标准图像。在FAMLI研究中,通用电气机器(Voluson 8在北卡罗莱纳和赞比亚Logiq C3)被配置为出口5到10秒的电影捕获后,超声波检验师冻结或保存图像。
情况下由多个飞到视频和生物统计学标准图片,和我们的模型生成的独立预测中的每个视频或图像序列的情况。GA的视频模式,每个飞到视频分为多个视频序列,然后我们汇总预测为遗传算法生成一个大小写级估计(在本文后面进行更详细的描述)。
我们开发了2深度学习神经网络模型预测GA从标准生物统计学图像(eFigure 1补充1)和飞到视频。GA回归模型使用最好的产科估计GA与案件有关的培训标签内的所有视频剪辑。我们定义GA预测作为回归问题的两种图像和视频模型产生的估计,以天。
我们的图像模型是一个单独的实例模型训练飞机上所有标准生物统计学图片4标准解剖类型:crown-rump,胎儿的头,腹部和股骨。模型架构eFigure 2中描述补充1。一个独立的GA和方差分数预测每个图像。我们的视频模式从一个充气的三维组装(I3D)卷积模型13和卷积复发模型提出了blindsweep GA预测,10使用一个MobileNetV214特征提取器。模型架构是eFigure 3描述了补充1。I3D网络和图像模型使用均值-方差回归损失函数,15,16提供预期的估计方差的额外softplus模型输出。
视频和图像模型预测方差估计作为一个信心,和GA预测聚合(整体)使用预测方差的逆重量分数产生了最终的GA。从我们的观察,剪辑高信心表现出明显的解剖学观点有用的GA预测,而低的例子显示更少的信息解剖的观点。最高的和最低的信心从飞到视频剪辑的例子为每个类型的标准生物统计学eFigure 4所示补充1。的细节模型架构、模型训练、和数据预处理包括像素间距比例eAppendix中描述补充1。
为了提高模型精度,我们探索不同的整体配置,最终选择一个描述的静态图像与视频模型模型。从静态图像模型GA预测,I3D模型,卷积后复发模型平均方差倒数加权过程给最终的预测。
GA的主要分析结果的平均差之间的绝对误差临床标准遗传算法模型估计和估计,与地面真理从最初的遗传算法GA推断估计在最初的检查。地面真理GA在每个后续访问计算遗传算法在初始检查+天数自基线的访问。统计估计和比较后,计算随机选择1研究访问每个病人每个分析小组,以避免结合相关测量相同的病人。
当进行成对统计对比模型估计绝对错误(梅斯)和临床标准绝对错误,我们建立了一个先天的优势比较:计算双向的95%可信区间的上限是否美差异(模型MAE -标准生物统计学MAE)是严格低于0;换句话说,我们使用了不同的置信区间统计推断。数据分析是使用开源执行Python (Python 3.7版本,软件基金会)工具numpy(1.21.5版),SciPy(1.2.1)版本,和熊猫(1.1.5版本)。机器学习模型使用Tensorflow深学习开发软件包版本1(谷歌)。我们定义主要结果(统计优势)在评估测试设置,以避免多重比较。
此外,二级子群分析,与子组包括怀孕三个月(第一,第二,或第三)、国家(美国和赞比亚),设备制造商(SonoSite Turbo-M在赞比亚,通用电气Voluson 8在北卡罗莱纳,在赞比亚和GE Logiq C3)。对于每一个亚组分析,估计和比较后,计算随机选择1研究访问每个病人患者符合条件的子组,以避免结合相关测量相同的病人。因为这些是探索性分析,我们没有调整阈值占多重意义的比较。我们在调优集进行了探索性分析,结果再次被评估前举行的测试集。
公式推导Hadlock et al2是保健的标准在美国和世界上很多其他国家;然而,这些公式,来自一个有限的中产阶级白人女性在德州的人口有361,不可能概括以及替代公式与更广泛的开发,以人群为基础的数据。出于这个原因,我们比较FAMLI人口2额外的预测公式,Intergrowth-21st和国家儿童健康和人类发展研究所(NICHD),这表明承诺Hadlock作为潜在的替代方法。17,18
Biometry-based确定GA方法倾向于低估和高估的胎儿生长受限(FGR)和大型GA (LGA)胎儿,分别。了解人工智能模型表现在这些情况下,我们进行了一次分析的精度达到在胎儿比预期的更小或更大的遗传算法根据胎儿交流测量给定的人口和地面真理妊娠周。我们在调优集进行了探索性分析,结果再次被评估前举行的测试集,识别的细节疑似FGR和LGA eAppendix中描述的病例补充1。从1月到2022年7月执行数据分析。
我们的模型开发和评估使用数据集前瞻性收集的一部分FAMLI研究。11我们的评估进行一个测试集组成的病人独立于那些用于人工智能开发。的主要测试集由407名妇女与标准治疗超声扫描由专家超声波检验师在UNC医疗、北卡罗莱纳大学教堂山分校,在卢萨卡的社区诊所,赞比亚。成套超声胎儿生物统计学和飞到视频图像数据收集与SonoSite Turbo-M在赞比亚(268)研究或通用电气在北卡罗来纳州Voluson 8(104)研究或在赞比亚GE Logiq C3(104)研究超声机可供404 407名参与者,对应于677年的研究访问,意味着(SD)参与者年龄为28.8(5.6)年入学。
性格测试集的研究参与者中使用以下分析总结在热轧钢图(eFigure 5补充1)。研究参与者的特征包括在测试集分析eTable 1和eFigure 6所示补充1。在研究访问由超声波检验师,63名妇女(9.3%)至少有1访问在妊娠前三个月(平均(SD) GA, 78.6[14.0]天;范围44.0 - -97.0天),235名妇女(34.7%)至少有1访问期间怀孕中期(GA (SD), 156.0(27.4)天;范围、98.0 - -195.0天)和379名女性(56.0%)在怀孕后期(1或多个访问意味着(SD), 229.0(18.1)天;范围196.0 - -258.0天)。相同的纳入和排除标准被用于美国和赞比亚。然而,参与者被招募的患者接受常规产前保健,国与国之间的不同和诊所。虽然中心之间可能存在差异,这个群的目的是代表的病人通常在每个中心。有一个小差异意味着在赞比亚(SD)母亲的年龄(28.2[5.7]年)和美国(29.6[5.4]年)。此外,有更高的利率的艾滋病毒在赞比亚组(62例[27.8%])对这家美国集团(0)的病人。
遗传算法分析结果进行了总结表1。遗传算法的图像模型的整体美与美相比低标准胎儿生物统计学估计(意味着(SD)的区别,−1.13[4.18]天;95%可信区间,1.50−−0.70天)。95%可信区间的上限梅的差异值是负的,说明统计模型的优越性。
视频的整体梅斯模型和整体模型与标准相比显著降低胎儿生物统计学;整体模型最低美(平均(SD)差异,−1.51[3.96]天;95%可信区间,1.90−−1.10天),紧随其后的是视频模型(意思是(SD)差异,−1.48[4.05]天;95%可信区间,1.90−−1.10天)(图1和eFigure 7补充1)。两种模型的95%可信区间的上限梅的差异值是负的,说明统计优势。
子群分析为三个月,国家,和设备提供了eTable 2和eTable 3补充1。结果表明,我们的模型广义跨国家,较低的设备,和妊娠中期和胎儿生物统计学估计与标准相比美。差异的95%可信区间的上限在梅值小于0.1天,除了前三个月,怀孕前期的较小的样本量CIs数据集规模扩大了95%。
遗传算法分析结果进行了总结表2。整体模型有较低的美与研究所(意思是(SD)差异,−1.23[4.04]天;95%可信区间,1.60−−0.80天)和Intergrowth-21st(意思是(SD)差异,−2.69[5.54]天;95%可信区间,3.30−−2.10天)。95%可信区间的上限为梅的差异值较高,表明统计优势。
每个国家表现的分析总结了eTable 4补充1,这表明Hadlock-based GA估计的准确性接近美国Hadlock (NICHD美意味着(SD), 4.79(4.16)天;Hadlock美,4.90[4.32]天),而在赞比亚人口显著优于Hadlock (NICHD美意味着(SD), 4.96(4.84)天;Hadlock美,5.62[5.20]天)。Intergrowth-21st公式表现明显比Hadlock在整个人口研究所和其他研究证明。19,20.相比我们的整体模型的估计是对美国儿童健康与人类发展研究所和整体模型结果表明,较低的美为我们(意思是3.58(2.79)天(SD)差异;95%可信区间,1.90−−0.70天)和赞比亚(平均(SD)差异,3.70[3.57]天;95%可信区间,1.80−−0.60天),展示了鲁棒性和统计优势在所有子组。
我们的模型的分析表明,它比Hadlock-based估计更大幅度的GA的每一个疑似FGR或LGA-sized子群的数据,相比之下,病例参考(疑似non-FGR和non-LGA)患者组(表3)。人工智能模型表现疑似FGR病例(整体模型,意味着(SD)的区别,−3.46[5.69]天;95%可信区间,5.00−−1.90天)与模型性能的子群胎儿怀疑是参考尺寸(合奏模式,意味着(SD)差异,−1.08[3.34]天;95%可信区间,1.40−−0.70天)(图2)。Hadlock AI模型最大的性能改进遗传算法公式,虽然在样本容量最小的患者(26),可以观察到在疑似FGR严重病例(整体模型,意味着(SD)差异,−4.45[6.96]天;95%可信区间,7.30−−1.60天),由第三百分位AC阈值定义。我们观察到类似的现象更可观的性能提升对这些传统的挑战与静态图像模型(eTable 5子组补充1)。
在这个诊断研究中,我们表明,人工智能模型GA估计提供了改进的精度。我们表明,人工智能系统可以使用图像和飞到视频,已经收集了胎儿生物统计学测量作为标准的一部分。先前的研究21展示了自动检测的可能性的标准检查飞机获得3 d体积数据(体素);然而,三维体积数据并不是广泛用于保健的标准,因为额外的硬件要求。3模型(图像、视频和合奏)统计提供优越的遗传算法估计胎儿生物统计学与临床标准。这些模型利用整个图像或视频不需要操作员精确卡尺进行精确测量。在我们的探索性分析,我们的模型在不同的三学期制表现良好,设备和数量由2个不同的国家。GA估计是不太准确的自相关性随着妊娠的进展GA和胎儿的物理尺寸不太明显。22我们发现,在怀孕后期,我们的模型的精度优势相对于临床胎儿生物统计学标准增加了。这尤其重要,因为准确的GA估计怀孕后期管理是至关重要的并发症和关于交货时间适当的临床决策。
胎儿生长受限在怀孕是一个主要的并发症。在世界范围内,低出生体重新生儿占新生儿死亡的60%;最常见的贡献者低出生体重是早产和胎儿生长受限。23在我们的探索性分析,我们的模型相对性能大幅提高了胎儿生物统计学估计胎儿的遗传算法在怀疑FGR。这些子组是特别具有挑战性的胎儿生物统计学估计公式依赖胎儿大小的测量。更准确地识别FGR胎,将有助于指导关键的临床护理决策,如产前药物管理、产前监测间隔,和交付时间和一级治疗的需要。24,25
本研究的一个限制是,我们的子组的几个小样本大小。收集额外的超声检查在妊娠前三个月和FGR病例需要确认我们的发现。此外,虽然该研究包括病人从2国家,重要的是验证确认普遍性更多元化的人口,因为胎儿的增长模式在不同人群不同。26身体质量指数和其他相关因素也可能是有用的在将来的研究中收集和研究。还值得注意的是,我们的模型没有测试multifetal妊娠或胎儿解剖异常。的超声检查胎儿超声专家超声波检验师与经验。额外的研究与各种超声波检验师将有助于评估本研究的普遍性。此外,尽管我们表明,我们的模型达到统计学意义,需要前瞻性研究来评估临床影响。
总之,这个诊断研究表明我们的图像模型,视频模型和整体模型提供统计优秀GA估计胎儿生物统计学与临床标准。我们的模型有一个显著增加相对性能在怀孕后期,胎儿生物统计学在评估FGR胎。因为我们的模型是建立在常规胎儿超声检查期间收集的数据,他们的潜力被无缝地整合到日常临床工作流程。超声波检验师在高需求,经常和工作场所或过度伤害,由于当前扫描需求。需要额外的研究来调查一个AI兼职可以减少扫描时间,是否帮助超声波检验师,工作场所,减少伤害。人工智能模型有可能让训练有素的操作员来估计GA和更高的精度。
发表:2022年11月10日。
发表:2023年1月4日。doi:10.1001 / jamanetworkopen.2022.48685
开放:这是一个开放的分布式根据文章CC-BY-NC-ND许可证。©2023李C等。狗万体育下载地址《美国医学会杂志》网络开放。
相应的作者:追逐李女士(chacelee@google.com),和瑞恩·戈麦斯博士(ryangomes@google.com),谷歌健康,Hillview大街3400号,帕洛阿尔托,加州94304。
作者的贡献:李明博和戈麦斯博士已经完全访问所有的数据研究和负责数据的完整性和数据分析的准确性。李明博和威利斯女士的贡献同样工作。谢蒂和戈麦斯博士共同监督这项工作。
概念和设计:李,威利斯,Uddin,朝圣者,周,Shetty,戈麦斯。
数据的采集、分析或解释:所有作者。
起草的手稿:李,威利斯,陈,Uddin, Wong周,Shetty。
关键的修订手稿的重要知识内容:李,威利斯,陈、Sieniek继续萎缩,斯泰森毡帽,朝圣者,谢霆锋,戈麦斯。
统计分析:李,威利斯,戈麦斯。
获得资助:周,谢霆锋。
行政、技术或材料支持:李,威利斯,陈,继续萎缩,斯泰森毡帽,Uddin, Wong朝圣者,谢霆锋,Shetty,戈麦斯。
监督:继续萎缩,朝圣者,周,谢霆锋,Shetty,戈麦斯。
利益冲突的披露:李明博报道拥有股票在谷歌公司,作为标准的员工薪酬计划的一部分,谷歌发布了专利申请(20220354466)。威利斯报道女士拥有股票在谷歌公司,作为标准的员工薪酬包的一部分。Sieniek博士报道收到谷歌的个人费用,公司,拥有股票的字母进行研究的。朝圣者博士报道拥有股票在谷歌公司,作为标准的员工薪酬计划的一部分。谢霆锋博士报告接收个人费用从谷歌公司,谷歌的专利,公司发行。戈麦斯博士报道拥有股票在谷歌公司,作为标准的员工薪酬计划的一部分。没有其他信息披露报告。
资金/支持:这项研究的部分资金由谷歌,LLC。这项研究是由比尔和梅林达•盖茨基金会提供部分资助(赠款OPP1191684和INV003266)。
资助者的角色/赞助商:资助者没有参与这项研究的设计和实施;的收集、管理、分析和解释数据;准备、审查或批准的手稿;并决定提交出版的手稿。
免责声明:本文的结论和观点是作者的,不一定反映的比尔和梅林达•盖茨基金会。
数据共享声明:看到补充2。
额外的贡献:Yun刘博士(Google Health),提供有用的反馈手稿和没有弥补这项工作。
8。
Bano, Dromey B,塞·伐斯冈萨雷斯F,他et al。AutoFB:自动化胎儿生物统计学估计从标准超声飞机。:德Bruijne M, Cattin PC, Cotin, et al, eds。
医学影像计算和计算机辅助Intervention-MICCAI 2021。施普林格国际出版;2021:228 - 238。doi:
10.1007 / 978 - 3 - 030 - 87234 - 2 - _22
9。
Płotka,Włodarczyk T, Klasa,脂肪酶M,,服务Trzciński T。FetalNet:多任务为胎儿超声生物测量深度学习框架。:Mantoro T,李米,香鱼马,黄千瓦,Hidayanto, eds。
神经信息处理万博manbetx平台首页。施普林格国际出版;2021:257 - 265。doi:
10.1007 / 978 - 3 - 030 - 92310 - 5 - _30