要点
问题无创深度学习模型能否根据超声图像识别21三体胎儿?
发现在这项包括822例病例和对照组的诊断研究中,深度学习模型在训练集和验证集中对21三体胎儿的识别表现良好。深度学习模型曲线下面积高于颈部半透明标记和母亲年龄模型。
意义这些发现表明,这种深度学习模型是一种潜在的工具,可以促进对21三体胎儿的普遍初级筛查。
重要性在妊娠早期对21三体进行准确的筛查可以为生育选择提供早期的决策机会。
客观的开发并验证基于超声图像筛选21三体胎儿的深度学习模型。
设计,设置和参与者该诊断研究使用了2009年1月至2020年9月期间在中国2家医院登记的所有可用病例和对照的数据。我们检查了胎龄大于11周和小于14周的单胎妊娠胎儿面部正中矢状面二维图像。观察者对主观胎儿颈部透明度(NT)标记测量不知情。利用卷积神经网络构建深度学习模型。应用数据增强来生成更多的数据。随机选择不同的组作为训练和验证集,以评估深度学习模型的鲁棒性。显示并测量胎儿NT。每次检测21三体均通过绒毛膜绒毛取样或羊膜穿刺术证实。数据分析时间为2021年3月1日至2022年1月3日。
主要成果和措施主要结果是检测胎儿是否患有21三体。采用受试者工作特征曲线、准确度指标、曲线下面积(AUC)、灵敏度和特异性对模型性能进行评价。
结果研究共纳入822例病例和对照受试者(平均[SD]年龄31.9[4.6]岁),其中训练组550例(平均[SD]年龄31.7[4.7]岁),验证组272例(平均[SD]年龄32.3[4.7]岁)。深度学习模型在训练中表现出良好的21三体筛查效果(AUC, 0.98;95% CI, 0.97-0.99)和验证(AUC, 0.95;95% CI, 0.93-0.98)组。深度学习模型对21三体胎儿的检测效果优于含有NT标记和母亲年龄的模型(训练:AUC, 0.82;95% ci, 0.77-0.86;验证:AUC, 0.73;95% ci, 0.66-0.80)。
结论与相关性这些发现表明,这种深度学习模型可以准确地筛选21三体胎儿,这表明该模型是促进21三体普遍初级筛查的潜在工具。
21三体是导致儿童发育迟缓和智力残疾的最常见的染色体异常疾病。1在过去的几十年里,对21三体的精确筛查已经得到了广泛的研究,它可以为怀孕前三个月的生育选择提供早期的决策机会。2目前,对无细胞胎儿DNA验证的分析显示,在筛查21三体时准确率很高(高达99%)。3.,4然而,一些研究表明,考虑到无细胞胎儿DNA检测的潜在高成本,应该探索进一步节省成本的方法。4,5
几十年来,超声图像因其安全、方便、成本低等优点,被广泛用于胎儿21三体的筛查。6,7胎儿颈部半透明(NT)厚度,在超声图像测量,已用于筛选胎儿与21三体。7,8此外,2021年的一项研究7还发现一些测量的标记(如鼻前皮肤厚度,鼻骨长度)对21三体筛查有重要意义。然而,这些标记需要超声医师在超声低分辨率图像中进行详细的注释和测量。因此,需要探索一种更好的人工智能(AI)方法来准确筛查21三体。
在过去的十年中,基于机器学习的人工智能在癌症预测和筛查方面取得了令人鼓舞的发现,在医学图像分析领域受到了广泛关注。9,10使用深度学习(DL)方法,特别是卷积神经网络(cnn)进行定量医学图像分析的最新进展已经显示出显着的性能,例如基于计算机断层扫描图像的分类11,12以及基于核磁共振成像的预测13-15计算机断层扫描图像。16-18在超声图像分析领域,以往的研究利用cnn取得了显著的突破,如乳腺癌和肝癌的诊断和分类。19-21然而,端到端深度学习网络模型是否能够自动捕获鉴别特征以准确地促进胎儿21三体的筛查仍然未知。
在这项研究中,我们重点研究了基于超声图像的无创DL模型是否可以筛查胎儿21三体。因此,我们假设DL模型能够准确地筛选胎儿是否患有21三体。
本诊断性研究获得了各参与机构审查委员会的伦理批准。我们放弃了患者知情同意的要求,因为我们认为收集临床数据非常紧迫。本研究是根据诊断准确性报告标准(标准)报告准则。
本诊断性研究采用回顾性数据。主要结果是检测胎儿是否患有21三体。我们提出了一个浅CNN,命名为Trisomy21Net,用于开发深度学习模型。超声图像的DL模型流程图如图1所示补充.采用受试者工作特征(ROC)曲线评价模型的性能。
我们纳入了2009年1月至2019年2月期间北京妇产医院超声科和2018年4月至2020年9月期间石家庄妇产医院超声科所有可用的病例和对照。我们通过记录新生儿检查来验证整倍体的对照。所有超声图像数字化存储在医院信息系统中。万博manbetx平台首页采用Voluson E8 (GE)、Voluson E10 (GE)、WS80A (Samsung)、HS70A (Samsung)超声仪采集超声图像。我们制定了4个入选标准。首先,我们选择了妊娠11周以上和妊娠14周以下的妊娠早期胎儿面部正中矢状面二维超声图像。其次,由3名有资质的超声医师(y.s.、c.s.和q.w)对胎儿的NT进行测量。两名超声医师对NT标记进行了注释。如果在注释上有分歧,他们会与第三位超声医师讨论最终协议。第三,确定本研究病例的胎儿核型标准。 Fourth, we included only fetuses with complete clinical data (maternal age and the measurement of NT marker). Finally, 822 cases with 3303 ultrasonographic images (548 euploid fetuses with 2359 images and 274 fetuses with trisomy 21 with 944 images) were selected according to the recruitments. The flowchart of data collection is shown in图1.
NT测量由经过培训和认证的超声技师根据国际妇产科超声学会的实践指南进行。8超声仪的测量精度为0.1 mm。先取胎儿矢状面,放大后仅显示胎儿头部和上胸。在标准超声图像上,鼻尖和腭的矩形形状在前。中间为半透明间脑,后为颈膜。正确放置卡尺(开-开)测量颈颈膜与覆盖颈椎的软组织边缘之间的最大距离NT。如果满足所有标准的测量值超过1个,则记录最大测量值。
对于原始的超声图像,一些基本信息记录在图像的边缘,这可能会导致筛选模型的性能不佳。万博manbetx平台首页此外,一些研究表明,从胎儿头部位置观察到的许多标记在筛查21三体中具有重要意义。7因此,我们只关注胎儿头部区域来训练我们的模型。每个原始超声图像是由一个边界框分割,而不是由超声医师划定边界。所使用的分段超声图像的示例见图2.我们仔细检查了所有定制的图像,以确保包括完整的头部。采用数据增强策略,从现有图像中生成更多不同形式变换的训练数据。18我们使用Keras DL软件进行数据增强,包括翻转、转换、旋转、缩放和裁剪。
我们提出了一个11层的浅Trisomy21Net深度学习模型。我们模型的输入是预定义的大小224 224像素。如图1所示补充,我们的模型由一个自定义残差块组成,以提取不同层次的特征。22-24特征映射被可视化,以显示模型关注的判别信息(见图1)万博manbetx平台首页补充)。采用drop - out法避免过拟合。采用随机初始化方法。对于超参数设置,我们使用TensorFlow机器学习库(谷歌)作为后端实现了Kera DL库。我们还使用了初始学习率为0.0001,批大小为16,每次迭代300个epoch。基于Keras库的Adam优化器使用了一个默认参数。我们将模型的概率值定义为每个胎儿的风险评分。风险评分范围为0 ~ 1。风险评分越高,胎儿患21三体的风险越高。同时,利用二元交叉熵对模型进行训练。 In the process of training, we exploited the strategy of dynamically adjusting learning rate to get the best trained model.
为了显示DL模型的优越性,我们构建了一个只包含NT标记的模型,modelNT,一个有NT标记和母亲年龄的模型,模型元+年龄,训练集550例,验证集272例。使用简单随机抽样的方法,将这些病例和对照按2:1的比例分为训练和验证数据集。我们还构建了一个组合模型(modelDL +年龄)使用DL风险评分与母亲年龄相结合来研究母亲年龄是否可以作为一个协变量来提高筛查效果。采用AUC、准确性、敏感性和特异性对4种模型进行评价。
为了进一步以人类可读的形式解释DL模型,我们使用了类激活图(CAM)技术来阐明模型关注的内容以及它如何明确地使CNN学习风险评分的判别特征。25,26因此,我们将模型的响应区域可视化,从2个角度生成CAM在图像中可视化的不同定位地图:(1)随机选择几个案例,可视化感兴趣区域(ROI),(2)可视化自学习多层(6层)特征,从浅层到深层。我们提议的Trisomy21Net的代码已经在Github存储库中提供。27
我们使用R软件4.0.4版本(R Project for Statistical Computing)进行统计分析。绘制ROC曲线来评估模型的性能。我们还计算了数值结果的95% ci。28当双侧分析时,结果被认为具有统计学意义P值小于0.05。我们使用t曼-惠特尼测试U检验连续变量和χ2检验或费雪检验的分类变量,视情况而定。数据分析时间为2021年3月1日至2022年1月3日。
共有822名病例和对照组参与者(平均[SD]年龄31.9[4.6]岁)入组研究。训练集中有550名参与者(平均[SD]年龄,31.7[4.7]岁),验证集中有272名参与者(平均[SD]年龄,32.3[4.7]岁)。
我们基于550名参与者的2140张超声图像训练了我们的DL模型。模型图像)。训练集的AUC为0.97 (95% CI, 0.97-0.98),验证集的AUC为0.94 (95% CI, 0.92-0.95)补充)。在训练集中,准确率为0.92 (95% CI, 0.91-0.93),灵敏度为0.90 (95% CI, 0.88-0.92),特异性为0.93 (95% CI, 0.92-0.94)。在验证集中,准确度为0.89 (95% CI, 0.87 ~ 0.91),灵敏度为0.92 (95% CI, 0.94 ~ 0.95),特异性为0.76 (95% CI, 0.71 ~ 0.80)。
我们还构建了患者级深度学习模型model戴斯。莱纳姆:与胎儿NT标志物比较。模型戴斯。莱纳姆:是通过计算每个胎儿的所有超声图像的平均风险评分得出的图像.为了比较,我们绘制了模型的ROC曲线NT、模型元+年龄、模型DL +年龄在同一个训练集(图3)。如所示表格,我们发现一致的结果,NT标记是21三体筛查训练集中的重要指标(AUC = 0.78;95% ci, 0.73-0.83)。7然而,在验证集中,NT的性能很差(AUC = 0.69;95% ci, 0.61-0.76)。模型元+年龄在训练中表现较好(AUC = 0.82;95% CI, 0.77-0.86)和验证(AUC = 0.73;95% CI, 0.66-0.80)组。模型戴斯。莱纳姆:与其他模型相比,在训练中表现最佳(AUC = 0.98;95% CI, 0.97-0.99)和验证(AUC = 0.95;95% CI, 0.93-0.98)组。模型间差异有统计学意义戴斯。莱纳姆:和模型元+年龄(P<措施)。
如图所示图4,我们随机选取4个具有代表性的案例和对照来展示深度学习关注的roi。一个胎儿(内径44英寸)图4)经DL模型和NT标记诊断为21三体阴性,但核型分析为阳性。虽然部分病例NT标记较短,难以通过临床特征和超声图像视觉观察来筛查胎儿是否为21三体,但DL模型能够根据超声图像聚焦出亮点。我们在不同层次的特征图中使用了CAM技术,以展示深度学习模型如何专注于roi来筛选21三体胎儿(见图3)补充)。26在前5个层次中,DL模型通过卷积运算生成可视化的定位图,显示DL模型关注的位置。在最后一个级别,第6级,最敏感的区域被我们的模型激活。高危评分采用4个模型(模型戴斯。莱纳姆:: 0.74;模型DL +年龄: 0.89;模型NT: 0.72;模型元+年龄: 0.67)。相反,与21三体胎儿相比,整倍体胎儿的例子表明,高度反应区域在前额区域被激活。获得较低的风险评分(模型戴斯。莱纳姆:: 0.27;模型DL +年龄: 0.01;模型NT: 0.24;模型元+年龄: 0.18)(图3中的补充)。
为了研究不同训练集的选择对所有收集到的图像的潜在影响,我们将数据随机分为3个相等的部分(随机选择2部分作为训练集,其余部分作为验证集)来评估我们模型的鲁棒性。中的图4补充给出了模型在不同训练集和验证集下的性能。对于训练集或验证集中的每个DL模型,auc均大于0.90。我们的结果表明,无论训练集和验证集的划分如何,DL模型都具有鲁棒性。
在这项诊断研究中,我们构建了一个自动准确筛选21三体的DL模型。我们通过实验证明,与现有的基于NT和母亲年龄的筛查方法相比,DL模型在筛查21三体胎儿方面具有更高的准确性。同时,对模型稳健性的评估也表明,我们的模型在妊娠早期筛查21三体是稳健性的。
我们之前的研究发现大多数21三体胎儿的NT标记厚度较厚,而整倍体胎儿的NT标记厚度较薄。7研究结果表明,该模型的性能元+年龄在训练集和验证集中很容易受到胎儿NT厚度测量分布的影响。然而,深度学习模型在验证集中比模型实现了更高的精度元+年龄在训练集中实现,而模型元+年龄在训练集和验证集表现不佳。主要原因是DL模型可以通过池化和卷积操作从胎儿头部学习到更丰富的信息(不局限于NT厚度特征)。万博manbetx平台首页此外,尽管由于21三体胎儿的稀缺而存在样本量分布的不平衡,但DL模型的筛选稳定性和鲁棒性评估结果显示,该模型具有良好的可靠性戴斯。莱纳姆:对训练集和验证集中不平衡样本量的分布具有鲁棒性。因此,我们的方法是一种潜在的初级筛查工具,可以减轻超声检查人员对所有需要筛查的孕妇的标记注释和评估负担。
多数21三体筛查研究主要分析1项或数项面部定量指标的诊断价值。我们前期的研究发现,一些胎儿面部标记、面部角度和面部轮廓线是筛查21三体的重要标记。7然而,手工标记是费时的注释,并受主观经验的影响,以评估这些观察。既往研究发现,小鼻是21三体胎儿的共同特征,有研究表明,胎儿鼻骨长度和前额叶间隙比是筛查21三体的代表性指标。29,30.然而,这些标记太小,无法精确测量。我们的深度学习模型利用卷积、池化和非线性变换的操作来关注胎儿头部的代表性特征。我们使用CAM进一步揭示局部聚焦区域,这表明模型也可能学习到软标记,如脉络膜丛囊肿或脑室肿大。CAM可视化的第一个5级特征图可以生动地展示代表性特征的学习过程。最后一层(第6层)应用的CAM可以显示模型决策的可视化响应区域。我们的模型能够定位鼻骨长度和前额叶空间的区分区域。可视化的例子表明,我们的DL模型专注于不同的区域来筛选整倍体胎儿和21三体胎儿,这对于一个强大的模型来说是合理的,可以像人类一样以灵活的方式识别标记。
我们的研究有几个局限性。我们使用粗框进行裁剪,以减轻分割的负担。研究更省力、更准确的自动分割筛选21三体胎儿的方法有待进一步研究。我们的研究只关注21三体胎儿;未来的工作应该研究同时患有18和13三体的胎儿的CNN网络的多任务学习。样本量有限,因此筛选模型依赖于合格的超声图像。因此,需要进一步的工作来训练一个鲁棒的、普遍适用的深度学习模型来进行大规模的筛选。此外,未来的工作还应该考虑和解决在图像存档之前实时识别标准化地标(例如,圆形间脑,相对明亮的枕骨)的实际问题。虽然我们的研究使用像素归一化来减少图像颜色差异对模型鲁棒性的潜在影响,但还需要进一步研究不同超声设备的不同超声图像颜色梯度差异的潜在影响。
虽然我们用DL模型可视化了高响应区域,但我们仍然无法定量评估不同特征对模型决策的重要性。进一步的研究将用于可视化技术,以定量评估不同特征对DL模型结果的权重。
在临床实践中,一些21三体胎儿的NT标记物在参考范围(0-2.5 mm)内,面部轮廓无明显异常,可能导致筛查结果不正确。例如,外壳(ID为44英寸)图4)经DL模型和NT标记诊断为21三体阴性,但核型分析为阳性。因此,我们的方法需要进一步研究,设计一个多任务模型来探索NT标记长度的预测性能,这对降低假阴性率有意义。
本诊断研究提出了一种用于筛选21三体胎儿的DL模型。我们的模型是一个潜在的工具,以提高基于超声图像的原发性21三体筛查的普遍临床应用。
接受发表:2022年4月19日。
发表:2022年6月21日。doi:10.1001 / jamanetworkopen.2022.17854
开放:这是一篇开放获取的文章,在CC-BY许可证.©2022张磊等。狗万体育下载地址JAMA网络开放.
通讯作者:吴青青,医学博士,首都医科大学附属北京妇产科医院。100026北京市朝阳区姚家院路251号北京市妇幼保健医院(qingqingwu@ccmu.edu.cn);田杰博士,中国科学院自动化研究所,中科院分子成像重点实验室,北京中关村东路95号,100190 (jie.tian@ia.ac.cn)。
作者的贡献田博士对研究中的所有数据有完全的访问权,并对数据的完整性和数据分析的准确性负责。张博士、董博士、孙妍博士和孙c博士对这项工作贡献均等。
概念与设计:张东,孙彦,孙超,吴,田。
数据的获取、分析或解释:张东,孙毅,胡,吴,田。
手稿起草:张东,孙毅,胡,田。
对手稿重要知识内容的批判性修改;张东,孙翀,吴田。
统计分析:
获得资助:盾,田。
行政、技术或物质支持:张,孙彧,胡,孙翀,吴。
监督:董,孙,吴,田。
利益冲突披露:没有报道。
资金/支持:国家科学技术部项目(批准号:2017YFA0205200)、国家重点研发计划项目(批准号:2017YFC1309100)、国家自然科学基金项目(批准号:82022036、91959130、81971776、81771924、6202790004、81930053、8197070119)、北京市自然科学基金项目(批准号:8197070119)资助。中国科学院战略重点研究项目(批准号:L182061);中国科学院科学基金项目(XDB 38040200);GJJSTD20170004、QYZDJ-SSW-JSC005),珠海市高层次人才引进项目(批准号:复杂系统管理与控制国家重点实验室专项基金(批准号2022QN03)、中国科学院青年创新促进会专项基金(批准号2017175)。
资助者/保荐人的角色:资助者在研究的设计和实施中没有任何作用;收集、管理、分析和解释数据;审稿:手稿的准备、审查或批准;并决定投稿发表。
额外的贡献:我们感谢中国科学院自动化研究所多模态生物医学成像实验平台的仪器和技术支持。
26.
Selvaraju r_, Cogswell m_, Das a_, Vedantam r_, Parikh d_, Batra d_。梯度凸轮:通过基于梯度的定位,来自深度网络的视觉解释。
2017 IEEE计算机国际会议.2017:618 - 626。doi:
10.1109 / ICCV.2017.74
谷歌学者