要点
问题深度学习系统能否利用视网膜照片和临床特征提供可靠的早产儿视网膜病变(ROP)预测?
发现在这项包括815名婴儿数据的预后研究中,该系统的受试者工作特征曲线(auc)下的平均面积分别为0.90和0.87,用于预测ROP的发生和严重程度。对于外部验证集,auc分别为0.94和0.88。
意义这些研究结果表明,利用深度学习方法预测机械钻速具有较高的准确性和通用性。
重要性早产儿视网膜病变(ROP)是全世界儿童失明的主要原因。在发病前预测ROP对于降低失明风险有很大的希望。
客观的开发并验证一种深度学习(DL)系统来预测经后45周之前ROP的发生和严重程度。
设计、设置和参与者这项回顾性预后研究包括训练组725名婴儿的7033张视网膜照片和外部验证组90名婴儿的763张视网膜照片,每个婴儿有46个特征。根据第一次筛查到经后45周之间的最终诊断,对同一婴儿在第一次筛查时拍摄的所有双眼图像进行标记。DL系统是根据2017年6月3日至2019年8月28日出生的婴儿首次ROP筛查前或首次筛查时的视网膜照片和临床特征开发的。
曝光为了预测ROP的发生(发生网络[OC-Net])和严重程度(严重网络[SE-Net]),专门设计了两个模型。内部验证采用五重交叉验证。
主要成果及措施受试者工作特征曲线(AUC)下的面积、准确度、灵敏度和特异性来评估机械钻速预测的性能。
结果这项研究包括815名婴儿(450名[55.2%]男孩),平均出生体重为1.91 kg (95% CI, 1.87-1.95 kg),平均胎龄为33.1周(95% CI, 32.9-33.3周)。在内部验证中,OC-Net预测ROP发生的平均AUC、准确度、灵敏度和特异性分别为0.90 (95% CI, 0.88-0.92)、52.8% (95% CI, 49.2%-56.4%)、100% (95% CI, 97.4%-100%)和37.8% (95% CI, 33.7%-42.1%), SE-Net预测严重ROP的平均AUC、准确度、灵敏度和特异性分别为0.87 (95% CI, 0.82-0.91)、68.0% (95% CI, 61.2%-74.8%)、100% (95% CI, 93.2%-100%)和46.6% (95% CI, 37.3%-56.0%)。在外部验证中,OC-Net的AUC、准确度、灵敏度和特异性分别为0.94、33.3%、100%和7.5%,SE-Net的AUC、准确度、灵敏度和特异性分别为0.88、56.0%、100%和35.3%。
结论与相关性在本研究中,DL系统在ROP预测中取得了良好的精度。这种DL系统在识别ROP高风险婴儿方面可能有用。
减少儿童失明是世界卫生组织远景2020计划的主要目标之一。1作为儿童失明的主要原因,早产儿视网膜病变(ROP)估计影响全球超过184 700名儿童。2ROP的发生率和严重程度与各种因素有关,如出生体重(BW)、胎龄(GA)、氧暴露、输血和一些系统性危险因素。3.-10早期筛查可有效降低儿童失明和与ROP相关的医疗费用。11-15由于缺乏一种具有成本效益的筛查策略的广泛实施,ROP筛查对全球卫生系统的成本仍然很高。12,14虽然治疗ROP的窗口期很短,但治疗对个人、家庭、社会和国家经济具有多代人的有益影响。11,13,14因此,早期筛查、定期监测和及时治疗对早产儿至关重要。
ROP筛查已广泛采用眼底摄影(如RetCam3)进行多次纵向检查,对婴儿有压力,对眼科医生费力,在偏远地区往往无法进行。16,17能够进行ROP筛查的儿科眼科医生或视网膜专家也越来越短缺。18此外,只有不到10%的轻度ROP病例发展为威胁视力的ROP,需要进一步治疗。16,19考虑到ROP筛查需要大量的工作,需要治疗的ROP比例低,以及由于随访中断而误诊严重ROP,需要具有成本效益的项目,可以识别严重ROP的高风险婴儿。16,20.-23以往的研究使用传统的回归分析来预测基于体重、GA、性别和/或产后体重增加等因素的ROP。16,20.-24然而,其中一些预测模型存在缺陷,因为它们忽略了视网膜状态,而视网膜状态对ROP预测也很重要。25-27
深度学习(DL)近年来已被应用于许多眼部疾病的自动诊断。28-31基于RetCam图像,已经开发了多个DL系统,用于ROP附加疾病的自动化诊断,准确率高(>89.6%)。19,32-34然而,据我们所知,目前还没有DL系统能够预测ROP的发生和严重程度。在本研究中,我们基于第一次ROP筛查的视网膜照片和第一次ROP筛查前或第一次ROP筛查时的临床特征,开发了一种DL系统,用于预测经后45周年龄(PMA)前ROP的发生和严重程度。
研究流程图如图所示图1.我们回顾性收集了988名在南方医科大学珠江医院(ZHSMU)和南宁市第二人民医院(SNPH)接受ROP检查的婴儿(2017年6月3日至2019年8月28日分娩)的数据。ROP筛选标准是根据国际指南制定的,35包括体重小于1501克,GA小于或等于30周,或由儿科医生或新生儿学家确定的ROP风险。35这项研究是根据《赫尔辛基宣言》进行的36并获得中山交通大学和南京师范大学研究伦理委员会的批准。所有入选婴儿的父母均知情同意。本研究遵循个体预后或诊断的多变量预测模型的透明报告(三脚架)报告指引。
共有988名接受ROP筛查的婴儿的数据从中山医科大学和南京师范大学的筛查中心和电子病历(EMR)中检索。其中71名婴儿(7.2%)被排除在外,因为视网膜照片被标记为不可接受的评估;37名婴儿(3.7%)因无效、重复和缺失记录被排除;42名(4.3%)婴儿因未能完成随访而被排除;23名婴儿(2.3%)因在第一次筛查时具有ROP临床特征而被排除。有815名婴儿(82.5%)有完整的数据,符合DL系统的开发和验证,他们在45周PMA之前有已知的ROP结果,但在第一次筛查时视网膜照片上没有ROP的临床特征。纳入组和排除组婴儿的出生特征无显著差异(表1)补充).经认证的眼科医生从ZHSMU收集了725名婴儿的第一次筛查中的7033张图像,用于DL系统的培训和交叉验证。根据训练集的相同标准,从SNPH中获得了来自90名婴儿的第一次筛选的另外763张图像,并用于外部验证。在第一次筛查前或第一次筛查时,还收集了每个婴儿在ZHSMU和SNPH的EMR共46个临床特征。的e附录1中报告了每次随访的详细筛查时间表补充.
在每次筛选过程中,使用市售相机(RetCam;纳图斯医疗公司)。从EMR中提取每个婴儿共46个临床特征,其中产妇因素7个,新生儿因素18个,治疗因素7个,实验室因素14个。这些临床特征是根据报道的与ROP发展相关的危险因素选择的。3.,5,7,9,10,21,37-51的详细定义、收集时间和相关研究的参考文献见补充.
所有用于DL系统开发和验证的视网膜照片仅从第一次筛选中收集。所有病例均由2名具有3年以上ROP护理经验的眼科医生(S.F.和q.w)根据视网膜照片进行独立注释。由于ROP预测是在每个病例上进行的,而不是独立地对每个视网膜照片进行预测,因此同一婴儿双眼的所有视网膜照片都被定义并标记为1例。如果2名眼科医生中有1名认为视网膜照片的质量无法评估,则该病例将被排除。根据ROP的国际分类(区域、阶段和+疾病),记录每个病例的所有眼镜检查和基于图像的检查结果。52如果在该病例的视网膜照片中发现ROP的临床特征,则标记为ROP;否则,它被注释为normal。预测需要治疗的ROP, II型ROP病例;II区1期或2期ROP无附加疾病;III区1、2、3期ROP分级为轻度ROP,只需定期随访;阈值疾病、ROP 4、5期、I型或侵袭性后ROP为重度ROP,需及时治疗。35,53如果一个病例在每只眼睛中有不同的严重程度,则该病例将根据任何一只眼睛的较高ROP等级进行分级。
发生ROP的κ为0.81,严重ROP的κ为0.72,说明2位临床眼科医师在图像标注上具有良好的一致性。54此外,这些标签由一位拥有超过15年临床视网膜经验的资深视网膜专家(H.Y.)双重确认,以产生最终的注释。在DL系统的训练和验证中,这些注释被用作ground-truth标签。
文中给出了DL系统的一个实例图2.ROP预测由2个任务组成。一是预测PMA前45周ROP发生情况;二是预测ROP的严重程度。针对这两项任务,开发了具有相似网络结构的事件网络(OC-Net)和严重性网络(SE-Net)。OC-Net使用的预测标签为正常的而且罗普, SE-Net使用的预测标签为轻度罗普而且严重罗普.
在进行深度特征学习之前,对输入图像进行多个预处理步骤来标准化。在残差网络- 50 (Microsoft Corp)进行预处理和表征后,从全球平均池层提取的每张视网膜照片的512个特征,与同一病例的46个临床特征连接到558维的最终向量中。在558个具有代表性的特征向量上训练深度神经网络,生成每张视网膜照片的预测概率。
我们采用了3种不同的训练方案(即多数投票、1票否决和图像级方法)来输出基于概率阈值的预测标签。关于DL系统的开发和验证以及不同的培训计划的详细信息载于补充.
对于三种训练方案的内部验证,在训练集(包括发生数据集和严重数据集)上采用5重交叉验证的方式。记录5次跑步的表现指标的平均值和95% CI,以衡量3个训练方案的整体表现。然后,将3种训练方案中的最佳方案部署到DL系统中进行进一步验证,灵敏度要求为100%。采用灵敏度为100%的OC-Net和SE-Net进行外部验证。此外,我们从最后的全连接层中获得每个特征的所有权重,并通过归一化计算所有特征的权重比,以反映特征对DL系统的重要性。权重比越大,对应的特征对预测任务越重要。
为了更好地证明我们的深度学习系统的预测精度,我们还评估了常用算法ROPScore的性能。ROPScore可在线获取,也可用于预测每个婴儿在45周PMA前ROP的发生和严重程度。23,24的e附录4中提供了关于使用ROPScore进行验证的详细信息补充.将ROPScore的预测性能与DL系统进行了比较。
为了可视化视网膜照片中与ROP预测高度相关的关键区域,使用梯度- cam生成显着图并增强DL系统的可解释性。55Grad-CAM计算特征权重以生成热图,突出显示在最终预测中发挥重要作用的区域。55通过可视化显著性图,我们可以观察和确定潜在眼底特征对最终ROP预测的贡献。
参考ground-truth标签的预测标签分解被描述为混淆矩阵,用于用3种训练方案(Python版本3.7.0 [Python软件基金会])计算OC-Net和SE-Net的准确性、灵敏度和特异性。我们还使用接受者工作特征曲线(AUC)下的面积来确定DL系统的预测性能,参考地面真相标签,并进行校准图来检查DL系统中风险的高估或低估。21
纳入的815例婴儿中,男孩450例(55.2%),平均GA为33.1周(95% CI为32.9 ~ 33.3周;中位数33周;25 ~ 40周),平均体重为1.91 kg (95% CI为1.87 ~ 1.95 kg;中位,1.92 kg;范围,0.75-3.80 kg)(图1在补充).训练和外部验证集的人口统计学特征总结在表1.
在纳入训练集的725例病例中,542例(74.8%)标注为正常,183例(25.2%)标注为ROP。在183例ROP病例中,轻度ROP 116例(63.4%),重度ROP 67例(36.6%)。的表2总结了OC-Net和SE-Net的3种训练方案的结果补充.在3个培训方案中,主投票方案在OC-Net和SE-Net的综合性能都是最好的。因此,在100%灵敏度的要求下,部署主投票方案进行进一步验证。将OC-Net阈值调整为0.10,SE-Net阈值调整为0.26后,OC-Net和SE-Net在相同模型结构下,对所有ROP和严重ROP病例的捕捉灵敏度均达到100%。21,22
当阈值为0.10时,OC-Net预测ROP发生的平均AUC为0.90 (95% CI, 0.88-0.92),准确度、灵敏度和特异性分别为52.8% (95% CI, 49.2%-56.4%)、100% (95% CI, 97.4%-100%)和37.8% (95% CI, 33.7%-42.1%) (表2而且图3A).当阈值为0.26时,SE-Net预测严重ROP的平均AUC、准确度、灵敏度和特异性分别为0.87 (95% CI, 0.82-0.91)、68.0% (95% CI, 61.2%-74.8%)、100% (95% CI, 93.2%-100%)和46.6% (95% CI, 37.3%-56.0%) (表2而且图3B)。此外,主要投票方案的校准图表明,该模型具有良好的自适应能力(图3)补充的e附录5中描述了DL系统的临床特征的改善补充.
在纳入外部验证集的90例病例中,65例(72.2%)注释为正常,25例(27.8%)注释为ROP。25例ROP中,17例(68.0%)为轻度ROP, 8例(32.0%)为重度ROP。使用相同的阈值作为内部验证,OC-Net的AUC、准确度、灵敏度和特异性分别为0.94、33.3%、100%和7.5%,SE-Net的AUC、准确度、灵敏度和特异性分别为0.88、56.0%、100%和35.3% (表2而且图3).
为了探讨预测不正确的病例的特征,我们比较了ROP发生和严重程度预测的假阴性和真阳性结果之间的出生特征。对于OC-Net,主要投票方案预测21名(10.1%)ROP婴儿不会有ROP,而187名(89.9%)ROP婴儿被正确预测。与真阳性结果的婴儿相比,假阴性结果的婴儿更有可能通过剖宫产出生,GA更晚,BW更大,全身状况更好,输血和氧气治疗的需求更少(表3)补充).对于SE-Net,主要投票方案预测10名(13.3%)严重ROP的婴儿将有轻度ROP,而65名(86.7%)严重ROP的婴儿被正确预测。与真阳性结果的婴儿相比,假阳性结果的婴儿有更大的BW,更低的颅内出血患病率,更少需要输血红细胞(RBC)(表4)补充).
使用训练数据集,ROPScore预测ROP发生的平均AUC、准确性、敏感性和特异性分别为0.76 (95% CI, 0.72-0.80)、69.0% (95% CI, 65.6%-72.3%)、61.7% (95% CI, 54.3%-68.7%)和71.4% (95% CI, 67.4%-75.1%),预测严重ROP的平均AUC、准确性、敏感性和特异性分别为0.67 (95% CI, 0.59-0.75)、67.8% (95% CI, 64.4%-71.2%)、53.7% (95% CI, 41.2%-65.8%)和75.9% (95% CI, 66.9%-83.1%) (表2).使用外部验证数据集,ROPScore预测ROP发生的平均AUC、准确性、敏感性和特异性分别为0.76 (95% CI, 0.72-0.80)、58.9% (95% CI, 55.3%-62.5%)、100% (95% CI, 83.4%-100%)和43.1% (95% CI, 31.1%-55.9%),预测严重ROP的平均AUC、灵敏度和特异性分别为0.80 (95% CI, 0.62-0.98)、60.0% (95% CI, 56.4%-63.6%)、100% (95% CI, 59.8%-100%)和41.2% (95% CI, 19.4%-66.5%)。表2).
显著图有助于突出DL系统用于ROP预测的区域。显着图中的热度代表了视网膜照片上区域对最终预测的重要性。颜色越红表示对DL系统的贡献越大;颜色越蓝表示对DL系统的贡献越小。OC-Net显著图主要突出视盘及视盘周围的血管和区域。对于SE-Net,显著性图主要突出视盘周围的鼻下区域(图4)补充).这些结果提示视盘及周围区域的眼底特征对ROP的发展可能有一定的预测价值。
为了确定DL系统中最重要的临床特征,我们计算了所有特征在OC-Net和SE-Net的最后一个全连接层中的权重比。结果发现GA、BW、使用红细胞输注、机械通气使用氧气和发生呼吸窘迫综合征(总重量比≥36%)是OC-Net预测ROP发生的5个最关键的特征。BW、GA、剖宫产、使用红细胞输注和发生脑室出血(总重量比≥34%)是SE-Net预测严重ROP的5个最关键的特征(图2)补充).
在本研究中,基于第一次筛查的视网膜照片和第一次筛查前或第一次筛查时收集的临床特征,开发了一个DL系统来预测45周PMA前ROP的发生和严重程度。结果表明,采用DL系统和主投票方案进行机械钻速预测是有希望的。在DL系统的帮助下,眼科医生和家长可以得到提醒,以确保在ROP发生前进行定期筛查。该DL系统还可用于减轻小儿眼科医生的工作量,提高严重ROP的治疗率。
一些研究人员使用回归分析来预测基于产前和产后因素的ROP。16,20.-23这些预测模型能够早期识别视力威胁性ROP高危婴儿,可能提高ROP筛查的效果。然而,视网膜状态对ROP预测也很重要。既往研究表明,轻度血管扩张、良性疾病中血管弯曲不全、第一次筛查时颞部血管化程度、视网膜不成熟对ROP早期的预后有重要意义。25-27因此,我们开发了DL系统,使用第一次筛查的视网膜照片以及临床特征来预测ROP的发生和严重程度。我们的研究结果表明,利用DL技术整合视网膜和其他临床信息,可以实现可靠的ROP预测精度。万博manbetx平台首页此外,我们比较了假阴性和真阳性结果之间的出生特征,以预测ROP的发生和严重程度(表3和表4)补充).这项调查将帮助我们更好地了解ROP诊断漏诊或严重程度预测错误的婴儿的特征,并制定策略以最大限度地减少未来的误诊风险。
为了选择DL系统的最佳输出模式,我们采用了3种不同的训练方案。考虑到眼科医生根据筛查中拍摄的所有视网膜照片来诊断ROP,多数投票方案可能比其他方案更接近临床现实。但是,当对ROP有多个主要危险因素的婴儿有较高敏感性时,可采用1票否决法。在100%灵敏度要求下,我们验证并比较了ROPScore与DL系统的预测性能。SE-Net和ROPScore在预测严重ROP方面的特异性和准确性具有可比性。
我们的DL系统有两个有希望的结果。首先,早期发现ROP高危婴幼儿,特别是重度ROP,可以促使眼科医生和家长进行眼底筛查,减少重度ROP患儿因随访中断而误诊和未治疗的风险,从而进一步减少儿童盲症和社会负担。13-15这也是为什么我们将ROP病例分为轻微和严重两类,因此如果预测结果是严重的ROP,则会提出更多的警报。其次,ROP筛查的全球成本仍然很高,尤其是在偏远地区。12,14,18没有儿科眼科医生的地区托儿所通常会将高危婴儿转移到三级医院进行筛查,这将产生巨大的成本,并延误治疗。11,12,35然而,使用数字摄影和远程医疗的筛查项目可以提高卫生系统的成本效益,并降低婴儿运输的风险。11,12,35
为了最小化黑盒效应,增加模型的透明度,30.,31我们使用梯度- cam生成显著性图,以突出第一次筛查视网膜照片中对ROP预测贡献最大的潜在区域。值得注意的是,显著性图显示OC-Net主要根据视盘和视盘周围的血管和区域预测ROP发生,而SE-Net主要根据视盘周围的鼻腔和下方区域预测严重ROP(图4)补充).这些探索性发现有助于我们进一步了解ROP过程中血管异常的病理生理机制和进化。先前的研究表明,早产儿的全球平均、鼻和上盘视网膜神经纤维层(RNFL)厚度降低,而严重ROP儿童的平均RNFL厚度较薄。56,57因此,视盘及周围区域的眼底特征对ROP的预测可能具有一定的预测价值。此外,DL算法可以识别和解释医生无法感知的病理特征,无论他们的临床经验如何。
未来,我们的DL系统可能会集成到云计算平台中,用于远程医疗ROP筛查。通过网站上传第一次筛查的视网膜照片和婴儿的临床特征后,可以自动生成ROP预测。在最初的预测报告完成后,人类专家将对其进行在线评估,并生成带有个性化随访方案和临床决策的最终报告。
我们的研究有一些局限性。首先,DL系统的广泛性可能受到不同研究之间临床特征流行率差异的限制。我们的DL系统需要通过其他潜在的多中心数据集进一步验证。其次,DL系统只能预测ROP的发生以及是轻度还是重度ROP。未来需要开发更先进的DL系统,可以提供更详细的预测(例如,加上疾病、阶段和区域)。
在本研究中,我们的DL系统根据第一次ROP筛查的视网膜照片和第一次筛查前或第一次筛查时测量的临床特征,对PMA前45周ROP的发生和严重程度进行了准确的预测。DL系统可能有助于识别发生ROP的高风险婴儿,并减少由ROP引起的失明。
接受出版:2022年4月29日。
发表:2022年6月16日。doi:10.1001 / jamanetworkopen.2022.17447
开放:这是一篇开放获取的文章,根据CC-BY许可证.©2022吴q等。狗万体育下载地址JAMA网络开放.
相应的作者:于宏华博士,广东省眼科研究所,广东省医学科学院附属广东省人民医院眼科,广州市中山二路106号,广东510080 (yuhonghua@gdph.org.cn);南方医科大学珠江医院眼科博士,广州工业大道中253号,广东广州510280 (fsf516@163.com).
作者的贡献:余博士完全查阅了研究中的所有数据,并对数据的完整性和数据分析的准确性负责。Q. Wu, Hu和Mo博士同样做出了贡献,被认为是共同第一作者。
概念及设计:吴问,胡,莫,吴荣,吴,冯,于。
数据的获取、分析或解释:吴q,胡,莫,吴r,张,杨,刘,肖,曾,林,方,王,陆,宋,冯,于。
文稿起草:吴问,胡瑞武,刘,王,吴。
对重要知识内容的手稿的批判性修订:Q.吴、胡、莫、张、杨、刘、晓、曾、林、方、陆、宋、冯、于。
统计分析:吴问,莫,吴荣,张,刘,晓,曾,方,于。
获得资助:歌,。
支持:行政、技术或物质上的支持:冯,余。
监督:胡,张,杨,陆,宋,吴,冯,于。
利益冲突披露:没有报道。
资金/支持:于博士获国家自然科学基金资助项目81870663和82171075;广州市科技局202206010092;广东省人民医院优秀青年人才培养计划KJ012019087;广东省人民医院人才引进基金资助项目Y012018145。
资助者/发起人的角色:资助者在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。
附加信息:万博manbetx平台首页数据集可根据要求从相应作者处获得。
1.
吉尔伯特c,福斯特a;《视觉2020》背景下的儿童盲症——视力权。
牛世界卫生机构.2001, 79(3): 227 - 232。
PubMed
谷歌学者
39.
高志勇,陈志勇,杨晓明Ö,等。利用临床危险因素和血清胰岛素样生长因子-1水平预测早产儿视网膜病变。
眼科.2017; 10(11): 1722 - 1727。
PubMed
谷歌学者
55.
Selvaraju rr#, Cogswell m#, Das a#, Vedantam r#, Parikh d#, Batra d#。Grad-CAM:基于梯度定位的深度网络视觉解释.IEEE国际计算机视觉杂志;2017:618 - 626。