要点
问题在癌症患者中,与标准方法相比,自动深度学习技术是否改善了致病性种系遗传变异的检测?
发现在这项回顾性收集的2个前列腺癌和黑色素瘤患者方便队列的横截面分析中,与标准遗传分析方法相比,使用深度学习技术在118个癌症易感性基因中发现了更多的致病性变异(在1072名前列腺癌患者中鉴定出198对182个变异;在1295例黑色素瘤患者中鉴定出93 vs 74个变异)。
意义在前列腺癌和黑色素瘤患者中发现的致癌致病变异的数量部分取决于用于分析序列数据的自动化方法,但需要进一步的研究来了解对临床管理和患者结局的可能影响。
重要性不到10%的癌症患者有可检测到的致病性种系改变,这可能部分是由于不完全的致病性变异检测。
客观的评估深度学习方法是否能在癌症患者中识别出更多的种系致病性变异。
设计、设置和参与者在2010年至2017年期间在美国和欧洲登记的2个前列腺癌和黑色素瘤方便队列中,对标准生殖细胞检测方法和深度学习方法进行了横断面研究。临床数据最终收集时间为2017年12月。
曝光使用标准或深度学习方法进行种系变异检测。
主要成果及措施主要结果包括118个癌症易感性基因的致病性变异检测表现,包括敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。次要结果是美国医学遗传学和基因组学学院(ACMG)认为可操作的59个基因和5197个临床相关孟德尔基因的致病变异检测性能。由于缺乏标准参考标准,无法计算真敏感性和真特异性,但分别估计为每种方法在由两种方法判断有效的所有变体组成的参考变体集中识别的真阳性变体和真阴性变体的比例。
结果前列腺癌队列包括1072名男性(诊断时的平均年龄为63.7[7.9]岁;857例(79.9%)为欧洲血统),黑色素瘤队列包括1295例患者(诊断时的平均[SD]年龄为59.8[15.6]岁;488名(37.7%)女性;1060(81.9%)欧洲血统)。与标准方法相比,深度学习方法识别出更多癌症易感性基因的致病性变异患者(前列腺癌:198 vs 182;黑色素瘤:93 vs 74);敏感性(前列腺癌:94.7% vs 87.1%[差异,7.6%;95% CI, 2.2% ~ 13.1%];黑色素瘤:74.4% vs 59.2%[差异为15.2%;95% CI, 3.7%至26.7%),特异性(前列腺癌:64.0% vs 36.0%[差异,28.0%; 95% CI, 1.4% to 54.6%]; melanoma: 63.4% vs 36.6% [difference, 26.8%; 95% CI, 17.6% to 35.9%]), PPV (prostate cancer: 95.7% vs 91.9% [difference, 3.8%; 95% CI, –1.0% to 8.4%]; melanoma: 54.4% vs 35.4% [difference, 19.0%; 95% CI, 9.1% to 28.9%]), and NPV (prostate cancer: 59.3% vs 25.0% [difference, 34.3%; 95% CI, 10.9% to 57.6%]; melanoma: 80.8% vs 60.5% [difference, 20.3%; 95% CI, 10.0% to 30.7%]). For the ACMG genes, the sensitivity of the 2 methods was not significantly different in the prostate cancer cohort (94.9% vs 90.6% [difference, 4.3%; 95% CI, –2.3% to 10.9%]), but the deep learning method had a higher sensitivity in the melanoma cohort (71.6% vs 53.7% [difference, 17.9%; 95% CI, 1.82% to 34.0%]). The deep learning method had higher sensitivity in the mendelian genes (prostate cancer: 99.7% vs 95.1% [difference, 4.6%; 95% CI, 3.0% to 6.3%]; melanoma: 91.7% vs 86.2% [difference, 5.5%; 95% CI, 2.2% to 8.8%]).
结论与相关性在2个前列腺癌和黑色素瘤患者独立队列的便利样本中,与目前的标准基因检测方法相比,使用深度学习的生殖系基因检测在检测致病变异方面具有更高的敏感性和特异性。需要进一步的研究来了解这些发现与临床结果的相关性。
测验参考ID生殖系基因检测越来越多地用于识别一类被称为致病性变异的遗传基因变化,这与患癌症和其他疾病的风险增加有关。检测与癌症相关的致病变异可以确定遗传性癌症易感性的患者和家庭,在这些患者中可以实施既定的基因特异性筛查建议。1,2此外,癌症患者的生殖系基因检测可以识别出在基因上对化疗和靶向抗癌药物有更大反应的致病变异携带者。3.,4然而,即使临床表现高度提示某种特定的遗传癌症易感性综合征,也只有一小部分患者被发现携带种系致病变异,5-8这引起了人们对现有标准种系变异检测方法(包括基因组分析工具包)不完全检测已知或预期致病变异的可能性的担忧。9
测验参考ID使用深度学习神经网络的计算方法,结合网络层来学习和分析数据中的复杂模式,与疾病识别的标准方法相比,已经证明了优越的性能,10病理和放射图像分析,11自然语言处理。12在已知遗传变异的实验室样本中,与标准方法相比,深度学习方法也显示出更强的种系变异检测能力。13然而,目前尚不清楚使用深度学习方法是否可以识别出当前标准分析框架所遗漏的其他致病性变异患者。在本研究中,我们假设当应用于癌症患者的临床样本时,深度学习变异检测与识别临床相关致病变异的标准方法相比具有更高的敏感性。
2010年至2017年期间在美国和欧洲招募患者的原始研究获得了患者的书面知情同意和机构审查委员会的批准,允许对生殖细胞样本进行全面的遗传分析。临床资料最终收集时间为2017年12月补充1).为本研究进行的二级基因组和深度学习分析根据达纳-法伯癌症研究所机构审查委员会协议19-139和02-293获得批准。这项研究符合《赫尔辛基宣言》。
本研究包括两组独立发表的队列的公开的种系全外显子组测序数据,每组都包含方便样本(图1).亚美尼亚等人描述了一组前列腺癌患者,14第二组黑色素瘤患者来自10个公开数据集(eMethods in补充1).所有种系全外显子组测序数据均由使用配对端、短读Illumina平台(Illumina Inc .)的原始研究生成。患者队列没有选择癌症或早发性疾病的阳性家族史。所有队列的生殖系遗传数据均可用于分析。这项分析并不是为了改变研究队列的管理。
基因组分析工具包(3.7版),15最广泛使用的种系变异检测方法,16-18被认为是本分析中的标准方法,DeepVariant方法(版本0.6.0)用于执行深度学习变体检测13,19(图1中的图1补充1).标准和深度学习方法使用推荐的参数运行。20.,21标准和深度学习分析框架的细节(以及相应的计算机程序代码)出现在的eNotes中补充1.
在这项研究中,美国医学遗传学和基因组学学院(ACMG;统称为ACMG基因集)进行分析(表1在补充2).癌症患者也可能是与癌症无关的常染色体隐性遗传和低渗透基因致病变异的携带者,导致基因产物功能下降或没有功能(称为基因产物)推定功能丧失;pLOF)。因此,在线孟德尔人遗传(OMIM)数据库(统称为OMIM基因集)中的5197个临床相关基因中存在pLOF变异(表1)补充2)和12个临床导向的多基因组(eMethods在补充1和表2补充3)也有特征。
2名临床遗传学家(S.H.A.和L.W.)根据已建立的ACMG指南将癌症易感性基因集和ACMG基因集中鉴定的种系变异独立分为良性、可能良性、意义未知的变异、可能致病和致病5类。22本研究只包括致病和可能致病的变异(以下统称为致病变异)。
由于本研究缺乏标准参考标准,无法独立验证标准遗传分析方法和深度学习方法在每个参与者每个基因的每个位置上的结果,因此采用已建立的人工验证框架。23在这个框架中,癌症易感性和ACMG基因集的变异由3名审查员(s.h.a.、j.r.c.和a.t.w)使用名为“整合基因组学查看器”的遗传数据可视化工具以独立的盲方式人工评估。24如果3名审查员中至少有2人认为在原始基因组数据中存在已识别的致病变异,则判断为有效(即真阳性)。否则,判断该变异为假阳性(表3)补充1).OMIM基因组和多基因组分析中的种系pLOF变体通过检查来自同一患者的独立测序的肿瘤样本来判断这些变体的存在是有效的(eMethods in补充1).任何一种方法都未鉴定出致病变异的基因组区域均未人工验证变异的缺失,并被假定为没有致病变异。
测验参考ID由于分析数据缺乏独立生成的准则参考标准变量集,将标准遗传分析方法或深度学习方法中判断为有效的所有变量组合生成的变量集作为评估每种方法性能的参考(以下简称参考变量集)。因此,由于缺乏标准参考标准,真实的敏感性和特异性无法计算。因此,这些术语灵敏度而且特异性定义和计算方法比较。灵敏度定义为每种方法识别的真阳性变异(即判断为有效的)占参考变异集中真阳性变异总数的比例。特异性定义为每种方法确定的真阴性变量占参考变量集真阴性变量总数的比例(表3和方法)补充1).
此外,考虑到致病致病变异体的罕见性,为增强研究力,采用3个预定义基因集(癌症易感性、ACMG和OMIM)计算标准方法和深度学习方法的敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。在这项研究中,PPV和NPV仅指通过这些方法鉴定的具有(或不具有)分子遗传变异的参与者的概率,而不是临床疾病表型。本研究中使用的性能指标的详细定义见表3补充1.此外,通过评估标准方法或深度学习方法识别出的致病性和pLOF变异的数量,并判断其有效,来评估标准方法和深度学习方法串联使用(联合方法)的性能。
主要结果定义为人工检查中判断有效的已识别致病变异的绝对数量,以及深度学习和标准方法在癌症易感性基因集中的敏感性、特异性、PPV和NPV (图1).次要结果包括被判断为有效的致病和pLOF变异的绝对数量,以及使用ACMG、OMIM和多基因组的每种方法的敏感性、特异性、PPV和NPV (图1).
双面χ2试验用于计算P每种方法的敏感性、特异性、PPV和NPV的差异值和95% ci。此外,采用双侧二项式检验来计算比例的95% ci。双侧Mann-Whitney检验用于评估所检查的基因组区域测序深度的差异。为了分析被检查队列的临床特征,原始研究中未报告临床数据的患者根据每个临床特征被纳入“未报告”类别。
为了评估标准学习方法和深度学习方法的性能,将癌症易感性基因和ACMG基因集(共151个基因)中的致病性变异结合起来,通过对变异的质量评分阈值计算接受者的工作特征曲线,如下所示。对于每个阈值,我们使用标准和深度学习模型来确定评估的变量是真实的还是人为的。然后将这些决定与这些致病变异的人工验证结果进行比较,并计算真阳性、真阴性、假阳性和假阴性率(表3和方法)补充1).一个假设是,基因组中没有被标准或深度学习方法识别出变异的位置是真阴性变异。
为了评估将真阳性变异体定义为由所有3名审查员判断为有效变异体的计算效果,对每种方法识别的癌症易感性基因集中人工验证的致病变异体的绝对数量和比例与每种方法识别的变异体总数进行了事后分析,使用2方χ进行了比较2测试。P值<。无多重比较调整,05例被认为具有统计学意义。二次分析的结果应被解释为探索性的。统计分析使用了R 3.5.1 (R基础统计计算)上的exact2x2(版本1.5.2)、binom(版本1.1.1)和stats(版本3.5.1)包。
前列腺癌队列(n = 1072名男性)的平均诊断年龄为63.7岁(SD, 7.9岁),黑色素瘤队列(n = 1295名男性)的平均诊断年龄为59.8岁(SD, 15.6岁);488名[37.7%]女性)(表1).使用标准和深度学习方法分析前列腺癌和黑色素瘤队列中的生殖系变异(图1中的图1补充1).前列腺癌队列的平均外显子组测序深度为105.78 reads (SD, 52.92 reads),黑色素瘤队列的平均外显子组测序深度为86.85 reads (SD, 45.27 reads)补充1).在1072个生殖系前列腺癌外显子体中鉴定出的37个 373 535个生殖系遗传变异中,92.1%是通过标准学习方法和深度学习方法鉴定的(图3)补充1),表明这些变体检测方法之间存在差异。
在前列腺癌队列的118个癌症易感性基因(n = 1072)中,通过标准学习和深度学习方法共鉴定出171个致病性变异。深度学习方法专门鉴定出36个致病变异,其中27个(75% [95% CI, 58.9%至86.2%])被判断为有效(真阳性结果),9个(25% [95% CI, 13.8%至41.1%])被判断为假阳性结果(图2一个,表2,表4补充1).标准方法专门鉴定了27个致病变异,其中11个(40.7% [95% CI, 24.5%至59.3%])被判断为有效(真阳性结果),16个(59.3% [95% CI, 40.7%至75.5%])被判断为假阳性结果(图2B,表2,表5补充1).
在前列腺癌队列中,深度学习方法与标准方法相比具有更高的敏感性(分别为94.7% vs 87.1%;差异,7.6% [95% CI, 2.2% ~ 13.1%];P= .006),特异性更高(64.0% vs 36.0%;差异,28.0% [95% CI, 1.4% ~ 54.6%];P= .047), NPV较高(59.3% vs 25.0%;差异,34.3% [95% CI, 10.9% ~ 57.6%];P= .006) (表2).然而,深度学习方法的PPV与标准方法没有显著差异(分别为95.7% vs 91.9%;差异,3.8% [95% CI, -1.0%至8.4%];P=厚)。
在人工复核中,通过深度学习方法在癌症易感性基因中专门鉴定的致病变异比通过标准方法专门鉴定的变异更有可能被判断为有效(分别为75.0% vs 40.7%;差异,34.3% [95% CI, 10.9% ~ 57.6%];P= .006)。总的来说,深度学习方法确定了另外16例前列腺癌患者,这些患者具有与癌症风险升高相关的致病性变异,而标准方法没有发现这些变异,并在人工复查中被判断为有效(表2).
为了探索这些发现的普遍性,还分析了来自1295例黑色素瘤患者的种系全外显子组测序数据。与标准方法相比,深度学习方法识别出更多被判定为有效(真阳性结果)的致病变异患者(分别为93 vs 74),并识别出更少被判定为假阳性结果的致病变异(78 vs 135) (表2以及图4和表6和7中的补充1).与标准方法相比,深度学习方法具有更高的灵敏度(分别为74.4% vs 59.2%;差异,15.2% [95% CI, 3.7% ~ 26.7%];P= .01),特异性更高(63.4% vs 36.6%;差异,26.8% [95% CI, 17.6% ~ 35.9%];P< .001),更高的PPV (54.4% vs 35.4%;差异,19.0% [95% CI, 9.1% ~ 28.9%];P< .001)和更高的NPV (80.8% vs 60.5%;差异,20.3% [95% CI, 10.0% ~ 30.7%];P< .001) (表2).此外,与标准方法仅识别的癌症易感性基因相比,深度学习方法识别的癌症易感性基因中的致病变异在人工审查中被判断为有效的可能性显著更高(分别为39.5% vs 19.2%;差异,20.3% [95% CI, 10.0% ~ 30.7%];P<措施)。
同时使用深度学习和标准方法(联合方法)导致在癌症易感性基因中人工验证的致病性变异数量最多。在前列腺队列中,使用标准方法有182个致病变异被判定为有效(真阳性),使用深度学习方法有198个变异,使用联合方法有209个变异。在黑色素瘤队列中,使用标准方法判断有74个致病变异是有效的,使用深度学习方法判断有93个变异,使用联合方法判断有125个变异(表2).
仅通过深度学习方法识别并在人工检查中判断有效的致病变异包括移码RAD51D(人类:602954) (p.Ala142GlnfsTer14;Rs730881935)与卵巢癌风险增加6倍相关25(图2C),在BRIP1(人类:605882) (p.Arg581Ter;Rs780020495)与高级别浆液性卵巢癌风险增加14倍相关26(图2D)中截断的变体自动取款机(人类:607585) (p.Arg1875Ter;Rs376603775),在杂合状态下,乳腺癌、结直肠癌和胃癌的风险增加2至5倍7,27(图2E),和一个停止密码子变体SDHA(人类:600857) (p.Arg512Ter;Rs748089700),该基因与40岁时患嗜铬细胞瘤或副神经节瘤的几率为40%相关28(图5补充1).该标准方法还专门鉴定了几种临床相关的被判定有效的致病变异,包括移码自动取款机(人类:607585) (p.Thr2333AsnfsTer6;Rs587781299)和几个剪接供体变体MSH6(人类:600678) (NM_000179.3:c.4001 + 2del)(表5和6 in补充1).
虽然使用了更严格的标准(3个考官而不是2个;eMethods在补充1)减少了每种方法识别的有效(真阳性)致病变异的绝对数量和比例,无论使用何种标准或队列,深度学习方法仍然比标准方法识别出明显更多的真阳性致病变异(前列腺癌队列分别为62.5%和20%,P<。黑色素瘤组为23.1% vs 8.48%,P<措施;图6补充1).
当检测1072例前列腺癌患者的59个ACMG基因时,深度学习方法比标准方法识别出更多在人工复查中被判定为有效(真阳性)的致病变异患者(分别为111 vs 106),并识别出更少的被判定为假阳性结果的变异(10 vs 18)(表8和表9)补充1).深度学习方法比标准方法具有更高的特异性(分别为64.3%和35.7%;差异,28.6% [95% CI, 3.5% ~ 53.7%];P= 03)。然而,深度学习方法的敏感性与标准方法没有显著差异(分别为94.9% vs 90.6%;差异4.3% [95% CI, -2.3%至10.9%];P= .21), PPV (91.7% vs 85.5%;差异,6.2% [95% CI, -1.7%至14.1%];P= .12)或NPV (75.0% vs 47.6%;差异27.4% [95% CI, -0.12%至54.9%];P= .06) (表2).
对黑色素瘤队列(n = 1295)的类似分析显示,与标准方法相比,深度学习方法识别出了12名临床可操作的ACMG基因变异患者(分别为48对36)(表10和11)补充1).深度学习方法比标准方法产生了更高的灵敏度(分别为71.6% vs 53.7%;差异,17.9% [95% CI, 1.82% ~ 34.0%];P= 03)。然而,深度学习方法的特异性与标准方法没有显著差异(分别为49.2% vs 50.8%;差异,-1.6% [95% CI, -13.6%至10.5%];P= .81), PPV (41.7% vs 35.6%;差异,6.1% [95% CI, -6.9%至19.1%];P= .36)或NPV (77.4% vs 68.4%;差异,9.0% [95% CI, -3.8%至21.9%];P= .17) (表2).
在ACMG基因集中,同时使用深度学习和标准方法(联合方法)比单独使用其中任何一种方法获得了更高的检出率。在前列腺队列中,使用标准方法判断出106个致病变异是有效的,使用深度学习方法判断出111个,使用联合方法判断出117个。在黑色素瘤队列中,使用标准方法判断36个致病变异是有效的,使用深度学习方法判断48个,使用联合方法判断67个(表2).
深度学习方法在ACMG基因中独家识别的致病变异体,并在人工复核中判断为有效的,包括截断的致病变异体ATP7B(人类:606882) (图2F和2G),一种与威尔逊病和致命肝衰竭相关的基因,以及COL3A1(人类:120180) (图2H),该基因与常染色体显性血管Ehlers-Danlos综合征并发早发性主动脉夹层、内脏破裂和过早死亡有关。标准方法专门鉴定被判定有效的ACMG基因的致病变异,包括在SCN5A(人类:600163),与心律失常和变异有关场外(人类:300461)与严重的代谢性高氨血症有关。
在癌症倾向分析,结合致病性变异和ACMG基因集,深度的学习方法已经曲线下的面积值为0.94 (95% CI, 0.91 - 0.97)与0.89 (95% CI, 0.84 - 0.93)的标准方法在前列腺癌组和0.76(95%可信区间,0.71至0.81)深学习方法与0.60 (95% CI, 0.55 - 0.67)的标准方法黑色素瘤组(图3以及efige7和efige8补充1).其他模型性能指标的结果见表12补充1.
在286名肿瘤可用于独立验证的前列腺癌患者中,深度学习方法比标准方法识别出了更多在肿瘤测序数据中验证的种系pLOF变体(分别为708 vs 675),从而获得了更高的灵敏度(99.7% vs 95.1%;差异,4.6% [95% CI, 3.0%至6.3%];P< .001),特异性较低(11.8% vs 88.2%;差异,-76.4% [95% CI, - 89.0%至- 64.0%];P< .001)和较低的PPV (94.0% vs 99.1%;差异,-5.1% [95% CI, - 6.9%至- 3.3%];P< .001) (表2).深度学习方法的NPV与标准方法无显著差异(分别为75.0% vs 56.3%;差异,18.7% [95% CI, -13.2%至50.7%];P=。31)。
同样,在黑色素瘤队列(n = 1295)中,深度学习方法比标准方法识别出更多在肿瘤测序数据中验证的种系pLOF变体(分别为619 vs 582),从而导致更高的敏感性(91.7% vs 86.2%;差异,5.5% [95% CI, 2.2% ~ 8.8%];P= .001),特异性较低(30.8% vs 69.2%;差异,-38.4% [95% CI, - 43.6%至- 33.3%];P< .001)和较低的PPV (59.4% vs 75.6%;差异,-16.2% [95% CI, - 20.4%至- 11.9%];P<措施)。深度学习方法的NPV与标准方法没有显著差异(分别为77.0% vs 82.0%;-5.0% [95% CI, -11.2%至1.3%],P=厚;表2).
在286名前列腺癌患者中,深度学习方法与标准方法相比识别出了以下临床多基因组中的pLOF变体:心血管疾病(分别为36 vs 34)、纤毛病(43 vs 40)、皮肤疾病(24 vs 23)、听力损失(33 vs 33)、血液病(38 vs 36)、线粒体疾病(49 vs 48)、神经疾病(178 vs 173)、神经肌肉疾病(33 vs 32)、产前筛查(118 vs 110)、肺部疾病(19 vs 18)、肾脏疾病(48 vs 44)和视网膜疾病(232 vs 223) (efig9a和10A)补充1).
在黑色素瘤队列(n = 1295)中,深度学习方法与标准方法相比,识别出在以下临床多基因组中被判定有效的pLOF变体:心血管疾病(分别为45比44)、纤毛病(34比37)、皮肤疾病(19比18)、听力损失(41比39)、血液病(31比30)、线粒体疾病(32比27)、神经疾病(162比155)、神经肌肉疾病(30比23)、产前筛查(107比104)、肺部疾病(17比17)、肾脏疾病(39比41)和视网膜疾病(212比204)(图9B和10B)补充1).
深度学习方法和标准方法分别识别出36个和19个移码变体,31个和17个停止密码子变体,40个和11个被判断为有效的规范剪接位点变体(图11)补充1).对于使用深度学习方法专门鉴定的致病变异,在测序覆盖率较低的基因中鉴定出的假阳性变异与真阳性变异相比(均值[SD], 7.1 [6.8] reads vs 21.4 [35.6] reads;P<措施)。
相比之下,对于标准方法唯一识别的致病变异,假阳性变异与真阳性变异具有类似的足够的测序覆盖率(平均[SD],分别为44.3 [69.6]reads和43.1 [59.4]reads,P= .46;图12补充1).此外,尽管深度学习和标准方法识别出相同数量的常见变异(次要等位基因频率>1%),但在每位患者中,通过深度学习方法识别出的额外罕见变异(次要等位基因频率<1%)的平均数量在前列腺癌队列中为每个外显子组49.6 (95% CI, 46.7至52.7)个变异,在黑色素瘤队列中为每个外显子组101.2 (95% CI, 95.8至106.9)个变异(e图13A和13B)补充1).
测验参考ID对2组前列腺癌和黑色素瘤患者的致病性变异检测的分析表明,深度学习方法比目前的标准方法识别出更多被判断为有效(真阳性)的癌症易感性基因的致病性变异,从而获得更高的敏感性、特异性、PPV和NPV。然而,这些发现也表明,深度学习和标准方法是互补的,因为这两种方法对序列数据的应用产生了最高数量的被判定有效的致病变异。
测验参考ID病原变异的鉴定对病原变异携带者及其高危家庭成员具有重要的临床意义。例如,国家综合癌症网络建议在50岁之前对携带致病性变异的女性患者进行降低风险的输卵管卵巢切除术RAD51D(人类:602954)或BRIP1(人类:605882),29与本分析中使用的深度学习方法所发现的相似。此外,建议对女性致病种系携带者考虑更密集的乳腺癌筛查方法(从40岁开始使用乳腺磁共振成像)自动取款机(人类:607585)变异。29这种临床可操作性也扩展到由深度学习方法独家发现的许多非癌症致病性变异,包括在ATP7B(人类:606882),因为症状前启动螯合治疗可以有效预防威尔逊病危及生命的并发症30.以及多基因组,因为任何额外的生殖系分析产量都可能转化为更多的患者受益于建立分子诊断的临床效用。
总的来说,这些发现表明,尽管两种方法在检测常见变异方面具有相当的性能,但深度学习方法在检测罕见致病变异方面具有更高的灵敏度,这一观察结果可以通过检查每种方法的基本方法来解释。标准方法使用联合基因分型,利用来自所有分析样本的全人群信息和基于高质量人群的数据集,如1000个基因组万博manbetx平台首页31dbSNP,32以确定每个已鉴定的变种的质量。虽然这种方法使标准方法能够有效地识别在分析的和参考的基因组数据集中经常出现的变异(即,在人群中相对常见),但联合基因分型和随后的过滤步骤,称为变异质量评分重新校准,本质上偏向于过滤掉非常罕见的变异(即,在分析的数据集中只遇到一次)。
因为97.3%的癌症易感性变异的等位基因频率小于1:10 000,33需要特别大的患者队列才能有效地利用联合基因分型对这些超罕见变异的力量。相反,本文中使用的深度学习方法使用深度神经网络单独评估每个变体的测序图像,从而模仿了遗传学家如何独立评估每个样本中支持遗传变异的证据的标准工作流程。13,24与标准方法相比,这种基于样本的分析方法除了具有更高的灵敏度和特异性外,还避免了n+ 1的临床遗传学实验室的问题,其中所有队列样本需要联合重新分析,每次新样本加入到研究中。这种方法已被证明是极其不切实际的、资源密集型和耗时的,特别是对于gnomAD数据库这样的大型研究。34
总的来说,与标准方法相比,无论检查的基因集如何,这项对2367名癌症患者的种系外显子的分析始终表明,基于深度学习的种系致病变异分析具有更高的分子诊断产量。基于深度学习的方法的更高灵敏度也可能提高在现有基因组数据集中发现新的基因-疾病关联的能力。然而,基于深度学习的方法并不能检测出分析数据集中所有人工验证的致病变异,因此混合变异检测方法可能获得更高的灵敏度。
这项研究有几个局限性。首先,这项研究只包括了被诊断为癌症的患者,因此当深度学习方法用于受其他疾病影响的患者时,其性能可能会发生变化。其次,本研究主要包括欧洲血统的患者,需要进一步研究评估其他祖先群体的分子诊断产量增量。第三,本分析采用便利队列,可用临床结果有限,因此需要前瞻性研究来进一步评估深度学习变异检测对临床结果的影响。第四,鉴于对所有检测的基因组位置缺乏实用的独立验证过程,两种方法都可能漏掉一些真正的致病性和pLOF变异。
第五,本研究使用了标准方法的最佳实践,因此使用替代设置或标准方法的修改版本的分析框架在病原变异检测方面可能具有不同的性能。第六,本研究没有评估这些方法在使用配对端、短读Illumina平台以外的技术生成的遗传数据上的性能。第七,虽然前列腺癌和黑色素瘤病人军团被用来计算PPV和NPV,生殖系基因分析癌症倾向是经常执行,这些病人军团不常检测癌ACMG或人类基因集,所以计算PPV和NPV为这些基因集可能不能代表实际的PPV和NPV的标准和深度学习的方法检测这些基因集的病人。第八,这两种方法计算的PPV和NPV强调的是发生分子遗传变化的概率,而不是临床疾病,并且是用基因集计算的,因此基于核苷酸和基于基因的值可能不同。
在2个前列腺癌和黑色素瘤患者独立队列的便利样本中,与目前的标准基因检测方法相比,使用深度学习的生殖系基因检测在检测致病变异方面具有更高的敏感性和特异性。需要进一步的研究来了解这些发现与临床结果的相关性。
通讯作者:Eliezer M. Van Allen,医学博士,哈佛医学院丹娜-法伯癌症研究所肿瘤内科,隆伍德大道360号,LC9329,波士顿,MA 02215 (eliezerm_vanallen@dfci.harvard.edu).
接受出版:2020年10月6日。
作者的贡献:AlDubayan博士和Van Allen博士可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。
概念及设计:阿尔杜巴扬,康威,阿尔鲁拜什,阿尔苏莱曼,阿尔阿里,泰勒韦纳,范艾伦。
数据的获取、分析或解释:阿尔杜巴扬、康威、坎普、维特科夫斯基、科夫曼、里尔登、汉、摩尔、埃尔马拉克比、萨拉里、乔杜里、苏莱曼、泰勒-韦纳、范艾伦。
文稿起草:阿尔杜巴扬,康威,坎普,汉,泰勒-韦纳,范·艾伦。
对重要知识内容的手稿的批判性修订:阿尔杜巴扬,康威,维特科夫斯基,科夫曼,里尔登,摩尔,埃尔马拉克比,萨拉里,乔杜里,鲁拜什,苏莱曼,阿里,泰勒-韦纳,范艾伦。
统计分析:阿尔杜巴扬,康威,坎普,科夫曼,里尔登,汉,埃尔马拉克比,萨拉里,乔杜里,泰勒-韦纳,范艾伦。
获得资助:阿尔杜巴扬,范艾伦。
支持:行政、技术或物质上的支持:摩尔,鲁拜什,苏莱曼,阿里,范·艾伦。
监督:AlDubayan, Taylor-Weiner, Van Allen。
利益冲突披露:摩尔医生报告说从免疫健康公司收取了个人费用。Van Allen博士曾任职Tango Therapeutics、Genome Medical、Invitae、Illumina、Manifold Bio、Monte Rosa Therapeutics和Enara Bio的顾问委员会或顾问;从Invitae、Tango Therapeutics、Genome Medical、Ervaxx、Roche/Genentech和Janssen收取个人费用;获得诺华和百时美施贵宝的研究支持;持有Tango Therapeutics、Genome Medical、Syapse、Enara Bio、Manifold Bio和微软的股权;接受罗氏和基因泰克公司的差旅报销;申请机构专利(用于ERCC2变异和化疗反应,染色质变异和免疫治疗反应,以及临床解释方法)。没有其他披露的报道。
资金/支持:这项工作得到了来自美国临床肿瘤学会的征服癌症基金会职业发展奖13167(授予给AlDubayan博士),来自前列腺癌基金会的青年研究者奖18YOUN02(授予给AlDubayan博士),来自PCF-V基金会的挑战奖(授予给Van Allen博士),来自Mark基金会的新兴领袖奖(授予给Van Allen博士),来自美国国立卫生研究院的R01CA222574赠款(授予给Van Allen博士),阿卜杜勒阿齐兹国王城拨款12-MED2224-46(用于科学技术)(授予dr . Al-Rubaish, Al-Sulaiman和Al-Ali)。
资助者/发起人的角色:资助者/赞助者在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。
额外的贡献:我们感谢所有参与这项研究的人。我们还要感谢Eric Banks博士(麻省理工学院Broad研究所和哈佛大学的数据科学平台;没有得到任何报酬),因为他对基因组分析工具包的基础模型的宝贵见解,以及他对这项研究结果的评论。我们还要感谢Jeff Kohlwes,医学博士,公共卫生硕士(加州大学旧金山分校普通内科;Aaron Neinstein,医学博士(加州大学旧金山分校内分泌学和临床信息学;没有收到任何补偿),以及Tara Vijayan医学博士(加州大学洛杉矶分校传染病;没有收到任何补偿),因为他们对手稿内容的反馈。
附加信息:万博manbetx平台首页这些结果部分基于由国家癌症研究所和国家人类基因组研究所管理的癌症基因组图谱所产生的数据。万博manbetx平台首页关于癌症基因组图谱的信息可以在http://cancergenome.nih.gov.原始序列数据可通过dbGaP (https://www.ncbi.nlm.nih.gov/gap)或原始文章中描述的方法(详细信息见方法部分)。本研究中使用的所有软件工具都是公开可用的。
32.
雪莉st_,沃德m_,西罗特金k_。dbsnp -数据库的单核苷酸多态性和其他类别的微小遗传变异。
基因组Res.1999; 9:677 - 679。
谷歌学者