要点
问题机器学习模型可以提供生存晚期口腔癌患者的危险分层有全面的临床病理和基因数据?
发现在这15年的队列研究的334名患者,使用综合临床病理的危险分层模型和遗传数据准确区分高风险组的低风险组在术后癌症特异性和局部区域晚期口腔癌患者recurrence-free生存。
意义该模型展示了良好的歧视患者具有不同的生存的风险使用全面的临床病理和基因数据,可以提供额外的个性化信息先进的口腔鳞状细胞癌患者的术后管理。万博manbetx平台首页
重要性精确的工具作为分层术后晚期口腔癌患者治疗计划是至关重要的,如加剧或deintensifying方案来改善他们的生活质量和预后。
客观的开发和验证基于机器学习的算法,可以提供生存晚期口腔癌患者的危险分层综合临床病理的基因数据。
设计,设定和参与者在这种预后队列研究,弹性净处罚Cox比例风险回归风险分层模型开发和验证使用单中心收集的数据之间的1月1日,1996年和2011年12月31日。总的来说,全面的临床病理和基因数据(包括临床、病理和44癌症相关的基因变异谱)的334例口腔鳞状细胞癌3期或4期被用来开发和验证算法在这15年的队列研究。之间的数据分析进行了2018年2月1日,5月6日,2020年。
主要结果和措施主要结果是癌症特异性生存,遥远的metastasis-free生存和局部区域recurrence-free生存。模型的性能比较的Akaike信息标准和哈勒尔一致性指数(C指数)。万博manbetx平台首页
结果完整的数据来自334名患者(315人;平均发病年龄,48年(四分位范围,42-56年))。使用全面的临床病理和基因数据预测模型比那些使用临床病理的单独数据。组的术后患者辅助同步放化疗,模型表现出更高的分类性能比单独使用临床病理的数据在癌症特异性生存(平均(SD) C指数0.689(0.050)和0.673 (0.051);P= .02点)和局部区域recurrence-free生存(平均(SD) C指数0.693(0.039)和0.678 (0.035);P= 04)。分类性能在遥远metastasis-free生存并不是不同的(平均(SD) C指数0.702(0.056)和0.688 (0.048);P= .09点)。
结论和意义使用全面的临床病理的危险分层模型和遗传数据准确区分高危人群癌症特异性低风险组的生存和局部区域recurrence-free术后晚期口腔癌患者的生存。该算法可以通过在线计算器为术后提供额外的个性化信息管理先进的口腔鳞状细胞癌患者。万博manbetx平台首页
当前先进的口腔鳞状细胞癌术后治疗往往是化疗和放疗的组合。1医生的挑战之一是治疗反应之间的平衡和患者对毒性和副作用,包括严重的口腔粘膜炎,吞咽困难,语言障碍,皮炎,头痛、认知功能障碍和肌肉纤维化。2- - - - - -4此外,晚期口腔癌患者之间的异构性复杂治疗计划,和治疗是病人和医生之间达到讨论后的决定。5晚期癌症患者的危险分层是至关重要的,因为它可以用来调整deintensify放化疗的治疗患者在低风险组或加强化疗对于那些高危人群。6- - - - - -8此外,精确的危险分层与提高医疗资源的分配和使用。这些信息可万博manbetx平台首页以进一步用于护理协调,提高医疗资源的使用。9
精确的治疗计划,肿瘤组织学信息,如TNM分期,可以用于提供预后信息。万博manbetx平台首页10此外,基因变体概要说明指示癌症预后的可能性,通过统计数据挖掘和机器学习(ML)技术。11- - - - - -13最近,开发一个ML-based模型结合TNM数据与一个有前途的临床效果。14统计数据挖掘和毫升都是优秀的分类分析方法从复杂的数据通过识别数据模式。15统计数据挖掘和ML已经证明他们的成功应用在医学领域。16- - - - - -19的精确估计预后的临床病理的遗传信息,包括临床资料、病理数据,和基因变异谱,将提供一个全面的疾病概述。万博manbetx平台首页10鉴于trans-omic数据,合理利用毫升技术,有效地处理大量的预测来生成一个危险分层模型。
在这里,我们提出一个弹性净处罚Cox比例风险回归风险分层模型的学习模式不同风险水平癌症特异性生存,遥远的metastasis-free生存和局部区域recurrence-free术后晚期口腔癌患者的生存。根据实际的数据库验证,我们的风险分层模型可以作为在线计算器(eAppendix输入所需的数据补充)。
我们从先前发表的研究中获得的数据。11总共345例口腔鳞状细胞癌患者进行回顾性招募从长庚医院在桃园,台湾在1996年1月1日和2011年12月31日。所有患者随访了30个月,或者直到死亡。没有患者失访下入学标准。关于细节纳入和排除标准在先前发表的一项研究描述。11总之,肿瘤样本获得阶段III或IV node-positive癌症患者。分期和病理诊断评估的标准第七版的美国癌症联合委员会。20.患者之前没有治疗口腔鳞状细胞癌的肿瘤样本。没有记录的转移性疾病手术期间获得的肿瘤样本。治疗选择(与辅助放疗、手术,手术和手术辅助同步放化疗[CCRT])确定为每个病人根据美国国家综合癌症网络(2008年以前)或长庚指南(2008)。11,21研究协议进行审核和批准的机构审查委员会,长庚纪念医院放弃病人的同意,因为这是一个回顾性研究。我们跟着诊断准确性的标准报告(标准)报告准则和透明的报告个人的多变量预测模型预测或诊断(三脚架)报告指南。
肿瘤样本在手术过程中得到以下实验的基因测序。样品制备的详细设置和基因测序中描述先前发表的研究。11,21简单地说,超深测序的44个癌症相关基因变异谱分析了使用离子318芯片的离子激流的PGM(个人基因组机)系统(热费希尔科学),其中hg19参考基因组作为参考。44个癌症相关基因资料ABL1(人类189980年),AKT1(人类164730年),碱性(人类105590年),APC(人类611731年),自动取款机(人类607585年),BRAF(人类164757年),背景(人类192090年),CDKN2A(人类600160年),CSF1R(人类164770年),CTNNB1(人类116806年),表皮生长因子受体(人类131550年),ERBB2(人类164870年),ERBB4(人类600543年),FBXW7(人类606278年),FGFR1(人类136350年),FGFR2(人类176943年),FGFR3(人类134934年),FLT3(人类136351年),HNF1A(人类142410年),极品(人类190020年),IDH1(人类147700年),JAK3(人类600173年),KDR(人类191306年),工具包(人类164920年),喀斯特(人类190070年),见过(人类164860年),一种(人类120436年),MPL(人类159530年),NOTCH1(人类190198年),NPM1(人类164040年),国家管制当局方面(人类164790年),PDGFRA(人类173490年),PIK3CA(人类171834年),PTEN(人类601728年),PTPN11(人类176876年),RB1(人类614041年),受潮湿腐烂(人类164761年),SMAD4(人类600993年),SMARCB1(人类601607年),SMO(人类601500年),SRC(人类190090年),STK11(人类602216年),TP53(人类191170年),VHL(人类608537年)。桑格测序或焦磷酸测序是用于确认变异检测到调用者使用洪流变体插件,版本3.2(热费希尔科学)。下一代测序获得的遗传特性是使用一个超深(> 1000×)测序方法主要的肿瘤样本,检查超过1200包含错义产生的变异,胡说,indel和剪接类型的变体。
万博manbetx平台首页信息全面的临床、病理和基因功能的患者收集(表)。综合临床病理的和遗传特性包括5临床特征(即性别、发病年龄、饮酒,槟榔咀嚼,和吸烟),17个病理特征(如癌症原发部位,病理阶段,病理N阶段,病理分级、分化、病理肿瘤侵入深度,和最近的宏观优势),和44基因特性(即44癌症相关基因)。
弹性净处罚Cox比例风险回归模型使用临床病理的构建和基因功能的预后关系的特性和计算每个病人的生存指数接受不同的治疗疗法22- - - - - -24(eFigure 1的补充)。检查是否生存预后的关联特性和分布指数表示不同预后生存结果,我们建立了一个模型来预测三种结果:癌症特异性生存,遥远的metastasis-free生存和局部区域recurrence-free生存。重复、嵌套三倍交叉验证应用调优(内部交叉验证)和评估模型(eFigure 1(外交叉验证)补充)。调节参数(λ)和一个弹性网混合参数(α)被内心的三倍交叉验证选择在训练集上。在每个外折,中位数生存指数训练集的选择病人的测试集划分为高风险和低风险组。模型与glmnet包使用R软件开发(R统计计算的基础)。22此外,弹性性能的净处罚Cox比例风险回归模型较常规Cox比例风险回归模型来评估弹性净损失的影响。我们首先建立了单变量Cox比例风险为每一个临床病理的回归模型和遗传特性。与结果相关联的特征(P< . 05)被进一步用于多变量Cox比例风险回归模型的发展。中位数生存指数用于病人的测试集划分为高风险和低风险组。
模型评价的三倍cross-evaluation外被用来评估模型的性能(eFigure 1的补充)。数据分区随机分成3组,1组进行测试和其他2集进行训练。评估模型的稳定性,重复10次为每个执行嵌套交叉验证结果测量。因此,我们30训练集和测试集生成评估模型为每个类型的预后生存和为每个治疗方法。病人的测试集被分为高风险和低风险组根据他们的生存指数,与阈值中位数生存指数的训练集,生存率较是用来比较高风险和低风险组之间的生存分布。评估的有效性模型发展使用综合临床病理的遗传特性,我们比较了Akaike信息标准和哈勒尔一致性指数(C指数)万博manbetx平台首页25的临床病理和遗传特性的模型使用与单独使用临床病理的特性和遗传特性。
相关的预后与临床病理特征的选择和遗传特性使用弹性净处罚Cox比例风险回归模型3种预后生存,和系数进行了分析评估的临床病理和基因功能的重要性。模型的基础上,开发和评估方法(eFigure 1的补充30),模型建立预后生存类型。每个特性的次数被选中在30模型被用来评估功能的重要性。临床病理和基因功能的预后关系被定义为那些被选中的功能80%以上的模型(> 24 30模型)。每个特性的风险比率,指数的特性系数,用于比较与给定特性的故障率与参照组。
从2018年2月1日进行了统计分析,2020年5月6日。方差分析是用于连续数据,皮尔森χ2测试是用于分类数据。我们进行重复测量方差分析两两配对t弗里德曼测试事后分析和非参数测试与两两配对魏克森讯号等级事后考验Akaike信息标准和C模型的索引值。万博manbetx平台首页的P两两比较的值使用Bonferroni调整多个测试校正方法。所有统计测试是双向的,P<。05年被认为是具有统计学意义。所有分析使用R软件,版本3.4.0 (R统计计算的基础)。
345例口腔鳞状细胞癌患者的临床和下一代测序数据,334年,完整的数据包含在这项研究。分析中的334名患者的中位年龄在发病48年(四分位范围,42-56年),315名患者(94.3%)是男性,平均随访时间为55.0个月(四分位范围,13 - 109个月)。的表显示了人口统计学、临床、病理和基因研究的人口特征。总共211名患者(63.2%)接受了与辅助CCRT sugery, 98(29.3%)接受了手术,辅助放疗、25(7.5%)接受了手术。患者术后辅助CCRT可能会有以下风险因素:淋巴结外侵犯(161 211 (76.3%);P<措施)和神经周的入侵(122 211 (57.8%);P=措施),高病理阶段(四期,184 211 (87.2%);P<措施),更总淋巴结解剖(中位数,47.0(四分位范围,36.0 - -61.0);P<措施)。会议癌症特异性生存的患者数量的结果是194年(58.1%),病人的numbe会议遥远metastasis-free生存的结果是247年(74.0%),和病人的数量满足局部区域recurrence-free生存的结果是267年(79.9%)。
模型使用临床病理的构建和遗传特性成功分层病人术后CCRT (图1;eFigure 2补充(在10轮测试中,只有第一轮测试结果绘制]),病人术后放射治疗(图2;eFigure 3补充第一轮测试结果),并仅接受手术的患者(图3;eFigure 4的补充[第一轮测试结果])为基础的癌症特异性生存率和局部区域recurrence-free生存生存指数。的病人和他们的随访时间为每个生存在高风险和低风险组的结果预测的模型使用临床病理的构建和基因特性eTable 1所示补充。均值(SD) C指数模型对患者术后辅助CCRT癌症特异性生存预测分别为0.689(0.050),0.702(0.056)遥远metastasis-free生存预测,和0.693(0.039)对局部区域recurrence-free生存预测。癌症特异性生存率和局部区域recurrence-free生存预测术后患者辅助CCRT, C指数模型使用临床病理的构建和遗传特性的报道要高与单独使用临床病理的特性(癌症特异性生存:意思是(SD) C指数0.689(0.050)和0.673 (0.051);P= .02点;局部区域recurrence-free生存:意思是(SD) C指数0.693(0.039)和0.678 (0.035);P= 04);然而,分类性能在遥远metastasis-free生存并不是不同的(平均(SD) C指数0.702(0.056)和0.688 (0.048);P= .09点)(eTable 3补充)。此外,这些模型使用临床病理的构建和遗传特性适合比模型使用遗传特性构建癌症特异性生存和局部区域recurrence-free生存(eTable 2补充)。弹性净处罚Cox比例风险回归模型优于常规Cox比例风险回归模型在癌症特异性生存(0.689 vs 0.616 C指数;P<措施),遥远metastasis-free生存(0.702 vs 0.614;P<措施),局部区域recurrence-free生存(0.693 vs 0.650;P=措施)。
临床病理和基因功能的预后关系被定义为那些选择了超过80%的模型(> 24 30模型)。选择的基本特征模型预测预后生存类型及其风险比率eFigure 5和eTable 4所示补充。淋巴结外侵犯、积极淋巴结解剖极品变体中选择所有类型的预后生存的预后模型测量在不同的治疗组(eTable 4补充)。
危险分层的结果对病人术后辅助CCRT可视化的模式预测结果3生存测量(图4)。使用癌症特异性生存的风险预测的模型测量可以代表整体死亡率为病人。然后,其他的风险测量可以进一步表示癌症转移和局部复发的风险。与风险分类3一起生存的测量,病人可以进一步分为4 subgroups-overall低风险组,异构低风险组,异构的高风险群,和整体高危组。病人在整个低风险组分为低风险在所有生存测量,和病人在整个高风险群被列为高风险生存测量。异构低风险组的患者在癌症特异性测量被分类为低风险,但至少1高风险分类在其他测量,这意味着病人死亡率风险相对低,但具有不同的风险事件的癌症转移或局部复发。211名患者术后辅助CCRT, 104名患者被分为整体高风险群和55名患者被分为整体低风险的子群。
在这项研究中,我们一致的临床癌症治疗终点的场景ML患者进行危险分层技术先进的口腔鳞状细胞癌。毫升模型提供个性化信息局部区域复发的风险分层万博manbetx平台首页,远处转移,癌症特异性生存。临床医生可以加强或deintensify后续基于风险集中时间和治疗术后晚期口腔癌患者。我们的风险分层模型训练和验证基于东亚人口,在口腔癌症的患病率要高得多,因为文化、行为和社会经济地位。26这项工作由于缺乏可以填补空白的预后预测亚洲人口的工具。
癌症患者的预后预测可以高精度综合信息预测模型中使用。万博manbetx平台首页几个头颈癌预后计算器,比如Maastro诊所,LifeMath,莱顿,27MyCancerJourney、纪念斯隆凯特林和骑士,已经发表了美国和荷兰的人口。28,29日然而,这些风险计算器采用临床信息,没有病理和基因特性。万博manbetx平台首页基因变异概要文件包含测量多个基因变体是另一个有前途的方法来估计肿瘤的行为。使用新一代测序的强大分析能力,多种基因的平行分析是可能的。然而,癌症的发展是一个复杂的肿瘤细胞之间的相互作用,paratumor组织,和其他宿主因素。1因此,遗传特性本身不提供全部的癌症,虽然基因功能仅在区分高风险和低风险的个人证明有用。11在这项工作中,我们证明了一种改进的精度水平的危险分层与全面的临床病理和基因数据的使用(即临床、病理和基因功能)的Akaike信息准则(万博manbetx平台首页图1,图2,图3;eTable 2补充)。此外,根据弹性网的内在特征选择惩罚Cox比例风险回归模型,只有6 44肿瘤基因变异的概要文件被选中的风险分层模型(eFigure 5补充)。在我们的模型中,被测量所需的基因数量在很大程度上减少到6,和多重聚合酶链反应而不是下一代测序足以检测基因变异。基因测试的成本在我们的模型将大大减少,和模型将成为负担得起的口腔癌患者理想的社会经济地位。26使用现有的临床和病理资料,结合需要论坛更少数量的基因测试,危险分层模型可以直接集成到当前工作流管理术后晚期口腔癌患者。
嵌套重复交叉验证是用于我们的工作,适用于较小的数据集提供一个无偏估计预测模型的性能和功能的重要性。30.- - - - - -32机器学习可以成为一个强大的工具,如果医生参与模型开发过程一致,满足临床的目的。可归纳的方法和当地相关数据,但不是一个通用模型,是保证临床适用的ML模型。16,33
结合3生存的预测风险分类测量可以提供一个实际应用的风险分层(图4)。如果病人被列为高危预测模型基于癌症特异性生存测量,这可能意味着更多的加强门诊和实验室后续的必要性。34此外,风险分类预测模型的局部区域recurrence-free生存可以提供额外的有用的信息的定制管理化疗,和遥远的风险分类预测模型metastasis-free生存可以提供额外的有用的信息的定制管理放射治疗。万博manbetx平台首页患者术后辅助CCRT,通常没有个性化的危险分层随访计划将是相同的。演示的危险分层图4为个性化的风险评估提供了临床相关的方法。
我们的工作有一些局限性。我们的模型构建和评估是基于一个相对较小的,单身,三级医院回顾性队列在亚洲人口,这表明缺乏推广到西方人群;模型的性能应用于来自其他机构的数据时可能有所不同。即模型可能不适合直接使用在其他机构,因为高水平的各种因素的多样性。然而,一个嵌套,重复,三倍交叉验证的方法被用来减少偏见和模仿外部验证。工作流是通用的,可以应用于不同的机构。前瞻性、多中心试验验证所需的效用风险分层模型在未来的研究。虽然预测模型有一个相对稳定的性能,一些相互矛盾的结果观察,同时病人分为高风险和低风险组在不同预后生存的结果。此外,先进的头部和颈部癌症的手术非常复杂,往往涉及重建手术,这可能会影响病人的结果。19
在这个预后队列研究中,我们开发和验证术后晚期口腔癌患者危险分层模型通过使用全面的临床病理和基因数据。风险分层模型,结合临床治疗方案与ML技术可能表明局部区域复发的预后风险,远处转移,癌症特异性生存。准确的风险分层利用毫升模型与一个在线计算器可能促进一个更精确的管理的先进的口腔癌症病例。
发表:2020年5月18日。
发表:2020年8月21日。doi:10.1001 / jamanetworkopen.2020.11768
开放:这是一个开放的分布式根据文章CC-BY许可证。©2020年曾Y-J et al。狗万体育下载地址《美国医学会杂志》网络开放。
通讯作者:Chia-Hsun谢长廷,医学博士,Hematology-Oncology分工,内科,新北市市政土城医院,6号金城Rd, Sec 2,土城区,新23652年台北市,台湾(wisdom5000@adm.cgmh.org.tw)。
作者的贡献:Drs曾和王完全访问所有的数据的研究,负责数据的完整性和数据分析的准确性。Drs曾和王同样这项工作。
概念和设计:曾,王陆,谢长廷,廖。
数据的采集、分析或解释:曾,王、林、廖。
起草的手稿:曾,王、林、廖。
关键的修订手稿的重要知识内容:Wang Lin,谢长廷,廖。
统计分析:曾,王,廖。
获得资助:曾,廖。
行政、技术或材料支持:曾,王、林、谢长廷,廖。
监督:陆,谢长廷,廖。
利益冲突的披露:没有报道。
资金/支持:这项工作是CMRPD3I0011赠款支持和CMRPG3G0593长庚医院;授予最- 109 - 2636 - e - 182 - 001,大多数- 108 - 2628 - b - 182 - 001,和大多数- 108 - 2314 b - 182 a - 113 my3科技部,台湾;赠款EMRPD1I0431、EMRPD1I0501 EMRPD1I0481特色区域研究中心项目的框架内的发芽项目由教育部高等教育在台湾;林口长庚医院癌症中心数据库和生物信息学的核心;和基因组的核心在长庚大学分子医学研究中心。
资助者的角色/赞助商:的资金来源没有参与这项研究的设计和实施;的收集、管理、分析和解释数据;准备、审查或批准的手稿;并决定提交出版的手稿。
额外的贡献:贾魏Chang女士、部门信息管理、长庚大学提供了数据可视化的概念。万博manbetx平台首页张先生没有补偿这一贡献。