要点
问题临床病理变量能否用于开发机器学习模型,预测早期口腔鳞状细胞癌(OCSCC)患者的隐匿性淋巴结转移?
发现在这项包括634例早期OCSCC患者的诊断建模研究中,开发的机器学习模型可以预测隐匿性淋巴结转移,与临床实践中常用的肿瘤深度阈值相比,其准确性显著提高。
意义本研究结果表明,根据临床病理变量开发的预测模型有潜力通过正确识别隐匿性淋巴结转移风险最高的早期OCSCC患者来确保充分的治疗和降低发病率。
重要性鉴于早期口腔鳞状细胞癌(OCSCC)具有较高的亚临床淋巴结转移倾向,选择性颈清扫术已成为许多临床淋巴结阴性患者的标准做法。不幸的是,对于大多数没有区域转移的患者来说,这种规避风险的治疗模式会导致不必要的发病率。
目标根据原发肿瘤手术切除后的临床病理变量,开发并验证隐匿性淋巴结转移的预测模型,并将预测性能与目前公认的浸润深度(DOI)标准进行比较。
设计、设置和参与者本诊断建模研究回顾性收集了美国7个三级护理学术医疗中心的临床病理变量。参与者包括早期无淋巴结受累性OCSCC的成年患者,他们接受了初次手术摘除,并伴有或不伴有前期选择性颈部清扫术。这些患者在2000年1月1日至2019年12月31日期间进行了初步评估。
曝光肿瘤最大尺寸、肿瘤厚度、DOI、边缘状态、淋巴血管侵犯、神经周侵犯、肌肉侵犯、粘膜下侵犯、发育不良、组织学分级、解剖亚部位、年龄、性别、吸烟史、种族和民族、体重指数(体重(公斤)除以身高(米)平方)。
主要成果及措施在选择性颈清扫术或初次手术后2年内区域复发时发现隐匿性淋巴结转移。
结果在纳入的634例患者中(平均[SD]年龄为61.2[13.6]岁;344例(54.3%),114例(18.0%)有隐匿性淋巴结转移。隐匿性淋巴结转移患者淋巴血管侵犯发生率较高(26.3% vs 8.1%;P< .001),神经周围侵犯(40.4% vs 18.5%;P< .001),以及浸润性肿瘤累及边缘(12.3% vs 6.3%;P= .046),与无病理性淋巴结转移者比较。此外,有隐匿性淋巴结转移的患者低分化原发肿瘤的发生率高于无隐匿性淋巴结转移的患者(20.2% vs 6.2%;P< .001)和更大的DOI (7.0 vs 5.4 mm;P<措施)。使用XGBoost架构构建的预测模型优于常用的DOI阈值4 mm,实现了0.84 (95% CI, 0.80-0.88) vs 0.62 (95% CI, 0.57-0.67)的曲线下面积。该模型敏感性为91.7%,特异性为72.6%,阳性预测值为39.3%,阴性预测值为97.8%。
结论与相关性本研究结果表明,基于多机构临床病理数据开发的机器学习模型不仅有可能减少病理淋巴结阴性颈部解剖的数量,而且还能准确识别早期OCSCC患者中淋巴结转移风险最高的患者。
口腔鳞状细胞癌(OCSCC)的区域转移与复发风险增加和生存期降低有关。1,2颈部廓清适用于诊断时明显的淋巴结病变患者和晚期肿瘤患者。3.没有临床结节疾病的早期OCSCC患者的治疗是一个持续争论的主题。患有临床淋巴结阴性疾病但发生淋巴结进展的患者的预后明显比接受前期择期颈部清扫术(END)的患者差。4然而,大约70% - 80%的END患者淋巴结病理阴性,这可能会导致不必要的手术发病率,并增加这些患者的医疗费用。5-13
cT1-2N0 OCSCC患者是否行END的决定通常基于肿瘤的厚度或浸润深度(DOI),这一直被证明与隐匿性淋巴结转移的风险相关。4,14-16然而,鉴于淋巴结复发对生存的不利影响,任何观察颈部而不是进行颈部清扫术的决定都应在精心挑选的、随访坚持的患者中做出。17因此,在这种情况下,任何预测模型的主要目标之一是优化阴性预测值(NPV),重点是尽量减少假阴性结果和对隐匿性淋巴结转移患者的观察。机器学习的使用提供了一个机会,可以改善患者的选择,减少对没有病理性淋巴结转移的患者进行颈部解剖的数量,而不会影响患有隐匿性淋巴结疾病的患者的肿瘤结局。
之前的一项研究使用了国家癌症数据库的数据,开发了机器学习来预测早期OCSCC的隐匿性淋巴结转移。18与许多机构常用的基于DOI的模型相比,该模型具有优势。在此,我们通过描述基于回顾性收集的早期口腔癌患者的多机构数据的机器学习模型,扩展了之前的工作。具体来说,我们的目标是根据原发肿瘤手术切除后可用的临床病理变量开发和验证隐匿性淋巴结转移的预测模型,并将预测性能与目前公认的DOI标准进行比较。我们假设,这些预测模型将通过纳入国家癌症数据库中未捕获的原发肿瘤病理元素,从而优于先前开发的模型。
这项诊断建模研究的数据来自美国7个机构(堪萨斯城堪萨斯大学医学中心;密苏里大学卫生系统,哥伦比亚;爱荷华大学医院和诊所,爱荷华市;田纳西州纳什维尔范德比尔特大学医学中心;内布拉斯加卫理公会医疗系统,奥马哈;明尼苏达大学医学中心,明尼阿波利斯;马萨诸塞州眼耳医院,波士顿)。所有纳入的患者都在2000年1月1日至2019年12月31日期间进行了初步评估。这项研究得到了所有参与机构的机构审查委员会的批准,该委员会放弃了知情同意要求,因为该研究使用了回顾性的、去识别的数据。如果适用,堪萨斯大学和参与机构之间已经建立了数据使用协议。 This study adheres to the Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis (三脚架)报告指引。19
年龄在18岁或以上,无淋巴结受累性(cN0)临床证据的早期(cT1-2) OCSCC患者接受了一次手术治疗。如果患者进行了手术切除原发肿瘤,并且(1)进行了END以管理区域淋巴结,(2)在至少2年的临床随访后观察到颈部没有局部复发的证据,或(3)在首次手术治疗后2年内观察到颈部出现了局部复发(图1)补充).排除有头颈部放疗史或既往颈部清扫史的患者。非手术治疗(如最终放疗)的患者也被排除在外,术前体检或影像学检查中有局部或远处转移性疾病的患者也被排除在外。
我们感兴趣的结果是pN转移。这种结局被定义为在END后在淋巴结中发现临床淋巴结阴性肿瘤或在观察颈部的患者中2年内发生活检证实的区域转移性疾病。
感兴趣的变量是临床变量(年龄、性别、种族和民族、体重指数[以体重公斤/身高平方米计算]、吸烟史和肿瘤解剖部位)和病理变量(最大肿瘤尺寸、DOI、肌肉侵犯、粘膜下侵犯、发育不良、组织学分级、边缘受累、神经周围侵犯[PNI]和淋巴血管侵犯[LVI])。在参与机构的电子健康记录中报告了种族和族裔数据。种族和民族类别包括亚洲人、黑人、西班牙人、美洲原住民和白人。
目前参与机构的病理学家从垂直于最近的正常鳞状粘膜基底膜建立的视界的垂直线测量肿瘤DOI,这与美国联合委员会癌症分期手册第八版纳入DOI是一致的。20.,21然而,在整个研究期间,这一变量的测量并没有标准化。虽然DOI和厚度不能互换,但厚度通常用于术前,因为DOI是通过手术标本评估的。然而,DOI和厚度都与淋巴结转移有关。22为了本研究的目的,我们同时收集了DOI和厚度,并在可用时使用DOI。
仅基于肿瘤DOI开发了一个预测模型,因此深度等于或大于以毫米为单位的深度阈值的肿瘤被预测患有隐匿性淋巴结疾病,而深度小于该深度阈值的肿瘤被预测没有隐匿性淋巴结疾病。在这个模型中,深度阈值被用来推荐END。选择阈值深度4毫米作为基准预测,与开发的模型进行比较,因为该值已被证明能提供最佳的净现值。16
我们开发了分类算法,使用初始手术切除后可用的变量来预测pN阳性。我们评估的模型包括逻辑回归、随机森林、支持向量机分类器和XGBoost。之所以选择XGBoost而不是传统的梯度增强算法,是因为它有额外的正则化协议,可以控制模型的复杂性,以防止在初始模型训练期间过拟合。
在模型训练之前,针对类别特征生成虚拟变量,这些特征的值之间没有直接关系。对具有明确序数的变量进行标记编码,以保留其相对位置信息。万博manbetx平台首页这些特征的缺失值被分配到未知类别,该类别被分配到最接近平均值的整数值。
多机构队列非随机分为模型开发队列和外部验证队列。来自内布拉斯加州卫理公会卫生系统的患者被指定为外部验证队列,以解释不同研究所之间潜在的非随机变化。模型开发队列随后被随机分为80%作为训练集和20%作为内部验证集。样本进行分层,使pN转移病例的比例与整个数据集成比例相等。连续特征通过去除平均值和缩放到单位方差进行标准化。这种标准化是在内部验证集和训练集完全隔离之后完成的,以防止内部验证集保留关于训练集分布的信息。万博manbetx平台首页为了控制类别不平衡,对少数类别施加权重,以确保模型开发过程中误差的均匀分布,并平衡错误分类的惩罚。
超参数优化采用重复分层K-fold交叉验证。使用树Parzen估计方法来识别使受试者工作特征(ROC)曲线下面积最大化的超参数。23所有模型都是用Python开发的,版本3.7.10,使用sklearn,24hyperopt,25和XGBoost26包(Python软件基金会)。
在集成模型的最终预测中,每个特征的重要性由每个特征被分割的次数决定。使用系数大小作为代理来比较用逻辑回归和支持向量机分类器架构构建的模型的相对特征重要性。所有开发模型的鉴别能力都在内部验证集上进行初步评估。然后将每种算法的最佳表现模型应用于外部验证队列。各模型的综合性能通过ROC曲线下面积(AUC)进行评估,AUC采用梯形法计算。生成相关ci,并通过DeLong等人描述的方法对模型之间的AUC进行两两比较。27其他评价标准包括净现值、阳性预测值、敏感性、特异性和准确性。筛选所需的数量用于比较与错误分类减少相关的已开发模型的边际效益。
在连续量表上测量的患者特征差异进行了比较t检验、分类变量用χ进行评估2或者费雪精确检验。所有统计检验均为双侧检验,比较的显著性水平设置为P= . 05。数据分析时间为2021年4月1日至2021年11月1日。
我们确定了911例诊断为早期(cT1-2) OCSCC的患者,这些患者临床淋巴结阴性(cN0)并接受了初步手术切除。在这些患者中,634例接受了END或颈部观察,并且至少有2年的临床随访(表1).该组包括290名女性(45.7%),344名男性(54.3%)和589名白人(92.9%),平均(SD)年龄为61.2(13.6)岁。
隐匿性淋巴结疾病114例(18.0%)。在这些患者中,94例(14.8%)有pN转移(pN阳性),这些转移是在颈清扫标本的组织学评估中确定的。其余20例(3.2%)患者在颈部观察后发生淋巴结复发。2个临床组的单因素比较显示,隐匿性淋巴结转移患者LVI发生率较高(26.3% vs 8.1%;P< .001), PNI (40.4% vs 18.5%;P< .001),以及浸润性肿瘤累及边缘(12.3% vs 6.3%;P= .046)。此外,有隐匿性淋巴结转移的患者低分化原发肿瘤的发生率高于无隐匿性淋巴结转移的患者(20.2% vs 6.2%;P< .001)和更大的DOI (7.0 vs 5.4 mm;P<措施)。
鉴于在两两分析中发现的显著差异,我们试图更好地理解这些变量与潜在隐匿性淋巴结转移患者的临床表型的关系。为了在不同单位和大小的变量之间进行比较,对变量进行了标准化,使其在整个队列中的平均值缩放为0,其SDs缩放为1。然后根据临床表型之间的标准化平均差异对变量进行排名(图2)补充).与淋巴结阴性组相比,LVI (SD差,0.54)、组织学分级(SD差,0.53)、PNI (SD差,0.51)和DOI (SD差,0.32)的差异似乎对隐匿性淋巴结表型的影响最大。
在总共634名患者中,486名患者的数据是从专门用于本研究的多机构合作中收集的,该队列被指定为模型开发队列。其余148例患者的数据由单一机构收集,该队列被指定为外部验证队列。模型开发队列随机分为训练集和内部验证集。表1补充显示这3组的人口学和临床特征。
使用初始手术切除时收集的患者特征,训练有监督的机器学习模型来识别隐匿性淋巴结转移患者。图1总结了所评估的所有4种分类算法在孤立外部验证队列中的预测性能。由XGBoost算法生成的模型(ROC AUC = 0.84;95% CI, 0.80-0.88)优于肿瘤深度阈值(ROC AUC = 0.62;95% CI, 0.57-0.67), logistic回归(ROC AUC = 0.78;95% CI, 0.74-0.83),支持向量机分类器(ROC AUC = 0.81;95% CI, 0.76-0.85),随机森林模型(ROC AUC = 0.81;95% ci, 0.76-0.85)。所有模型均优于END推荐深度阈值。此外,无论深度阈值如何,这些模型都优于DOI(图3)补充).即使是专门为外部队列优化的深度阈值3.2 mm,也只能实现0.716的ROC AUC。同样,XGBoost模型具有最佳的精确召回性能,AUC为0.49 (95% CI, 0.43-0.53) (图1B)。
每个模型的决策阈值使用约登指数(表2).在此优化阈值下,XGBoost模型的敏感性为91.7%,特异性为72.6%,阳性预测值为39.3%,净现值为97.8%。这导致pn阳性患者误诊率仅为8.3%,而DOI阈值患者误诊率为37.5%。此外,XGBoost模型对pn阴性患者的错误分类仅为27.4%,而对DOI阈值患者的错误分类为38.7%。由于这种错误分类的减少,为了正确识别额外的pn阳性疾病患者所需的筛查数量将是21.0,而为了正确识别额外的pn阴性疾病患者从而避免END所需的筛查数量将是10.6。图2显示每个患者与XGBoost模型的决策阈值之间的相对距离,由他们的分类概率确定。外部验证队列中其余模型与决策阈值的相对距离如图4所示补充.模型开发队列中所有模型的性能如表2和图5所示补充.
图3显示了所有4个开发模型的变量重要性。对于所有模型,组织学分级均排在最重要特征的前2位。与汇集队列表型分析的结果相似,LVI、PNI和DOI始终是每个模型中最重要的特征。
对于早期OCSCC患者,END与抢救性颈清扫术相比具有已知的生存优势,减少病理淋巴结阴性颈清扫术的能力取决于对隐匿性淋巴结疾病患者的准确识别。4在强有力的证据表明挽救性治疗性颈清扫术在肿瘤学上不等同于END的背景下,这尤其如此,这进一步支持了积极的颈部前期治疗。然而,大多数进行颈部廓清的患者可能没有pN疾病,这对个别患者没有实际的好处,并具有潜在的发病率,包括脊髓副神经功能障碍、血肿、感染和难看的颈部疤痕。9
为了改善这种不协调,肿瘤厚度和DOI已被用于更好地识别将从END获益最多的患者。已经检查了许多决策阈值,深度阈值4毫米提供了最佳的NPV,外科医生使用最多。16虽然这是一个改进,更多的风险规避治疗模式,为所有患者提供END,其甄别性表现并不令人印象深刻。
在这项诊断预测建模研究中,我们发现由多机构数据开发的机器学习模型的表现优于DOI(常用的筛选工具)。使用一系列临床病理变量,我们发现这些模型不仅有可能减少进行病理淋巴结阴性颈清扫的患者数量,而且还可以更好地识别隐匿性淋巴结疾病的最高风险。具体而言,与DOI阈值相比,XGBoost机器学习模型正确地为每10.6名接受END筛查的患者节省了1名额外的患者。此外,与DOI相比,每筛查21.0例患者,该模型可正确识别1例隐匿性淋巴结转移患者。
在最初的合并队列分析中,我们发现隐匿性淋巴结表型主要由LVI、组织病理学分级、PNI和DOI的差异决定。总之,这是性能最好的XGBoost模型的4个最重要的特性。具体来说,在所有变量中,LVI被证明具有最强的歧视潜力。组织学评估中发现的这种肿瘤特征已被证明与OCSCC患者较高的局部复发率相关。28在单个细胞水平上,超越内皮细胞边界的运动与上皮细胞向间质转化有关。29在头颈部鳞状细胞癌中,部分上皮细胞向间质转变的表达标志是淋巴结转移、LVI和淋巴结外延伸的预测。30.,31这种上皮细胞-间充质转化(LVI)和随后的区域淋巴结沉积的顺序途径在机制上是合理的,因为内皮系统的入侵对更大的局部转移和随后的区域淋巴结扩散至关重要。尽管概念相似,但PNI和组织学分化都已被证明与较高的淋巴结转移率独立相关。32-39因此,表现最好的模型能够结合这些先前确定的关联,在个体患者水平上对区域转移做出明智的预测。
随着越来越多的证据支持使用组学数据来预测其他癌症的转移,将外部表型特征(如本研究中使用的那些)与上游固有基因型生物标志物相结合,可能会增强这一已经很强大的性能。40-45例如,在外部验证队列中被错误分类的2例患者具有提示淋巴结转移低风险的临床病理特征。对于这些患者,他们的基因型谱可以揭示一种尚未在临床上表现出来的侵袭性表型的倾向。因此,在模型开发中整合这些组学特征可能会导致个体患者的更可靠表示,并可能在更大范围的临床终点上改进风险估计。展望未来,使用人工智能方法的模型的持续发展和完善有可能大大改善头颈外科手术的临床决策。
这项研究有两个局限性。第一个局限与淋巴结疾病的病理评估有关。常规的组织病理学评估包括对大体确定的淋巴结进行双剥,并用苏木精和伊红染色。46这一过程可能无法捕捉使用更复杂的标本分析技术发现的微转移疾病。47这种微转移疾病的清除可能解释了在接受END手术的患者中生存的好处,即使没有发现pN疾病。48,49从这个意义上说,pN阳性和淋巴结复发可能并不真正等同,并且不可能回顾性地确定在我们的研究中通过机器学习模型避免进行颈部清扫的72.6%的患者是否能够通过观察颈部进行持久的区域控制。然而,许多支持使用DOI指导颈部管理的研究同样将pN状态作为可接受的主要结局,并且在临床实践中,常规病理检查被认为是可接受的,以指导辅助治疗和预测。14,15因此,我们认为这两个结果对于本研究的目的来说是足够相似的。
第二个限制是DOI缺乏清晰度。这一因素不同于肿瘤厚度的测量方法和预测能力。21虽然目前的天气报告已经标准化了DOI的计算和报告,但在参与机构中,这并不一致,直到美国癌症分期联合委员会手册第八版出版之后,才将DOI纳入OCSCC分期。病理复查可揭示既往手术情况;然而,这是昂贵的,可能不反映临床数据。
早期口腔癌隐匿性淋巴结转移的准确预测可能会使患者避免与是否有益的颈清扫术相关的发病率,并确保对隐匿性淋巴结疾病的充分治疗。在这项研究中,我们使用机器学习方法开发了预测模型,该方法包含了广泛的临床病理特征。这些模型预测淋巴结转移的准确性高于仅基于DOI的模型,后者是目前的标准标准。这个DOI阈值最初是为了减少病理上的节点阴性end,但我们开发的机器学习模型不仅能够减少这个数字,而且在正确识别隐匿性节点疾病风险最高的患者方面也要出色得多。
接受出版:2022年2月24日。
发表:2022年4月13日。doi:10.1001 / jamanetworkopen.2022.7226
开放:这是一篇开放获取的文章,根据CC-BY许可证.©2022 Farrokhian N et al.。狗万体育下载地址JAMA网络开放.
通讯作者:Nathan Farrokhian,学士,学士,堪萨斯大学医学中心,彩虹大道3901号,邮站:3010,堪萨斯城,KS 66160 (nfarrokhian@kumc.edu).
作者的贡献: Bur博士可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。
概念及设计:Farrokhian, Holcomb, Karadaghy, Bur。
数据的获取、分析或解释:Farrokhian, Holcomb, Dimon, Ward, Whiteford, Tolan, Hanly, Buchakjian, Harding, Dooley, Shinn, Wood, Rohde, Khaja, Parikh, Bulbul, Penn, Goodwin, Bur。
文稿起草:法罗希安,霍尔科姆,戴蒙,怀特福德,希恩,伯尔。
对重要知识内容的手稿的批判性修订:Farrokhian, Holcomb, Karadaghy, Ward, Whiteford, Tolan, Hanly, Buchakjian, Harding, Dooley, Shinn, Wood, Rohde, Khaja, Parikh, Bulbul, Penn, Goodwin, Bur。
统计分析:法罗希安,霍尔科姆,怀特福德,帕里克。
支持:行政、技术或物质上的支持:霍尔科姆,卡拉达吉,希恩,布布尔,伯尔。
监督:杜利,希恩,伍德,布布尔,佩恩,伯尔。
利益冲突披露:伯尔博士报告说,在提交的工作之外,他还从城堡生物科学公司收取了个人费用。没有其他披露的报道。
额外的贡献:以下个人提供了大量的患者数据:Yelizaveta Shnayder,医学博士;Kiran Kakarala,医学博士;Terence Tsue医学博士;Douglas Girod,医学博士;安吉拉·奥斯莫拉克医学博士;Oleg Militasakh,医学博士;Andrew Coughlin,医学博士;Aru Panwar,医学博士;Robert Lindau III,医学博士;医学博士William Lydiatt; Rodrigo Bayon, MD; Kristi Chang, MD; Henry Hoffman, MD; Nitin Pagedar, MD; Tabitha Galloway, MD; Robert Zitsch, MD; Patrick Tassone, MD; James L. Netterville, MD; Young Kim, MD, PhD; Alexander J. Langerman, MD; Kyle Mannion, MD; Robert J. Sinard, MD; Michael C. Topf, MD; Chen Lin, MD; Daniel Sharbel, MD; Maria Evasovich, MD; Ashok R. Jethwa, MD; Frank Ondrey, MD, PhD; Bevan Yueh, MD; Daniel G. Deschler, MD; Derrick T. Lin, MD; Jeremy D. Richmon, MD; Kevin S. Emerick, MD; and Mark A. Varvares, MD. These individuals received no additional compensation, outside of their usual salary, for their contributions.
2.
沙阿。颈部淋巴结转移的诊断、治疗和预后意义。
肿瘤科(威利斯顿公园).1990; 4(10): 61 - 69。
PubMed
谷歌学者
10.
佐丹奴l *, Sarandria d *,法比亚诺b*, Del Carro u*, Bussi m*。选择性和超选择性颈部解剖后的肩部功能:临床和功能结果。
耳鼻喉科学报.2012年,32(6):376 - 379。
PubMed
谷歌学者
24.
陈志强,陈志强,陈志强,等。Scikit-learn: Python中的机器学习。
J Mach Learn Res.2011; 12(85): 2825 - 2830。
谷歌学者
25.
张志刚,张志刚,张志刚。建立模型搜索的科学:视觉架构的数百维超参数优化。第30届机器学习国际会议论文集。
J Mach Learn Res.2013年,28(1):115 - 123。
谷歌学者
28.
阿巴斯·萨[,赛义德·j],塔里克·穆[,巴克什·阿尔],哈什米·萨[。口腔鳞状细胞癌的临床病理预后因素:三级护理医院的经验。
J Pak医学协会.2018, 68(7): 1115 - 1119。
PubMed
谷歌学者
43.
魏丹皮肤黑素瘤转移的多基因支持向量机预测。
Mol医学代表.2018年,17(2):2907 - 2914。
PubMed
谷歌学者