[跳到导航栏]
狗万体育下载地址JAMA网络之家
登录
图1所示。自然语言处理流水线
自然语言处理流水线

CUI表示概念唯一标识符;GloVE,用于单词表示的全局向量;KNN, κ-近邻;支持向量机;XGBoost,极端梯度增强。

图2。从法医数据中确定过量服用的物质
从法医数据中确定过量服用的物质

MDA为3,4-亚甲基二氧苯丙胺;MDMA 3 4-methylenedioxymethamphetamine。

表1。训练数据集10重交叉验证中按物质排序的前3名模型
训练数据集10重交叉验证中按物质排序的前3名模型
表2。在测试数据集(N = 7087)中使用CUI2Vec作为特征表示的引导诊断指标和最佳表现模型一个
使用CUI2Vec作为特征表示的测试数据集(N = 7087)中的自举诊断指标和最佳表现模型
补充。

eTable 1。过量相关物质分类与关键词

eTable 2。与过量死亡有关的物质的共同发生

eTable 3。使用TF-IDF作为特征表示的测试数据集(N= 7087)中最佳表现模型的引导诊断指标和95%置信区间

eTable 4。使用词嵌入(GloVe)作为特征表示的测试数据集(N= 7087)中最佳表现模型的引导诊断指标和95%置信区间

eTable 5。阿片类药物的混淆矩阵

eTable 6。海洛因的混淆矩阵

eTable 7。芬太尼的混淆矩阵

eTable 8。处方阿片类药物混淆矩阵

eTable 9。甲基苯丙胺的混淆矩阵

eTable 10。可卡因的混淆矩阵

eTable 11。苯二氮卓类药物的混淆矩阵

eTable 12。酒精的混淆矩阵

eTable 13。他人的困惑矩阵

eTable 14。任何阿片类药物的错误分析

eTable 15。芬太尼的误差分析

eTable 16。处方阿片类药物的错误分析

eTable 17。苯二氮卓类药物的误差分析

eTable 18。酒精的误差分析

eTable 19。“其他”物质的误差分析

eFigure 1。预测“任意阿片类药物”类别的变量重要度图

eFigure 2。预测“海洛因”类别的变量重要度图

eFigure 3。预测“芬太尼”类别的变量重要性图

eFigure 4。预测“处方类阿片”类别的变量重要度图

eFigure 5。预测“甲基苯丙胺”类别的变量重要度图

eFigure 6。预测“可卡因”类别的变量重要度图

eFigure 7。预测“苯二氮卓类”类别的变量重要度图

eFigure 8。预测“酒精”类别的变量重要度图

eFigure 9。预测类别“其他”的变量重要性图

1.
弗里德曼·j·r·s·2019冠状病毒病和药物过量危机:揭示2020年1月至7月美国最致命的几个月。公共卫生.2021, 111(7): 1284 - 1291。doi:10.2105 / AJPH.2021.306256PubMed 谷歌学者 Crossref
2.
Ahmad f_, Rossen lm_, Sutton p_。临时药物过量死亡人数国家卫生统计中心。2021年出版。获得于2022年7月7日。https://www.cdc.gov/nchs/nvss/vsrr/drug-overdose-data.htm
3.
达斯古普塔n,别列茨基l,奇卡罗内d。阿片类药物危机:解决其社会和经济决定因素绝非易事。公共卫生.2018, 108(2): 182 - 186。doi:10.2105 / AJPH.2017.304187PubMed 谷歌学者 Crossref
4.
马特森cl_,坦兹lj,奎因k_,卡瑞萨m_,帕特尔p_,戴维斯nl_。药物和合成阿片类药物过量死亡的趋势和地理模式-美国,2013-2019年。《凡人周刊.2021, 70(6): 202 - 207。doi:10.15585 / mmwr.mm7006a4PubMed 谷歌学者 Crossref
5.
Shover cl_, Falasinnu to_, Dwyer cl_等。密西西比河以西芬太尼相关死亡率急剧上升:来自县和州监测的最新证据。依赖毒品和酒精.2020; 216:108314。doi:10.1016 / j.drugalcdep.2020.108314PubMed 谷歌学者 Crossref
6.
Ward pj_, Rock pj_, Slavova s_, Young am_, Bunn tl_, Kavuluru r_。提高药物过量死亡率监测的及时性:一种机器学习方法。《公共科学图书馆•综合》.2019; 14 (10): e0223318。doi:10.1371 / journal.pone.0223318PubMed 谷歌学者 Crossref
7.
Shiue ky_, Austin ae_, proescholbell s_, Cox me_, Aurelius m_, Naumann r_。2015-2019年北卡罗来纳州多类药物和多种药物过量死亡的文本分析依赖毒品和酒精.2021; 228:109048。doi:10.1016 / j.drugalcdep.2021.109048PubMed 谷歌学者 Crossref
8.
肖弗l·l·,费拉辛努·托·l·,弗里德曼·r·l·,汉弗莱斯·科···。异烟肼涉及过量死亡的新特征:一项病例对照研究。J成瘾医学.2021; 15(5): 429 - 431。doi:10.1097 / ADM.0000000000000775PubMed 谷歌学者 Crossref
9.
Nadkarni pm_, Ohno-Machado l _, Chapman ww_。自然语言处理:介绍。美国医学信息协会.2011; 18(5): 544 - 551。doi:10.1136 / amiajnl - 2011 - 000464PubMed 谷歌学者 Crossref
10.
Badger j_, LaRose e_, Mayer j_, Bashiri f_, Page d_, Peissig p_。阿片类药物过量事件表型的机器学习。J生物医学信息.2019; 94:103185。doi:10.1016 / j.jbi.2019.103185PubMed 谷歌学者 Crossref
11.
Lingeman jm_,王平_,Becker w_,余辉_。利用自然语言处理检测阿片类药物相关异常行为。AMIA年度会议进程.2018; 2017:1179 - 1185。PubMed 谷歌学者
12.
张建军,李建军,李建军,等。阿片类药物过量的识别和分类:一项验证性研究药物流行病学药物安全.2019; 28(8): 1127 - 1137。doi:10.1002 / pds.4772PubMed 谷歌学者 Crossref
13.
刘建军,刘建军,刘建军,等。使用临床文本的自然语言处理来增强电子健康记录数据中阿片类药物相关过量的识别。药物流行病学药物安全.2019; 28(8): 1143 - 1151。doi:10.1002 / pds.4810PubMed 谷歌学者 Crossref
14.
帕克·r·,格拉夫·d·,孔健·,陈坤·,前田·克··。英语千字字第五版。语言数据协会。2011年6月17日。访问日期:2022年7月6日至7日。doi:10.35111 / wk4f-qt80
15.
王勇,刘思,李晓明,等。生物医学自然语言处理中词嵌入的比较。J生物医学信息.2018; 87:12-20。doi:10.1016 / j.jbi.2018.09.008PubMed 谷歌学者 Crossref
16.
彭宁顿j,索彻r,曼宁c。GloVe:用于单词表示的全局向量。:2014年自然语言处理(EMNLP)经验方法会议论文集.计算语言学协会;2014:1532 - 1543。
17.
诺伊曼·m·,金·d·,贝尔塔吉·i·,阿玛尔·w·。生物医学自然语言处理的快速鲁棒模型。arxiv.预印本于2019年10月9日发布。doi:10.18653 / v1 / w19 - 5034谷歌学者
18.
博登雷德:哦。统一医学语言系统(UMLS):整合生物医学术语。核酸测定.2004; 32(数据库问题):D267-D270。doi:10.1093 / nar / gkh061PubMed 谷歌学者 Crossref
19.
Beam al_, Kompa b_, Schmaltz a _,等。临床概念嵌入从多模式医学数据的大量来源学习。Pac Symp biocomputer.2020; 25:295 - 306。PubMed 谷歌学者
20.
O 'Donnell j_, Tanz l_, Gladden rm_, Davis nl_, Bitting j_。涉及非法制造芬太尼的药物过量死亡趋势和特征——美国,2019-2020年。《凡人周刊.2021; 70(50): 1740 - 1746。doi:10.15585 / mmwr.mm7050e3PubMed 谷歌学者 Crossref
21.
张明文,李凯,张明文,张志强。BERT:用于语言理解的深度双向转换器的预训练。arXiv.预印本2019年5月24日在线发布。doi:10.48550 / arXiv.1810.04805 谷歌学者
22.
李J,Yoon W,金正日,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学.2020; 36(4): 1234 - 1240。PubMed 谷歌学者
23.
刘建军,刘建军,刘建军,等。公开可用的临床BERT嵌入。arXiv.预印本于2019年6月20日在线发布。doi:10.48550 / arXiv.1904.03323 谷歌学者
的观点 2738年
最初的调查
物质使用和成瘾
8月8,2022

使用自然语言处理对过量死亡所涉及的物质进行分类的机器模型的开发和验证

作者的从属关系
  • 1加州大学洛杉矶分校大卫·格芬医学院传染病科主任
  • 2加州大学洛杉矶分校大卫·格芬医学院普通内科分部
  • 3.加州大学洛杉矶分校大卫·格芬医学院的教授
  • 4加州大学洛杉矶分校大卫·格芬医学院家庭医学系教授
  • 5加州大学洛杉矶分校放射科学系医学与影像信息学(MII)组
JAMA网络公开赛。 2022; 5 (8): e2225593。doi: 10.1001 / jamanetworkopen.2022.25593
要点

问题在法医数据中识别与过量死亡有关的物质的最准确的机器学习和自然语言处理模型是什么?

发现在这项对35 433例死亡记录的诊断研究中,机器学习模型能够以完美或接近完美的表现对与任何阿片类药物、海洛因、芬太尼、处方阿片类药物、甲基苯丙胺、可卡因和酒精相关的死亡进行分类。苯二氮卓类药物分类不理想。

意义在这项研究中,自然语言处理工作流能够自动识别与法医数据中过量死亡相关的物质。

摘要

重要性在美国,过量服用是导致死亡的主要原因之一;然而,从法医确定死亡到在国家监测报告中报告,监测数据滞后很大。

客观的使用自然语言处理(NLP)和机器学习(ML)对法医数据中与物质相关的死亡进行自动分类。

设计,设置和参与者诊断研究比较了不同的自然语言处理和机器学习算法,以识别2020年1月1日至2020年12月31日期间美国10个卫生管辖区与过量有关的物质。研究人员检查了35 433份法医和验尸官死亡记录中的非结构化文本。

曝光每个案件的文本都被人工分类为与死亡有关的物质。使用并比较了三种特征表示方法:文本频率-逆文档频率(TF-IDF)、词表示的全局向量(GloVe)和概念唯一标识符(CUI)嵌入。训练了几种机器学习算法,并根据f分数选择了最佳模型。最佳模型在保留测试集上进行测试,结果报告的ci为95%。

主要成果和措施死亡证明的文本数据被归类为阿片类药物、芬太尼、酒精、可卡因、甲基苯丙胺、海洛因、处方阿片类药物和其他物质的集合。对特征提取方法和机器学习分类器的每种组合计算诊断指标和95% ci。

结果35例 死亡记录分析433例(死者中位年龄58岁[IQR, 41-72岁];24名 449名[69%]为男性),与死亡相关的最常见物质包括任何阿片类药物(5739名[16%])、芬太尼(4758名[13%])、酒精(2866名[8%])、可卡因(2247名[6%])、甲基苯丙胺(1876名[5%])、海洛因(1613名[5%])、处方阿片类药物(1197名[3%])和任何苯二氮卓类药物(1076名[3%])。除酒精外,CUI嵌入与词嵌入和TF-IDF相比,对所有物质具有相似或更好的诊断指标。ML分类器在分类与阿片类药物、海洛因、芬太尼、处方阿片类药物、甲基苯丙胺、可卡因和酒精相关的死亡方面表现完美或接近完美。三种特征提取方法对苯二氮卓类药物的分类均不理想。

结论与相关性在这项诊断研究中,NLP/ML算法在分类与过量有关的物质方面表现出出色的诊断性能。这些算法应集成到工作流程中,以减少报告过量监测数据的滞后时间。

介绍

在美国,服药过量死亡人数持续增加。12芬太尼进入许多药物市场是2013年以来过量死亡的一个重要因素。最近,从阿片类药物转向兴奋剂,甲基苯丙胺和可卡因相关死亡人数同时增加。与多种物质使用有关的过量使用也有所增加,包括苯二氮卓类药物和新型化合物。3.4美国疾病控制与预防中心(Centers for Disease Control and Prevention)通过地方卫生部门从法医和验尸官那里收集数据,以12个月滚动的方式汇总州和国家层面的过量用药数量。12然而,这些数据最终缺乏地方特异性,报告滞后使得难以对地方管辖范围内出现的流行病作出快速反应。3.5

法医和验尸官负责收集过量监测数据的第一步。6在怀疑服药过量的情况下,他们确定死因,并填写相应的死亡证明。这些证明包括表示死因的非结构化文本数据,在过量的情况下,还包括所涉及的药物。然后,它们被传送到当地的司法管辖区,根据国际标准进行编码国际疾病和有关健康问题统计分类第十次修订版(ICD-10).这一编码过程是手动完成的,非常耗时,导致从死亡日期到正确编码的延迟,以及从编码到实际报告这些死亡的额外延迟。这一过程减慢了监测数据的报告和随后的公共卫生反应时间。

法医记录的文本分析可能会揭示更细粒度的药物参与,因为细节可能在icd -用于产生国家统计数据的死亡原因代码。7例如,丁丙诺啡(一种用于治疗阿片类药物使用障碍的部分阿片类药物激动剂)和芬太尼(一种主要非法制造的合成阿片类药物)都包含在同一类药物中icd -还有曲马多、芬太尼类似物和新型合成阿片类药物,如异戊二烯。对这些数据进行分类可以在国家数据之前揭示对预防的重要影响,并有助于迅速查明新出现的毒品现象。8

自然语言处理(NLP)和机器学习(ML)有可能使这些人工审查过程自动化。NLP是使用计算机算法来理解文本,可用于识别文本中的关键概念或特征。与ML相结合,大量数据可用于训练模型,以高精度和准确性自动执行任务。9例如,Ward等人6使用NLP/ML对肯塔基州的自由文本死亡证明数据进行分类。然而,这种分类仅限于一种状态,并且只确定了过量的存在,而没有试图对起作用的物质进行分类。在NLP与物质使用相关的其他应用中,研究人员已经应用技术来识别阿片类药物相关的危害1011或过量1213电子健康记录数据。

这项研究的目的是使用一种自动化的方法,在验尸官的报告中快速准确地识别导致死亡的物质,以提供有关过量使用的更快速的监测数据。我们从美国各地的多个设置中收集了超过35000份 死亡证明的数据库,并根据所涉及的物质手动分类了每个自由文本条目。我们比较了多种NLP和ML方法,以确定具有最佳诊断性能的算法组合,用于识别文本中报告的各种物质。

方法
数据

这项研究需要对来自多个验尸官的死亡证明数据进行横断面分析。我们从公开来源获得死亡证明数据,或直接向验尸官或法医索取数据。2020年1月1日至2020年12月31日的数据来自以下县:伊利诺伊州库克县;德克萨斯州的丹顿;杰斐逊在阿拉巴马州;德克萨斯州的约翰逊;加州的洛杉矶;威斯康星州的密尔沃基;德克萨斯州的帕克;加州的圣地亚哥; and Tarrant in Texas. We also obtained data from the state of Connecticut. Analyses were completed in January 2022. All records provided were included in the analysis. We compiled the information into a database with the following variables: case number, county, age, gender, race, date of death, manner of death, primary cause, and secondary cause of death. The University of California at Los Angeles Institutional Review Board determined that this study was exempt from review and informed patient consent as nonhuman participant research. This study is reported following the Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis (三脚架)报告准则。

参考标准

我们中的两个人(C.L.S.和J.A.M.)根据每个病例中是否存在某种物质,根据验尸官提供的附带文本,手动对死亡进行分类。我们编制了一个关键词字典来识别每种物质(见表1)补充)。一个特殊的病例可以被归类为多种物质。我们将文本分为以下几类:甲基苯丙胺,3,4-亚甲基二氧基甲基苯丙胺,3,4-亚甲基二氧基苯丙胺,安非他明,可卡因,酒精,苯二氮卓类药物,海洛因,芬太尼,处方阿片类药物,任何阿片类药物,抗精神病药,抗抑郁药,抗惊厥药,抗组胺药,肌肉松弛剂,巴比妥酸盐和致幻剂。我们随机选择1000条记录进行双编码,并计算Cohen κ来评价注释者间的一致性。在这一步之后,每个组的κ截止值都大于0.80;一位作者(J.A.M.)在另一位作者(C.L.S.)的监督下对其余病例进行编码。只有至少有1000个条目的物质被单独评估,其余的被归类为其他物质。

自然语言处理

我们的NLP流程由多个阶段组成:探索性数据分析、数据预处理、特征工程、机器学习训练和测试以及错误分析(图1)。在探索性数据分析期间,我们计算描述性统计来评估文本数据的分布,并手动评估文本条目以通知必要的预处理步骤。在更复杂的建模步骤之前,预处理通过删除不包含死亡描述的条目(缺失数据)、合并主要和次要死亡原因变量以及完成基本的文本格式(删除标点符号、将文本更改为小写、将每个句子拆分为单个单词[标记])简化了文本。

在本研究中,特征工程需要从源文本数据创建数字表示。我们比较了三种特征工程方法:文本频率逆文档频率(TF-IDF)、词嵌入和概念唯一标识符(gui)嵌入。TF-IDF是每个单词的基于频率的数字表示,计算为TF(每个观察中单词出现的次数)和IDF的乘积。IDF的计算方法是用文档数除以包含该单词的文档数的对数。相反,词嵌入是从预训练模型中获得的多维空间中的词的数字表示。在我们的词嵌入模型中,我们使用全局向量进行词表示(GloVe),这是一个基于维基百科和Gigaword 5语料库(新闻通讯社文本数据)的文本进行预训练的模型。14我们使用了GloVe的一个版本,它由60亿个令牌和100个维度组成。1516此外,gui是分配给特定术语(在本例中是医学术语)中的每个概念的唯一代码。我们使用scispacy框架17将数据集中的文本链接到国家医学图书馆统一医学语言系统中的特定CUI。18然后,我们将每个CUI与其各自的嵌入进行匹配。与词嵌入类似,向量嵌入是从预训练模型中获得的多维空间中gui的数值表示。我们使用CUI2vec这是一个基于2000万份临床记录和170万份生物医学期刊文章的文本进行预训练的模型。19CUI2vec为109个 提供了053个独特的gui和每个CUI的500个维度的嵌入。CUI2vec嵌入经过过滤,只包含语义类为的嵌入有机化学

机器学习分类器

接下来,我们评估了多个ML分类模型,包括逻辑回归、naïve贝叶斯算法、随机森林、XGBoost、近邻近邻、支持向量机和单层神经网络。对每一种被评估的物质进行单独的二元分类器训练和测试。对于每种物质,我们将数据分割80%用于训练,20%用于测试和最终评估(即保留测试集)。我们使用10倍交叉验证在训练分割上训练所有分类器。我们调优了随机森林、XGBoost、κ近邻、支持向量机和基于网格搜索方法的神经网络等模型的超参数。在这个策略中,我们用一组初始的超参数训练一个模型,然后用初始值周围的值重新运行相同的模型,然后再围绕上一步的值运行。我们使用模型和超参数组合与最佳F-score(阳性预测值和灵敏度的调和平均值)进行检验。

统计分析

我们计算了留存测试集上每种物质和模型的最终诊断指标(占数据的20%)。最终诊断指标包括f评分、准确性、κ、敏感性(召回率)、特异性、阳性预测值(PPV;精度),负预测值,以及接收器工作曲线下的面积。我们通过重新采样测试集,替换1000次并计算每个样本的诊断指标,通过bootstrapping计算95% ci。我们将2.5百分位作为CI的下端,975百分位作为CI的上端,50百分位作为平均值。我们创建了混淆矩阵来识别假阳性、真阳性、假阴性和真阴性的数量。我们中的两个人(A.T.和D.G.M.)手动评估假阴性和假阳性病例,以确定错误分类的原因。为了尝试识别模型用于预测的关键词,我们绘制了基于TF-IDF和逻辑回归的特征重要性图。所有分析均在R 4.0.2版(R Foundation for Statistical Computing)中进行tidymodels框架在Amazon Web服务器上。

结果
描述性的

初始数据集包括35例 698例。由于缺少文本数据,我们排除了265例,最终数据集为35 433例。死者中位年龄为58岁(IQR, 41-72岁),24 449例(69%)为男性。提供最多案件的司法管辖区是库克县(45%)、洛杉矶县(32%)和圣地亚哥县(8%)。每种情况下每个文本的中位数字符数为59(范围为3到331)。每篇文章的字数中位数为7(范围从1到38)。26 695例(75%)中分类的物质或物质组数为0;2635例中1例(7%);1401例2例(4%);2218例中3例(6%); 4 in 1364 cases (4%); 5 in 659 cases (2%); 6 in 301 cases (1%); 7 in 113 cases (<1%); 8 in 41 cases (<1%); and 9 in 6 cases (<1%). The substances or groups of substances identified to be related to a death are shown in图2包括任何阿片类药物(5739[16%])、芬太尼(4758[13%])、酒精(2866[8%])、可卡因(2247[6%])、甲基苯丙胺(1876[5%])、海洛因(1613[5%])、处方阿片类药物(1197[3%])和任何苯二氮卓类药物(1076[3%])。计数低于1000的物质(如3,4-亚甲基二氧基甲基苯丙胺、3,4-亚甲基二氧基苯丙胺、安非他明、抗精神病药、抗抑郁药、抗惊厥药、抗组胺药、肌肉松弛剂、巴比妥酸盐和致幻剂)被归为其他药物。表2中的补充呈现与死亡有关的物质同时出现的矩阵。

诊断指标

表1给出了在保留测试集上进行的10倍交叉验证的f分数结果。使用TF-IDF、词嵌入和CUI嵌入的模型在识别任何阿片类药物、海洛因、芬太尼、甲基苯丙胺和可卡因方面都表现得几乎完美。值得注意的是,使用TF-IDF (F-score, 0.571)和词嵌入(F-score, 0.554)对处方阿片类药物进行分类是次优的;而CUI嵌入对处方阿片类药物的效果几乎完美(f值为0.996)。苯二氮卓类药物在所有3种特征表示中的表现都不是最优(f得分:CUI嵌入,0.902;TF-IDF 0.795;词嵌入,0.662)。对于酒精,TF-IDF和f得分为0.972,单词嵌入的f得分为0.956,而CUI嵌入的f得分较低,为0.852。

表3中的补充显示使用TF-IDF的最佳模型的引导诊断指标。最终模型对所有阿片类药物均有较高的f分(f分,0.969;95% CI, 0.959-0.979),海洛因(F-score, 1.00;95% CI, 1.00-1.00),芬太尼(F-score, 0.999;95% CI, 0.998-1.00),甲基苯丙胺(F-score, 0.992;95% CI, 0.979-0.997),可卡因(F-score, 0.999;95% CI, 0.997-1.00)和酒精(F-score, 0.968;95% ci, 0.953-0.980)。TF-IDF模型在识别处方阿片类药物方面不理想(f分,0.308;95% CI, 0.211-0.468),苯二氮卓类药物(F-score, 0.771; 95% CI, 0.716-0.826), and others (F-score, 0.777; 95% CI, 0.743-0.808).

表4中的补充显示使用词嵌入的最佳选定模型的保留测试集中的引导诊断指标。这些模型在将死亡分类为与任何阿片类药物相关方面表现出很高的f分(f分,0.966;95% CI, 0.956-0.976),海洛因(F-score, 1.00;95% CI, 1.00-1.00),芬太尼(F-score, 0.999;95% CI, 0.998-1.00),甲基苯丙胺(F-score, 0.998;95% CI, 0.993-1.00),可卡因(F-score, 0.999;95% CI, 0.997-1.00)和酒精(F-score, 0.942;95% ci, 0.924-0.960)。处方阿片类药物出现次优分类(F-score, 0.378;95% CI, 0.205-0.537),苯二氮卓类药物(F-score, 0.771; 95% CI, 0.716-0.826), and others (F-score, 0.750; 95% CI, 0.715-0.785).

最后的表2显示使用CUI嵌入的最佳选定模型的滞留测试集中的引导诊断指标。模型在分类与任何阿片类药物相关的死亡方面表现优异(f分,0.989;95% CI, 0.982-0.994),海洛因(F-score, 1.00;95% CI, 1.00-1.00),芬太尼(F-score, 0.999;95% CI, 0.998-1.00),处方阿片类药物(F-score, 0.977;95% CI, 0.941-1.00),甲基苯丙胺(F-score, 0.995;95% CI, 0.989-1.00),可卡因(F-score, 1.00;95% CI, 1.00-1.00)等(F-score, 0.942;95% ci, 0.924-0.960)。苯二氮卓类药物再次出现次优分类(F-score, 0.840; 95% CI, 0.788-0.889), and alcohol (F-score, 0.854; 95% CI, 0.828-0.880).

错误分析和可解释性

我们给出了从hold out测试集中的分析中得出的每种物质的真阳性、假阳性、真阴性和假阴性值的混淆矩阵(表5-13)补充)。我们还完成了随后的错误分析(表14-19)补充),其中我们手动识别模型所犯的错误。图1-9补充显示每种物质或物质组的特征重要性图。

讨论

在这项诊断研究中,我们提出了使用NLP进行特征提取和ML对与过量死亡相关的特定物质进行分类的结果。我们发现,对于大多数被评估的物质,这些算法的性能是完美的或接近完美的。这些模型可用于对非结构化自由文本进行自动分类,从而避免了单独阅读每个条目并将其分类为特定内容的手动和耗时过程。然而,需要做更多的工作来快速识别某些物质,如苯二氮卓类药物,因为所研究的模型没有很高的诊断性能。然而,他们能够可靠地排除不含问题物质的病例(即高负预测值)。这种能力可以帮助排除大量的病例,将人工审查集中在分类为阳性的病例上。最终,采用NLP/ML工具,如在本研究中开发和测试的工具,可以为政策制定者、临床医生和减少伤害机构提供快速的结果,以便在各自的领域做出适当的反应。

我们建立在NLP的成功实施从以前的同事在该领域的工作。6鉴于先前的检测仅集中在过量的识别上,我们将NLP扩展到识别与过量病例相关的物质。本研究的其他优势包括大量可用于培训和测试的病例,我们分类的物质的数量和特异性。我们还提供了我们的数据和代码作为一个开源存储库,供未来的研究人员进一步改进。需要进一步的验证来验证这些模型对来自初始评估之外的司法管辖区的数据的外部有效性。

使用一般文本模型(词嵌入或TF-IDF),对多种物质(包括阿片类药物、海洛因、芬太尼、甲基苯丙胺、可卡因和酒精)显示出出色的性能。然而,对于处方阿片类药物和苯二氮卓类药物,存在相当大的绩效差距。在模型中表现良好的物质可能是因为在识别它们时常用的词汇相对较少(例如,海洛因、芬太尼、甲基苯丙胺和可卡因)。他们也可能表现良好,因为有大量的数据条目可用于训练(例如,任何阿片类药物和芬太尼)。在我们纳入模型的物质中,处方阿片类药物和苯二氮卓类药物的数据条目数量最少。此外,由于两组都有大量的关键字,模型可能难以识别训练数据中的不常见术语。我们期望有更多的数据,模型的性能会得到改善。使处方类阿片和苯二氮卓类药物模型预测复杂化的其他因素可能包括难以识别处方类阿片(如羟可酮和氢可酮)和非法类阿片(如海洛因和芬太尼)之间的细微差别,或多种其他物质共存(因使用多种物质而死亡)。此外,更常见的物质(如酒精、可卡因和海洛因)可能是通用词汇的一部分,因此可以通过GloVe等通用嵌入来识别。然而,新的或不太常用的物质(包括处方阿片类药物和苯二氮卓类药物的多样性)不太可能出现在这些模型所训练的一般文本中。

当我们测试特定于医学术语的特征提取方法(CUI嵌入)时,大多数物质的性能都有所提高,尤其是处方阿片类药物和苯二氮卓类药物。但是,由于对某些物质缺乏特定的CUI,出现了一些识别错误。例如,alprazolam编码为C0002333,但是flualprazolam没有映射到特定条目scispacy因此无法在模型中被识别。当遇到没有特定概念标识符的新物质时,这种缺乏可能会导致过量使用的问题。我们分析中的一个例子是卡芬太尼,一种新的芬太尼类似物也没有被捕获。20.随着时间的推移,错误分析和再培训的迭代过程将是必要的,以确保持续的准确性。

未来的方向包括使用更复杂的模型,如用于语言理解的深度双向变压器,21更具体的医疗22或临床23NLP模型,或深度学习方法,如卷积神经网络。为了更直接地识别物质,我们在这里选择的更简单的模型产生了很好的分类结果。然而,对于性能不佳的物质,这些方法应该进一步探索。

限制

本研究有局限性。这项工作的一个主要限制包括无法为我们的数据集中不太常见的物质训练模型,从广泛的药物组(如抗惊厥药)到单个药物(如3,4-亚甲基二氧甲基苯丙胺)。由于这些模型依赖于大量的训练案例来学习和做出预测,因此它们在自动识别新兴趋势方面可能不可靠。然而,其他聚类或无监督模型可用于识别新兴趋势,并应在未来的任务中进行探索。随着时间的推移,这些模型的失败也可能是我们如何看待这个空间中的数据集转移和不在公共知识空间内的紧急原因的一个指标。此外,尚不清楚这些模型如何推广到该国的其他地区,因为这些模型是根据3个城市中心的数据进行大量训练的。

结论

快速和准确的数据对于充分实施政策和制定干预措施以解决美国日益严重的过量危机是必要的。在本分析中,我们发现NLP和ML是可以为医学检查员和验尸官产生的非结构化文本数据的快速分类提供出色结果的工具。诸如此类的NLP工具应集成到数据监测工作流程中,以增加向公众、研究人员和政策制定者快速传播数据的速度。

回到顶部
条信息万博manbetx平台首页

接受发表:2022年6月19日。

发表:2022年8月8日。doi:10.1001 / jamanetworkopen.2022.25593

开放:这是一篇开放获取的文章,在CC-BY许可证.©2022 Goodman-Meza D et al。狗万体育下载地址JAMA网络开放

通讯作者:David Goodman-Meza,医学博士,加州大学洛杉矶分校David Geffen医学院,洛杉矶Le Conte Ave 10833号,CHS 52-215,加州洛杉矶90095-1688 (dgoodman@mednet.ucla.edu)。

作者的贡献古德曼-梅扎博士对研究中的所有数据有完全的访问权,并对数据的完整性和数据分析的准确性负责。

概念与设计:Goodman-Meza, Shover, Shoptaw。

数据的获取、分析或解释:Goodman-Meza, Shover, Medina, Tang, Bui。

手稿起草:Goodman-Meza。

对手稿重要知识内容的批判性修改;所有作者。

统计分析:Goodman-Meza。

行政、技术或物质支持:Bui。

监督:Bui。

利益冲突披露:古德曼-梅扎博士报告说,在进行这项研究期间,他获得了美国国家药物滥用研究所(NIDA)的资助。Shover博士在研究期间报告了NIDA和加州大学洛杉矶分校David Geffen医学院COVID-19研究基金的资助。Shoptaw博士报告在研究过程中获得了NIMH P30MH058107的资助;来自Alkermes公司的非金融支持、临床用品、来自individual公司的非金融支持、临床用品和来自吉利德公司提交的工作之外的非金融支持。没有其他披露的报道。

资金/支持:Goodman-Meza博士得到了美国国家药物滥用研究所的资助(资助K08DA048163)。Shover博士得到了美国国立卫生研究院和美国国家药物滥用研究所的资助(K01-DA050771;试点资助由NIH P50-DA046351)。Shoptaw博士得到了CHIPTS(资助P30MH58107)、加州大学洛杉矶分校艾滋病研究中心(资助5P30AI028697)和加州大学洛杉矶分校临床转化科学研究所(资助UL1TR001881)的支持。

资助者/保荐人的角色:资助机构在研究的设计和实施中没有任何作用;收集、管理、分析和解释数据;审稿:手稿的准备、审查或批准;并决定投稿发表。

免责声明:本文中表达的观点是作者的观点,并不一定反映作者所在机构、部门或资助者的立场或政策。

额外的贡献:作者感谢为这项工作提供数据的法医和验尸官。此外,作者还要感谢Emil Hvitfeldt, Julia Silge, PhD, Max Kuhn。dr ., Karandeep Singh, dr ., Andrew Beam, dr .,以及R开源社区,感谢他们提供的支持这项工作的包。

附加信息:万博manbetx平台首页所有数据和代码可在https://github.com/davigood1/Coroner-NLP

参考文献
1.
弗里德曼·j·r·s·2019冠状病毒病和药物过量危机:揭示2020年1月至7月美国最致命的几个月。公共卫生.2021, 111(7): 1284 - 1291。doi:10.2105 / AJPH.2021.306256PubMed 谷歌学者 Crossref
2.
Ahmad f_, Rossen lm_, Sutton p_。临时药物过量死亡人数国家卫生统计中心。2021年出版。获得于2022年7月7日。https://www.cdc.gov/nchs/nvss/vsrr/drug-overdose-data.htm
3.
达斯古普塔n,别列茨基l,奇卡罗内d。阿片类药物危机:解决其社会和经济决定因素绝非易事。公共卫生.2018, 108(2): 182 - 186。doi:10.2105 / AJPH.2017.304187PubMed 谷歌学者 Crossref
4.
马特森cl_,坦兹lj,奎因k_,卡瑞萨m_,帕特尔p_,戴维斯nl_。药物和合成阿片类药物过量死亡的趋势和地理模式-美国,2013-2019年。《凡人周刊.2021, 70(6): 202 - 207。doi:10.15585 / mmwr.mm7006a4PubMed 谷歌学者 Crossref
5.
Shover cl_, Falasinnu to_, Dwyer cl_等。密西西比河以西芬太尼相关死亡率急剧上升:来自县和州监测的最新证据。依赖毒品和酒精.2020; 216:108314。doi:10.1016 / j.drugalcdep.2020.108314PubMed 谷歌学者 Crossref
6.
Ward pj_, Rock pj_, Slavova s_, Young am_, Bunn tl_, Kavuluru r_。提高药物过量死亡率监测的及时性:一种机器学习方法。《公共科学图书馆•综合》.2019; 14 (10): e0223318。doi:10.1371 / journal.pone.0223318PubMed 谷歌学者 Crossref
7.
Shiue ky_, Austin ae_, proescholbell s_, Cox me_, Aurelius m_, Naumann r_。2015-2019年北卡罗来纳州多类药物和多种药物过量死亡的文本分析依赖毒品和酒精.2021; 228:109048。doi:10.1016 / j.drugalcdep.2021.109048PubMed 谷歌学者 Crossref
8.
肖弗l·l·,费拉辛努·托·l·,弗里德曼·r·l·,汉弗莱斯·科···。异烟肼涉及过量死亡的新特征:一项病例对照研究。J成瘾医学.2021; 15(5): 429 - 431。doi:10.1097 / ADM.0000000000000775PubMed 谷歌学者 Crossref
9.
Nadkarni pm_, Ohno-Machado l _, Chapman ww_。自然语言处理:介绍。美国医学信息协会.2011; 18(5): 544 - 551。doi:10.1136 / amiajnl - 2011 - 000464PubMed 谷歌学者 Crossref
10.
Badger j_, LaRose e_, Mayer j_, Bashiri f_, Page d_, Peissig p_。阿片类药物过量事件表型的机器学习。J生物医学信息.2019; 94:103185。doi:10.1016 / j.jbi.2019.103185PubMed 谷歌学者 Crossref
11.
Lingeman jm_,王平_,Becker w_,余辉_。利用自然语言处理检测阿片类药物相关异常行为。AMIA年度会议进程.2018; 2017:1179 - 1185。PubMed 谷歌学者
12.
张建军,李建军,李建军,等。阿片类药物过量的识别和分类:一项验证性研究药物流行病学药物安全.2019; 28(8): 1127 - 1137。doi:10.1002 / pds.4772PubMed 谷歌学者 Crossref
13.
刘建军,刘建军,刘建军,等。使用临床文本的自然语言处理来增强电子健康记录数据中阿片类药物相关过量的识别。药物流行病学药物安全.2019; 28(8): 1143 - 1151。doi:10.1002 / pds.4810PubMed 谷歌学者 Crossref
14.
帕克·r·,格拉夫·d·,孔健·,陈坤·,前田·克··。英语千字字第五版。语言数据协会。2011年6月17日。访问日期:2022年7月6日至7日。doi:10.35111 / wk4f-qt80
15.
王勇,刘思,李晓明,等。生物医学自然语言处理中词嵌入的比较。J生物医学信息.2018; 87:12-20。doi:10.1016 / j.jbi.2018.09.008PubMed 谷歌学者 Crossref
16.
彭宁顿j,索彻r,曼宁c。GloVe:用于单词表示的全局向量。:2014年自然语言处理(EMNLP)经验方法会议论文集.计算语言学协会;2014:1532 - 1543。
17.
诺伊曼·m·,金·d·,贝尔塔吉·i·,阿玛尔·w·。生物医学自然语言处理的快速鲁棒模型。arxiv.预印本于2019年10月9日发布。doi:10.18653 / v1 / w19 - 5034谷歌学者
18.
博登雷德:哦。统一医学语言系统(UMLS):整合生物医学术语。核酸测定.2004; 32(数据库问题):D267-D270。doi:10.1093 / nar / gkh061PubMed 谷歌学者 Crossref
19.
Beam al_, Kompa b_, Schmaltz a _,等。临床概念嵌入从多模式医学数据的大量来源学习。Pac Symp biocomputer.2020; 25:295 - 306。PubMed 谷歌学者
20.
O 'Donnell j_, Tanz l_, Gladden rm_, Davis nl_, Bitting j_。涉及非法制造芬太尼的药物过量死亡趋势和特征——美国,2019-2020年。《凡人周刊.2021; 70(50): 1740 - 1746。doi:10.15585 / mmwr.mm7050e3PubMed 谷歌学者 Crossref
21.
张明文,李凯,张明文,张志强。BERT:用于语言理解的深度双向转换器的预训练。arXiv.预印本2019年5月24日在线发布。doi:10.48550 / arXiv.1810.04805 谷歌学者
22.
李J,Yoon W,金正日,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学.2020; 36(4): 1234 - 1240。PubMed 谷歌学者
23.
刘建军,刘建军,刘建军,等。公开可用的临床BERT嵌入。arXiv.预印本于2019年6月20日在线发布。doi:10.48550 / arXiv.1904.03323 谷歌学者
×
Baidu
map