医疗保健索赔数据库汇集了多家商业保险公司的索赔,越来越多地用于生成临床证据。1-3.这些数据库代表底层人群的非随机样本,但通常很少关注数据中固有的抽样偏差,以及它可能如何影响结果。作为一个说明性的例子,我们描述了2018年Optum Clinformatics数据集市(CDM)在邮政编码级别上的抽样变化,并确定了与纳入相关的社会经济和人口因素。
这项横断面研究得到了斯坦福大学机构审查委员会的批准。随后的报道选通脉冲报告准则。
Optum CDM由来自几个大型商业和医疗保险优先健康计划的行政索赔组成。对于这项横断面研究的初步分析,我们统计了每个邮政编码中单日(2018年6月1日)具有CDM覆盖的人数,并将其与该邮政编码中2018年人口普查估计的总人口进行比较。在敏感性分析中,我们还考虑了1个严格较大的队列(在2018年的任何时间至少有1天的覆盖)和1个严格较小的队列(在2018年全年连续覆盖)。
为了解释邮政编码级别CDM抽样的变化,我们拟合了一个逆方差加权多变量线性回归模型,该模型包含从2018年人口普查中提取的30个社会经济和人口特征,以及州级固定效应。看到表格参阅功能列表及e附录补充1详细的模型和方法(包括敏感性分析)。
2018年6月1日,清洁发展机制捕获了1640万不同的个体,占美国人口的5.4%。邮政编码抽样比例中位数(IQR)为4.4%(2.5%-7.1%),抽样存在明显的地理差异(数字).在州一级,阿拉斯加州的抽样率最低(0.8%),科罗拉多州的抽样率最高(11.0%);在多变量回归模型中,州级固定效应解释了34.6%的邮政编码级抽样变化。
社会经济和人口特征与CDM抽样分数之间的关联,在调整了州级的变化后,提供了表格.估计的部分相关性和回归模型系数发现,纳入CDM的邮政编码与更富有、更年长、受教育程度更高、白人居民比例更高的邮政编码相关。这些模式对于队列定义的选择是稳健的,并且在10个人口最多的州都是独立的。社会经济和人口特征解释了邮编级别的抽样变化在州级变化之上的额外19.4%,对总调整R2的54.0%。
要解释医疗保健索赔数据库产生的结果,必须了解其中代表哪些患者。我们发现,2018年纳入Optum CDM的邮政编码级别在空间上以及在社会经济和人口方面有所不同。我们的研究受到人口统计数据粒度的限制;我们分析了CDM中可用的最小地理尺度的数据,即邮政编码。根据我们的发现,邮政编码内也可能存在额外的偏见。
与索赔数据中过度代表性相关的社会经济和人口特征也已被证明是不同范围的健康结果的影响调节器。4在这种情况下,由健康的社会决定因素驱动的异质抽样和效应修正的结合导致了外部有效性偏差,在这种情况下,索赔数据产生的结果将无法推广到潜在人群。5这种偏见可能会影响估计疾病发病率和/或患病率的研究,甚至影响使用当代因果推理方法的比较有效性研究,只要治疗或政策影响在社会经济和人口方面存在显著异质性。
我们的研究强调了在大型医疗保健索赔数据分析中调查抽样异质性的公认重要性,以评估抽样偏差如何影响结果的准确性和概括性。6重要的是,调查这些偏差或准确地调整数据权重将需要索赔数据库本身之外的外部数据源。医疗索赔数据库为医学研究提供了巨大的希望;刻画和克服这些数据集中的抽样偏差是至关重要的。
接受出版:2022年11月15日。
发表:2023年1月6日。doi:10.1001 / jamanetworkopen.2022.49804
开放:这是一篇开放获取的文章,根据CC-BY许可证.©2023 Dahlen A等。狗万体育下载地址JAMA网络开放.
相应的作者:Alex Dahlen博士,斯坦福大学医学院,300巴斯德博士,帕洛阿尔托,CA 94304 (adahlen@stanford.edu);Vivek Charu,医学博士,斯坦福大学医学院医学系定量科学单元,300巴斯德博士,帕洛阿尔托,CA 94304 (vcharu@stanford.edu).
作者的贡献:Dahlen博士可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。
概念及设计:两位作者。
数据的获取、分析或解释:两位作者。
文稿起草:两位作者。
对重要知识内容的手稿的批判性修订:所有作者。
统计分析:两位作者。
支持:行政、技术或物质上的支持:Charu。
监督:Charu。
利益冲突披露:没有报道。
资金/支持:本文报道的研究得到了美国国立卫生研究院国家转化科学推进中心的支持,资助号为KL2TR003143。
资助者/发起人的角色:资助者在研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。
免责声明:内容仅为作者的责任,并不一定代表美国国立卫生研究院的官方观点。
数据共享声明:看到补充2.
额外的贡献:我们感谢凯特·米勒和史蒂夫·古德曼关于手稿的谈话。
附加信息:万博manbetx平台首页使用斯坦福人口健康科学中心(PHS)数据核心访问本项目的数据。PHS数据核心由美国国立卫生研究院国家促进转化科学临床和转化科学中心奖(UL1TR003142)和斯坦福大学内部基金支持。