数据库匹配方法提高卒中队列死亡结局准确性的研究

2019-10-24 06:50吕微姜勇孟霞黄馨莹周脉耕
中国卒中杂志 2019年8期
关键词:死因队列数据库

吕微,姜勇,孟霞,黄馨莹,周脉耕

卒中是全球第二大死因,近年来已成为中国人群死亡的首要原因[1-2]。卒中具有高发病率、高死亡率、高致残率等特点,其中急性缺血性卒中和TIA约占70%[3]。为了给患者提供更好的救治措施,临床医师需要评估患者的短期和长期预后。目前卒中队列登记研究是卒中预后评估的黄金标准之一,通过充分的病例资料收集和长期的随访结果可以全面评估卒中的疾病预后及疾病负担[4]。然而,这样有目的的连续数据收集需要花费大量的人力和物力,并且部分患者出院后信息的获取是不可靠的,因此,目前正在进行的大型卒中队列研究数量有限[5-6]。

本文旨在探索数据库匹配研究方法,将临床研究数据与行政管理数据进行对接,并分析数据库匹配过程中的问题及解决办法,为大型多中心卒中队列数据质量控制提供新思路,提高卒中死亡结局准确性。

1 研究对象与方法

1.1 研究对象 本研究数据来自首都医科大学附属北京天坛医院牵头开展的大型多中心卒中队列研究第三次中国国家卒中登记研究(Third China National Stroke Registry,CNSR-Ⅲ)2015-2017年研究数据[7]。该研究在覆盖全国22个省、4个直辖市符合条件的二级及三级医疗机构中选择急性脑血管事件监测的哨点医院201家进行联合卒中登记。

入组标准:①年龄≥18岁;②急性缺血性卒中或TIA;③发病至入组时间≤7 d。

排除标准:①无症状及体征的静止性脑梗死;②拒绝参与登记调查者。

1.2 卒中队列数据介绍 CNSR-Ⅲ选取的卒中队列拟通过标准诊断流程及病因分型,评价缺血性脑血管病相关的危险因素,探索缺血性脑血管病病因及发病机制分布;在临床、影像、分子水平寻找影响预后的因素。研究收集了发病7 d内就诊的急性脑血管病患者的临床特征和诊治信息,并完成患者基线、出院、发病后3个月、6个月、12个月、2年、3年、4年、5年的访视信息收集,且每个访视点均登记了患者的死亡结局信息。

1.3 全国疾病监测系统死因监测网络报告数据介绍 全国疾病监测系统死因监测数据是我国人群死亡数据的主要来源[8]。1978年何观清教授提出了建立综合疾病监测点的设想,首批试点位于北京市东城区、通县(今通州区),随后不断增加监测点数量。2013年该系统与其他机构系统进行整合,并进行了监测点的扩增。整合后,监测点个数增至605个,监测人口增至3亿,占比全国人口的24%。全国各级疾病预防控制机构及医院等医疗机构依照相关要求,登记每个死亡病例的公民身份证号、常住地址、户籍地址等个人信息。该系统采用国际疾病分类(international classification of diseases,ICD)-10中的疾病分类和定义,具有较为严格的质量控制流程,死亡信息较为准确可靠。该系统建立的原则为分层整群随机抽样,所以其监测结果基本可代表全国人群的情况。

1.4 数据库匹配方法 本文选取CNSR-Ⅲ卒中队列中2015-2017年入组且完成90 d随访的12 112例急性缺血性卒中患者名单与2015-2017年全国疾病监测系统死因监测数据库中所有死亡个案进行匹配,获得队列成员的死亡结局相关信息,包括性别、年龄、民族、婚姻状况、文化程度、职业(个人身份)、居住国家及地区、死亡地点、死亡时间、根本死亡原因、发病至死亡大概间隔时间、根本死亡原因的ICD-10编码、死因链等。

因本研究选取的卒中队列11 999例(99.07%)患者登记了有效身份证号码信息,故本研究数据库匹配过程采用精确匹配的方法进行,精确匹配是指利用身份证等有效证件号码进行匹配。

1.5 分组和比较 卒中队列研究随访结果和死因登记数据库匹配均显示为死亡的患者为正确匹配组,卒中队列研究随访结果显示死亡而死因监测数据库未匹配上的患者为漏配组,卒中队列研究随访结果未登记死亡而死因监测数据库显示死亡的患者为错配组。因漏配可能原因为死因监测系统上报延迟或本身存在漏报,故本研究只对错配患者和卒中队列已登记死亡的患者所在地区、医院及患者特征进行了比较分析。

1.6 统计学方法 本研究所有的统计分析都是在SAS软件(Version 9.4)进行完成。所有的统计分析采用双侧检验的P值,P<0.05表示有统计学差异。计量资料符合正态分布,采用描述,组间差异比较采用两样本的t检验。非等级的分类资料用率表示,组间比较采用卡方检验,当25%的单元格的理论数<5时采用Fisher检验。

2 结果

2.1 数据匹配结果 卒中队列12 112例患者名单与2015-2017年全国疾病监测系统死因监测数据库中所有死亡个案进行精确匹配,共匹配完成391例患者,其中正确匹配317例、漏配42例、错配32例(表1)。

2.2 数据匹配后问题的处理 由经过专业培训的临床医师对错配、漏配患者进行二次随访,必要时进行家访。经过信息复核,发现卒中队列存在信息缺失和信息填写不准确的现象,对此进行了进一步纠正,复核过程中如患者确实已失联或因医患矛盾而拒绝接受访视者,而在全国死因监测系统显示已死亡,我们以死因监测系统数据为准。另外,针对临床研究人员信息填写不准确的现象进行纠正。

对于42例漏配患者,分析原因为:①本次数据匹配选择的是2015-2017年全国疾病监测系统死因监测数据库中所有死亡个案,因死因监测系统死亡个案登记需逐级上报,故需要一定的时间,部分患者死亡后可能还在登记过程中,系统数据库中暂未显示信息;②全国疾病监测系统死因监测数据不可避免地存在一定程度的漏报现象。针对此种情况,本研究以二次随访调查复核后的信息为准。

2.3 卒中队列死亡信息缺失患者特征分析

2.3.1 两组患者所在地区分布差异分析 依据中国卫生健康统计年鉴,我们将本研究中患者所在区域划分为东部地区、中部地区和西部地区[9]。错配组和正确匹配组的地区分布差异无统计学意义(表2)。

2.3.2 两组患者所在医院级别分析 本文研究对象来源于全国201家二级和三级医院,其中二级医院38家,三级医院163家,对两组患者所在医院级别进行分析,结果显示两组医院级别的差异无统计学意义(表3)。

表1 数据库电子匹配结果

表2 两组患者在不同地区的分布比较

表3 两组患者医院级别差异比较

2.3.3 两组患者特征差异分析 两组患者在年龄、性别、教育水平、入院时神经功能缺损程度及居住状况方面差异均无统计学意义(表4)。

3 讨论

本研究的统计结果虽显示错配患者组与队列登记死亡患者组在地区、医院分布及患者特征的差异均无统计学意义。但从数据趋势来看,入院时NIHSS评分≤3分患者未成功匹配到死亡信息的比率明显高于入院时NIHSS评分>3分患者(11.36%vs6.56%);单独居住患者未成功匹配到死亡信息的比率高于与家人同住患者(13.16%vs7.65%)。在本研究中,这些差异未显示出统计学意义,也可能与本研究中错配患者组样本量较小有关。

错配患者中入院时神经功能缺损程度轻的患者比例较高,原因可能为重症患者住院期间死亡概率较大,医院内有完善的死亡登记流程,死亡信息不易丢失。错配患者中独居患者比例较高,说明独居患者随访时获得准确死亡信息更难,原因可能与独居患者通讯不方便或更容易失访有关。建议今后同类研究中,对该部分患者的随访更加关注。当然,因本研究中样本量较小,在大样本研究中这些趋势是否还存在,有待进一步验证。

表4 两组患者特征差异比较

本研究探讨了数据库匹配研究方法,数据库匹配在大型多中心卒中队列研究中的应用能更好地提高卒中结局准确性。在临床研究中,临床队列研究尤其是大型多中心队列研究存在一定程度的失访、拒访,故存在一定的信息缺失或填写不准确等现象,通过临床队列研究数据与行政管理数据匹配的研究方法,可获得更加全面、准确的数据资源。本文通过两种不同来源死亡信息的获得,查漏补缺,并将不一致信息做了分析及复核,在一定程度上解决了队列研究患者随访信息缺失及信息填写不准确等问题,故本研究死亡结局信息较单纯的队列研究随访信息更加准确、更加完整。2019年David Ung等[10]也提出了利用大数据提高研究效率和卒中结局研究全面性的观点,本文亦是利用大数据思维,利用数据库匹配研究方法获得更准确的卒中死亡结局信息。另外,此方法可充分整合数据资源,数据的可获得性较强,在一定程度上节约了人力、物力、财力,降低了队列研究成本,为今后相同类型的大型多中心队列研究提供新的研究思路及方法学支持。同时,不同形式的数据库进行匹配,可更好地提高数据库的综合利用率。

通过数据库匹配研究方法的探讨,本研究也发现大型多中心卒中队列随访信息存在数据缺失或填写不准确现象,可能与临床医师日常工作繁忙,对于患者随访信息询问不详尽有关,也可能与家属存在回忆偏倚或不愿告知有关。另外,由于医疗纠纷的存在,患者家属拒绝接受随访,故存在拒访现象。提示今后开展大型多中心临床研究招募分中心时多关注医院团队的整体情况,例如人员是否充足、团队整体研究水平等;同时项目启动前期加强对研究人员进行培训,对于特殊患者要给予更多关注,保持有效沟通。另外,鉴于中国人的文化传统观念,死亡是比较敏感的话题,部分患者家属对此不愿过多谈论,建议可考虑发放死亡慰问金的形式,鼓励家属提供患者更加准确、完整的死亡信息。

【点睛】本文探讨了大型多中心卒中队列研究数据与行政管理数据匹配的研究方法,并分析了匹配过程中的问题,提高了大型卒中队列研究数据的准确性,为同类大型临床研究提供新的方法学参考。

猜你喜欢
死因队列数据库
法医病理学死亡原因分类及死因分析探讨
队列队形体育教案
队列里的小秘密
基于多队列切换的SDN拥塞控制*
在队列里
数据库
死因
数据库
数据库
数据库