临床研究数据清理经验和实例

2018-09-03 01:43:12路甲鹏
中国循环杂志 2018年8期
关键词:核查逻辑错误

路甲鹏

前几期《临床研究系列讲座》文章针对研究设计、实施和质量控制进行了详细的阐述,对开展临床研究设计和实施具有重要指导作用。然而,“残酷”的现实告诉我们,再严谨的设计、再严格的研究管理和质量控制也无法避免“错误”数据的出现。所以,数据清理是临床研究的必要过程,对提高数据分析效率和研究结果可靠性具有重要意义。但数据清理的局限性在于只能针对录入到数据库的数据进行清理,若临床研究中漏报不良事件,则无法通过数据清理发现。因此,临床研究需要研究设计、实施管理、质量控制以及数据清理等环节的相辅相成,才能确保研究质量。本文拟汇总既往数据清理经验,介绍临床研究数据清理的流程和关键点,并以“冠心病医疗结果评价和临床转化研究(China PEACE)”数据清理过程为例说明临床研究数据清理的逻辑顺序及注意事项,为临床研究者开展数据清理提供借鉴。

1 临床研究数据清理的具体流程

数据清理是研究过程中针对数据重复或缺失、异常值、逻辑错误三类数据问题进行识别、查找原因及处理的过程。其中,连续变量的异常值主要是指变量取值超出临床所能接受的合理范围,如收缩压为700 mmHg(1 mmHg=0.133 kPa);分类变量的异常值是指变量取值与病例报告表(Case Report Form,CRF)编码范围不一致,如CRF中性别变量编码:男性为1,女性为2,但实际可能出现性别为0或3等异常值。逻辑错误的范围较广,如日期先后顺序错误、不同来源同一变量取值不一致、不同时间点变量取值不符合实际等问题。数据清理包括数据问题核查、确定产生数据问题的原因、以及处理问题数据三个核心过程[1]。通过这三个核心过程的反复循环,不断提升数据质量。

数据问题核查:数据问题核查可通过人工检查和电脑程序检查两种方式实现,建议通过电脑程序在CRF或人工录入的数据库中进行核查,能够提高效率、避免新错误的产生。在正式开始数据清理前,负责数据清理的研究人员应根据研究方案、CRF以及数据清理计划编写和测试逻辑核查程序。对于数值变量,应在程序中定义异常值的范围,比如收缩压在60~250 mmHg范围以外为异常。对于主要结局指标相关变量、日期变量以及多个来源同一变量,应在程序中定义逻辑错误的判定条件,比如研究记录某受试者出院后发生结局事件,则该结局事件发生的日期应在出院日期之后,否则为逻辑错误。通过逻辑核查程序输出报告,分类变量用频数和百分比表示,连续变量用描述统计量(如均值、标准差、最大值、最小值等)表示,也可以采用箱图、散点图等展示数据分布,旨在便于研究人员发现“错误”数据。同时产生数据质疑表,应包括“错误数据”所对应的变量、原值、错误类型、对应的受试者ID、研究单位信息以及日期等,方便记录数据质疑的整个过程。

确定产生数据问题的原因:该过程对不断改进数据清理过程具有重要作用,应由主要研究者、负责数据清理的研究人员、数据分析人员及其他主要研究人员共同参与。基于数据核查报告和质疑表,研究人员可以结合临床研究方案、CRF以及临床实践,深入剖析每个或每类“错误”数据的原因以及产生问题的环节,进而确定处理“错误”数据的策略。此外,不仅要从某个变量角度出发,还要从研究单位的角度出发,分析“错误”数据是否存在研究单位聚集性,有利于发现研究实施过程中存在的问题,消除系统误差,例如经常出现数据异常的研究单位是否是因为研究人员变动,培训不到位所致等。最后,该过程还可以帮助研究人员对已建立的逻辑核查程序进行优化,包括数值变量合理取值范围是否需要调整,是否需要增加新的逻辑核查条件等。例如,数据质疑表中记录某受试者收缩压为700 mmHg,分析原因发现可能为研究者填写错误,可以由研究者核对后修改。但在该过程中主要研究者和负责数据清理的研究人员应考虑如何避免在发生类似错误,比如在电子CRF中增加逻辑核查程序。

处理问题数据:每次数据核查完成后,研究人员应将产生的质疑表以电子或纸质文档的形式发送给各研究单位。各研究单位工作人员对每个疑问进行认真核对,并逐一答复。负责数据清理的人员检查返回的质疑表后,根据质疑表对数据进行处理。处理方式包括更正、删除或保留原值。若无法找到异常值所对应的正确数值,则删除该异常值。若研究单位对可能存在问题的数值变量进行再次测量,且两次结果相近,可用两次测量结果的均值替换原有数值。若质疑表有未被解决的质疑,将以新的质疑表形式再次发出。如果数据缺失为随机缺失,在后续分析过程中可采用均值或多重填补等方法进行填补[2]。如果数据缺失超过30%,建议尽量不使用该变量。如果是结局事件出现缺失,如患者是否死亡变量缺失,则不能填补。

2 临床研究数据清理的关键点

明确数据清理计划:研究人员在设计阶段应制定数据清理计划,用于指导数据清理的各项工作。数据清理计划具体内容应包括数据清理的时间安排和频率、数据清理内容、不同类型数据问题(如缺失、异常值或逻辑错误等)的处理方法、数据问题的反馈纠正流程、数据库锁定及存储、各环节的具体责任人以及文件管理等。根据研究需要,还包括纸质或电子CRF交接流程、数据录入方法以及质量控制、数据库安全等内容。

尽早开始数据清理:绝大多数数据问题是在研究实施过程中出现的,有些数据缺失或异常很难弥补。而对数据问题的处理需要各研究单位进行核实、更正,甚至需要研究受试者的配合。此外,若由于CRF设计有误导致的数据问题,可通过修改CRF避免数据错误的再次出现。因此,数据清理应在数据采集开始后尽早开始,不应在研究数据采集结束后才进行数据清理。

做好数据清理记录:首先,应记录清理数据库的基本信息,如数据库产生的日期、样本量等。数据清理过程中所产生的数据质疑表和逻辑核查报告应进行归档保存。数据质疑表作为数据更改的原始记录必须由各研究单位负责回复疑问的工作人员、负责数据清理研究人员签名确认,并进行妥善保存。在数据库中进行问题数据处理应保留修改记录。

数据库和逻辑核查程序的版本管理:数据清理后可能会根据数据清理发现的问题对CRF进行修改,将导致数据库结构、逻辑核查程序均发生相应变化。因此,无论采用纸质还是电子CRF,均应对每次数据清理的数据库和逻辑核查程序进行版本管理,提高数据清理效率,便于跟踪和回溯数据清理过程。

3 临床研究数据清理实例

China PEACE中的前瞻性急性心肌梗死研究是一项前瞻性疾病注册登记研究,在全国约40家二级和三级医院连续入选超过4 000例急性心肌梗死患者并进行出院后随访,采集患者社会经济学、疾病诊断、质量及其预后等信息,旨在评价各项冠心病治疗措施在国人中使用的实际影响因素、安全性、有效性和效价比,建立适合国人并简单易行的风险评估模型,以最优化的临床实践模式和医疗资源配置改善急性心肌梗死患者的预后[3]。

数据来源及内容:(1)调查问卷:人口学信息、社会经济学信息、既往病史、危险因素、健康状况评价量表以及出院后发生的结局事件。(2)病历:疾病诊断、发病情况、心电图、冠状动脉造影等辅助检查报告、院内治疗措施、药物治疗、出院医嘱、院内结局事件等。(3)冠状动脉造影影像。(4)生物样本。由于数据来源和数据库结构(医嘱、随访事件等数据库为一对多的结构)的不同,最终形成六个数据库:调查问卷、病历、医嘱、随访事件、各研究单位实验室检查结果和中心性实验室检查结果。

数据清理逻辑顺序和注意事项:该研究的主要目的是分析识别影响我国急性心肌梗死患者主要心血管事件发生的影响因素,建立风险预测模型,为改善临床实践提供循证支持。围绕该研究目的,我们按照如下逻辑顺序,针对数据重复或缺失、异常值和逻辑错误三类问题开展数据清理:

首先,关注研究的关键变量和主要结局指标,如受试者ID、时间变量、随访期间事件。结合病案号等客观记录信息,清理受试者ID错误、重复或各来源数据ID不一致等问题,确保受试者ID的唯一性。临床研究包含多个时间变量,如发病日期、入院日期、各项检查日期、出院日期、事件日期和死亡日期。为了遵循临床实践的逻辑顺序,选择入院日期和出院日期作为优先清理的时间变量,并作为清理其他时间或判定医疗服务质量的基准。例如,急性心肌梗死医疗质量研究会关注入院24小时内用药情况,可通过比较入院具体时间和院内医嘱中记录的首次开药时间判断是否给予及时药物治疗。此外,关注出院日期、事件日期、死亡日期的前后逻辑关系,对判定院内或院外死亡,院内或院外心血管事件具有决定作用。随访期间心血管事件的清理主要是心血管事件的类型(死亡事件或其他事件)和发生时间。心血管事件的诊断是否正确,应由临床专业医师判定,不在数据清理的范畴。

其次,清理心血管事件相关的医院、医疗服务和患者水平影响因素。部分患者水平影响因素可以从病历和调查问卷两个来源获取,可以相互补充。例如既往病史,通常调查问卷采集的信息比病历记录的更全面。如果出现病历和调查问卷数据的不一致,需根据临床诊疗实践和研究经验进行判断,以更可靠的数据来源为准,比如患者职业应以调查问卷为准,医保支付类型以病历为准。如果数据清理时遇到没有证据支持的数据问题,可暂时不清理,撰写报告或科研论文写作时,根据实际需求再单独处理(表 1)。

表1 研究实施过程中可暂时不进行处理的数据错误情况

综上所述,临床研究数据清理贯穿研究的整个过程,对于弥补研究设计或实施过程中存在的问题、提高研究数据质量具有重要作用。临床研究人员应高度重视数据清理的重要性,紧紧围绕研究目的,把握关键环节开展数据清理工作。

猜你喜欢
核查逻辑错误
对某企业重大危险源核查引发的思考
刑事印证证明准确达成的逻辑反思
法律方法(2022年2期)2022-10-20 06:44:24
在错误中成长
逻辑
创新的逻辑
关于设计保证系统适航独立核查的思考
基于无人机影像的营造林核查应用研究
林业科技(2020年3期)2021-01-21 08:28:52
女人买买买的神逻辑
37°女人(2017年11期)2017-11-14 20:27:40
不犯同样错误
采用保留被测件进行期间核查的方法
计测技术(2014年6期)2014-03-11 16:22:17