王瑞平 李斌
摘 要 数据质量是临床研究的核心,也是评估临床研究中干预措施实施效果的数据基础,关系着整个临床研究的成败。本文从临床研究数据采集策略与核心要点入手,先后详细介绍了临床研究数据的潜在来源、常用的数据采集工具、数据存储方案、研究数据清理和质量控制等4个方面的内容,以期为临床研究者今后实施临床研究数据采集提供參考。
关键词 临床研究 数据采集策略 电子数据采集工具 临床试验病例报告表 调查问卷
中图分类号:R-3 文献标志码:C 文章编号:1006-1533(2022)09-0037-06
引用本文 王瑞平, 李斌. 临床研究数据采集策略和要点[J]. 上海医药, 2022, 43(9): 37-42.
Strategies and critical points of clinical research data collection
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Data quality is the core of clinical research and is also the data basis for assessing the effectiveness of intervention implementation, which is related to the success or failure of the entire clinical research. This article successively introduces four aspects in detail such as potential sources of clinical research data, common data collection tools, data storage scheme, study data cleaning and quality control starting from the strategies and critical points of clinical research data collection, so as to provide a reference for clinical researchers to implement clinical research data collection in the future.
KEY WORDS clinical research; data collection strategies; digital data collection tools; case report form; questionnaire
数据质量关系着整个临床研究的成败,是一个值得所有临床研究者关注的核心问题。如果将研究方案设计比喻为临床研究的“骨骼”,那么数据质量就是临床研究的“经脉和血肉”,是描述和呈现临床研究结果的基础和支撑。本文从临床研究数据来源、数据采集工具、数据存储方案、数据清理和质量控制等4个方面入手,介绍临床研究数据采集的策略和要点,以期为临床研究者今后开展规范的临床研究数据采集提供思路与参考。
1 临床研究数据来源
研究者在开展临床研究之前,首先应全面了解和思考本次开展的临床研究可及的数据源,这不仅可以帮助研究者梳理和优化数据采集思路,还可以提高后续数据获取的便捷性,通常可以起到“事半功倍”的效果。整体上看,目前开展临床研究的数据来源主要包括:①根据临床研究目标而设计的病例报告表(case report form, CRF)记录的数据;②来源于医疗机构的医院信息系统(hospital information system, HIS)、实验室信息管理系统(laboratory information management system, LIS)和电子病例信息系统(electronic medical record information system, MRIS)的电子诊疗数据;③来源于疾病预防控制中心、妇幼保健院、统计局、环保局、气象局等单位通过主动监测或被动监测所采集的数据;④政府机构、专业研究机构和国内外研究者等建立的注册登记研究数据库和大型队列数据库;⑤国内外开源的人口学和基因组学数据;⑥来源于互联网检索、药店药品购买记录登记等途径所获取的数据。
病例报告表CRF和调查问卷(questionnaire)是一种印刷的、可视的或是电子版的文件,用于记录和报告根据所有研究方案要求所采集的每位受试者(调查对象)的信息。如图1a所示,印刷纸质版调查问卷和CRF是记录患者或受试者信息最常用的形式,也是临床研究数据来源的重要载体。随着电子信息和网络技术的飞速发展,电子数据库、互联网数据平台逐渐得到了人们的认可,在临床研究中的应用越来越多,如图1b的问卷星、图1c的EpiData数据库就是目前在临床研究中被广泛应用的电子数据库和网络平台数据库。
如图2所示,HIS、LIS、MRIS等来源于医院记录患者诊疗、用药、花费等信息的电子数据库是研究者开展临床研究的重要数据来源,通过上述信息系统可以便捷地获取患者的诊疗信息,做到无缝衔接,降低数据输入和数据清理的时间成本,缩短研究周期。
有些政府机构和事业单位如疾病预防控制中心、妇幼保健院、统计局、环保局、气象局等平常会采用主动监测或被动监测的方式采集居民健康状况、气象和环境等数据,这些数据也是研究者开展临床研究的有效数据来源。如本研究团队之前开展的“国家传染病自动预警信息系统的优化研究”[1-3]就是基于中国疾病预防控制中心开发的“中国疾病预防控制信息系统”和“国家传染病自动预警信息系统”所采集的传染病数据而开展的研究。
近年来,随着网络信息技术的快速发展,临床研究的规模和范畴突破了空间和地域的限制,越来越多的跨院区、跨地域、跨国界等多中心临床研究在全球范围内开展,积极推动了临床研究的发展。特别是国内外专业研究机构所建立的临床注册登记研究数据库、大型队列数据库、肿瘤基因图谱数据库等,多数为“开源”数据库,研究者可以向这些开源数据库负责人提出申请,审批通过后来获取现成的数据库资料,开展联合分析,往往可以取得较好的研究成果(图3)。此外,有些研究者利用互联网数据库检索、药店药品购买登记记录等途径所获取的数据,开展基于综合数据源的传染病早期预警、慢性病干预措施的综合评价、荟萃分析等研究,也逐步得到了广大研究者的认可。
2 临床研究数据采集工具
当研究者全面了解临床研究数据的可能来源后,研究者须根据研究目标及自身所能获取的数据资源,选择合适的采集工具来收集预开展的临床研究项目数据。目前,临床研究常用的数据采集工具包括:纸质版数据采集工具和电子数据采集工具。
如图1a所示,CRF和调查问卷是经典的纸质版数据采集工具,在临床研究中应用广泛。这类数据采集工具填写方便,如出现填写错误也易于修正并留痕,并且在后续随访患者时也可便捷地查看前期诊疗记录,使研究者及时掌握受试者的情况。但此类纸质数据采集工具存在存储条件要求高、易潮湿霉变不利于长期保存、占用空间大、数据须录入数据库才能利用等缺点,因此研究者在选择数据采集工具时应进行综合考量。CRF和调查问卷无本质上区别,二者都是记录研究对象信息的载体。通常情况下,CRF多用于临床试验研究,其主要内容包括:受试者基本信息、受试者筛选信息(诊断、纳入和排除标准)、受试者一般人口学特征和既往疾病疫苗接种史、基线数据、试验期不同观察时间节点数据、随访期数据、安全性评价指标等。调查问卷则一般用于横断面研究、病例对照研究和队列研究等临床研究类型,其主要内容包括:一般人口学特征、基础疾病和疫苗接种史、个人习惯和生活方式(如吸烟、饮酒、饮茶、体育锻炼、睡眠等)、暴露因素和潜在混杂因素信息采集、研究结局变量信息采集、调查员和研究对象联系方式等内容。须特别说明的是,研究者应用CRF或调查问卷采集数据时,不能把既往别人设计使用过的CRF或调查问卷拿来直接使用,而是应该根据自己的研究目标和研究内容,创建新的CRF或调查问卷,在这个过程中可以参考既往使用过的纸质问卷。每个临床研究项目的CRF或调查问卷都应该先通过项目组专家会议的讨论、制定与修改,预调查合格后才能正式使用。对于大规模的临床研究,特别是流行病学调查或队列研究,在正式调查开始前应对CRF或调查问卷进行信度和效度的评估,以保证后续数据采集的高质量。
相比于纸质数据采集工具,电子数据采集工具同时具备易存储、不受储存空间限制、无需二次数据录入即可使用、可长期保存等优势,近年来越来越受到研究者的青睐。但电子数据采集工具不仅需要电脑、手机或平板电脑等电子设备的辅助,通常还需要网络支持和支付电子数据平台维护费用,这导致临床研究成本高,很大程度上地限制了其在小型临床研究中的应用。目前,众多生物医药公司开发了临床研究数据电子采集工具,并投入市场使用。尽管有一些电子数据采集工具应用方便,而且免费使用,但从数据安全的角度考虑,研究者应选择那些有资质、数据安全且有保障的正规电子数据采集工具,并在使用前签订正规合同,保证临床研究数据安全性。综合来看,临床研究者目前使用比较广泛的电子数据采集工具包括问卷星、临床研究整合平台(clinical research information platform, CRIP)和医路云等,其中问卷星分为免费试用版和正式收费版(图1b),而CRIP和医路云(图4)均为收费平台,研究者可以根据自身实际情况选择使用。
3 臨床研究数据存储方案
临床研究团队选择合适的数据采集工具完成临床研究数据采集后,应考虑数据的存储方案。临床研究数据须长期存储,数据存储的物理空间应满足安全、稳定、提取便捷等要求,以便数据的后期提取利用和溯源。
通过CRF和调查问卷等纸质数据采集工具所收集的数据,首先应将纸质版采集的数据信息录入电子数据库才可以使用,常用的数据库录入软件包括EpiData、EpiInfo、Excel办公软件等(图1c),其中EpiData为专业的免费数据录入软件,具有存储量大、使用便捷、录入可质控等优点,是一款值得推荐的临床研究数据录入和存储软件。须强调的是,研究者完成纸质版问卷内容录入电子数据库后,除了完成电子版数据的安全备份保存外,纸质版问卷也须长期保存,保存年限要求≥10年,以便后期数据核查和溯源。
电子数据采集工具本身具备数据存储功能,通常可以满足临床研究团队对数据存储的要求。须强调说明的是,研究者如果对数据的保密级别及数据储存空间有特殊要求,应事先与电子数据采集工具平台责任方进行协商,签订保密协议和相关合同,确保临床研究数据的安全性。当临床研究内容如果涉及大容量储存空间需求时,如对视频、影像学资料存储,须要对物理储存空间进行本地化扩容部署,或选择云端空间储存,但均要保证储存数据的安全性。此外,应用电子数据采集工具的临床研究项目,如果研究内容涉及到患者的就诊信息、实验室检查信息和临床用药信息,研究者可以利用医院现有的HIS、LIS、MRIS等数据(图2),通过数据治理和系统对接后,直接导出并轨到电子数据采集平台进行统一储备和使用。应特别注意的是,尽管电子数据采集工具平台有很多优势,但同时也存在数据丢失无法恢复的风险,因此研究者应于平常做好数据备份,即便意外情况发生也可以及时恢复数据。
4 临床研究数据清理和质量控制
无论是通过纸质数据采集工具还是电子数据采集工具所收集和记录的数据,均须要对数据进行清理、核查和质量控制,其中在数据采集过程中开展的工作主要为数据核查和质量控制,而数据采集结束后通常要对数据进行一次彻底清理和质量控制,保证研究数据的完整性、准确性和可靠性。临床研究数据的清理、核查和质量控制为一项专题工作,将会花费较多的时间和精力,应由富有经验的专业统计人员开展,研究者须给予充分重视。
临床研究项目开展过程中,项目团队应提前建立“数据质控小组”对数据采集的质量进行核查和质量控制。数据质控小组可以由项目组成员构成,而多中心临床研究可采取各分中心互查的方式开展,同时也可以邀请学科领域的专家成立“数据监察管理委员会(data surveillance and monitoring board, DSMB)”负责,或邀请独立的第三方公司开展数据核查。数据核查和质量控制的核心内容包括:①CRF或调查问卷填写的完整性;②数据修正是否留痕并签名;③数据填写是否有逻辑错误或异常值;④队列研究随访或临床试验开展进度是否与调查问卷填写的进度一致;⑤随机抽取5%~10%的CRF或调查问卷进行重新调查,核查数据填写的准确性;⑥核查纸质版问卷记载的内容是否与数据库内容一致,以及核对数据库内容是否与HIS、LIS、MRIS来源的数据一致。在临床研究数据核查和质量控制的形式上,通常采取现场调研的方式开展,研究团队应根据数据核查方案,提前准备好电脑和相关材料供数据质控小组的工作人员使用。数据质控小组应根据核查方案逐项开展数据核查工作,并做好记录,核查完毕后进行统一现场反馈,发现问题及时解决。
临床研究项目结束后,在开展数据统计分析之前应对采集的数据资料进行质量控制和清理,完成后锁定数据库再交付项目团队或第三方数据公司开展统计分析工作。项目结束后的数据质量控制和清理与项目开展过程中的数据核查和质量控制类似,但不完全相同。该阶段的数据质控和清理的主要内容包括:①数据库中各数据变量的完整性,重点核查“数据缺失”的情况,查找缺失原因,翻阅原始记录如发现因数据遗漏所导致,须进行及时补充,而如果数据缺失是因研究对象失访导致,可以采取数据填补技术对缺失的数据进行补充,具体数据填补方法可参考前一期的专题介绍[4]或参考专业的文献开展;②检查数据库中各数据变量的逻辑性和合理性,重点核查“异常值”和“逻辑错误”,对数据库出现的极大值或极小值给予关注,同时关注数据库中各变量之间的逻辑关系,翻查原始记录如发现错误则及时修正。如图5所示,在一项“上海居民吸烟、饮酒生活习惯流行病学调查”研究中[5],应用调查问卷采集居民的吸烟和饮酒行为,如果调查对象对问题B1的回答是“否”,那么数据库中B1a、B1b、B1c、B1e、B1f等5个变量应为缺失值,若这5个变量中出现数据就判定为逻辑错误,须清除这些数据。此外,逻辑核查应注意重点变量“性别”“年龄”和“日期”与数据库中其他变量之间的逻辑关系,如“男性”不可能患“卵巢癌”、“疾病病程”不会长于“患者年龄”等。③数据录入的准确性核查,对于纸质调查问卷采集的数据,后续须要录入电子数据库,为降低录入的错误,在建立电子数据库时可以应用“check”文件进行质量控制,同时采用双录入后的一致性检验开展数据录入质量的评价和控制,推荐研究者使用EpiData数据库软件建立数据库,方便后续的数据录入质量控制。同样,该阶段的数据清理和質量控制也须由经验丰富的专业人员对整个数据清理和质量控制过程进行记录,完成后开展交流会,确认无误后锁定数据库,最后交付项目研究团队。
参考文献
[1] 王瑞平, 姜永根, 郭晓芹, 等. 基于传染病自动预警信息系统的“流行标准”最优化选择分析[J]. 中国卫生统计, 2017, 34(2): 214-217; 221.
[2] 王瑞平, 陶芳芳, 毛琦, 等. 国家传染病自动预警信息系统条线人员对系统预警原理、日常操作和预警效果认知调查[J]. 中国公共卫生, 2019, 35(12): 1690-1692.
[3] 王瑞平, 毛琦, 吴毅凌, 等. 传染病长期趋势对国家传染病自动预警信息系统预警阈值设置的影响分析[J]. 现代预防医学, 2019, 46(11): 1921-1923; 1932.
[4] 王瑞平, 肇晖, 李斌. 随机对照临床试验设计要点和规范[J]. 上海医药, 2022, 43(7): 72-77.
[5] 王瑞平, 陈思婷, 位磊, 等. 上海地区银屑病患者吸烟、饮酒情况及其与银屑病发病的关联性分析[J]. 世界临床药物, 2021, 42(11): 994-999.