临床研究数据库的构建与管理

2022-02-14 02:26朱之恺黄馨莹姜勇
中国卒中杂志 2022年1期
关键词:数据管理数据库临床

朱之恺,黄馨莹,姜勇,2

临床研究概念范围很广,凡是以患者或健康人为研究对象的医学研究都是临床研究。传统临床研究包括规定严格的实验性研究(临床试验)和其他观察性研究等;真实世界研究通过收集、分析真实世界环境中与患者有关的数据,获得医疗产品的使用价值及潜在获益或风险的临床证据[1],与传统临床研究证据互为补充。临床研究的过程,是数据产生、管理、分析和发布利用的过程,研究结论的科学性和可靠性建立在高质量的数据基础上。

数据库(database)是结构化信息或数据(一般以电子形式存储在计算机系统中)有组织的集合,具有实现数据共享、数据冗余度减少、数据独立、数据集中控制、数据一致性和可维护性以确保数据安全和可靠等主要特点[2]。从数据管理发展的历史看,数据库是由文件管理系统发展起来的,是数据管理的高级阶段。数据管理是临床研究的关键[3],规范临床研究数据库的构建及管理,可切实提高科研数据的质量,促进临床科研的发展。

1 临床研究数据库的构建

临床医师或科研工作者在进行临床研究时,需要将目前国内外常用的数据标准和工具应用于数据库的构建。

1.1 建立临床研究数据库的数据标准/规范随着各类数据标准化方法的因需建立,困扰医疗行业的海量和多源非结构化数据无法进行有效对接、汇交及分析的问题有了一些解决手段和方法。目前国内外常用的数据标准有美国观察性医疗结果合作组织(Observational Medical Outcomes Partnership,OMOP)项目组开发、观察性健康医疗数据科学和信息学(Observational Health Data Sciences and Informatics,OHDSI)工作组维护的通用数据模型(common data model,CDM)[4],临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)开发的数据制表模型(study data tabulation model,SDTM)和临床数据获取协调标准(clinical data acquisition standards harmonization,CDASH)[5-6],美国卫生信息交换标准组织(Health Level Seven,HL-7)开发的快速医疗互操作资源(fast healthcare interoperability resources,FHIR)[7]。以上数据标准的选择场景:疾病发生、发展和影响因素的研究推荐FHIR;CDM常用于规范观察性数据的格式和内容;SDTM和CDASH适用于临床试验,SDTM规定了病历报告表(case report form,CRF)中各问题的变量名、提示和问题文字,用于支持临床试验方案信息交换的内容和格式标准,为美国食品和药品管理局(Food and Drug Administration,FDA)接受的数据提交标准。CDASH根据SDTM的数据结构建立CRF,明确变量的数据类型,支持临床研究从数据采集到数据提交的标准化。

原国家食品药品监督管理总局组织制定的《临床试验的电子数据采集技术指导原则》详细阐述了电子数据采集(electronic data capture,EDC)系统的基本技术要求以及在临床试验实施不同阶段的应用要求[8]。中国真实世界数据与研究联盟制定的“构建基于既有健康医疗数据的研究型数据库技术规范”和“患者登记数据库构建技术规范”[9-10],分别介绍了研究型数据库和患者登记数据库的构建流程,补充了电子数据采集和真实世界研究方面的原则和数据规范。

根据临床研究的目的和特点,组合选择以上数据标准/规范,可大大提高数据库管理的质量和效率。

1.2 建立临床研究数据库的工具 临床研究数据采集和管理的常用工具有通用软件EpiData(http://w w w.epidata.dk/)、EpiInfo(www.cdc.gov/epiinfo),专门软件Access、Visual FoxPro、REDcap、EDC等,可根据研究的应用场景和具体需求,选择不同的数据库工具。由于Excel的数据更改不可溯源、数据访问层级权限设置受限等不足,不建议将Excel作为建立临床研究数据库的工具[11]。在信息化技术的支撑下,临床研究数据采集和管理逐渐由传统的以纸质CRF采集数据、人工录入或图片文字识别技术录入数据为基础的数据管理阶段转变为以EDC(可理解为电子CRF)为核心的网络化及智能化数据管理阶段。广泛使用的EDC系统有Oracle Clinical系统、MySQL系统、Rave系统及eCollect系统[12-15],允许多个用户同时使用高度复杂的逻辑,快速、安全地访问和查询数据,满足临床试验数据采集和科研管理的需求。

国家神经系统疾病临床医学研究中心建立的神经系统疾病临床研究数据采集和管理平台集成纸质CRF录入、基于平板电脑的计算机辅助面访调查(computer assisted personal interviewing,CAPI)或计算机辅助电话调查(computer-assisted telephone interviewing,CATI)及电子病历数据交换功能,用户在填写数据时可以同步进行数据验证,保证了数据的准确性;平台在系统内进行了留痕处理,可以看到数据的修改记录,保证了数据的真实性[16]。平台可以让研究者在无网络状态下填写数据,有网络的时候再进行数据上传,还可以对患者的资料进行拍照上传。平台还包含入组进度通知、填表统计等功能,可实时查看项目进度,在线实时进行质量控制,实现临床研究数据的及时共享,为绩效管理提供依据。

使用统一、标准的数据元是推进高效、科学的数据管理的基础,基本数据集被赋予符合国家标准、唯一且长期不变的标识符,并配有规范的元数据描述,可指导数据的标准化采集和信息系统的规范化建设,从源头为不同类型信息系统间的数据交换、共享以及大数据应用奠定基础。美国国立神经疾病和卒中研究所(National Institute for Neurological Disorders and Stroke,NINDS)于2020年发布的第2版卒中通用数据元素(common data elements version 2.0,CDE V2.0)分为8个亚组,包括卒中CDE的整套数据元素、更新的CRF模板仪器信息文件和指导文件,为促进脑血管病临床研究的数据采集和共享提供了标准化且经过系统严格审查的多样性结构[17-18]。

2 临床研究数据库的管理

数据库的管理是数据库系统运行期间对数据库采取的活动。完整的数据库不仅包括数据库本身,还包括数据管理计划、数据字典、数据清理日志、数据库使用说明等。数据库的管理贯穿于数据管理流程,包括从数据收集到数据归档的全过程,其中主要包括数据的采集、录入、审查、清理、保存和归档等,目的是保证数据的真实性、完整性和可靠性。

与临床研究数据管理相关的国际监管法规、规范和指导原则都围绕着国际协调会议(International Conference on Harmonization,ICH)提出的《人用药品注册技术要求国际协调会议——临床试验质量管理规范》(international conference on harmonization good clinical practice guideline,ICH-GCP)的原则展开。ICH-GCP对临床试验数据管理质量提出了数据的追溯性、清晰性、及时性、原始性和准确性的要求,可作为研究者进行临床研究时首选参考的数据质量规范。此外,FDA、欧洲药品管理局(European Medicines Agency,EMA)等认为,TransCelerate BioPharma Inc临床研究质量管理体系(clinical quality measures,cQMS)作为全面、系统的临床研究质量管理办法,对管理复杂的临床试验环境有益[19],研究者也可借鉴。

2.1 临床研究数据管理流程 数据库管理应贯穿数据生产过程(图1),各环节协调联动,进行全流程管理。

图1 数据生产过程

2.1.1 数据采集 项目准备阶段,数据管理人员(database administrator,DBA)依照原国家食品药品监督管理总局发布的《药物临床试验数据管理与统计分析的计划和报告指导原则》撰写项目的数据管理计划(data management plan,DMP)[20]。数据字典是针对研究用数据进行具体解释说明的必要的配套文件,最终版本与CRF定稿时一致,应至少包括变量所属数据集、变量顺序、变量名和标签、变量类型、变量格式与长度、变量赋值范围或者可选范围,参考格式见表1。开发人员依据数据库标准(如CDASH标准)设计EDC系统,发现问题即时修改反馈,测试通过后上线使用。确定研究方案后应开始对临床数据采集人员进行培训,使临床数据采集人员了解研究目的,掌握数据采集方法和要求,熟悉具体的数据录入操作、数据录入标准化操作流程(standard operation procedure,SOP)和CRF各个项目的结构、编码。数据采集阶段,仍需对数据管理人员进行多次培训,出现问题及时解决。建议根据现有工作或患者就诊时间顺序及习惯(图2)设计CRF及EDC系统,双人双份独立录入(重点是ID、数值资料),实时监测数据库,及时自动备份。

表1 数据字典参考格式

图2 患者就诊时间顺序

2.1.2 数据核查与质控 数据核查是指DBA根据研究方案要求,对CRF中的各指标的数值和相互关系进行核查,进一步完善变量逻辑核查表,对于缺失、逻辑矛盾、错误或不能确定的异常数据,以疑问表的形式由临床监查员(clinical research associate,CRA)传递给研究者复核并回答,再对数据库数据进行修订的过程[21]。在进行数据核查之前,应制订详细的数据核查计划,内容包括但不限于以下几方面:①纳入标准。指研究病例与纳入排除标准实际符合的程度。②时间窗。入组、用药、随访是否在时间窗内完成。③CRF填写。对CRF中的各个指标的数值和相互关系根据方案要求进行核查,确认所有的数据记录正确完整,字迹清晰整洁,与原始资料一致,所有错误或遗漏(缺失、异常值、逻辑关系)均已改正或注明,经研究者签名,注明日期。④用药治疗。用药剂量改变、治疗变更、合并用药等均应确认并记录。⑤不良事件。确认所有不良事件均应记录在案,严重不良事件在规定时间内进行报告,并记录在案。⑥退出失访。核实入选受试者的退出与失访,须确认并记录。⑦数据质疑表。数据质疑表是否及时填写与回复。

数据质控在数据库锁定前进行,质控的内容建议包括研究进度(分中心入组数、分中心月均入组数排名)、研究质量(EDC填写完成率、随访完成率、质疑生成数、关键指标核查/非关键指标数据抽查样本量及错误率、影像资料/生物样本合格率)。

2.1.3 数据库锁定 数据库锁定阶段,DBA重点核查变量数据质量,达到统计师分析要求后,提报数据库锁定申请,将过程文件和数据库文件分类存储,撰写数据管理报告。数据库锁定前,需检查数据(包括外部电子数据,如中心实验室数据)是否录入完全,质疑表是否全部收回,质疑是否都得到了解决,CRF/数据库是否得到了纠正,所有与研究方案不相符的事件是否都进行了报告和分类且澄清了相关的影响,同时对数据库,尤其是所有有关安全性和有效性的主要数据,进行最后的质控和稽查。图3显示了临床研究数据管理的全流程。除数据库外,数据发布与利用还有数据册、技术报告、学术论文、临床指南、政府报告、新闻稿等形式。

图3 临床研究数据管理流程

2.2 临床研究数据库跨库链接 传统的院后随访方式为患者到门诊随访和临床医师电话随访,由于医师日常临床工作繁忙,死亡为敏感话题家属不愿告知的情况,传统的院后随访存在增加工作量负担、失访率高等问题。将临床研究数据库与国家数据链接,如中国疾病控制中心慢病中心的中国死因监测数据集、各省市医保数据库,或链接基于移动终端技术的多渠道信息报告,如患者通过网页、微信、手机应用上传的体检报告、自报告结局,可有效提升数据完整度,对临床研究边界拓展和学科交叉融合具有重要意义。

3 临床研究数据库构建与管理实践的常见问题

研究者在构建临床研究数据库时常见或需要关注的问题包括:①设计原则。研究者应在设计临床研究数据库前明确研究目的、技术需求和资源,数据录入程序应有良好的人机界面设计,按照CRF进行布局,避免组合框形式录入,嵌入自动核查(取值范围、逻辑错误)功能,设置痕迹记录功能。②数据结构。临床研究数据库不同于医疗数据库,需要满足统计分析的格式要求,包括变量名命名、数据结构(横向、纵向、非结构化)。③修改方案。通常数据库系统值不能随时增加或修改指标,需要与计算机公司沟通不断更新的临床需求。④质量控制。多中心研究中,应加强对各分中心数据的实时监控。⑤数据流转与传输权限管理。设立管理人员层级权限和数据层级文件,数据使用者只能获取其所申请研究涉及的数据,患者的个人身份信息、加密函数等去标识化后的个人信息和可恢复识别的数据分开存储,设置严格的访问和使用的权限管理。⑥数据安全与个人信息保护。数据库的安全性和可靠性体现在防止数据丢失、错误更新和越权使用,保证数据正确性、有效性和相容性,允许对数据实现多路存取,防止用户之间不正常交互,以及由数据库管理系统提供一套即时发现和修复故障,防止数据破坏的方法上。2021年11月1日起施行的《中华人民共和国个人信息保护法》,规定任何组织、个人不得非法收集、使用、加工、传输他人个人信息等,通过规范个人信息处理活动保护个人信息权益,透射出数据安全保护的重要战略意义[22]。数据库安全宜从物理安全、网络安全、服务器安全和数据库安全4个层次进行操作[23],如安装正版杀毒软件,利用相应漏洞扫描系统扫描数据库和应用系统,加强防火墙保护和安全补丁,使用他人U盘/移动硬盘拷贝数据时应先杀毒;安全存储和发送文件时加密,实现对文件、文件夹或整个硬盘加密的访问控制,必须通过电子邮件/网盘传输数据时应加密;数据库文件应自动备份、专人定期备份,包括本机备份、多介质(U盘/移动硬盘/光盘等)备份、异地备份、云端存储[24]。

国家神经系统疾病临床医学研究中心通过建立高性能计算平台,利用基于虚拟化的桌面云技术将数据和计算资源整合在一起,既保证了数据安全,又提高了数据分析效率,同时有效实现了数据使用权和所有权的分离[25]。

4 小结

临床医师或科研工作者在构建临床研究数据库和管理过程中,首先需要掌握数据库构建和管理的规范、标准,对数据库构建和管理有全面、系统的认识;然后需要明确研究目的,参考数据标准,合理选择建立数据库的工具;在研究设计、数据采集、数据清理与核查、数据库锁定、数据发布与利用各环节均要应用标准的数据管理技术并进行严格的质量控制,全流程协调联动,如数据采集遵循时效性、准确性、完整性、真实性的原则,数据核查与清理保证研究记录与报告的数据准确、完整、及时,保证研究遵循既定研究方案。

在临床研究数据库构建和管理的实践中,应有政府力量持续足量投入专项经费,资助专门机构建立、管理和维护高质量的大型综合或专病数据库,包括生物样本库(biobank);建立统一应用的数据标准和数据共享机制,将项目有关数据库的考核标准定为对外提供数据共享和支持其他研究的数量和质量;重视数据安全和个人信息保护等。随着人工智能技术在医学影像检查、辅助疾病诊断和预测疾病转归等领域的发展,数据库构建的各个环节会更加便捷,类型及内容将更加精准或全面。大数据分析方法、云储存及云计算等技术的逐渐成熟,以及区块链、联邦学习技术的应用,使多维度数据整合及一体化管理成为可能。

猜你喜欢
数据管理数据库临床
X线与CT引导下骨病变穿刺活检的临床应用
企业级BOM数据管理概要
舒肝宁心汤治疗心悸的临床观察
定制化汽车制造的数据管理分析
氩氦刀冷冻治疗肺癌80例的临床观察
航发叶片工艺文件数据管理技术研究
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
数据库
数据库