基于数据生命周期模型探讨中医药临床研究数据管理研究*

2022-09-13 09:19瑾,于
现代医药卫生 2022年17期
关键词:本院数据管理生命周期

朱 瑾,于 茜

(南京中医药大学附属医院/江苏省中医院,江苏 南京 210029)

研究数据是指任何由原始数据收集或生成的、定性或定量的,以及在研究项目过程中通过分析现存数据资源所得到的研究材料。其范围涵盖了数值数据、文本数据、数字化材料、图像、记录及建模的脚本[1]。随着互联网技术与医疗行业的深度融合,大量的临床数据成为研究人员的宝贵资源。以江苏省中医院为例,截至2021年6月29日由政府部门或本院基金会经费支持的研究者发起的中医药临床研究在研近3 197项,已结题2 285项。这些中医药临床研究过程中逐渐积累了庞大的研究数据,蕴含大量的源数据,即临床试验中的原始记录或者核证副本上记载的所有信息,包括临床发现、观测结果及用于重建和评价临床试验所需要的其他相关活动记录[2]都有巨大的再利用价值。对于医疗机构的科研管理部门及研究团队,如何科学有效的管理好研究数据成为一个亟需解决的问题,值得深入探究。本院已建成临床数据中心,并通过临床研究数据管理系统对科研项目的研究数据进行信息化管理,本文介绍了本院临床研究服务团队采用临床研究数据管理系统开展基于生命周期模型的研究数据管理。

1 研究数据生命周期模型(RDLM)

RDLM通常也叫研究数据管理生命周期模型或研究数据监管生命周期模型,是一种将数据采集、数据利用、数据分析和数据保存等活动细化到要素阶段,描述并确定研究周期不同阶段应采取的步骤,从而确定在每个节点各个相关成员可以完成或应该完成的管理任务的方法,以确保成功管理和保存数据[3]。RDLM与研究项目周期密切相关,大部分研究数据通常比创建它们的科研项目持续时间更长。RDLM作为支持数字保存和数据监护实践的概念被推广开来,是平常研究项目周期的延伸,已成为研究人员科学工作中越来越重要的因素,其模型正在优化研究数字信息化过程[4]。RDLM多种多样,侧重各异,通常可以按照模型结构、研究主体、学科范畴、数据规模等维度分类,如根据模型结构的可视化形式分为线性、循环、非线性或其他模型,或根据使用对象分为基于个人、组织、社区的模型[5]。这些分类维度并不单一,通常某一研究的RDLM由多个维度构成。

2 RDLM下中医药临床研究数据管理

研究数据管理,是指对研究数据进行获取、计划、组织、存档、共享、分析、利用、保护等与数据相关的所有管理活动的总称[6]。中医药临床研究数据是在研究各阶段生成的,其管理贯穿临床研究整个过程,从获得资助前准备的基金申报书、初始研究方案和统计分析计划,到项目启动并获得受试者知情同意后,收集基线数据,再到可分析的数据集,后续数据存储及再利用等。美国地质调查局(USGS)的科学数据生命周期模型作为数据的高级视图,从概念到保存和共享,说明数据管理活动如何与项目工作流相关。在将模型应用于研究活动时,能确保数据得到很好的描述、保存、访问并适合重复使用。现阶段本院研究数据基于该线性模型进行中医药临床研究项目数据管理,模型如图1[7],说明了数据管理的各个阶段,并描述了数据如何从头到尾在研究项目中流动。本院有专门的临床研究服务团队为研究人员进行数据管理服务。

2.1规划(Plan) Plan阶段的主要任务是为数据的采集、清理和报告做好技术支持和保障的准备。目前本院采用基于电子数据采集技术的临床研究数据管理系统作为数据管理平台,一般在课题立项后,有需要进行数据管理的研究团队与临床研究服务团队签署科研协议以保障工作顺利开展。数据管理员配合课题组根据研究方案创建整个生命周期过程中的数据管理计划(DMP),DMP有助于在研究初期明确个人和研究机构的角色和职责,帮助实施如何采集和管理研究数据,以获得高质量和长期持续性的数据。本院临床研究常用DMP的主要内容包括:(1)研究项目基本信息(如研究目的及设计情况);(2)数据管理授权分工人员及进度(如主要研究者、中心录入员等,数据管理时间计划表、进度报告等);(3)eCRF上线涉及的数据库设计与说明(如在研究期间采集哪些形态研究数据,定量或定性数据,文本或数值型数据,结构化数据还是半结构化、非结构化数据;使用何种数据标准,如何编制数据相关的文档);数据库检查与确认(数据库编制完成后测试录入,与研究团队确认,以发现问题并及时修正);(4)数据录入、数据审核和疑问处理、实验室数据处理、医学编码、数据库质量控制、数据库锁定/解锁、数据导出、数据管理相关文件电子化存档等规定[8];(5)数据的访问控制及所有权说明;(6)数据存储和安全。

2.2获取(Acquire) Acquire阶段包含了获取现有数据进行数据资源挖掘和采集新数据。很多回顾性研究是在已有临床数据的基础上进行挖掘或二次分析。采集新数据需要明确采集数据的方式方法如记录、观察、评估。无论哪种方式都需确认哪些数据可以从临床数据中心自动抓取如实验室检查以免去研究团队数据录入、哪些数据如中医症状评分需要人工录入,遵循何种数据标准,使用哪些数据模板。标准化的数据格式能提高医疗信息互通性,为实现无缝数据交换及共享打好基础[9]。我国对临床研究的数据管理还没有统一标准,本院支持目前采用临床数据获取协调标准进行CRF设计进行数据字段采集,若涉及未有规定的,则采用机构标准。根据研究方案和以上信息设计病例报告表(CRF),并根据CRF创建电子数据库,同时制定数据核查计划,并实现逻辑检验程序[10]。

2.3处理(Process) Process阶段首先要为涉及的临床研究人员进行数据管理培训和使用帮助。然后通过临床研究数据管理系统按照SOP进行标准操作,包括了数据自动导入、支持内外网及多中心的数据录入、数字化、清洗和去标识化,逻辑核查、一致性核查、医学编码、疑问管理、外部数据整合转换、数据锁定和转换,导出数据、实时数据报告等。目前,支持自动导入的仅为医院信息系统中患者的基本人口学信息及实验室检查结果。在完成所有病例数据自动导入及人工录入后进行数据清理,采用逻辑核查结人工一致性核查,通过闭环形式发出疑问和澄清答疑来完成。

2.4分析(Analyze) Analyze阶段主要是导出数据后由临床研究服务团队进行统计分析、数据可视化工作、建模等,产生临床研究的结果和相关信息。同时研究团队可分析出单个项目视角下各研究中心及录入人员提供的数据质量情况以供科研协作评价。

2.5保存(Preserve) Preserve阶段主要是研究结束归档时候进行的数据归档、备份和存储。研究数据具有分析、保存、再利用的价值,适当地保存、良好地监护可增强其长期可获得性和可用性,这些离不开可持续的数据文件格式和软件的支撑,目前保存的文件类型如:docx、pdf、jpeg、cvs等。实际工作中,不少临床研究在依托科研项目结题后继续进行后续研究,继续进行数据的采集、分析或添加数据,或重复使用并改变其用途。

2.6出版或分享(Publish/Share) Publish/Share阶段是研究过程中一个重要且必需的阶段,目前仅为论文发表提供不可发布的数据内容提供指导。目前,我国还鲜有将数据管理和共享计划作为研究基金申请的必要内容,机构层面若能实施数据管理政策和建立数据共享机制,加强数据积累和科室间、课题组间的开放共享,最理想的结果是实现不同课题组针对同一份数据从不同层面、不同视角得出不同的研究成果[11],提高数据的开放性、透明度,促进中医药科学发展。

2.7描述(元数据、文档) 元数据应描述充分,在整个数据生命周期中创建和更新文档以反映对数据采取的行动,通过在整个临床数据生命周期中实施基于标准的,元数据驱动的处理,来提高效率,简化流程并提高质量。大部分数据采集字段参照临床数据获取协调标准元数据表的18个信息字段进行设计,包括观察类别、域名代码、数据采集方案、实施选项、序号、变量名、变量标签、定义、问题描述、提示、数据类型、核心类别、填写指南、STDM映射定位、映射指南、受控术语代码表名称、受控术语子集代码表名称、实施说明[12]。中医药治疗独有的信息(如中药的用法用量、针灸穴位手法留针)根据临床实践在机构范围内统一,如艾灸一壮、给药途径为烟熏,在对应的元数据表上记录。此外还需要研究相关的文件作为描述研究综合情况的支撑。主要有EDC使用登记表及授权表、数据管理协议、空白eCRF、DMP、数据审核情况表、疑问及答疑表、数据库定义表、指控报告表、数据管理报告、锁定申请表等。

2.8质量管理 数据质量管理是一个过程,对研究结果的准确性、可靠性有决定性作用,规范化的数据采集和管理是保证临床研究质量与水平的重要条件[13-14]。其中通过研究方案和方法来确保在科学数据生命周期的所有阶段正确收集、处理、使用和维护数据。“管理质量”涵盖质量保证计划、质量保证、质量控制、记录数据质量。中医药临床研究数据管理主要问题主要是数据录入不及时,修改数据对违背方案及脱落处理不规范[15]。受人力资源限制,本院仅有部分省部级以上的大课题采用PDCA循环法进行数据质量的管理。

2.9备份和安全 确保数据安全是任何基于信息开展活动的关键,本院临床研究数据存储在院服务器上,有良好的存储和备份策略能够防止数据丢失,保护数据免受意外数据丢失、损坏和未经授权的访问。

3 实践应用

3.1项目管理情况 自2019年医院开始投入建立电子数据采集系统,至今共有28项省部级及以下在研课题处在管理中。现将项目情况围绕数据生命周期模型举例,展开说明。其中,28项参与规划与采集,与研究者共同制作规范化电子病历,细化医疗数据;20项由系统进行数据处理,其中6项为多中心研究,本中心的研究数据在管理,2项为重大项目,按规定交由第三方机构合作管理;12项由数据统计团队参与分析,集成研究结果,并做好数据的存储工作,8项由本统计团队与第三方机构合作完成,2项直接由机构完成;在参与全部与部分使用数据处理功能的26项研究数据在系统中留存;目前,已有3项研究使用抓取的数据产出成果,处于已结题或结题验收阶段,系统使用取得很好的反响。见表1。

表1 电子病历采集系统情况

3.2不足之处 就管理层面,受人力资源、场地等限制,能完全实现数据生命周期全过程的项目数量还有待提高。多中心研究的项目,由于数据标准难统一,分中心无法直接通过系统抓取临床医疗报告信息,仍需要手动录入,增加了临床科研人员的工作量,影响数据的精确度;系统多人同时使用或遇其他突发状况时,缺少专门的系统管理员保障应答时间。

4 讨 论

实践表明规范化的数据管理可保证研究质量,合适的数据保存能延长数据生命周期,USUG的数据生命周期模型需要数据管理人员和研究团队的良好配合,高质量的数据需在真实性基础上,保持有序组织、结构化、标准命名、版本控制的特性,需依托稳健的科研数据管理技术团队、固定的系统维护管理人员和优效可执行的标准操作规程。研究数据管理的许多方面其实可以嵌入到日常的机构科研管理及研究过程中,节省研究人员时间、精力,提高科研成果产出率。若数据管理员能够提前参与到课题标书撰写和研究方案设计过程会更有利于数据管理工作开展[16]。此外严格数据访问控制,同时需要研究团队及数据管理员遵守相关法律法规,坚守伦理规范,对涉及患者姓名、身份证号码、手机号及地址等隐私信息和种族、政治观点、宗教信仰、身心健康状况、性生活、犯罪或涉嫌犯罪[17]等敏感个人数据及要有充分的保护意识并采取相应安全管理措施。

猜你喜欢
本院数据管理生命周期
全生命周期下呼吸机质量控制
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
PDCA循环在降低本院住院药房药品调剂差错中的应用
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
安徽:打造创新全生命周期的金融资本支撑体系