, ,,
2016年我国科技部启动国家重点研发计划“精准医学研究”重点专项,申报指南要求项目产出数据必须及时提交至本专项建立的精准医学大数据平台统一管理[1]。2016-2018年共批复“精准医学研究”项目103项,要求各项目进行数据汇交,涵盖了大规模自然人群队列、重大疾病专病队列、罕见病及其他队列等。2018年4月我国首次出台国家层面的《科学数据管理办法》[2],大力推进科学数据资源的开放共享,特别是国家科技计划项目产生的数据,要求进行强制性汇交,否则项目不予验收[3]。《科学数据管理办法》为精准医学项目产出数据的汇交提供国家政策依据,而开展精准医学大数据汇交管控模型和应用研究有利于促进国家预算资金支持科学数据的开放共享,推动《科学数据管理办法》的落地实施。
科学数据汇交、数据管理和共享利用对精准医学创新发展研究的重要性越来越显著[4-6]。欧美国家科学数据汇交工作起步较早,欧洲生物信息研究中心(EMBL-EBI)[7]、美国国家生物技术信息中心(NCBI)[8]汇交多来源于生物医学数据,为世界各地科学家提供公开获取的生物信息资源和工具[9-10]。
我国从2008 年开始在资源环境领域开展国家项目科学数据汇交[11]。孙九林院士团队从组织实施、汇交环境建设和数据接收管理等方面研究了“973计划”资源环境领域项目数据汇交[12]。
与资源环境数据汇交不同,精准医学大数据汇交需要针对不同病种、不同类型的异构精准医学数据进行汇交。
本文通过系统分析汇交过程中面临的主要问题,从汇交内容、数据质量、数据安全、数据标准等方面构建了多维度数据汇交管控模型,并探讨了该模型在精准医学大数据汇交不同阶段的应用,为数据汇交工作的开展提供参考依据。
精准医学大数据汇交涉及多种疾病、数据来源渠道广泛、数据类型繁多、数据结构不统一,结合精准医学项目进展控制汇交进度难度大,汇交参与人员分类管理困难。
精准医学大数据不仅包含京津冀、华中、东北等多地区多来源的自然人群健康队列数据,而且包含心血管疾病、脑血管疾病、呼吸系统疾病、代谢系统疾病,以及乳腺癌、食管癌、肺癌等多种高发癌症的重大疾病专病队列数据,涵盖调查问卷、体检数据、影像数据、实验室样本检查数据、组学数据、生物样本数据等多种数据类型,呈现结构各异、维度高、表现形式复杂的多模态特点。区别于TCGA[13],EMBL-EBI[7]及GSA[14]对肿瘤、组学等的特定领域或类型的数据进行汇交,精准医学大数据汇交涉及多病种、多来源、多模态、多类型的数据资源,数据的复杂多样给精准医学大数据汇交管控带来困难。
精准医学项目实施周期长,各项目立项和结题时间不一,且临床或队列数据分批采集[15-16],因此要在项目开展过程中不定期汇交数据,并结合项目进展控制数据汇交进度。精准医学项目承担单位和项目产出数据分散在全国各地,如果要在项目开展过程中及时汇交数据,需要统一协调的数据汇交管控机制,为项目产出数据的汇交、管理、存储共享提供依据。因此,如何有序高效地结合项目进展将项目产出数据及时汇交,是精准医学大数据汇交管控研究面临的棘手问题。
精准医学大数据汇交涉及多个项目,且项目中有多种人员角色,如项目负责人、子项目负责人、数据提交人员、数据管理人员等。各人员在汇交过程中发挥的作用不同,如果不对人员进行分类管理,可能会出现数据安全、隐私、进度等管理混乱。同时需要结合项目过程管理,对汇交参与人员的权限和职责进行分类,以在项目开展中及时汇交产出数据。因此,如何对这些人员及其权责分工进行有效分类管理,是汇交管控面临的问题。
为了解决上述问题,本文探索全面有效的数据汇交管理控制体系,围绕精准医学数据、精准医学项目和数据汇交参与人员,构建精准医学大数据汇交管控模型,以指导精准医学数据汇交的实施,有利于规范数据汇交实现机制。
为了对多病种、多来源、多模态、多类型的精准医学大数据进行有序高效汇交,本文在精准医学数据、各精准医学数据产出项目、汇交参与人员互相支撑的基础上,构建了精准医学大数据汇交管控模型(图1)。汇交管控模型分为两个层次:第一层次包括汇交内容、数据质量、汇交数据数量、数据版本、数据隐私、数据安全、数据标准、汇交进度等多个维度的管控对象,第二层次是细化管控对象的不同维度。
图1 精准医学大数据汇交管控模型
精准医学大数据汇交内容主要是数据,包括描述数据、数据变量赋值和数据实体3方面。描述数据是对精准医学项目、子项目、汇交数据等基础信息进行描述说明的元数据,通过对其管控可实现精准医学数据的特征、体量等方面的全面揭示。结合调查问卷、体检数据、病理数据等多种数据类型,收集注册数据变量赋值进行精准医学数据语义分析,并通过上传数据实体提交精准医学数据内容,开展精准医学大数据分级分类管理。此外,汇交过程中参与各方需协商签订数据汇交协议和知情同意书,以明确各自的权利和义务。
精准医学涉及自然人群队列、重大疾病专病队列、罕见病等临床和社区多来源数据,会出现形式(如疾病分类编码不统一)、逻辑(如检查指标值无临床意义)或内容(如人口学或诊断数据仅采集基线数据,无随访数据)等质量问题。开展数据质量管控可采用人/机结合方式,从“计算机”和“人”两方面对精准医学数据进行形式和内容的基础质量控制。一方面,建立数据质量检测规则库(包括数据完整性、逻辑性、一致性、准确性、唯一性等规则),通过计算机辅助检测控制数据形式,以确保数据形式完整准确;另一方面,设置多级核查,通过数据提交人自查、项目负责人审核等控制数据内容的真实可靠性。同时还需要围绕精准医学数据生命周期建立质量反馈机制,一旦基础质量合格的数据在管理、共享利用等环节出现质量问题,可进行反馈回溯,为全面提升精准医学大数据质量和数据汇交效率提供支撑。
精准医学数据具有采集持续时间长、数据分布区域广等时空特点,应对汇交数据大小、人群数量、样本数量等方面进行分阶段的数据数量管控。在数量管控过程中,应结合精准医学项目总体考核指标和中期考核指标,了解项目总体汇交计划、中期汇交计划及其数据考核指标,并根据项目进展及时汇交产生的精准医学数据,可多次分批汇交数据,分阶段匹配汇交数量和汇交计划是否一致,以确保实现精准医学项目分阶段汇交数据数量目标。因此,实施汇交数据数量管控有利于保障精准医学大数据阶段性汇交和全流程汇交的数据完整性。
结合各精准医学项目进展情况,开展汇交进度的分阶段协同管控,主要包括汇交计划、进度控制、数据验收等方面。在进度管控过程中,需考虑各精准医学项目起止时间不同、项目进展不同、汇交进度不同等情况,协调各项目之间的汇交进度;按照项目总体和中期汇交计划,建立协同沟通机制,了解和提醒各精准医学项目数据汇交状态,分阶段协同控制各项目汇交进度,并在项目结题前对其产出的精准医学数据进行汇总验收,发放数据验收凭证。通过实施分阶段协同的汇交进度管控,能够有效评估精准医学项目进展情况,有利于结合项目进展及时了解项目汇交进度。
数据标准是精准医学数据汇交管控的基础,应通过建立汇交数据标准和汇交规范实现对精准医学数据标准的管控。结合调查问卷、体检数据、实验室检验数据等多种数据类型,研究不同数据的共性变量标准、特性变量标准和变量赋值标准。同时需要制定多维度数据描述标准,包括精准医学项目、队列和数据等方面,制定汇交数据唯一标识进行数据定位和关联,制定数据汇交相关标准规范管理汇交流程,实现精准医学大数据的分级分类管理,为后续数据检索、数据解析等工作提供基础支撑。
精准医学大数据隐私管控需形成双重监管机制,即在数据汇交前的隐私脱敏和汇交过程中的隐私监测。数据汇交前,采用移除识别列、转换半识别列(如K-Anonymity、L-Diversity和T-Closeness等算法[17])等方法对临床或社区队列数据中的患者姓名、身份证号、住址、联系方式等敏感信息进行隐私脱敏;汇交过程中,采用关键词提取等技术对脱敏后的数据进行漏脱敏监测,以避免隐私数据泄露[18]。数据汇交参与各方需在数据汇交前签订数据脱密协议,以明确数据脱敏的责任人。围绕精准医学数据生命周期开展数据隐私管控,为实现精准医学大数据开放共享提供有力保障。
从设备安全、数据安全、传输安全、数据安全管理[19]等多方面建设分层数据安全管控体系。一方面,精准医学数据汇交参与各方应构建安全防护机制,保证硬件设备安全和精准医学数据安全,同时结合精准医学大数据来源区域范围广的特点,采用多种加密技术保障传输安全,形成灵活有效的跨地区数据安全传输机制,以保证精准医学数据安全高效地传输;另一方面,应在精准医学大数据生命周期的采集、管理、存储、共享利用等环节中采用多种技术和措施进行数据安全管理[19]。此外,汇交过程中接触精准医学数据的单位或个人需签订数据安全协议,明确数据安全责任和义务。
精准医学大数据获取时间长,完成1个临床或社区队列基线数据采集后,大多经过多个周期跟踪随访,形成不同版本的汇交数据文件,或者随着各项目数据标准不断更新完善,也会出现多个数据版本。因此需要从版本控制、版本保存等方面分批管控多版本数据。根据精准医学项目特点建立数据版本管理规范,分别对版本内容、汇交频次等进行管控,支持汇交参与人员进行版本新增、删除或更新,避免出现版本混乱。可采用全量新增或增量新增方式更新数据版本。新老数据以全量新增的方式合并成新数据文件,替代已有数据版本;新增数据也可单独形成数据文件,以增量新增的方式汇交新增数据。另外,建立精准医学数据版本长期保存机制,便于版本溯源定位,提高版本管控效率和精准医学数据分级分类管理效率。
本文构建的精准医学大数据汇交管控模型主要用于指导汇交工作实施。汇交工作流程可分为数据汇交准备、数据汇交过程和数据汇交后续3个阶段。数据汇交准备包括项目注册和子项目注册,数据汇交过程包括变量注册、变量赋值注册、数据上传和数据初审,数据汇交后续包括数据终审、发放数据验收凭证、数据管理、存储和共享利用(图2)。
图2精准医学大数据汇交管控模型的应用
为了保障精准医学大数据汇交工作有序高效地开展,本文将汇交参与人员分为项目负责人、数据提交者和数据管理者。项目负责人是某一精准医学项目的总负责人,从总体上把控汇交情况,负责审校项目信息和数据内容的质量和真实性,开展数据共享利用;数据提交者负责项目及其子项目数据的提交,主要任务是子项目注册、数据变量注册、赋值注册、上传数据等;数据管理者主要负责汇交数据审核、数据管理、发放数据验收凭证、存储、共享利用等工作。
结合精准医学数据具有多模态、多病种和多来源的特点,以及精准医学项目进展情况,在数据汇交准备阶段进行项目及其包含子项目相关信息注册,具体包括项目基本信息、子项目基本情况、数据汇交计划、汇交进度等。在数据汇交过程中,数据提交者依次进行数据变量注册、变量赋值注册和数据实体上传,项目负责人对数据内容、数据真实性等方面进行初步审核,数据管理者对数据质量进行终审。在数据汇交完成后,数据管理者对项目数据汇总验收,验收合格的发放数据汇交验收凭证,用于精准医学项目结题。最后开展精准医学大数据的分级分类管理、存储、共享利用,实现精准医学数据全生命周期管理。
数据汇交准备阶段开展项目信息注册和子项目信息注册,应用精准医学大数据汇交管控模型对汇交进度、数据数量、数据标准、数据隐私和数据安全等进行管控。
项目负责人、数据提交者和数据管理者分别从进度控制和汇交计划两方面分工管控汇交进度。项目负责人、数据提交者分别管控各自项目、子项目的样本数量、人群数量和数据大小。项目负责人提交项目的变量和赋值标准,数据提交者管控子项目的变量和赋值标准。同时,项目负责人、数据提交者和数据管理者开展精准医学数据脱敏、隐私保护等工作,数据管理者提供设备安全、传输安全等安全保障体系,为精准医学大数据汇交提供安全可靠的汇交环境。
精准医学大数据汇交过程中开展变量、赋值注册、数据上传、数据初审等工作,利用汇交管控模型从汇交进度、汇交内容、数据数量、数据标准、数据版本、数据隐私、数据安全、数据质量等多维度对数据汇交过程进行管控,实现对多病种、多来源的异构精准医学数据的及时高效汇交。
结合汇交参与人员的分工,汇交内容管控包括描述数据、变量赋值、数据实体管控,数据提交者完成变量注册、赋值注册和数据上传等工作,项目负责人对数据真实性和内容初步审核,以保障精准医学大数据内容真实可靠。
数据提交者负责控制数据上传大小、人群数量和样本数量,项目负责人负责上传数据数量的初审,数据管理者利用变量标准、赋值标准和数据描述标准进行精准医学数据语义融合管控。在数据上传时,项目负责人和数据提交者上传有效的数据版本,数据管理者对版本进行控制和保存,项目负责人在数据初审时审核数据版本。数据提交者、项目负责人和数据管理者在数据汇交过程中开展数据隐私管控,数据管理者在数据汇交的过程中开展数据安全管控,项目负责人和数据提交者对提交数据进行数据质量管控。
总之,数据汇交过程中各流程环环相扣,汇交参与人员之间分工明确、相互协作,汇交管控模型为汇交实施提供有效指导,为精准医学大数据高效汇交提供保障支撑。
精准医学大数据汇交后续要开展数据终审,汇交凭证发放和数据管理、存储、共享利用等工作,结合汇交管控模型进行汇交进度、汇交内容、数据数量、数据版本、数据隐私、数据安全、数据质量等多维度管控。
数据管理者对汇交内容、数据数量、数据标准、数据版本、数据隐私、数据质量等进行终审,并发放汇交验收凭证,用于项目结题;同时对汇交内容、数据数量、数据标准等进行分级分类管理、存储和共享利用。汇交参与人员在数据共享利用阶段要进行数据隐私管控,以避免队列数据信息泄露。数据管理者在整个汇交流程中开展数据安全管控,以确保数据汇交的安全实施,形成有效的数据汇交安全协调机制。
开展精准医学大数据汇交管控模型与应用研究,可为数据汇交工作的实施提供指导和参考依据,不仅有利于提高精准医学数据汇交效率和规范化管理水平,而且有助于推动《科学数据管理办法》的实施。
一是针对数据汇交内容、数据质量、数据版本等多维度管控对象开展汇交管控模型研究,为数据汇交工作机制实现、系统建设、汇交实施提供指导和参考依据,推动精准医学数据开放共享。
二是应用精准医学大数据汇交管控模型开展精准医学数据汇交工作,有助于高效汇交多来源、多类型、多病种、多模态精准医学数据,有利于从数据产生、传输、汇交、存储、管理、分析、利用、共享等方面实现精准数据全生命周期管理。
三是《科学数据管理办法》为精准医学项目产出数据的汇交提供了国家政策依据,精准医学大数据汇交管控模型与应用研究有助于推动《科学数据管理办法》的实施和实现对国家预算资金资助产生数据的长期管理和共享使用,促进精准医学创新研究的深入发展。
本文通过对精准医学数据汇交内容、数据质量、数据标准、数据安全等多维度管控对象的研究,构建了精准医学大数据汇交管控模型,探讨了多维度数据汇交管控模型在精准医学数据汇交不同阶段的应用,为数据汇交工作提供指导和参考依据,为精准医学数据资源的开放共享提供基础支撑,为实现“健康中国2030”提供基础保障。目前的工作侧重于精准医学数据汇交管控机制的研究,但要实现科学数据全生命周期管理,充分提高国家财政投入效益,提升医学科技创新能力,仍需要继续深入研究数据共享利用。因此,探索精准医学数据共享体系和分析挖掘利用方法是未来研究的重点。