,
英国、美国、中国相继开展了基于大规模人群队列的精准医学计划[1-3],数据规模达百万级,多来源、多类型的大数据协调及管理成为精准医学研究和应用的新挑战。为了更深入了解面向精准医学的大规模人群队列数据管理方法和关键技术,本文主要介绍了美国“百万老兵计划”(Million Veteran Program,MVP)。它是一项国家级研究计划,由美国退伍军人事务部负责实施,目标是为了帮助研究人员更好地理解基因组对健康和疾病的影响,用于改善退伍军人的医疗健康及对特定疾病(糖尿病、癌症等)进行有效预防、诊断和治疗[4]。
该计划启动于2011年,截至2016年7月,已在美国范围内的50多个站点招收了超过500 000的退伍军人参与研究,并建立了美国国家级最大的存储关联遗传、临床、生活方式和军事暴露等多种信息的数据库。该计划已支持完成超过175项有关心脏病、癌症、心理健康和许多其他疾病危险因素或治疗方法的研究评估[5],在其开展过程中所积累的大量基础数据、临床数据等也成为奥巴马提出的美国精准医学计划的重要数据来源。
MVP在人群招募、接收、数据采集、保存、数据协调管理、数据分析、数据安全和数据访问的过程中,采取了较为系统和有效的组织管理措施、定义了明确的数据流程规范和指导方针,构建了关于基因、部队经历、生活方式和健康信息的数据库和集成数据管理系统,值得超大规模人群队列数据管理研究借鉴和参考。
MVP主要招募军人志愿者作为研究对象,所有参与者均为曾经使用过美国退伍军人事务部医疗系统的退伍军人,自愿共享他们的医疗健康信息和基因信息。
MVP通过邮件邀请的方式进行参与人群招募,邮件邀请函中介绍了MVP的研究内容,以帮助参与者了解其研究中需要其参与的事项,包括完成关于个人健康和健康行为的调查问卷、提供用于基因组分析和未来研究的血液样本、允许安全访问与其健康管理相关的医疗信息(如过去和未来的健康记录)、允许MVP员工因开展后续研究与之联络[6],还包括知情同意权益说明和基础调查问卷。
有意愿参与的退伍军人可以在阅读知情同意权益说明后,完成问卷,同时预约研究访谈的时间。访谈时间确定后,参与者还将收到一封附有知情同意表的预约信,参与者可根据预约时间与退伍军人事务部(Department of Veterans Affairs,VA)医学中心研究网站的员工及研究组的成员面谈。面谈将帮助参与者深入了解MVP的目的、方法、风险和收益,完成血液样本采集和签署必要的知情同意[7]或健康保险携带和责任法案(Health Insurance Portability and Accountability Act of 1996,HIPAA)授权表。最后,每个参与者还需完成一份关于其生活方式的调查问卷。
调查问卷收回后,退伍军人事务中心机构审查委员会(Institutional Review Board,IRB)负责对其进行审核。如果参与者被MVP接收,退伍军人健康管理医疗系统网站的员工将对其填写的知情同意和HIPPA授权表进行检查和扫描,并将其发送到美国康州西黑文临床流行病学研究中心(Clinical Epidemiology Research Center,CERC)。
研究中心负责检查其填写内容的准确性和完整性,随后数据被录入信息系统。每份调查问卷都会被编码,用编码替代参与者的姓名是为了保障参者隐私和方便实现对参与者招募、接收、样本采集和使用的全过程追踪。最终,生活方式调查问卷的数据和基础调查问卷的数据将被整合存储。
研究访谈的血液样本采集遵循标准的操作流程规范,使用含有10ml乙二胺四乙酸(Ethylene Diamine Tetraacetic Acid,ETDA)抗凝剂血液收集试管装载样本。样本经离心处理后被放入冻存管保存,每个试管都会被分配一个2维条形码标签,供机器自动读取。
样本收集后需要被连夜运输到波士顿VA中心生物仓储存储和进行质量评估/质量控制,样本将一直被存储在中心生物仓储中,直到它们被提供研究使用或因不再具有科学价值而被销毁。关于样本的采集、处理、状态及出入库时间等信息将被记录到实验室信息管理系统中。
血液样本的基因组、表型和外显子的分析等测序工作则由MVP的合同供应商完成,供应商需要遵循国际和VA测序相关标准保证测序质量。
收集的MVP数据,具有规模庞大、来源广泛、类型多样、格式丰富等特点,不仅包括MVP参与者的自我问卷调查数据、生活方式调查数据、生物样本数据,还包括合同供应商提供的基因型数据/序列数据以及VA国家数据系统中的数据(包括合作数据仓储数据库、国家病人医疗数据库、VA生命状态文件等)和非VA数据。
MVP研究涉及的数据内容具体见表1。其中,MVP调查问卷数据主要来自基础调查问卷和生活方式调查问卷。基础调查问卷数据是关于人口统计特征(性别、人种、婚姻、身高、体重等)、生理特征(发色、肤色、用手习惯等)、健康状态,活动和习惯、部队经历、医疗历史和医疗情况、遗传病家族史;生活方式调查问卷包含更细致的补充性数据,包括个人信息、个人习惯、锻炼习惯、部队和环境暴露情况、饮食习惯、幸福感知情况、男性/女性健康、药物和维生素服用情况等内容。
表1 MVP研究涉及的数据来源和内容
MVP活动由多部门组织完成,具有清晰的管理组织结构(图1)[8]。VA中心办公室/研究开发办公室负责管理MVP各种资源、设计组织框架,安排和管理两个基因组协调中心的活动。基因医学计划咨询委员会(Genomic Medicine Program Advisory Committee,GMPAC),由医学基因组、基因组科学、医疗政策和管理、医学信息学等领域的国内和国际专家组成,负责有关基因医学相关问题的咨询工作。VA中心机构审查委员会,负责保护研究对象的权益和引导每年的MVP审查。协议(招募材料)、知情同意权益和HIPPA授权表等都需要经过中心机构审查委员会的批准。科学审查委员会(Scientific Review Committee,SRC)负责对退伍军人的样本和数据进行严格审查,审查通过后,样本和数据才能被提供给研究者使用。该委员会还负责对提出数据使用申请的研究者所开展研究的科学性、数据请求必要性等方面进行审查。
MVP执行委员会监管MVP的全部活动,执行委员会由5个子委员会组成,主要职责是监管和处理招募、通用政策和数据访问、流行病学和表型、分子和生物化学分析、信息学和信息技术相关问题[4]。当前MVP开展的活动由两个VA基因组协调中心具体管理和开展。一个是波士顿马萨诸塞老兵流行病学研究信息中心(Massachusetts Veterans Epidemiology Research and Information Center, MAVERIC)和合作研究计划(Cooperative Studies Program,CSP)协调中心,主要负责招募参与者和管理中心生物仓储和面向集成科学的基因组信息系统(Genomic Information System for Integrative Science,GenISIS);另一个是西黑文临床流行病学研究中心和合作研究计划协调中心,负责文件扫描,知情同意权益和HIPPA文档监管,MVP站点管理、预算管理及应用项目管理等事务。两个中心间也会进行大量活动和信息的交互共享和配备大量人员用以支持所有活动持续开展。临床研究药物协调中心(Clinical Research Pharmacy Coordinating Center,CRPCC)支持对由VA和其他联邦机构引导的世界范围多中心临床实验药物和设备相关活动的管理。除这些部门以外,MVP在卡南代瓜市还设有一个信息中心,负责解答MVP相关问题、安排研究访谈的时间和辅助MVP网站招募工作。
图1 MVP数据管理组织结构
面向集成科学的基因组信息系统是MVP用于存储、集成、检索和分析数据的信息基础架构。数据被安全地存储在GenISIS数据仓储中,受到防火墙的保护,GenISIS通过用户角色和许可控制实现对系统和数据的访问。
GenISIS包含5个主要功能[8]:提供参与者招募和接收软件,提供报告环境,提供MVP收集样本追踪,提供安全的数据存储,提供应用于未来研究分析和保障安全的计算环境。GenISIS系统功能如图2所示。
图2 GenISIS系统功能
参与者招募和接收软件主要实现招募和接收退伍军人进入队列的功能,包括网站协调、呼叫中心、邮件中心和指挥控制中心等功能。报告环境主要实现对招募情报的报告功能,包括招募指示板、报告请求系统、详细报告数据库等。GenISIS数据仓储用于存储参与者的调查问卷数据、医疗数据,还有来自非VA数据库的一些辅助性数据。实验室信息管理系统(Laboratory Information Management System,LIMS)支持实验室信息管理,提供工作流、数据跟踪和支持采样追踪和自动化液体处理,具有灵活的架构和数据交换接口;还提供对所有关于生物样本收集、运输、采样处理和存储的信息追踪和与GenISIS信息的关联。
GenISIS提供带有分析工具的高性能安全计算环境。它提供的分析软件包括SAS、R、Plink、ib2b等,用户可以在线使用,也可通过上传软件进行远程访问,系统可根据用户需求对分析软件进行更新升级。科学环境能够提供170TB的存储区域网络(Storage Area Network,SAN)、缓存空间以及192个节点的高性能集群,支持用户完成高性能计算任务;还支持对第三方知识库(如NCBI等)的访问。
GenISIS的数据流动过程见图3。来自临床信息系统的临床数据、由供应商提供的基因组数据和收集的调查问卷数据被存储到GenISIS的数据仓库中后,系统对这些数据进行元数据抽取和编码标识分配、索引构建和数据分类。经知情同意管理者审核知情同意权益情况后,通过协调系统(Honest Broker),审核和标准化处理后的基因组数据、对应的临床数据和调查数据被关联和整合起来,研究者可以通过术语和注释服务器对集成的基因组、调查和临床数据进行注释。
获得授权的研究者可通过查询接口访问数据,并通过查询集市(Query Mart)检索临床和基因组信息,构建研究应用的队列和子集数据。查询的数据可被导出到GenISIS服务器研究数据集市中用于开展数据分析。GenISIS同时提供安全的高性能分析环境、用户缓存空间和大量分析工具(如SAS、R、Matlab、Plink、ib2b、Perl/Bioperl等),允许用户提交和管理他们的高性能计算任务。
图3 GenISIS数据流
MVP涉及大量退伍老兵个人隐私数据,因此十分重视数据隐私保护和安全问题,尽量降低参与者的风险。退伍军人事务部的研究者、美国其他联邦医疗机构和学术机构,只有通过退伍军人事务部监督委员会的批准,才可以获取参与者样本和健康信息用于未来的研究项目。具体而言,开展的研究必须满足所有道德、科学和规范要求,并且需获得退伍军人事务部和其他监督机构的批准,只有获得授权的研究者才能通过密钥访问样本和数据。这些样本和健康数据均需经过匿名处理,采用特定编码代替名字、地址、出生日期和社保号等个人标识信息。除此之外,MVP必须严格遵守现有联邦法律保护个人信息,主要包括《1974年隐私法案》《2002年电子政务法》《1996年健康保险流通与责任法案》(HIPAA)等关于医疗保健和个人信息的法规。这3项法规要求联邦机构建立安全措施保障统计记录、个人信息和健康信息安全,避免对个人造成伤害。MVP在开展基因分析过程中,还借助《反基因信息歧视法案》(Genetic Information Nondiscrimination Act,GINA)来保护相关参与者的基因信息不被滥用和歧视。
MVP还接受NIH保密认证保护,保障数据不会被泄露给第三方,即便是有来自法庭的命令要求,数据也不会因此而被泄露[9]。排除一些特殊情况,如参与者或他们的家庭成员自愿发布了信息,或为避免对参与者和其他人造成严重伤害,MVP采取向当局报告的必要措施以外,研究者可以依据这项认证拒绝对参与者身份信息的请求。因为有NIH保密认证的保护,计划相关研究者可豁免因被迫泄露关于参与者身份信息而收到法院传票或任何民事、刑事、行政、立法、或其他联邦,州或地方级别的诉讼。
MVP在管理、技术和操作等各个方面均采取了大量数据安全保护措施。在管理方面,通过制定有效的安全政策方针、信息安全规程来保障数据安全。MVP持续升级信息安全规程,要求开展VA健康研究的主要研究人员和其他工作人员需保证所有项目符合研究信息使用、存储和安全要求[10]。如VA员工提出访问敏感数据的请求要接受审查,包括对他们的职责和提出的数据访问级别开展适当的背景调查。出于商业原因,VA也可能和其他联邦或持有退伍军人信息的商业实体一同合作,MVP要确保这些组织或实体也能够采取适当的安全措施保护敏感数据。
伴随信息技术的飞速发展,MVP的活动越来越多地依赖于计算机系统和通信网络,包括数据的存储、流程控制、分析、访问和传播等。为了能够安全、可控地管理和使用数据,在技术上,MVP建设了安全、稳定的基础设施和采用多种安全保障技术;持续进行软件和设备升级,防止对未经授权的敏感数据的访问,其所有数据的管理和分析均在安全防火墙保护下开展。MVP相关研究设计、实施和操作涉及的各方面均需要通过严格审查,所有对数据库的数据和样本的访问均需要经过科学同行评议和机构审查委员会的批准。只有通过批准的研究者才能通过密钥访问数据。访问控制、在笔记本上安装加密程序,对存储隐私数据的移动电脑或便携式存储设备进行加密等多种技术手段被应用于MVP的数据安全保护,防止未经授权的敏感信息访问和远程数据检索。在人员管理方面,MVP积极对员工进行数据隐私和安全责任强化教育及开展相关安全教育活动,提高员工对数据隐私和数据安全保护的个人责任重要性的认识。
我国陆续开展了多项大规模人群队列研究项目,如中国慢性病前瞻性研究项目[11]、泰州人群健康追踪研究项目[12]等。在2016年和2017年开展的国家精准医学研究重点专项中也计划建立多个大样本人群队列研究项目,通过管理、整合和分析基线数据、临床数据和组学数据等多类型数据,探索疾病发生、发展过程的内在规律,实现疾病的预测、预防和个性化治疗[13]。本文对美国“百万老兵计划”的大数据管理实践进行剖析,总结出以下5方面的特点,希望能够为开展我国精准医学大数据管理研究和应用提供借鉴。
设置清晰、合理的管理组织架构在超大规模队列数据管理中至关重要。MVP不仅涉及对大量参与人群、招募网站、测序供应商和临床信息系统等人和系统的协调管理,还涉及多种来源、类型多样的数据管理和多样化数据流程、数据质量的控制。MVP清晰的组织管理结构为计划实施起到了巨大作用。其设立多级委员会和多个协调中心,由办公室总体统筹规划、分中心组织协调开展数据采集、整合和分析,委员会监督管理相结合,既能分工明确,各司其职;又能紧密配合,协同工作,及时沟通,实现从招募、接收、采样、数据收集、管理、集成到分析和访问控制的不同任务目标,有效推动MVP的实施进展。
从问卷收集、样本采集、基因测序到数据存储、分析和访问,MVP均有制定相关政策方针或规程指导控制数据流程和数据质量。数据采集从人群招募、调查问卷填写、知情同意签署到问卷回收、数据存储,MVP均提供明确的流程定义和清楚描述。一方面使参与者能够准确了解其在研究中的任务、责任、风险和收益;另一方面,MVP也对数据的采集过程进行了清晰定义,使数据流程透明化和规范化,对于血液样本的采集、处理、存储、运输、信息化管理和访问控制也按照国际标准和VA标准进行规范并进行质量评估和控制。在GenISIS系统内、外部也对数据处理流程进行了定义,并且通过数据词典、数据标准、一致性检查等进行数据一致性、完整性和规范性控制。生物样本及各类数据的标准化和质量管理将决定并影响研究的结果,因而数据流程及质量控制在精准医学大数据研究中不可或缺。
MVP建立大数据集成管理系统GenISIS,不仅实现了参与者招募、数据协调、信息沟通等功能,也实现了大数据存储、整合、标准化处理、数据管理,高性能数据分析等功能;同时集成了多种数据资源,形成数据关联。MVP还提供高性能的科学计算环境,集成多种数据分析工具,为研究者发现数据、利用数据、探索新知识、新模式提供了重要的基础设施。集成数据管理系统流程设计较为合理,不仅考虑了数据隐私保护,也在其中适当嵌入了协调、审核机制,将平台系统和政策规范紧密配合应用,实现对MVP参与人员和海量数据的有效管理、追踪、调度和提供满足用户需求的科学计算分析环境。
个人数据隐私保护在MVP被置于最高和优先地位,不仅广泛采纳在国家层面已有的、成熟的个人信息保护相关法律、法规到计划当中;在计划实施过程中也通过匿名处理、积极制定委员会或相关组织多级审查和安全控制制度,保障从人群队列多类型数据采集、样本采集、处理、运输、存储、管理、分析到访问、使用过程中的隐私安全。通过知情同意、HIPPA授权等方式让参与者了解数据安全状态和保护方式及通过明确的隐私保护政策、规定和许可保障超大规模人群队列数据的访问安全。
MVP是一个观察性的长期大规模人群队列研究,为保证参与者的最小风险,VA注意提高数据安全技术,持续对相关系统、软件进行升级更新,使用多重安全防御和管控策略防范安全威胁,保障系统平稳、正常运行,保障样本、临床等数据的妥善存储和用于研究分析。但信息系统没有绝对的安全,MVP也从通过落实安全管理制度、组织协调有关人员加强培训和安全教育,强化安全意识、责任义务和职业道德等方面保障数据采集、存储、管理、高性能分析、访问获取等过程中的安全性、可用性、可控性和完整性,切实保障MVP数据和研究成果的安全。