蒋兆强 靳明英 谢小萍 张玲希 陈俊斐 何晓波
生物样本库(biobank)主要用于长期储存临床或科研使用的生物样本[1]。《时代》杂志 2009年3月的特刊将生物样本库列入“改变世界的10个思想”之一[2]。建立专门的生物样本库,大规模、高效地搜集和利用生物样本、生物信息和数据,可以极大地提高科研效率,也是众多重要科研成果快速产业化、应用到临床的重要保证。美国、欧洲以及国际卫生组织都投入了几亿到几百亿美元建立大型生物样本库。近年来,生物样本库的规模在一步步地扩大,随之而来的是生物样本库的大数据伦理管理问题越来越突出并亟待解决,这包括知情同意、隐私保密、样本和数据共享、商业化等伦理问题[3]。因此,本文对国外生物样本库的大数据伦理管理现状进行介绍,并探讨相应的对策。
世界上第一个生物样本库是1982年美国国立卫生研究院、美国国家医学图书馆、美国国家生物技术信息中心等机构建立的基因数据库。20世纪90年代末之前的生物样本库为第一代生物样本库,通常为了满足某个研究的需求而开展并保存生物样本。20世纪90年代以前,人类遗传样本的采集是零散的,科研的目的是单一的。
美国科学家于1985年率先提出人类基因组计划,并于1990年正式启动。近20年来,随着生命科学的发展、计算机数据分析和处理能力的快速提高,各类生物样本库纷纷登场,被称之为第二代生物样本库,这引起了人们的广泛关注[4]。这包括1987年的美国国家癌症研究所(National Cancer Institute,NCI)、1999年英国生物样本库(UK Biobank)等,以及基于科研性质的1990年欧洲癌症与营养前瞻性调查(European Prospective Investigation into Cancer and Nutrition,EPIC)、1998年韩国国家健康和营养检查调查(the Korean National Health and Nutrition Examination Survey,KNHANES)建立的样本库。我国1994年建立的中华民族永生细胞库,也是第二代生物样本库的一个代表。
近几年,有学者将以数据为中心的现代生物样本库的发展战略称为生物样本库3.0[5]。根据欧洲研究中心和前沿技术研究所的调查,欧洲有超过170个生物样本库或组织,其中36%以公共研究为主要研究模式,24%兼顾公共研究和临床研究;17%的信息在欧盟内分享,33%在全球范围内共享,20%为数据研究者享有,10%为本单位共享。目前,美国的生物样本库已超过600个,储存的组织样本总量已超过3亿份,每年以2 000万份的数量快速增加[6]。1992年,联合国环境规划署组织签署《生物多样性公约》,强调了人类遗传资源的保护。国际人力基因组研究伦理委员会从1996年开始,每2年左右就会发布一项关于生物样本使用的伦理规则。这些规则形成了生物样本库资源共享的伦理框架,主要包括数据共享、成本补偿、样本库管理等方面。为了规范生物样本库的标准化建设,国际生物和环境样本库协会(International Society for Biological and Environmental Repositories,ISBER)等组织进行了一系列统一标准的规划和制定。ISBER 制定的《生物样本库最佳实践》是目前国际上公认并且影响最广泛的产业化标准,2012年已出版第三版[7]。
国外生物样本库大致可以分为三类: 一是以单个科研项目运营为主导的样本库;二是以机构运营为主的样本库,主要以大型三甲医院、高校为主;三是以第三方机构运营,由政府或基金会出资,形成集约化的生物样本库。本文仅列出具有代表性的几个生物样本库,见表1。
表1 各国生物样本库的主要类型及其特点
知情同意是采集人体生物样本的伦理基本要求,是医学伦理学最基本的体现。所有生物样本库样本的采集需要在受试者签署“样本采集和保存知情同意书”之后进行,现在较为接受的一种知情同意模式为“广泛知情同意”,即授权生物样本和数据可以在广泛指定的领域内用于未来的研究[8]。现代生物样本库还提出了“泛知情同意”之外的知情同意模式:如特定的知情同意、部分限制的知情同意以及多层知情同意。现将几个有代表性的生物样本库获取知情同意权的方式总结成表2。
表2 各国生物样本库的知情同意获取方式
生物样本库的实践,已在多个基础研究领域产生了革命性的突破,创造了很多可产业化的成果。但是研究成果对个人的返还却很难实现。一方面,是因为研究的不确定性,返还结果的可操作性差;另一方面,则是由于基因和分子生物学的复杂性所致[9]。英国生物样本库已明确表示不将研究结果返还给样本捐赠者。此外,关于样本捐赠者的隐私保护以及研究结果的所有权问题[10-11],一直还存在较大的争议。
应用生物样本或信息的基础条件是生物样本的唯一化标识和信息化管理。根据生物样本管理模式的差异,可以将生物样本库分为两类:一类是实物集中管理模式,也就是所有的生物样本都在生物样本库组织中进行统一的管理和维护;另一类是虚拟集中管理模式,只有样本有关的信息被集成在一起形成中央数据库[12],生物样本依然被放置于每个样本采集点。数据库信息管理的数据可以有多个系统来源,可手工导入、可文本导入,也可定时获取[13]。生物样本的利用需要由生物样本应用人员如实填写并提交生物样本使用申请。审核生物样本的利用,需要伦理评审委员根据样本的获取难易程度、样本剩余量、是否符合研究规定等方面审核,见表3。
表3 各国生物样本库的生物样本或信息的管理和应用
根据生物样本库的建库目的不同,各国的生物样本库研究的开放和共享策略有所不同,见表4。但无论何种形式,为了保证共享的实现,建立统一标准的生物样本库,构建便于公开获取共享的公共信息平台、规范共享内容与流程、形成各方认可的共享利益分配方式等都是实现网络共享的基础和必要条件[14]。在获益方面,不仅要控制机构商业用途的过度,还应考虑回馈个人、贡献社会[15]。
表4 各国生物样本库研究的开放、共享、交易
生物样本库建设最主要的目的是整合和共享生物资源[16]。但是现阶段,我国国内各个生物样本库建设标准不一,收集样本的方式和内容各异,各项数据库之间的关联并没有打通,生物样本资源共享难度很大[17]。为了整合资源,提高样本利用率,需要进一步制定伦理相关的法律法规,以完善样本库的标准化建设,构建资源开放共享网络。我国与生物样本库规范化管理有关的法律法规有《个人信息保护法》《生物安全法》《涉及人的生物医学研究伦理审查办法(试行)》和《人类遗传资源管理暂行办法》,在此基础上还需要进一步完善利益主体、资源的归属权、更新伦理管理制度等事宜,积极推动具体伦理规章制度的落实。
设立专门的生物样本库管理办公室,专职人员以审核小组的形式,负责样本库的管理、注册和审查[18]。设立生物样本库审查的伦理委员会,发挥伦理委员会在生物样本库的建设和发展中的作用。定期对生物样本库的实施情况进行评估,检查伦理审查的内容和程序是否符合要求。检查电子设备等软硬件是否存在安全隐患。
在生物样本库的大数据应用条件下,传统的知情同意书已不能满足数据反复使用的特点,泛知情同意书的使用是大势所趋。需要明确单个科研项目和生物样本库使用的知情同意书的区别,充分考虑重新获得知情同意书的难度及样本库资源预期的使用目的,深入探讨泛知情同意书的优缺点,研究泛知情同意书的使用条件及范围。
国外生物样本库多由专人负责管理,既有医学背景专业人员,也有伦理、哲学或法学背景人员。目前,我国专业的生物样本库管理人员还有所缺乏,大多数人是医学背景,而非伦理或哲学背景。应增加熟悉生物样本伦理管理制度的专业技术人员,加大人才队伍的储备。研究生物样本库管理人员绩效评估及职称评定的政策,以稳定人才队伍。
隐私保护是生物样本库伦理管理中最重要的环节之一。生物样本库内的样本所包含的信息众多,包括个人基本信息及遗传数据。这些信息一旦被公开披露,几乎不可能再次取回使其私人化,并且这一过程中获取此信息的具体人员和数据的具体用途等无法知晓,这种风险在涉及推理与识别综合的数据中特别明显[19]。所以一旦生物样本库的信息泄露,就可能会引起大型社会性问题。从伦理审查的角度来看,当隐私泄露的风险超出受试者个人或所在群体的最小风险值,使风险受益比升高,则不能获得伦理的辩护。具体而言,国外生物样本库的应用对我国有如下启示。
4.5.1 优化数据使用的伦理管理流程
大数据时代,个人信息的价值日益得到市场及各个行业领域的认可,大数据应用正在向“市场化”和“产业化”的方向迈进[20]。如何将生物信息、医疗信息等各种资源高效整合并共享,且确保数据的安全,这一关键技术还有待于政策层面和技术层面的突破。建立规范化和统一管理的生物样本库大数据基础设施和电子设备,做好数据长期安全存储、高效检索、关联检索、数据的匿名处理、数据的可视化、数据的安全存储和备份、标准化质控、信息发布标准等工作。对于结构化的数据和非结构化的生物样本库数据使用,其审核重点、申请及伦理审批的流程应有所区别。
4.5.2 加强隐私保护的信息技术研究
大数据时代通过集成和融合等链接技术,将多个异构的数据集聚集在一起,以获得个体的特征信息。但是,这一做法可能会泄露80%的个人敏感信息,给个人隐私的保护带来挑战。这提示在搭建大型的生物样本库信息管理系统时,借鉴金融、电子商务领域在大数据隐私保护的方法的经验,需要信息技术人员从设计、决策、实施等多个层面的深入参与,从研究设计开始就同力搭建完整的安全框架,而不是简单地将生物样本库系统外包给信息技术公司。可以实施访问控制和密码学,从模糊化、匿名化、差分隐私、加密等方面加强信息安全。采用匿名性、多样性、贴近性不同的隐私保护技术和隐私参数,或使用协同隐私保护算法对隐私数据集进行匿名和加密,以保护生物样本库个体的隐私[21]。
4.5.3 引入风险管理理念,防范隐私泄露
参照银行信贷业务的管理办法,引入风险管理理念,即通过内部大数据与外部大数据的关联,设定风险参数,计算出隐私风险分值(privacy risk score),以达到数据信息智能应用的良性循环,形成智能风险预警的效果。生物样本库可以结合申请样本的科研机构及科研人员的诚信记录,通过个体风险指数,制定生物样本库管理和外借的风险控制方法。对于隐私风险的泄露问题,仍然可以沿用这一风险管理方法,采用隐私影响评估、需求表达和安全识别等技术,对隐私风险进行主动的评估。
4.5.4 隐私风险的主动监测
隐私风险的主动监测(privacy risk active monitor)是防控隐私泄露的又一个新方法。通过主动监测,可以发现不正当或者存在恶意的操作,检查数据库信息是否被泄露。基于成本最优博弈理论(cost-optimal game-theoretical approach)是目前比较常用的隐私风险监测技术之一,也是隐私防护中有用的一个新理论,可以在生物样本库加以应用。
4.5.5 预防数据挖掘技术带来的风险
卷积神经网络、决策树分类技术等大数据挖掘方法的发展,可以挖掘出大数据的特征和规则,虽为大数据的深度利用提供了契机,但也带来了一定的风险。过度挖掘生物样本库的数据,用于商业用途,容易引起隐私维权的问题。例如,金融保险公司得到了个体的疾病信息,则可能会导致保险歧视。大数据的隐私管理,除了需要防控数据直接泄露的风险,也需要考虑上述间接泄露的风险。因此,需要建立生物样本库综合的隐私保护算法框架,开发更具有稳健性、可扩展性和隐私保护性更佳的数据挖掘和机器学习方法。
4.5.6 建立大数据管理的问责系统
在生物样本使用的授权方面,尤其在侵犯隐私权之后,需要引入问责系统的功能。根据是否经过授权而进入生物样本库系统检索数据,来判断其责任归属。可通过数据标记、集成式追踪、分布式追踪、事件追踪等方法,查询到文件系统的读取行为。当数据被违规使用时,可采用入侵检测、统计匹配等违规检测技术,快速检测样本数据被违规使用的时间和地点。问责系统还需要更为完善,如增强底层风险评估,促进法律法规的制度保障等。通过问责系统的使用,发现样本库管理系统的漏洞,及时补漏,确保样本库正常运行。
综上所述,国外生物样本库为我国生物样本库大数据伦理管理规范的建立,提供了较好的理论和实践基础。我国应借鉴国外生物样本库的经验,在规范的伦理管理制度下形成开放的数据库,以避免生物样本库的重复建设和低质量建设。同时,应借鉴金融等行业的风险管理方法,从制度和技术层面强化隐私保护和风险预警,完善问责制度,促进我国生物样本库大数据伦理管理的健康发展。