蔡 雷,李炜桓,师咏勇,朱丽萍,贺 林*
(1 上海市妇幼保健中心,上海 200062,lcai@sjtu.edu.cn; 2 上海交通大学Bio-X研究院,遗传发育与精神神经疾病教育部重点实验室,上海 200030)
顾名思义,大数据是指量上极其庞大的数据资料,一般具有“4V”特征:数据量大(volume)、种类多(variety)、流转快(velocity)、价值密度低(value)[1]。医学领域的大数据,即医学大数据。广义的医学大数据主要包括以下三种:第一,医院临床诊治、科研和管理过程产生的常规医疗数据,如体检报告等;第二,第三方检测机构提供的个人生物特征数据,如指纹和基因组信息等;第三,移动物联网所记录的个人体征和活动的量化数据,如个人行为习惯等[2]。而狭义的医学大数据通常指以基因组信息为主的生物特征数据,它不仅是一个个体的内在特征数据,还是一群人的内在特征数据。医学大数据不仅与每个人息息相关,且又广泛应用于临床疾病诊治、医学药物研究和政策制定管理等方面,因此具有非常高的学术、商业和社会价值。因此,如何安全合理地使用医学大数据显得尤为重要。2018年10月科技部首次公开了一批重大行政处罚决定[3],几家国内知名医院和公司因未经伦理审核便与国外机构合作开展中国人样本的基因测序研究而受到处罚。此事件引起了人们对人群遗传学合作研究及数据共享的担忧[4]。医学大数据的价值挖掘,依赖于数据共享,但又要确保数据使用的安全;数据共享强调数据的广泛使用,而数据安全强调对数据的保护,只有找到数据共享与安全的平衡点,才能充分发挥医学大数据的效益,促进科技发展和社会进步。为此本文对医学大数据使用的安全和伦理问题进行思考,探讨数据安全与共享的关系,寻找可能的解决方法,以实现数据使用效益最大化,推动医学大数据应用向更深更广处发展。
医学大数据的使用包括对数据的查询、管理、分析处理、提炼有价值的信息及进行决策等,是整个大数据流生命周期的重要环节,也是大数据核心价值得以体现的关键环节。从医学大数据使用的流程看,数据的使用涉及数据的查询、管理、分析及应用等环节,每个环节都面临一定的安全问题。
在数据查询环节,因数据存储在数据库中,多源非结构化和半结构化数据汇聚增加了数据访问查询管理的难度[5],而数据查询人员众多,背景复杂,会引起出现数据查询授权不足或授权过度的问题,这些表明数据信息存在着泄露的风险。另外,数据查询人员将获得数据与其他人共享,则存在数据被滥用的风险。因为数据共享使得数据的流动路径变得复杂,不再是组织内部单路径的简单流动,而是跨组织多路径的复杂流动模式[5],这意味着数据共享给特定对象后,该对象可能再把共享的数据开放给第三方。这种情况下,数据脱离了数据所有者的控制,而数据追踪溯源技术并不成熟,无法跟踪数据的最终去向以及使用情况,数据处于失控状态,加剧数据被滥用的风险。
在数据管理环节,数据安全管理人员的违规操作也是数据安全面临的威胁。根据Verizon发布的2018年数据泄露调查报告显示,医疗行业是唯一一个内部威胁高于外部威胁的行业[6],内部威胁是导致医疗领域数据泄露的主要原因。一是因为内部人员受经济利益驱使,利用职务之便,将患者的医疗信息及数据倒卖给第三方,造成大面积的隐私泄露。例如,成都市某社区卫生服务中心工作人员徐某,掌握成都市“妇幼信息某管理系统”市级权限账号密码,利用职务之便,累计非法下载新生婴儿数据50余万条,贩卖新生婴儿信息数万余条[7]。二是内部人员出于好奇或娱乐心理而窥探患者的隐私信息,不合规地使用数据。
在数据分析与应用环节,多源数据聚合分析可能带来隐私信息被重新识别的风险,加之数据源的可信性,给数据的分析应用带来安全隐患。由于医学大数据来源广,数据量大,种类繁多,目前并没有有效的机制对数据的真实性和完整性进行鉴别,这就导致可能有黑客通过网络攻击数据采集终端对数据有目的地进行篡改、删除,破坏数据的真实性、完整性,诱导数据分析得出错误的结论,实现操纵数据分析结果的目的,从而危害数据应用的安全。此外,由于数据不恰当分析造成的过度解读和解读不充分,从而提炼出错误的知识,出现政策制定的失策问题,如与疾病相关的遗传变异的数据信息,过度解读和解读不充分都会危及患者的生命安全[8]。
综上,医学大数据使用的安全问题可分为技术层面和管理层面的问题。在技术层面上存在数据加密保护和溯源等安全措施不完善而造成的数据信息泄露、丢失、破坏等问题,在管理层面上存在数据使用中相关法律、法规、监督、处罚等机制的缺失而带来的滥用风险[9]。在实际应用中,技术层面和管理层面的安全风险相互牵连,构成大数据应用过程中的安全问题。
医学大数据具有价值密度低的特征,但作为一种潜在的资源,数据共享使用可以最大限度地发挥其价值效益。但数据共享可能会带来一些个人隐私泄露和信息安全以及国家安全问题。比如遗传信息数据包含大量隐私、科研机密及潜在的用途,特别是族群或种群的基因数据,具有特殊性和敏感性,不正当的共享和使用会导致个人隐私或与国家安全有关的数据泄露。基因隐私信息泄露会给个人的生活、就业、保险等带来一系列问题,如因基因歧视导致被拒绝医疗保险。从国家层面看,遗传资源是国家的一种战略资源,如果泄露则会威胁到国家未来高新科技的发展,损害到国家的利益。此外,含有丰富种族遗传信息的数据一旦被极端分子获取,制造生物武器,其后果将不堪设想。此外,数据的不正当共享将会使个人隐私和与国家安全有关的数据暴露,使得原来认为无害的数据变得敏感[10]。基于医学大数据的分析无疑会产生更多的新知识和新理论,以指导人们远离疾病,然而有利和无伤的对象应该是谁,是每条数据的拥有者、还是大数据的提供者或使用者,甚至是大数据的决策者,这些都是要慎重考虑的。
知情同意是指主体在充分知晓自己个人信息被利用的范围、方式和后果后,自主做出如何处理个人信息的决定[8]。原则上,各机构在利用资料提供者的数据时,不论是基于尊重资料提供者的人格,还是基于保护其利益,都应该取得资料提供者的知情同意[11]。医学大数据的价值不仅来源于其基本用途,更来源于它的二次利用。但是在大数据时代,数据的收集之初并不能完全确定数据的所有用途,而尚未想到的数据用途无法告知个人,也就无法得到个人的同意,这些数据在后续的使用中可能会违反知情同意原则。在实践中,泛知情同意被很多医院、机构和生物样本库采纳,但宽泛也意味着可能对研究说明不够精确,让受试者产生误解。此外,部分医院和机构仅把知情同意书作为一种形式,并没有完全按照知情同意书的内容进行操作,同时也缺乏监管,知情同意书犹如一张“废纸”。例如,2003年美国哈瓦苏派部落的印第安人将一位遗传学家和她原来所在的大学告上法庭,因为他们怀疑这位遗传学家把他们的DNA样品用于他们不知道的领域,有可能对他们的名誉造成损害[12]。那么医学大数据在临床和科研使用中被多次利用,超出了原知情同意的范围时,应如何处理?有学者提出在泛知情同意的基础上结合动态知情同意的方法[8],就是每次把数据用于新研究之前会向受试者说明,并且申请获得受试者同意。这的确让数据使用变得更加透明,风险管理也得到了改善,但是告知受试者需要面临时间压力和成本压力两重困难,特别是数据个体数量巨大的时候,更是难以实现。
对于医学大数据的提供者来说,它们投入大量的时间、资源和精力去收集、整合,最后汇聚创建成可用数据。医学大数据的使用者要求完全公开共享大数据可能对大数据的提供者来说是不公正的。因此,目前作为医学大数据主要提供者的医院大部分将医学大数据进行公开共享的积极性是偏低的。此外,基于大数据的分析结果而进行决策时人们采用何种数据分析所得的结论作为依据同样面临着公正选择的问题。医学大数据的共享涉及多方的利益,只有公正处理各方利益,才能推进医学大数据的共享,充分挖掘大数据的价值。
探讨医学大数据使用安全和伦理问题的最终意义就是为了能发挥数据的潜在价值,实现数据使用效益最大化,从而更好地为医院的决策管理、医疗和科研服务。医学大数据共享有利于数据被充分利用,发挥其应有的价值,但数据的共享并不是无条件的,它是在基于数据安全的前提下进行的。数据共享并不排斥数据安全,而数据安全也不是拒绝共享的理由,一味地强调共享或数据安全,则会走向两个极端,阻碍科学的进步[10]。从伦理的角度看,医学大数据共享追求的是公共利益,是一种公共善,有其伦理基础,可以得到伦理辩护。
数据安全是数据共享的前提。数据安全贯彻数据使用的整个过程,抛开数据安全问题谈数据开放共享则无从谈起,但不共享的数据就像一座座信息“孤岛”,海量的数据不能及时被开发利用,真实价值难以体现,容易造成资源浪费。而无条件的数据共享则会导致信息泄露,个人隐私无法保障,造成社会恐慌,甚至危及国家安全,其风险远大于收益,得不偿失。基于数据安全的前提下,对医学大数据进行合规、有效地开放共享能加速研究结果转化为医学知识、医疗产品等成果,提高医学数据资源的利用率,预防可能的错误,减少参加人的负担,避免重复的科研投资。
没有数据安全就肯定没有隐私数据的保护,有数据安全也并非一定能实现隐私数据的保护[13]。医学大数据的共享使用还要面临个人隐私安全、知情同意等伦理问题。数据共享追求的是公共利益,是对每一个社会成员健康发展都具有普遍性的惠益,但数据共享使用必然带来个人隐私安全问题,这就导致了数据共享与个人隐私保护的冲突,也就是公共利益与个人利益的冲突。每一位数据主体都拥有个人隐私和知情同意等权利,并有权受到保护,但如果完全从个人利益出发,不愿意把数据拿出来共享,数据共享将难以实现。反之,完全从公共利益出发,不顾及个人利益,无视个体的数据权利,那最后实现的也只能是“伪公共利益”。因此需要处理好公共利益与个人利益的关系,也就是数据共享与个人隐私的关系,在数据开放共享中确保数据安全的同时还应注重个人隐私的保护。
医学大数据共享是未来医学发展的大趋势,虽然涉及一些伦理问题,但数据共享作为一种公共善,有其伦理基础,并且可以得到伦理辩护。共享伦理是医学大数据共享的伦理基础,共享伦理是以“共享”为核心价值取向的伦理思想、伦理精神、伦理原则和伦理行为统一而成的一个伦理价值体系[14]。共享伦理以“共享”为美德,追求最大的社会价值效益,使发展成果惠及所有社会成员。海量的医学数据作为一种社会资源,如果被孤立隔绝无法共享,资源就得不到合理配置,将发挥不了其价值。共享伦理反对社会资源浪费,要求医学大数据在数据安全的基础上最大限度地实现其社会价值。对于医学大数据共享使用面临的伦理问题,在伦理道德上也具有合理性,可以得到伦理辩护。从功利主义的视角看,功利主义强调利益最大化,把行为结果的好坏作为评判是否符合道德的标准[15]。显然,医学大数据共享能更大程度地发挥数据的社会价值,依据功利主义的观点是符合伦理道德的。从道义论的视角看,道义论认为判断一个行为是否得当[15],应该看其行为的动机是否符合道德规则的要求,若符合道德规则,则不管结果如何都应去做。医学大数据的共享是为提高医疗水平,促进医学科技的进步,服务全人类,因此符合道德规则。
总的来说,医学大数据价值效益最大化需要共享,数据安全是数据共享的前提,伦理问题强调在数据共享中确保数据安全的同时应注重个人隐私的保护,并且为数据共享提供理论支撑及伦理辩护,推动医学大数据的开放共享。
医学大数据要实现使用效益最大化需要围绕数据安全、数据共享、数据分析应用和伦理问题展开,在确保数据安全和伦理过关的前提下,推动数据共享,实现医学大数据的社会价值。
完善医学大数据建设、使用、管理和存储相关法律法规的建设,加强伦理审查,是实现医学大数据使用效益最大化的保障。政府应该完善机构的设置,建立专门的医学大数据信息管理部门,从事生物医学信息的数据收集、汇聚、分析和发布工作,严惩窃取、倒卖生物医学数据信息的犯罪人员,督导和引领国内生物医学信息的数据安全和隐私保护[16]。此外,需要加强伦理审查,作为数据的主体,必须保障好患者的健康和权益,以免在医学大数据使用中出现有违伦理的问题,从而带来负面的影响,阻碍医学大数据的共享和使用。在数据安全的基础上着重患者隐私信息的保护,未经数据所有者知情同意的数据不得滥用,落实数据安全负责主体,数据泄露时有紧急处理措施,完善和落实伦理的政策规范,这些将有利于数据有序共享以及医学大数据未来的发展。
我国很多大型医院都有自己独立的医学数据库,由于不同医院间采用的信息系统存在差异,没有统一的数据格式,给数据整合和共享带来了困难。因此,数据共享首先要建立互操作性[17],分别从技术互操作、语义互操作和过程互操作三个层面进行,其中技术互操作指消息能够完整地按正确格式交换;语义互操作指使用编码和标识,实现系统之间信息理解一致性的能力;过程互操作指不同业务流程协同工作的能力。由于彼此之间信任感难以建立阻碍了不同医院间数据共享的进行,因此需要建立一个彼此信任的共享环境,区块链为此提供了可能。区块链的作用是在一个不可信的环境中提供信任,建立一个可信、透明、可追溯的数据交换的业务协同体系,使得数据的使用权和所有权分离。2018年11月6日美国EncrypGen公司正式推出一款基因区块链交易平台[18],该平台支持用户搜索、存储、共享、购买并销售基因组数据。
从数据保护技术层面,结合大数据流及环境分析,确保数据安全,需要加强数据真实性分析技术、数据加密、数据匿名处理技术、数据溯源的研发应用,构建安全防护体系。数据的可信性是医学大数据使用面临的一个重要挑战,关系到数据分析及应用的安全。加强数据真实性分析技术的研发应用对海量数据进行快速、有效的评估,去伪存真,具有重要的意义。数据加密和数据匿名处理技术是对数据保护和个人隐私保护的有效手段,但这些技术可能会因为使用时间过长而被破解,因此需要加大研发投入,不断更新完善。在开放的环境下,数据溯源对数据审计追踪、管理、定位数据错误发生位置等具有重要的作用,也是大数据安全必不可少的技术。此外,需要建立数据库安全认证和评估体系,定期对各级数据库的安全性能进行评估[19],形成一套风险防控体系,用于数据安全信息预警。例如, IBM企业大数据安全情报提出的安全工具, 能够准确探测安全威胁源,在风险萌芽时将其遏制,防止更大的事故出现[20]。
医学大数据的应用涉及医学、计算机、法律和伦理学等多学科,需要运用多学科的知识去解决医学大数据的问题[9]。因此,需要注重医学、计算机、法律和伦理学多学科交叉人才的培养。一方面是因为医学大数据的真实价值就像海上的冰山,眼看到的只是冰山一角,而隐藏的巨大的价值需要专业的人才去分析、挖掘。经济学家Hal Varian[21]认为,数据收集的根本目的是通过整合、分析、提取有价值的知识,并将其应用到具体的领域中去。另一方面,医学大数据具有敏感性和特殊性,在数据使用过程如果相关人员伦理或法律方面知识出现缺失或盲区,可能会导致伦理甚至法律问题的出现,带来负面影响,不利于医学大数据的发展。因此,多学科背景的复合型人才是实现医学大数据使用效益最大化必不可少的条件之一。
随着我国医学事业的发展,医学大数据的共享是未来医学发展的大趋势,其使用过程面临的数据安全和伦理问题是社会关注的焦点[22]。基于数据安全和伦理规范的前提下,如何打通数据壁垒实现互联互通,推动医疗行业的大数据应用向更深更广处发展,是当前亟须解决的问题。本文通过研究得到以下几项结论,首先完善的法律法规为大数据整个生命周期的安全提供保障,同时伦理监督确保隐私信息安全和知情同意将有利于数据共享。其次,鉴于目前各大医院数据壁垒的现状,建立互操作性是数据开放共享的关键,区块链平台的快速发展也给数据互联互通提供了新方法。另外,大数据使用面临的技术安全问题,需要加强数据真实性分析技术、数据加密、数据匿名处理技术、数据溯源等技术的研发应用,建立好数据库安全风险防护体系,规避可能的风险。最后,在数据安全和伦理规范的环境下,医学大数据价值的实现,离不开专业人才,因而需要注重人才的培养。