王 忠 钟 瑛
根据联合国教科文组织《国际人类基因数据宣言》,人类基因数据指的是通过核酸分析或其他科学分析手段获得的关于个人遗传特征的信息。它能够提供有关自然人的生理或健康的独特信息,相当于人的底层代码。21 世纪初,做单人的全基因组测序需要耗资100 万美元,而且只有个别机构有实力完成此项工作。现在单人的全基因组测序只需几百美元,大量的公司能提供此类服务。技术的进步和行业竞争的加剧使得基因测序价格不断下降,测序人次呈指数增长,基因大数据产业生态正在日益形成。人们憧憬基因大数据的光明未来,视其为新一轮科技革命的引擎之一。然而,我们也应看到基因大数据可能带来的巨大风险,并做好防范措施。
基因大数据在社会经济生活中已经有了很多应用,更有不计其数的应用处于探索之中。
1.刑侦。DNA 刑侦技术是一种通过对案件中与人体有关的血液、唾液、毛发、组织器官等生物检材进行基因检测,比对所选定的基因组上等位基因的差异,通过计算匹配概率、父权指数等,从而完成个体识别以及亲子鉴定的技术。该技术在过去数十年内迅速发展,从一开始仅能比对同一人DNA,到现在,依据亲属相似的DNA 就可以提供线索。近年来备受媒体关注的甘肃白银连环杀人案,就是借助基因大数据得以告破。美国著名的金州杀手案也是因此侦破。我国已经应用这一技术侦破了多起凶杀、强奸等恶性案件,也在破获拐卖儿童案件上利用该技术。
2.医学。基因数据最初的用途是 “医学及科学研究”,也就包括流行病学研究,特别是群体基因研究,以及人类学或考古学研究。目前越来越多地用于诊断和治疗,包括筛选和预测性测试采集、处理、使用和保存人类基因数据和人类蛋白质组数据。因此,一直以来,基因数据在临床和药物研发方面的价值都是极其显著的。
近年来,科学和医学发展已经证明基因及其变异表达(表观遗传学)和微生物组(肠道细菌)在保持健康中起着重要作用。对于患者而言,由于个人生理情况千差万别,标准的诊疗方案带来的效果也有所不同。新兴的精准医学科学可以基于患者基因数据来提供个性化医疗方案,通过全面的基因组筛查,将患者的电子健康记录、饮食信息、社会因素等与已测序的DNA 相结合,进而推荐量身定制的治疗方法以及个性化药物。尤其是对于当今视为绝症的一些疾病,例如艾滋病、癌症,个性化医疗会有突出效果。
不仅如此,测序的基因组将提供有关患者健康状况,其对某些药物的反应以及患某些疾病的概率等相关信息。甚至可以根据与疾病相关的基因,在尚未患病之时采取预防性治疗。例如好莱坞知名女星安吉丽娜·朱莉曾接受预防性的双侧乳腺切除手术,以降低罹癌风险。
在药物研发方面,利用全基因组关联分析、基因表达谱联系等一系列大数据分析方法,能挖掘药物的适应症。算法还可以结合其他药物来分析某些类型的药物对不同类型患者的影响。在此类模拟过程中,可以对某种药物进行较小的更改,并且可以对调整某种药物后会发生的情况进行情景分析。有了大数据和正确的算法,就有可能通过模拟而不是对实际患者进行研究来做到这一点,从而节省了宝贵的研发时间、研发费用,缩短新药上市时间。
鉴于基因大数据技术的飞速发展以及应用日益广泛,不少专家断言未来基因大数据有可能彻底改变医疗保健行业。
3.广泛的商业价值。基因数据的商业价值日益凸显,基因大数据产业欣欣向荣,出现了一大批独角兽企业,新创企业更是如雨后春笋。这些企业主要围绕基因数据进行挖掘,提供健康产品及服务。
首先,基因相关的产品服务需求旺盛。基于基因测序数据挖掘,已经出现了很多细分市场。目前发展较快的有:肿瘤方面的预测,基于基因数据预测患肿瘤的概率,并进行预防性治疗;儿童的发展潜能预测,根据基因数据预测儿童未来的兴趣爱好、特长及教育和职业发展规划;关于胎儿的预测和分析,分析胎儿的发育质量、各项生理机能检测等。
第二,基因相关的技术服务突飞猛进。基因测序产生的数据量大,更新频率高,下机数据需要经过分数据机之后,存储到数据空间中。分数据机、数据空间以及数据分析过程等都需要专业的技术服务。此外,基因数据分析对于计算能力要求很高,一些公司提供专门的云平台,以便于科研工作者进行基因数据分析。
第三,基因相关的医学及药物研究。某些基于基因测序的干细胞研究,以及相应的药物研发工作中,需要进行一系列的医学检测。在这些过程中,也都需要利用基因数据。
与高收益相伴的是高风险,基因大数据也不例外。基因数据能够预示个人的基因素质,而且这种预示能力可能大于在获取数据时的估计;它们可能对家庭及其后几代人,有时甚至对整个有关群体产生重大影响;它们可能包含在采集有关生物标本时不一定了解其意义的信息,而且它们可能对个人和群体具有文化方面的意义。所以,较之于其他个人数据,其隐私风险更大,不仅关系到数据主体,还关系到数据主体的家族、种族乃至国家安全。
1.数据主体的隐私风险。基因大数据不仅可以揭示个人当前健康状况的信息,还可以预测未来健康风险的信息。随着数据样本的增加,其预测能力将不断提高。这些信息对于患者和健康服务提供商价值巨大,有助于提供个性化治疗方案。然而,如果这些信息被不良商家掌握,并且与其他数据结合起来,可能进行精准营销、价格歧视,在就业、保险、教育等场景中造成广泛歧视。因此,遗传信息的隐私保护力度应该要超越普通个人数据。
另一方面,单人的全基因组测序数据量超过100GB,人工难以利用这一海量数据,唯有以机器学习算法为代表的大数据技术可以快速分析、预测患者基因组谱,以及得到最佳药物治疗方法。因此,人工智能是精准医学的重要技术支撑。由于人工智能的加入,隐私风险也从纯医疗环境蔓延到了人工智能数据采集、加工、分析、处理、应用的诸多环节。
目前,与乳腺癌、结肠癌、帕金森病和阿尔茨海默氏病风险增加有关的基因已被鉴定出来,并且对这些基因的检测越来越便宜和精确。一方面,这些信息可能对开发疫苗、免疫和治疗方法有用。另一方面,医疗机构、保健品企业、保险公司等可能对这类信息感兴趣。尽管在美国、欧盟等国家和地区明确限制保险公司收集和分析个人遗传信息,中国也出台了相关的规章制度,但这些信息仍然被大量收集,要杜绝其被使用并非易事。
2.复杂而广泛的外部性。个人基因数据能反映其家族乃至族群的重要信息。在基因数据获取及分析成本不断降低的背景下,应提高人们对其外部性的认知水平。
首先,个人与其直系亲属的基因数据高度近似,一旦泄露将波及直系亲属。可能因为本人的某个基因数据片段,使得直系亲属遭受价格或者其他歧视。前文所述金州杀手一案在道德和伦理上引发了广泛的争议,原因就在于警方破案的关键是利用了一个非营利的网站公开的基因数据,找到了真凶的亲属。这使得人们提高了对基因数据的隐私保护意识。
第二,个人与所在族群成员的基因数据也具有较高的相似度。族群特有的某些基因可能成为一种宝贵的资源,也可能成为一个被敌人攻击的致命靶子。例如目前发病率较高的非小细胞肺癌,全球有约17%的患者的驱动基因是EGFR 突变,然而在中国该比率超过30%。因此,有一类药物在欧美患者中效果不太好,在中国的疗效非常好。可想而知,针对该基因研发的药物在中国能获得丰厚的利润。如果是针对某基因而研发的武器,则可能使目标种群陷入危险境地。
3.可能引致基因歧视。歧视是导致社会割裂的重要因素。每个人的基因构成都有其特点。然而,一个人的特性却不应完全归结于其基因特性,因为个人特性还与教育、环境、情感、社会和文化的纽带关系息息相关。然而,遗憾的是,随着基因测序的普及,基因很可能成为新的歧视维度。
课题组的一项在线问卷调查显示,562 份有效问卷中48.4%的受访者对基因歧视表示担忧。受访者认为婚恋、就业和保险可能是基因歧视最频繁的领域。婚恋方面,人们在寻找人生伴侣或组建家庭之前可能会进行基因测序并计算其匹配度,就像古代的生辰八字匹配。就业方面,公司招聘可能会根据基因来筛选应聘者;更有受访者担心各类社会机构或组织可能根据基因来决定职务升迁。保险方面,保险公司可能根据基因数据决定是否承保或者一人一价收取保费。受访者列举了其他可能出现基因歧视的领域。教育中的基因歧视是人们关注较多的议题。无论是高等教育还是基础教育都存在较大的竞争压力,人们担忧在学校的招生录取方面,拥有某些基因的人群可能被剥夺受教育的机会,或者在教育竞争中受到不公平的待遇。医疗服务也是受访者关注度的议题。人们担心拥有某些基因的人群可能会被社会公共医疗体系排除在外,或者说被某些医院或医生拒诊。例如发现某类基因患者医治成功率低,为了不影响医生或者医院声誉,拒绝诊治。有人担忧生育方面可能滥用基因技术。有人担心某些基因携带者可能被剥夺生育权利,或者一些胚胎被人为干预进行基因编辑。也有人担忧富人在生育阶段就进行干预,孕育更加优秀的后代,赢在起跑线上,加大了社会贫富分化。有人担忧体育竞技中的基因歧视。有受访者提出,以后的各类体育竞技可能根据基因来选拔选手,不具备某些基因的人可能被剥夺了参与该项体育赛事的权利。
我国对于基因数据的监管起步较晚,以往都是任其自由流动。2019 年6 月国务院发布的 《中华人民共和国人类遗传资源管理条例》(以下简称 《条例》)禁止了遗传资源的流出。鉴于基因大数据的巨大价值,有些学者呼吁放松基因数据的监管,促进其流动,包括跨境流动。我们认为此观点值得商榷。任何技术都是 “双刃剑”,不能坐等问题出现再去解决问题,需要有一些前瞻性的防范机制。正如互联网技术出现之初受到广泛的赞誉并被给予厚望,后续也出现了网络犯罪、黑客、网络诈骗、不良信息传播等弊病。建议尽快建立制度防范基因大数据开发的潜在风险,促进产业生态的健康发展。
1.尽快制定基因数据商用安全规范。以往只有大型科研机构的实验室才能进行基因数据分析处理,相关的政策法规主要针对科学研究而设计。现在大量的企业也能开展此项工作,基于基因大数据的各类商业服务不断涌现,应予以规范。一是应明确商业组织基因大数据的信息安全保护等级要求。可以将基因大数据服务商纳入关键信息基础设施的管理范畴,防范信息安全事故发生。二是应明确基因大数据保存时限,并建立到期数据的销毁机制。三是规范数据交换与共享行为,建立登记或者备案机制,并对数据接收方进行资质审查,确保数据可溯源。四是加强市场监管。在市场中出现不少类似于 “计算机算命”的产品,可能存在诈骗或诱导消费的现象。
2.妥善制定基因数据应用领域黑名单制度。为防止基因数据被用于实施歧视行为,应设立黑名单制度,禁止某些领域应用基因数据。目前,我国保险领域已经被禁止使用基因数据进行差别定价,其他领域也应建立类似制度。例如,为了维护教育公平,教育领域应禁止使用基因数据;为了保障劳动权利,就业领域也要禁用基因数据;为了实现公平竞争,体育竞技方面也不应利用基因数据选拔选手。为了保障人类基因库的多样性,应规范在生育阶段的基因筛选行为,以免基因大数据的过度利用给人类带来毁灭性的灾难。
3.加强基因数据隐私及安全教育。基因技术发展突飞猛进,普通公众对基因数据价值认知难以跟上技术发展步伐,对自身数据被滥采滥用缺少警觉。一些人可能觉得测基因很新鲜,看到基因测验的广告就欣然接受,缺乏基因数据保护的意识。影响更大的是,作为健康数据的主要采集者,部分医疗机构的工作人员安全意识也比较薄弱。一方面,一些公司可能假借“科研合作” 之名获取医疗机构的数据资源。医疗机构与外部研究机构合作研发项目时,对项目中的数据安全防范措施不到位,导致合作方将数据导出,带离本地存储设备;另一方面,医疗机构通常将信息系统建设业务外包,可能忽视对后台运营的监督。有的数据公司通过正规渠道获得数据接口,但调用数据时可能形成“缓存库”,这些都可能造成数据脱离监控状态。应该针对公民及专业人员都加强基因数据的隐私及安全教育,提高其认识水平。
4.全面建立从业人员资格管理体系。涉及人类基因的行业从业人员对于消费者、行业乃至整个社会的伦理规范都能带来深远影响。为了提高从业人员素质,推动行业自律与诚信,维护消费者权益,促进基因大数据的健康发展,应将关键岗位的从业人员纳入统一的资格管理体系。该行业面临较高的伦理和法律风险,从业人员仅拥有专业知识和技能是远远不够的,还应全面掌握伦理学、法律学等相关知识。通过伦理和法律的学习和考核,从根本上促进从业人员遵守伦理和法律规范。