(公安部物证鉴定中心 现场物证溯源技术国家工程实验室 法医遗传学公安部重点实验室 北京市现场物证检验工程技术研究中心,北京100038)
法医表型特征分子刻画技术也称分子画像技术,指通过生物物证中的遗传信息,基于特定人群数据库和算法模型刻画物证供者的族群地域、家族系谱、体貌特征等表型,作为“生物证人”为案件侦查提供线索。该技术作为现有短串联重复(short tandem repeat,STR)序列个体识别技术的补充,使法医物证鉴定对于公安实战的作用不再局限在比对识别,而是拓展至提供各种表型信息、家族信息等,划定侦查范围,指导侦查方向,为案件侦查尤其是冷案、积案等疑难案件侦查提供新的线索。该技术体系高度依赖人群遗传资源。国际人类基因组单体型图计划(International HapMap Project)[1-2]、千人基因组计划(1000 Genomes Project)[3]等显著推动了族群地域推断研究,英国生物样本库(UK Biobank)[4]、英国双胞胎项目(TwinsUK)等队列[5],以及美国 23andMe、Ancestry等基因检测公司[6]的数据,显著推动了欧美人群的身高、面貌等特征研究。我国拥有丰富的遗传资源,近年来也开展了针对中国人群的特征刻画研究。
欧美等国先后投入几亿到几百亿美元建立大型人群队列,主要呈现如下特点:一是生物样本库的标准化、大型化、全面化;二是国家间及国家内部研究机构对生物样本库的共建和共享呈现网络化、联盟化趋势[7]。美国先后组织和参与了一系列大型基于人群的基因组学研究。1990年启动的人类基因组计划(Human Genome Project,HGP)开启了基因组时代序幕[1]。2002年,美国、加拿大、中国、日本、英国、尼日利亚等启动HapMap计划,形成了全球11个人群的1218份样本的全基因组遗传多态图谱[2]。2008年,美国、德国、中国、英国等发起的国际千人基因组计划(1000 Genomes Project)形成了全球26个人群的2 504份样本的基因组遗传多态性图谱[3]。斯坦福大学发起的人类基因组多样性计划(Human Genome Diversity Project,HGDP)收集了全球 52个人群的1043份样本和SNP分型[8]。耶鲁大学Kidd实验室构建了全球55个人群的2 000多份样本的永生细胞系。这些人群队列的全球覆盖率高,为族群地域研究提供了重要支撑。其中,千人基因组还常被用作基因填补(imputation)的参考数据,并广泛应用于各国人群基因频率分析、表型特征推断模型测试等研究工作中。
冰岛的deCODE Genetics与英国生物样本库(UK Biobank)是欧洲比较著名的生物样本库[4,9]。冰岛人具有高度的遗传同质性,是遗传学的理想研究对象,deCODE Genetics公司于1996年启动该项目,收集了14万冰岛人群的DNA样本和家族系谱数据[9]。UK Biobank于2007年建成,收集了约50万份英国人群样本(40~69岁)[4]。加拿大Saguenay Youth Study研究团队收集了生活在魁北克的法裔加拿大青少年和父母样本、MRI扫描等体检数据[7]。这些样本库存在较多亲缘关系,除了疾病研究外,也适用于亲缘及系谱方面的研究。
少数人群队列在建设时采集了志愿者的外观表型信息,为脸部形态等体貌特征遗传研究提供了宝贵的数据资源。英国1993年启动的TwinsUK是英国最大的成年双胞胎研究队列[5]。澳大利亚QIMR Berghofer Institute of Medical Research组织的两个双胞胎队列研究,主要收集青少年[10]和成年双胞胎的样本[11-12]。这两个双胞胎人群队列都包含脸部图像。荷兰鹿特丹的Rotterdam Study(RS)是持续进行的北欧和西欧人群队列研究,包括RS-Ⅰ、RS-Ⅱ、RS-Ⅲ,总共为15000名参与者,部分人群进行了头面部磁共振成像(magnetic resonance imaging,MRI)三维扫描[13-15]。这些数据被用于脸部特征的分子刻画研究中。人类性状遗传研究(Genetic Investigation of Anthropometric Traits,GIANT)是由全球300多家机构组成的大型全基因组关联分析(genome-wide association study,GWAS)联盟,目标是通过多人群数据汇集挖掘身高和肥胖等人体测量学性状相关遗传位点[16-17]。目前,国际上认可度最高的身高相关遗传位点研究成果就是基于GIANT数据开展的。
数据库量级的上升无疑会对表型特征分子刻画研究带来极大的助力。美国加州自2007年开始的基因、环境和健康研究项目(Research Program on Genes,Environment,and Health,RPGEH)[18]已经收集了20万人的生物样本和健康情况等信息,研究环境和遗传因素对常见病的影响。2015年初,美国宣布启动精准医学计划(Precision Medicine Initiative,PMI),2016年启动All of Us,将创建100万志愿者的人群队列支持精准医学研究。英国政府于2012年发起“10万基因组计划”,历时5年完成,对英国国民医疗保健服务体系(National Health Service,NHS)中的10万名患者的完整基因组进行测序。2018年5月,英国宣布将在未来5年开展500万人基因组计划。法国于2016年宣布开启France Génomique项目。澳大利亚于2016年启动基因组学健康未来计划(Genomics Health Futures Mission,GHFM)。德国、加拿大、以色列、韩国、日本等国也纷纷宣布开展大型人群基因组测序计划。
我国拥有丰富的遗传资源,生物样本库建设起步并不晚,但是缺乏包含外观表型信息的国家级可共享的人群队列样本库,因此在表型特征分子刻画研究方面仍处于初始阶段。中国医学科学院于1994年建立了中华民族永生细胞库,包括47个民族70个群体的3 982株永生细胞库和7 210份DNA标本[19]。中国慢性病前瞻性研究项目(China Kadoorie Biobank,简称CKB项目)是中国医学科学院与英国牛津大学于2004年联合启动的国际合作研究项目,在中国10个省(地区)开展,涉及51万余人,持续时间15~20年[20]。2007年,复旦大学与泰州医药高新产业园启动泰州市人群健康跟踪研究项目,采集了志愿者的人体测量学数据和脸部图像数据,规模约20万例[21]。基于泰州人群队列,我国的表型特征遗传研究取得了初步的进展。中国科学院北京基因组研究所的精准基因组医学重点实验室于2016年宣布在未来4年完成4000名志愿者DNA样本和多种表型数据的采集,并对其中2000名进行深入的精准医学研究。
在遗传资源整合方面,中国人类遗传资源平台(National Infrastructure of Chinese Genetic Resources,NICGR)是国家自然资源科技共享平台的一部分,于2003年7月由中华人民共和国科学技术部牵头启动,2007年9月网络发布[22]。“十三五规划”期间,国家卫生计生委科学技术研究所在中国人类遗传资源平台的基础上成立了国家人类遗传资源共享服务平台[23]。2011年1月,国家发展改革委员会批复依托深圳华大基因研究院组建深圳国家基因库(China National Gene Bank),采用基因信息数据库和生物样本库相结合的建设模式,主要存储管理我国特有遗传资源、生物信息和基因数据。2015年3月,中华人民共和国科学技术部召开首次精准医学战略专家会议[24],提出中国精准医疗计划,拟在2030年前投入600亿元资金支持精准医疗行业的发展。同年10月,精准医疗被列入我国“十三五规划”重点发展项目中。2015年至今,中华人民共和国科学技术部启动了一系列疾病、自然人群、体质人类学等人群队列构建相关的研究项目。随着资源整合工作的推动,我国有望在将来形成综合的人群队列数据库,快速推动表型特征分子刻画研究的进展。
各种人群队列积累了丰富的数据资源,使得全面挖掘基因组中的遗传信息成为可能,族群地域、系谱、年龄、面貌、身高、色素等表型特征研究进展显著,具体如下。
检测人群之间具有遗传分布差异的位点可以判断DNA供者的族群地域,这种位点被称为祖先信息位点(ancestry informative marker,AIM)。STR[25]、单核苷酸多态性(single nucleotide polymorphism,SNP)[26]、插入/缺失突变(insertion/delete mutation)[27]、微单倍型(microhaplotype)[28]等均可作为AIM。族群推断位点数目并非越多越好,遗传距离不同的族群,位点筛选标准和参考数据集不同。近10年来,族群地域推断技术已经从对洲际间人群进行区分,发展到对同一国家内部的人群进行区域性刻画。区域群体之间的遗传差异高于区域内人群之间的遗传差异,在该领域的研究早期,检测少量的AIM即可实现五大洲际人群(非洲、欧洲、东亚、太平洋和美洲印第安人群)的推断,例如,34-SNP[29]、46-Indel[30]、27-SNP[31]等。洲际人群内部结构的进一步区分则需使用更多的AIM,如2014年发表的55-SNP进一步实现了全球8个区域人群的区分(撒哈拉以南非、北非、西南亚、欧洲、南亚、东亚、大洋洲、美洲印第安人群)[32]。公安部物证鉴定中心在2018年对东亚人群研究形成了74-SNP东亚南北方人群区分体系[33],以及适合高原人群区分的高原适应单倍型检测体系[34]。
法医系谱推断也称为长距离家族关系搜索(longrange familial search),是基于全基因组SNP数据和共祖片段分析(identity by descent,IBD)等技术,分析和搜索某个体的父系、母系的1~9级亲缘关系。2018年,美国警方利用该技术在社会数据库GEDmatch中锁定嫌疑人的第三代堂(表)兄妹(third cousin),破获了40年前轰动全美的“金州杀手”案,该技术被《科学》杂志评选为2018年十大科学突破之一[35-36],迅速受到各国法医学领域的关注。基于美国近200年的人口增长速率预测,如果能建立300万的欧裔美国人群库(2%的人口比例),即可找到几乎99%的欧裔美国人至少一个三代表亲[35]。由于该技术搜索的家族范围更广,可迅速成为冷案、积案等疑难案件侦破的技术手段。
法医学推断个体年龄主要基于骨骼、牙齿等骨性测量指征,但该法不适于斑迹类或骨骼毁损的现场生物检材。DNA甲基化是一种表观遗传修饰标记,在机体的生长、发育和衰老过程中呈现动态变化,甲基化水平与年龄呈现相关性,成为目前较为常用的年龄预测分子标志物[37-38]。伴随全基因组甲基化芯片等技术的出现,大量年龄相关的甲基化位点被发掘。由于DNA甲基化具有组织特异性和人群特异性,目前研究[39-43]报道了针对血液、血斑、唾液、精液等组织类型推断以及针对族群地域推断的甲基化位点组合。检测平台包括焦磷酸测序、飞行时间质谱、下一代测序等,推断算法包括多元线性回归[41]、支持向量机[44]、人工神经网络[45]等。未来需从检测灵敏度、多组织适用性等角度开展深入研究。
脸部特征刻画相关研究主要包括三维脸部图像的数字化[46],脸部特征点间距[47-48]、角度、主成分变量[49-50]等特征关联遗传位点的挖掘,三维脸部特征刻画模型的建立[51-52]等。该研究需采集脸面部的二维、三维照片或者三维MRI图像。2012年,荷兰Kayser实验室基于鹿特丹人群的万余名欧洲人样本,发现了PAX3、PRDM16、TP63、C5orf50和COL17A1等脸面部形态特征相关基因[47]。同年,美国Evans实验室基于雅芳父母和子女的纵向研究(Avon Longitudinal Study of Parents and Children,ALSPAC)[53]的万余份欧洲人样本,发现PAX3基因的rs7559271与鼻根位置、鼻根点到内眦的距离相关[54]。近两年,美国的Shriver实验室与23andMe[6]等公司合作建立了万余例美国黑人和欧洲人群的脸部表型人脸样本库,基于三维高密度数据点整体特征分析方法建立了三维人脸预测模型脸部特征刻画研究体系[50-51],从方法学和相关基因位点挖掘数量等多个方面取得了突破。国内的唐鲲实验室基于泰州市人群健康跟踪研究项目等人群样本,研究发现与我国欧亚混合人群面部特征相关的400多个SNP位点,并建立了三维脸部特征分子刻画模型[52]。
身高、肥胖、脸部特征等表型是多基因遗传性状,且受到环境因素的影响,但色素有明显的主效基因。例如,HERC2和OCA2基因对眼睛颜色的贡献度很大,HERC2-rs12913832位点的GG等位基因与蓝色眼睛紧密关联[55],所以色素相关的遗传及刻画研究相对成熟。荷兰Kayser实验室基于荷兰鹿特丹等多个人群的表型及遗传数据,先后研发了IrisPlex(6-SNP)[55]、HIrisPlex(24-SNP)[56]和 HIrisPlex-S(41-SNP)[57]3 种CE平台检测体系和算法模型。其中,2018年建成的HIrisPlex-S在HIrisPlex的基础上,通过全球人群队列研究,添加了17个肤色相关位点,形成了可进行3种眼睛颜色(蓝色、棕色、中间色)、4种头发颜色(金黄色、红色、棕色、黑色)和5种皮肤颜色(很白、白色、中间色、浅黑色、黑色)推断的综合色素特征刻画体系,并经过了多家实验室的验证。
此外,在身高研究方面,GIANT计划的开展显著推动了欧洲人群身高、肥胖等研究的进展,先后发现了54、180和697个身高相关SNP位点,分别解释4%~6%、10%和20%的身高变量[58],但目前对身高进行较为准确的分子刻画仍然是一个没有解决的难题。在毛发形态、耳朵形态、眉毛深浅等表型特征方面也有相关研究成果涌现,但都尚未形成类似色素表型可以初步进行法医学应用的体系或模型。
消费级(direct-to-consumer,DTC)基因检测行业主要进行祖先来源、健康风险评估、营养代谢、遗传疾病等基因分析。美国早在10年前已出现,个人用户已超千万,如23andMe(500万数据)、Ancestry(900万数据)、GEDmatch(100万数据)、DNA.Land、Human Longevity、Helix等。中国于2013年开始出现,如微基因(30万数据)、23魔方(30万数据)、水母基因、各色DNA等。虽然这类公司大多是带有娱乐性质的商业化运转,但是汇集了大量人群样本和检测数据,为法医学应用带来契机。例如,美国Parabon Nanolab公司通过分子画像、系谱推断等业务为案件侦破提供技术服务;美国“金州杀手”案件的侦破就是基于GEDmatch[35-36];FamilyTreeDNA于2019年2月1日宣布与FBI合作,允许执法机构访问其DNA数据库,协助案件侦查。
法医表型特征分子刻画技术是数据驱动型的新型研究领域,需解决的核心问题是如何从生物物证中挖掘各类遗传信息和如何基于这些遗传信息刻画、重建物证供者的表型特征。目前,该技术已初步形成理论框架,未来将会联用多遗传标记、多计算手段和多检测平台,向着精细刻画发展和完善。同时,法医检材的适用性研究必不可少,案例应用是新技术是否具备生命力的检验标准。此外,该方向的研究和应用依赖特定的人群样本和数据,如何与社会上的公共人群资源库衔接,如何制定技术应用、隐私保护等相关的标准规范也是研究重心之一。总之,各类公共资源库、测序、大数据等新技术为法医DNA领域带来了前所未有的发展契机,未来现场生物物证的精细刻画结果将作为“生物证人”服务案件侦查等公共安全工作。