(河北医科大学法医学院 河北省法医学重点实验室,河北 石家庄 050017)
近30年来,法医检案多采用短串联重复(short tandem repeats,STR)序列复合扩增联合毛细管电泳分析技术,解决了大量法医物证案件,是法医物证学检验的主要手段。自20世纪90年代起,各国陆续建立法庭科学DNA数据库,在犯罪侦查中发挥了重要作用,成为犯罪侦查的重要工具,但当犯罪现场生物物证的DNA图谱与DNA数据库中数据无法比中时,犯罪调查可能会陷入停顿,甚至形成悬案、积案。法医DNA表型(forensic DNA phenotyping,FDP)研究在此背景下应运而生,试图应用DNA检验技术刻画生物样本来源人的表型特征,为侦查提供更多有价值的信息[1]。
FDP的研究基础是根据犯罪现场遗留的DNA信息建立计算模型来预测犯罪嫌疑人的特征表型[2]。这些特征表型包括族群地域来源、身高、体质量、肤色、毛发颜色与形态、虹膜颜色、男性秃发、面貌和年龄等,他们与遗传高度相关,并具有高度的保守性,但只有少数特征表型由单基因决定,绝大多数为多基因控制的复杂遗传性状。FDP研究多采用全基因组关联分析(genome-wide association study,GWAS)等方法对单核苷酸多态性(single nucleotide polymorphism,SNP)进行检测分析,筛选出与特征表型相关的SNP,建立相应的计算模型对特征表型进行预测。较早的FDP研究始于种族特征、色素相关表型特征,如虹膜颜色、毛发颜色和肤色等。相对于色素特征表型,面部形态特征要复杂得多,研究也相对滞后。为了精准刻画人脸面部图像,首先要解决哪些基因与面部形态的形成相关,其次是如何将面部特征转化为可识别比较的数字形式,最终将面部相关基因与特征相关联并建立预测模型。本文主要从这三个方面对近年来面部形态的刻画和法医学研究进展进行综述。
面部形态研究面临的首要问题是如何获取面部形态并将其量化。按照获取面部形态形成的维度可以分为2D和3D两种方法。目前,用于捕获人体面部形态特征的方法有很多,如摄影、激光、摄影测量、磁共振成像(magnetic resonance imaging,MRI)、计算机断层扫描(computed tomography,CT)和锥束计算机断层扫描(cone beam computer tomography,CBCT)。其中许多技术已经在面部覆盖、捕获速度、处理时间、准确性、有效性和成本方面得到了评估[3-6]。
人体面部形态表征包括整个面部和局部表征两部分。局部表征包括头部大小、脸部的长短或宽窄、唇部形态和下巴的突出与否等尺寸及形状以及一些影响面部特征的微小细节,如鼻根点与内眦间的距离、鼻梁的高度等。为了获得量化的面部表征,研究人员从照片或者X线片上选择一些面部标志点(或称地标点)将其量化。早期一般选取面部的主要标志点,如鼻根点、内外眦等,然后通过复杂算法得到量化的欧几里得距离、角度和比例[7]。通过对一个或多个面部地标点分析得到有关面部形态特征的主要成分、测量距离、测量阵列和面部形态特征,都可以帮助区分面部形态特征[8-9]。CLAES等[10]提出了人体测量面貌联合稳健叠积单元的方法,该方法可以凭借5个界标粗略地定位人体面貌,允许其有一定灵活范围地映射到模板上,该模板可变化产生近10000个类似的界标。该方法能够有效减少手动操作的误差,并大大节省了时间。多种面部形态采集技术已被用于不同的研究,ADHIKARI等[11]使用依次定量测量的方法,发现鼻翼中点与下唇间的距离有着良好的线性关系(r=0.7),但是鼻唇角度相关性(r=0.16)较差。
面部特征提取方法还包括主成分分析(principal component analysis,PCA),该方法将经典的特征提取和数据表示技术用于模型识别和计算机可视化领域。传统的PCA提取图像特征时必须将2D人脸图像转换为1D图像向量,但准确性相对较低[12]。YANG等[13]提出的2D主成分分析法直接使用原始图像矩阵构造图像的协方差矩阵,能够在保留2D图像矩阵结构的同时提取出目标的散射信息。唐鲲实验室则提出了一种针对3D人脸图像的全自动非刚性配准的测绘方法[14]。首先应用3D-2D数据转换技术将3D图像转换为2D,再采用PCA将每张脸上选取的17个含有形状和纹理信息地标点自动标记出。然后,使用高效薄板样条函数(thin-plate spline,TPS)在预定义的地标点引导下建立面部图像与解剖学结构之间紧密的对应关系。在地标点的识别上该方法有很高的精准性,平均均方根误差约1.7mm。为了获得更准确的面部特征测量方法,Shriver实验室介绍了一种称为“基于自举响应的归算建模”(bootstrapped response-based imputation modeling,BRIM)的新方法,该方法能够将所有主成分转变为可依据包括性别、基因组祖先信息、基因等相关独立变量进行定制的单一标量变量[15],将密集的地标点映射到3D图像上,结合PCA以及一种新的偏最小二乘法对面部性状的差异进行测量和建模。
面部形态采集方法的精确性直接影响刻画面貌与真实面貌的相似程度,上述方法将人脸面貌的一些微小特征点成功捕获,进一步减小了预测脸与真实脸的差距,为后续面部预测精准模型的建立提供了基础。
面部形态是高度遗传的,但目前尚不清楚哪些遗传变异影响健康人群的正常面部变异。面部形态指的是一系列不同的复杂特征,包括面部整体形态和局部形态。这些局部特征主要包括眼睛、鼻子、嘴巴和下巴等,涵盖了人脸的主要组成部分[16]。每个特征都受遗传和环境因素的影响。TOMA等[17]研究发现,46%的面部差异是由面部高度(28.8%)、眼睛宽度(10.4%)和鼻子突出(6.7%)的变异引起的。
早期研究面部形态相关基因多基于已知涉及面部发育或者影响面部性状的遗传综合征,如唐氏综合征、唇腭裂和天使综合征等均可出现面部异常,且与他们相关的遗传基因与正常面部发育间的关系已有研究[18-19]。BOEHRINGER等[18]研究发现,导致唇腭裂的基因GREM1和CCDC26附近的两个SNP与正常面部鼻子宽度和两颧间距离具有一定的相关性,P值分别为6×10-4和0.017。多项研究均已确定PAX3基因与鼻根区域的形状有关[20-22]。LIU等[21]采用GWAS筛选出影响欧洲人群面部形态特征的5个候选基因:PRDM16(位于内含子区的多个SNP与鼻宽、鼻高有关,如rs4648379)、PAX3(与rs7559271位于同一个连锁不平衡群的rs16863422、rs12694574和rs974448,与眼球与鼻根点的距离有关)、TP63(位于内含子区的rs17447439与眼球之间的距离有关)、C5orf50(rs6555969与鼻根点位置有关)和COL17A1(rs805722与眼球鼻根点间距离有关)。WU等[23]利用CRISPR/cas9靶向突变实验证明两个SNP影响了与毛发生长有关的SOX2和FOXD1基因的转录活性,从而影响人面部眉毛浓密程度。
CLAES等[20]提出了一种面部表型的数据驱动方法,该方法利用3D面部图像中包含的可信和综合信息,允许在多个组织层面(从整体到局部)识别面部形状的遗传效应。接着与之前发表的人类面部GWAS进行集成,获得了一些面部形态发育的基因位点。这些基因优先在人类颅神经脊细胞中被标记。人类颅神经脊细胞是一种胚胎细胞,与大多数的面部结构发育有关。他们发现18个染色体区域位居前列的SNP具有全基因组显著性差异,如位于KCTD15基因内的SNP位点rs287104与鼻尖突出、鼻翼上方局部凹处有关。编码一种含有许多钙黏蛋白结构域的大蛋白,可能在细胞粘连中起作用的基因DCHS2中的SNP位点rs9995821参与鼻孔孔径特征表型。表1列举了上述研究中面部特征的相关基因。
表1 部分面部形态特征及其相关基因的变异位点
人脸面部形态特征是一个多基因决定的复杂性状,而对于复杂性状,能确定的遗传效应其实很小,且大量的DNA变异可能参与了面部形态的确定。以鼻子的形态特征为例,决定鼻尖突出的基因有很多,如ZF219[22]、CHD8[22]、PRDM16[22]、SOX9[24]、BC039327/CASC17[20]、DCHS2[11],基因间相互作用共同决定鼻尖突出性状,但是每个基因对性状的表现又存在细微差别。ZF219、CHD8基因与伴有畸形巨头及明显面部特征(如宽鼻子)的自闭症疾病相关,但该基因的SNP位点rs21365801参与左侧鼻翼和鼻尖的性状。SOX9基因在软骨细胞分化中发挥作用,与类固醇生成因子1一起调节抗米勒管激素(anti-Müllerian hormone,AMH)的转录,该基因内的SNP位点rs2193054参与鼻唇角和鼻尖突出的形成[24]。其他面部特征,如眼睛的形状、宽度和深度,面部整体的宽度和深度,嘴巴,下巴突出和前额等,都是由多基因决定的[25],每个基因在一个或多个性状中起微效作用,然后多基因共同作用形成一个整体的面部形态特征。
目前,面部形态相关基因的研究对象多为欧洲人群,对于亚洲人群,LI等[26]选取了属于欧亚混合人种的612名新疆地区无关个体,对17个地标点进行分析,每对地标点间推导量化出136个欧几里得距离。采用线性回归方法对125个与面部形态特征相关的SNP和136个面部形态表型进行遗传关联分析。经多重检验校正后,来自不同基因的8个SNP与一个或多个面部形态特征具有显著相关性,分析发现,这些SNP的等位基因频率在欧洲和东亚人群间有明显的不同,表明这8个基因的细节差异影响了欧亚人种的面部形态特征的变化。
尽管越来越多的与面部发生发育相关的基因被研究确认,更多的SNP被应用于面部特征的预测,这为更精准建立面部预测模型带来了可能性,但是这些仅是面部遗传性状的一小部分,仍需要对其相关基因(包括DNA甲基化相关基因)和遗传机制进行深入研究。
早期人脸预测模型的建立是为了辅助临床用于遗传综合征的诊断。许多综合征具有可识别的面部特征,但如何对具有面部表型特征的遗传综合征快速进行脸部识别是临床医生面临的一个难题。2006年,HINTON等[27]首次提出深度学习的概念,其源于人工神经网络的研究。此外,LECUN等[28]提出的卷积神经网络是第一个真正多层结构学习算法,利用空间相对关系减少参数数目以提高训练性能。基于以上基础,新的人脸畸形分析技术Face2Gene将人脸识别软件与生物知识相结合,实现了对人脸畸形特征的检测,以及从二维人脸照片中识别人脸畸形的模型。未加修饰标记的人脸(labeled faces in the wild,LFW)是一个为研究人脸识别问题建立的人脸照片数据库。DeepFace选取多个特征点检测人脸,利用LFW训练深度卷积神经网络(deep convolutional neural network,DCNN)模型达到人脸识别目的,在LFW数据集上该模型取得了97%的准确率[29]。2019年,GUROVICH等[16]研发的DeepGestalt利用深度学习算法和计算机可视化,构建了基于计算机分级器的综合征特异的面部分析技术对综合征的形态进行识别。该技术将患者的面部图片转化为去识别数学上的面部描述符,将其与面部图片比较量化后得到一个具有相似形态的人工智能的综合征的优先级列表,最终DeepGestalt达到区分综合征的目的,甚至可以识别努南综合征的基因亚型。
TURK等[30]选用人脸的地标标记用于对齐人脸图像,并计算地标距离(如左右眼内边缘距离及鼻子宽度)。采用3dMDtrio系统采集面部图像,在每张3D图像上选取了36个面部标志点,应用3dMDvultusTM软件进行测量。为了通过基因组信息对人脸结构进行有效预测,选用主成分分析法降低维度,用低维度的数值代表人脸,该方法能够充分代表个体内的差异,并能够重建预测模型。
为了更准确地对人体面部特征进行预测,唐鲲实验室[14]和Shriver实验室[15]将临床基于3dMD系统建立预测模型的方法进行拓展应用到法医学领域。2013年,唐鲲实验室针对3D人脸面部图像建立了一种全自动非刚性配准测绘方法[14],利用该方法分析了1 001个中国江苏汉族人群的4个基因ENPP1、GHR、FGFR和IRF6内的10个SNP,构建了汉族女性嘴唇变化模型[31]。2014年,该实验室又通过对欧洲、中国汉族面部特征的差异分析,对具有典型欧亚混合人群特征的维吾尔族进行GWAS数据分析,筛选出与维吾尔族面部特征相关的SNP位点,并建立了3D面部预测模型[32]。Shriver实验室则对592名非洲-欧洲混合个体分析,筛选出24个SNP位点,利用偏最小二乘法回归来估算24个SNP对面部特征变化的影响,最后联合性别、种族和面部相关SNP位点对面部特征进行综合预测建模[15,33]。
DNA人脸识别方法多是通过DNA预测面貌形态特征,然后与人脸图像进行匹配,该方法受到DNA面貌表型分析准确性的限制。SERO等[34]提出了一种新的DNA人脸识别的方法——多重face-to-DNA分类器。首先按照DNA编码或者推测将人脸分为性别、基因组信息、个体基因位点信息、BMI和年龄5个分析特征,然后每个face-to-DNA分类器都会将人脸表型数据库中的人脸与单个探针DNA分子进行分子特征匹配,获得每一个分子特征的匹配分数,最后将5个分子特征的匹配分数融合为一个总分数,这个分数反映人脸与探针DNA的整体匹配程度,以此用已知身份的人脸验证或者排除DNA图谱。该方法建立了一种通过DNA信息识别人脸,而不是用DNA预测未知人脸面貌特征的方法。
总部位于美国弗吉尼亚州莱斯顿的Parabon公司成功将FDP技术应用到法医学实际检案中,该公司提供的Parabon®SnaPshot®为快速解决法医疑难案件提供了多种工具,包括DNA表型分析、遗传谱系分析、亲缘关系分析等。美国司法机构利用该项技术已经解决了多起旧案、疑难案件。如1986年3月26日,在华盛顿州塔科马市年仅12岁的女孩Michella Welch遭到殴打和性侵犯并被残忍杀害。由于没有目击证人且现场发现的嫌疑人DNA与国家重刑犯DNA数据没有获得匹配结果,使得案件的侦查一度陷入困境。调查人员应用SNaPshot方法对嫌疑人的身体特征和遗传谱系进行分析。推测杀害Michella Welch的嫌疑人很可能拥有白皙的皮肤、棕色的眼睛和棕色的头发,主要是北欧血统并且可能有少许(约9%)北印第安人血统。2018年,经过一系列的遗传谱系分析,调查人员最终锁定嫌疑人Gary Hartman和他的兄弟。他们将Gary Hartman遗留在餐巾纸上的DNA与案发现场DNA进行比对后结果一致,30多年后最终成功抓获杀害Michella Welch的嫌疑人Gary Hartman[35]。国内公安部物证鉴定中心的李彩霞团队也开展了人脸面貌刻画技术研究,基于唐鲲实验室的预测模型和筛选出的350个SNP位点,对18名维吾尔族男性和6名汉族男性进行人脸相貌刻画,利用角度相似性和距离相似性来评估遗传预测脸的预测效力,成功通过DNA分型数据获得了样本供者的遗传预测脸,且识别准确率优于随机预测脸的准确率[36]。
2011年,侦查人员开始应用DNA进行遗传分析来预测犯罪嫌疑人面貌特征,涉及的伦理问题也首次引起关注[37]。KAYSER[38]认为,FDP分析的特征表型属于人体可见表征,这些表征在日常生活交流中能够轻易获得,而且个人身份证、驾照等也存有个体的面貌特征,因此,FDP并不涉及隐私问题的知情权。但是TOOM等[1]认为,KAYSER只考虑了FDP涉及的可见外部特征是否为敏感信息,而忽略了这些可见外部特征存储方式为数字形式,可能有丢失的风险,并被用于其他目的,而面临个人信息安全受到侵害的风险。TOOM等[1]还认为,FDP分析的某些表型特征在人群间具有共享但可变的特点,如生物地理祖先信息。当现场检材经FDP分析后会出现将一类人归为“可疑人群”,调查人员为了排查嫌疑人需要进行大规模的人群筛查。其中会涉及两个伦理和法律问题:一是被筛查个体是否真正的自愿参与筛查;二是参与筛查的目的为自证清白,这就有悖于无罪推定的法律学说[1]。
FDP选用的一些检测位点与疾病相关,这又涉及另一个伦理学问题,是否会造成病人歧视。针对该问题荷兰和美国分别进行立法修改:2003年,荷兰法医DNA立法进行修改,允许将可见外观特征用于法医学检测,但是禁止使用疾病相关的外观特征;美国得克萨斯州的法医DNA立法则含蓄表明允许使用FDP,即使是针对疾病的位点[39]。事实上,单基因遗传疾病的研究比较完整,可以用于可见表型的准确预测,但由于这些疾病绝大多数为罕见疾病,其对于法医学应用的价值有限。因此,实际上FDP涉及病人歧视的伦理道德问题其实影响很小。另外,从长远利益出发,通过预测表型特征抓获凶手阻止其继续犯罪,某种程度上可以忽略预测表型带来的伦理道德的关注[1]。
随着科学技术发展,面部生物识别已经日益广泛地深入人们的日常生活,如应用“刷脸”技术进行电子支付、手机解锁、进出相关区域等,由此产生的人脸数据信息日益增多。随之可能会为法医FDP研究带来一些伦理风险,如采用互联网中人脸数据信息进行面部特征提取,或者预测脸与数据库中的人脸具有较高的相似度等,可能会侵犯公民相关权益。总之,在进行法医FDP研究中,需严格按照伦理要求与知情同意原则采集个人信息开展研究。
综上,目前人脸面貌刻画技术取得了长足的发展,但仍有许多未知需要探索:(1)大多面部形态受多基因控制,也有同一基因影响多个面部形态特征,但每个基因的贡献度大小尚不清楚;(2)目前研究发现的面部形态相关基因可能仅仅为其中的一小部分,仍有大量的相关基因未被发现;(3)目前虽已建立依据现场检材DNA进行面部特征预测的初步模型,但预测脸与真实脸之间还存在一定的差距,如何缩小二者的差距是未来需要重点解决的问题;(4)人脸识别技术有face-to-face、DNA-to-face及face-to-DNA三大类,如何将三者更好地结合用于法医遗传学人脸识别尚需进一步深入探索;(5)面部形态相关基因的研究和人脸预测模型的建立大多基于欧洲人群数据,研究并建立适合东亚人群的数据库和预测模型也是我们需要解决的问题。对上述问题的深入研究将使人脸形态刻画更好地服务于法庭科学。