刘萌妍,刘艳磊,吴平,陈庆,周世良
(1.北京市公安司法鉴定中心,北京 100192;2.中国科学院植物研究所 系统与进化植物学国家重点实验室,北京 100093)
无名尸体尸源信息的破解对于案件性质的判断有着至关重要的作用。确认尸源信息一直是刑侦领域的难点。常用的尸源查找手段主要为“内源性”信息技术手段,包括通过法医人类学判断死者体貌信息、颅像复原、Y系亲缘库比对等。随着流动性人口的增加,“内源性”信息技术手段已无法完全解决尸源查找这一难点。
孢粉学证据作为一种“外源性”信息能够反映一定的死者生活信息,但以往孢粉学证据基本采自无名尸体的附属物、体表、消化系统和上呼吸道[1]。本研究尝试通过提取死者肺组织中的植物遗传信息这一“外源性”信息,利用目前数据库信息较为丰富的植物通用matK和rbcL基因作为DNA条形码进行研究,根据植物所属地推断死者可能长期生活的地区,为案件调查提供一种新的技术手段,缩小侦查范围,提供有效侦查方向。
本研究样本来源于一具无身份信息的男性尸体。尸体在北方某地被发现时已呈腐败状态,肺组织呈中度腐败。切取双肺各叶边缘组织10块,每块质量约为1g。由于肺组织中花粉分布不均匀,为了降低取样偏差,本实验将10份样本进行混合后提取DNA。本研究相关实验样本及方法已通过北京伦理学会的审查。
1.2.1 DNA提取与叶绿体基因扩增
将获得的肺组织用液氮冷冻后磨碎,采用mCTAB法(改良CTAB法)提取总DNA[2]。利用Wizard® DNA Clean-Up System(美国Promega公司)对得到的DNA进行纯化,采用专一扩增植物叶绿体基因matK的引物(F:5′-CATTATGTTAGATATCAAGGAAA-3′;R:5′-GCTRTRATAATGAGAAAGATTTCTGC-3′)和rbcL的引物(F:5′-AGACCTWTTTGAAGAAGGTTCWGT-3′;R:5′-CATGTACCTGCAGTAGCATTCAAGT-3′)扩增matK和rbcL基因片段[3-4]。
PCR扩增实验采用10 μL反应体系,包括:10×PCR缓冲液(含Mg2+)1 μL,2 mmol/L dNTP混合液1 μL,5 μmol/L 正向引物 0.5 μL,5 μmol/L 反向引物0.5 μL,2.5 U/μLTaqDNA 聚合酶 0.1 μL,模板 DNA 1 μL,ddH2O 5.9 μL。PCR 扩增反应在 Mastercycler pro S PCR仪(德国Eppendorf公司)上进行。扩增程序:94℃预变性2 min;94℃变性30 s,52℃退火30 s,72℃延伸40 s,35个循环;72℃延伸5 min;4℃保存。PCR扩增产物用1.2%琼脂糖凝胶电泳(JY04S-3D型,北京君意东方电泳设备有限公司)检测,观察并拍照。胶检时加入1μL PCR产物和4μL 1×溴酚蓝缓冲液。利用Wizard®DNA Clean-Up System对所得到的PCR产物进行纯化,纯化后的产物用于后续高通量测序实验。
1.2.2 高通量测序
经过PCR扩增实验获得的matK和rbcL基因片段为不同物种该基因片段的混合物,常规的Sanger测序无法实现多样品同一基因混合物的测序。为了测定这些基因片段,本研究采用Ion S5TM系统(美国Thermo Fisher Scientific公司)高通量测序平台。基因片段混合物经纯化后,由北京泛生子基因科技有限公司利用Ion Plus Fragment Library Kit(美国 Thermo Fisher Scientific公司)标准流程[5]测序文库并利用Ion S5TM系统标准参数进行测序。
1.2.3matK和rbcL基因序列获取
在所有种子植物中,每科选取一条序列作为代表,构建高质量的参考数据库matK-db和rbcL-db。使用Divide程序(https://github.com/wpwupingwp/divide),根据引物序列将Ion S5TM系统测序数据拆分为matK和rbcL基因数据,并以97%相似性为阈值,将各基因数据进行聚类,生成多条共有序列(consensus se⁃quence),舍去丰度为1的序列(singleton)。使用Filter程序(https://github.com/wpwupingwp/filter),以matK-db和rbcL-db作为参考,过滤非特异性扩增序列,得到候选序列matK-contigs和rbcL-contigs后,将其与参考数据库进行合并,使用MAFFT程序进行多序列比对[6]。得到的比对文件,分别调用IQTREE软件[7],选用GTR+F+R4模型构建最大似然法系统发育树,并进行1000次超速自举(ultrafast bootstrap)检验[8]。根据候选序列在系统发育树中的位置、姊妹群、最近共同祖先和支长以及可信度等信息,筛选得到序列rbcL-ML和matK-ML。使用Usearch程序[9],以rbcL-ML和matK-ML为模板,从原始的Ion S5TM系统测序数据中调取与这些序列相似性大于97%的原始序列,使用MAFFT程序进行全局比对,手工删除长度异常的序列及空位(gap),调用VSEARCH程序[10],以相似性95%为阈值,生成最终的结果序列rbcL-result和matK-result。以GenBank数据库中nr数据集为参考进行在线BLAST[11]比对,确定这些序列可能的科和属。
根据BLAST比对结果,将同属物种所有的matK或rbcL基因序列下载,与核准的序列合并,用MAFFT程序进行比对,并使用BioEdit软件(https://bioedit.software.informer.com)进行手工校正,得到数据矩阵。将这些数据矩阵通过PAUP软件[12]构建最大简约树,确定与核准序列具有最近亲缘关系的物种。查询这些物种的分布区,推断尸体可能长期居住的地区。
从有一定程度腐败的肺组织中成功提取到DNA(图1A)。其中,样品2的DNA纯化前后未见明显改善,但在后续PCR扩增实验中获得明显扩增条带。纯化前后DNA的扩增结果见图1B~C。
从Ion S5TM系统测序共获得1957440条序列,数据量可以保证后续数据分析。使用Divide数据拆分程序,共得到83 144条rbcL基因的序列,60 665条matK基因的序列。经过聚类及Filter程序过滤后得到rbcL基因一致性序列3355条,matK基因一致性序列2721条。与参考序列合并、构建系统发育树后,舍去丰度过低的数据,从死者的肺组织中得到的种子植物共计27科31属32种,见表1。
图1 DNA提取及PCR扩增结果
表1 从肺组织中检测到的植物种类
将上述序列与美国国立生物技术信息中心(Na⁃tional Center for Biotechnology Information,NCBI)公共数据库进行初步对比分析,筛选出与中国物种关系密切的物种。
在31个属中有9个属的物种有一定程度的指示作用,分别是波罗蜜属(Artocarpus)、黄连属(Coptis)、龙眼属(Dimocarpus)、买麻藤属(Gnetum)、银叶树属(Heritiera)、同钟花属(Homocodon)、铁力木属(Mesua)、刺葵属(Phoenix)和青梅属(Vatica)。
在波罗蜜属(Artocarpus)中,经与NCBI公共数据库中该属47种186条rbcL基因序列进行初步对比分析,检测到的序列与3个中国产物种关系密切。这3个种的8条代表性rbcL序列的系统发育分析结果表明,检测到的序列与光叶桂木(A.nitidus)聚为一支,最可能属于光叶桂木(A.nitidus,图2A)。
在黄连属(Coptis)8个物种有matK基因序列,五裂黄连(C.quinquesecta)和五叶黄连(C.quinquefolia)数据缺失。经与8个物种的12条matK序列的系统发育分析,检测到的序列与峨眉黄连(C.omeiensis)和三角叶黄连(C.deltoidea)聚为一支,关系最近(图2B)。
在龙眼属(Dimocarpus)中除了滇龙眼(D.yunna⁃nensis)外,其余中国产物种均有rbcL序列。系统发育分析表明,检测到的序列属于龙眼(D.longan,图2C)。
在买麻藤属(Gnetum)中,经与19种38条rbcL序列的系统发育分析,确定检测到的序列与中国产海南买麻藤(G.hainanense)、罗浮买麻藤(G.luofuense)、买麻藤(G.montanum)和小叶买麻藤(G.parvifolium)关系最密切(图2D)。
在银叶树属(Heritiera)中,所有物种均有rbcL参考序列。然而,rbcL不能有效区分这3个物种(图2E)。
同钟花属(Homocodon)仅2种。
铁力木属(Mesua)仅1种。
刺葵属(Phoenix)中有2个中国产物种有matK参考序列,但该基因没有分辨率。
在青梅属(Vatica)中,系统发育分析结果表明,检测到的序列与青梅(V.mangachapoi)和婆罗洲青梅(V.coriacea,马来西亚的婆罗洲)关系密切(图2F)。
依据《中国植物志》(http://frps.iplant.cn)对9个属的物种进行生长地域的检索,得到相对相关度高的地域,详见表2。
图2 从肺组织中检测到的属于地区特有植物的基因片段及其系统发育树
表2 9个具有一定指示作用植物属的基本情况
经过实地调查走访,死者生前于广西南部某县长期生活过。
肺组织长期与外界环境接触,当花粉进入肺泡后刺激机体产生应激反应,从而将花粉颗粒包裹、激化,随着细胞死亡而钙化,永久性沉积于肺组织中。花粉自身拥有两层花粉壁,因此具有很强的保护遗传物质的能力。上述两个条件使其遗传物质可以在人体内长久保存,且不易遭到破坏,甚至在腐败组织中都可以提取到植物遗传物质。植物的突出特点之一是固着生长,某些植物对环境要求高,形成了特异性地理分布区域,因此植物具有天然的地理位置指示作用。在上述理论基础上,本研究进行了采用人体所携带植物的基因信息判断居住地的实验。
本研究在死者肺组织内共取得27科31属32种植物,31个属中,物种数目差异很大,有超过15个属都难以鉴定到种。
一些序列如艾(Artemisia vulgaris)、构树(Brous⁃sonetia papyrifera)、金鱼藻(Ceratophyllum demersum)、西瓜(Citrullus lanatus)、桔(Citrus sinensis)、水稻(Oryza sativa)、侧柏(Platycladus orientalis)、宽叶香蒲(Typha latifolia)等,虽然能鉴定到种,但由于物种分布区域广泛,地区指示作用有限。有的植物,如大麻(Cannabis sativa)和罂粟(Papaver somniferum),流通普遍,没有指示作用。
最终,本研究筛选出9个属具有一定指示作用的物种,并分析这9个属物种的分布数据,主要分布在广东、广西、福建、云南、海南、四川、湖南等省,其中以广东、广西、海南和云南特有植物出现率最高,提示死者生前可能在长江以南流域长期生活,尤其是广东、广西、云南、海南等地可能性更高。
调查结果显示,死者生前确实于广西南部某县长期生活过,与分析结果相符,表明利用人体肺组织内所携带植物的基因信息推断居住地的方法可以辅助推断死者生前的长期居住地,为无名尸案件的尸源查找提供新的法医学鉴定思路。本研究采用的是DNA条形码技术,该技术由HEBERT等[13]提出,是利用一小段易于扩增的DNA片段区分、鉴别生物物种的技术。不同于传统的形态学鉴别物种的方式,DNA条形码技术更加高效、准确、可重复。
DNA条形码的选择对于种属鉴定也至关重要。通常评价DNA条形码有以下几个条件:(1)DNA片段短小且易于扩增,尤其适用于腐败的检材。(2)目标DNA片段可以作为标准在绝大多数植物分类中应用。(3)目标DNA片段在种间变异度大,具有种间高分辨率;在种内变异度小,具有相对的保守性;含有系统进化信息,可以显示在分类系统中的位置。(4)该目标DNA片段应有高度保守区域以方便引物设计[14]。
本研究选择了rbcL和matK这两个DNA条形码组合提取植物DNA。rbcL和matK是第三届国际DNA条形码会议上被推荐作为植物DNA标准条形码的核心标记,具备以下几项优势[15]:(1)rbcL和matK均是叶绿体基因组的蛋白编码基因,在PCR扩增时可以直接筛选出植物基因,避免人类、真菌等其他非植物真核生物的基因干扰。(2)本研究所用rbcL长度为402bp,matK长度为349bp,片段短小,即使是降解检材亦可扩增。(3)rbcL的属内变异小,相对保守,可以很好地显示在属水平的系统进化位置;matK在叶绿体基因组中具有较快的进化速率,因此具有一定的种间差异,具备相对较高的种间分辨率。(4)由于rbcL和matK为植物通用条形码,研究者应用较多,通用引物相对完善,数据库充足。但是这两个DNA条形码并不完美,对部分植物的分辨能力往往仅到科属水平,并不能全面达到种的水平,因此未来需要开发分辨率更高的基因标记。
内部转录间隔区(internal transcribed spacer,ITS),即5.8S rDNA和28S rDNA基因间隔序列,是目前系统发育构建中最受欢迎的一个DNA条形码,也是中国植物条形码协会进一步建议补充的DNA条形码。不同于叶绿体基因组,ITS属于核基因组,且高度重复,其进化速率比matK更快,同时具有拷贝间序列随时间推移趋于一致的特点,因此其分辨率相对rbcL和matK更高,可以准确追溯种间关系,即可以将大部分植物区分至种[16]。本次实验的预实验也采用了ITS序列,但ITS序列在真核生物中广泛存在,本实验中提取到的DNA绝大部分是人类的,会对扩增结果产生干扰。如何在扩增此DNA条形码时减少人类ITS序列的扩增是目前正在探索的问题。
值得注意的是,花粉的传粉方式大致分为风媒传粉和虫媒传粉。约87.5%的被子植物由昆虫传粉[17],这意味着虫媒花粉传播范围小,从而形成具有不同群落结构的花粉谱。相较于风媒花粉,虫媒花粉可能更具区域特异性,提示携带者在该区域停留时间更长。风媒传粉和虫媒传粉植物应在未来的研究中列入数据分析参考系。
DNA琼脂糖凝胶电泳结果显示,纯化后扩增效果明显提高,得到了与目的片段长度相符的扩增片段。虽然样品2纯化后未见DNA条带,但PCR产物的电泳图显示获得明显扩增条带。经后续高通量数据分析,确实发现植物DNA信息,证明纯化后样品2中确实有微量的植物DNA被提取出来。
在PCR的3个条带中,较长的片段可能为低等植物相应基因片段,较短的为引物二聚体。本研究的重点是种子植物,这些植物的分布有非常明确的地理分布记载,所以片段长度在250~500bp的部分才会被用于后续分析。
本研究提供了一种利用人体肺组织内所携带植物的基因信息推断居住地的方法,可以辅助推断死者生前的长期居住地,为无名尸案件的尸源查找提供了新的法医学思路。本研究原本希望能够根据植物成分含量比例推测具体的来源地域,但目前通过reads数并不能完全衡量各物种的比例关系,对植物所属地的推断不够理想。若联合其他尸源溯源手段会有效提高案件侦破率,希望未来该技术能够成为刑事法医学的一种常用尸源溯源手段,为案件侦破提供有效方向。