黄娅琳 黄 捷 时 玉 徐燕红 周用武 侯森林
(1.南京森林警察学院刑事科学技术学院,南京,210023;2.野生动植物物证技术国家林业与草原局重点实验室,南京,210023;3.广西壮族自治区森林公安局物证鉴定所,南宁,530028)
塔里木兔(Lepusyarkandensis),属于兔形目(Lagomorpha),兔科(Leporidae),兔属,又名莎车兔、南疆兔,为我国特有物种,仅分布于新疆塔克拉玛干沙漠塔里木盆地周围分散的绿洲及荒漠地带[1]。随着当地经济的发展、石油开采业的发展以及非法狩猎活动的增加,塔里木兔的数量急剧下降,于1989年被列为国家Ⅱ级重点保护野生动物。与其他受保护物种相比,塔里木兔受关注程度较低,相关遗传学研究较为匮乏。
mtDNA 在细胞中拷贝数多,没有基因重组现象,严格遵循母系遗传,其进化速率是单拷贝核基因的 5—10 倍,因此它是动物系统发育分析和物种识别的常用工具。本研究拟基于本研究组前期通过二代测序技术获得的塔里木兔线粒体全基因组序列[2],对其线粒体DNA全基因组序列结构特征及系统进化进行进一步研究,以期为研究其遗传多样性、分类地位,为保护塔里木兔这一我国特有的濒危物种奠定分子遗传学研究基础。
塔里木兔样本于2019年2月采自新疆阿克苏库车县。样本采集后保存于南京森林警察学院DNA检验室标本库。通过Illumina MiSeq测序分析获得全长为17 011 bp的线粒体全基因组序列[3],该序列已提交NCBI基因数据库(GenBank 登录号:MN450151)。另有下载自NCBI的GenBank的12份兔属其他物种线粒体全基因组序列和2份外群物种鼠兔科(Ochotonidae)物种(高原鼠兔Ochotonacurzoniae和达乌尔鼠兔Ochotonadauurica)线粒体全基因组序列,实验材料信息详见表1。
表1 用于系统进化分析的物种线粒体DNA序列信息Tab.1 Mitochondrial DNA sequence information for phylogenetic analysis
使用Editseq7.1统计碱基组成、GC含量及氨基酸偏好性。通过Blast同源序列检索及DNAStar和Genetyx软件分析蛋白编码基因、tRNA基因、rRNA基因和非编码区基因。使用MEGA 7.0分析蛋白质编码基因的碱基组成和密码子使用情况,并分析蛋白质编码基因的氨基酸使用情况[4]。使用在线软件RNAstructure对tRNA二级结构进行预测,使用RNAfold在线预测网站(http://rna.urmc.rochester.edu/RNAstructureWeb/index.html)对rRNA二级结构进行预测[5]。
基于测序所得的塔里木兔线粒体全基因组序列和所下载的12种兔属物种、2种外群鼠兔科物种线粒体基因组全序列,采用Mega 7.0软件,分别使用最大似然法(maximum likelihood method,ML)和邻接法(neighbor-joining method,NJ)构建系统进化树。
塔里木兔线粒体基因组全序列总长为17 011 bp,呈双链闭合环状结构(图1)。通过分析表明:塔里木兔线粒体基因组包括13蛋白质编码基因、22个tRNA基因、2个rRNA基因(分别为rrnL、rrnS)和1个非编码控制区(D-loop区)。且基因排列顺序和已报道的兔属其他物种[6-8]相似,基因排列紧密,相邻基因之间存在基因重叠现象。
塔里木兔线粒体全基因组序列中A、T、C、G的碱基含量分别为28.13%,27.67%、22.02%和22.17%,A+T的碱基含量为55.8%,C+G的含量为44.20%,表现出明显的AT偏好性。
不同物种其线粒体基因的种类、位置和大小存在差异,表2所示为塔里木兔线粒体DNA上的RNA基因、蛋白编码基因所在的位置,蛋白编码基因的密码子、起始密码子、终止密码子,以及tRNA的反密码子。
表2 塔里木兔线粒体基因组注释Tab.2 Characteristics of Lepus yarkandensis mitochondrial DNA genome
续表2
塔里木兔线粒体基因组共有13个蛋白质编码基因(cox1,cox2,cox3,atp6,atp8,nad1,nad2,nad3,nad4,nad4l,nad5,nad6,cob)。在塔里木兔线粒体基因组中,L链和H链上都有蛋白质编码基因,但是除了nad6以外,其他的蛋白质编码基因都在H链上。
除了nad2,nad3,nad5这3个蛋白质编码基因以ATT为起始密码子,其余蛋白质编码基因(cox1,cox2,cox3,atp6,atp8,nad1,nad4,nad4l,nad6,cob)均以ATG作为起始密码子。7个蛋白质编码基因(cox1,cox2,atp6,atp8,nad2,nad4l,nad5)共享相同的终止密码子,3个蛋白质编码基因(cox3,nad1,nad6)共享相同的终止密码子,其余3个蛋白质编码基因分别以TGA(nad3)、TCT(nad4)、AGG(cob)作为终止密码子。塔里木兔线粒体DNA上的蛋白质编码基因的起始密码子和终止密码子均是完整的,不存在缺失状况,这是进化的一种象征[9]。
在其13个蛋白编码基因中,每一个蛋白编码基因的A+T含量均高于50%(表3),且13个蛋白编码基因的A+T总含量为61.48%,可见其在蛋白编码基因组中也具有AT偏好性。
表3 塔里木兔线粒体DNA蛋白质编码基因核苷酸含量Tab.3 Nucleotide content of the protein-coding genes of Lepus yarkandensis mitochondrial DNA
塔里木兔线粒体基因组中各蛋白质编码基因氨基酸使用情况如图2所示,结果表明13个蛋白质编码基因中氨基酸使用最频繁的依次包括Leu、Ile和Ser(Count>100),而Trp、Cys、Met和Arg的使用相对较少(Count<或=25)。
塔里木兔线粒体基因组上共检测到22个tRNA基因,总长度为1 504 bp,长度范围为6 471 bp,在线粒体基因组上的排列顺序与其他兔形目动物相同。其中8个tRNA基因(trnQ、trnA、trnN、trnC、trnY、trnS2、trnE、trnP)位于L链上,其余14个tRNA基因在H链上。
通过生物信息学分析对塔里木兔线粒体基因组编码的22个tRNA的二级结构进行预测,结果表明:除了trnM和trnS1以外,其余tRNA都有经典的三叶草二级结构(图3)。在22个tRNA基因的二级结构中出现了26对碱基错配现象。其中G-T错配25个,A-A错配1个。A-A错配出现在trnF的氨基酸臂上。25个G-T错配在氨基酸臂、反密码子臂、二氢尿嘧啶臂和TΨC臂上均有出现。这些错配是符合摆动配对原则的,对于维持tRNA二级结构的稳定十分重要[10]。
rRNA是一类相对分子量较大的RNA[11],可为多种蛋白质合成因子提供结合位点,在蛋白质合成起始时,参与同mRNA选择性的结合以及在肽链的延伸中与mRNA结合,与蛋白质结合形成核糖体,并且可为tRNA提供结合位点。塔里木兔线粒体DNA的核糖体小亚基rrnS基因长度为955 bp,位于trnF-ttc(GAA)与trnV-gta(TAC)之间;核糖体大亚基rrnL基因为1 582 bp,位于A+T富含区与trnV-gta(TAC)和trnL2-tta(TAA)之间。两个基因的位置十分靠近,中间只隔着一个trnV基因(图1)。
通过生物信息学分析对塔里木兔线粒体基因组编码的2个rRNA的二级结构进行预测,结果表明:rRNA的二级结构较为复杂,形成了较多的茎环结构,具体情况如图4所示,rrnS的二级结构如图4A所示,rrnL的二级结构如图4B所示。
兔形目一共只有兔科和鼠兔科两个科,分化程度不高,且两个科的物种在外形上具有高度的相似性。本研究以两种在我国有分布的鼠兔科物种(高原鼠兔和达乌尔鼠兔)为外群物种,基于塔里木兔和兔属其他12个物种线粒体全基因组序列,分别用最大似然法(maximum likelihood method,ML)和邻接法(Neighbor-Joining method,NJ)构建系统进化树。结果如图5、图6所示,结果表明两种方法构建的分子系统进化树基本一致,外群物种高原鼠兔和达乌尔鼠兔单独聚为一支,兔属13个物种大致聚为4大支,华南兔单独为一支,表明华南兔和兔属其他12个物种亲缘关系稍远一些。塔里木兔与蒙古兔聚为一支,表明塔里木兔与蒙古兔亲缘关系最近。此结果与单独基于线粒体cytb基因位点的聚类分析结果[2]不一致,表明仅基于单一位点进行系统进化关系分析容易造成偏差。
随着基因领域的探索日益深入,由物种单个基因构建的系统发生树已经不足以满足研究者们对更加详细、精确数据的需求。因此,通过使用更长的线粒体DNA序列,甚至是基因组全序列来构建更精确、可靠的系统发生树,以获得能够更加全面反映生物分子进化水平的系统发育信息,逐渐成为研究者的共识与主流[12-13]。NCBI数据库公布的兔属其他物种线粒体基因组全序列大部分相似:全序列长度在17 kbp左右,结构为双链的闭合结构,通常包括13个蛋白编码基因、22个tRNA基因、2个rRNA基因和1个非编码控制区(D-loop区)。
本研究分析了塔里木兔线粒体基因组特征,全长17 011 bp,AT含量为55.8%,呈现AT碱基偏好性,无基因重排的现象。在塔里木兔线粒体基因组中,L链和H链上都有蛋白质编码基因,但是除了nad6以外,其他的蛋白质编码基因都在H链上。Brown等[14]研究显示,分布在H链上的线粒体基因容易形成没有保护的单链,更易发生水解和氧化。塔里木兔线粒体基因组的蛋白编码基因和RNA编码基因主要分布于H链上,这说明塔里木兔线粒体基因组也易发生氧化和水解,而单独位于L链上的nad6基因则相对稳定,突显出nad6基因的重要性与独特性。
遗传多样性是物种适应环境变化、形成生物多样性的基础之一,对于种群维持繁衍、适应生境变化和抵抗疾病具有重要意义。遗传多样性的下降,可能会导致物种对环境适应能力降低,这对生活在野外多变环境中的群体来说是一个极大的威胁[12]。线粒体DNA对分析遗传多样性具有重要参考价值。本研究基于线粒体全基因组序列构建系统进化树,发现在兔属13个物种中,塔里木兔和蒙古兔亲缘关系最近,从线粒体基因结构上看,两者非常类似,线粒体基因组全长分别为17 011 bp和17 472 bp,AT含量分别为55.8%和57.3%[7],结合两者地理分布较为接近的情况,推测塔里木兔和蒙古兔可能由共同的祖先演化而来。本研究的分析结果将为进一步研究塔里木兔的遗传特性、起源、演化和分类,为塔里木兔遗传资源的保护与利用奠定基础。