棘球属绦虫线粒体基因组全序列生物信息学分析

2019-04-11 06:52,,,,
中国人兽共患病学报 2019年3期
关键词:密码子细粒绦虫

,,,,

近年来学者对于棘球绦虫的分类做了大量研究,由于棘球绦虫具有独特的繁殖方式:成虫雌雄同体,以自体受精为主;中绦期为无性繁殖。这种双向发育和繁殖模式造就了棘球绦虫的生物多样性,加速了遗传一致性种群的形成[1],目前至少有10种亚种的报道,学者们通过分析细粒棘球绦虫mtDNA全基因组序列,将细粒棘球绦虫 G1-G3基因型归为狭义细粒棘球绦虫(Echinococcusgranulosussensustricto)、G4基因型归为马棘球绦虫(Echinococcusequinus、G5基因型归为奥式棘球绦虫(Echinococcusortleppi)、G6-G10基因型归为加拿大棘球绦虫(Echinococcuscanadensis)及细粒棘球绦虫狮子株归为狮棘球绦虫(Echinococcusfelidis)[2]。但不少亚种能否单独存在尚存在争议。线粒体基因是典型的母性遗传,因其具有结构简单稳定、无重组、易分离纯化、由于受到线粒体内氧化环境的影响而容易发生突变,因此其进化速率快,是研究寄生虫分子进化的理想工具。在构建亲缘关系相近物种的进化树时比使用核 DNA序列更有优势。利用不同虫株(基因型)在幼虫形态、致病性、宿主范围、流行病学意义等方面存在的差异,通过分析线粒体基因的种类和数量、遗传密码子进化、同义密码子使用、RNA转录成熟机制及碱基组成的偏向性、基因重叠及重排现象等问题[3],能反映寄生虫的不同进化路线,因而被广泛用于生物间系统起源、演化、分类及亲缘关系的研究[4]。同时对疫苗、诊断试剂及抗虫药物的研制和开发具有重要意义[5-6]。本研究通过分析棘球属绦虫线粒体基因组序列的基因结构、碱基组成、遗传密码子及分子系统发育,以期为种系鉴定提供理论参考。

1 材料与方法

1.1序列获取 从NCBI GenBank数据库下载棘球属绦虫线粒体基因组DNA全序列,包括多房棘球绦虫(Echinococcusmultilocularis,Em)、福氏棘球绦虫(Echinococcusvogeli,Ev)、少节棘球绦虫(Echinococcusoligarthrus,Eo)、狮棘球绦虫(Echinococcusfelidis,Ef)、石渠棘球绦虫(Echinococcusshiquicus,Es)及细粒棘球绦虫(Echinococcusgranulosus,Eg)多个虫株(G1、EchinococcusequinusG4、EchinococcusortleppiG5、EchinococcuscanadensisG6、EchinococcuscanadensisG7、EchinococcuscanadensisG8、EchinococcuscanadensisG10),并以猪带绦虫(Taenia solium,Ts)作为外类群。

1.2mtDNA的组成及排列使用OGDRAW(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)在线分析网站及Vector NTI Express软件。

1.3序列分析及分子进化树的构建 用Clust-X软件对多个相似序列进行多重序列比对分析。使用Mega4.0软件选择邻接法(Neighbor-joining method,NJ)构建进化树,并做Bootstrap检验,重复次数设置为10000,选择Bootstrap检验。密码子使用情况使用Mega4.0软件分析。

1.4核糖体基因分析及二级结构预测 l-rRNA和s-rRNA二级结构预测使用RNAfold在线预测网站(http://rna.tbi.univie.ac.at//cgibin/RNAWebSuite/RNAfold.cgi),选择minimum free energy (MFE) and partition function算法。

2 结 果

2.1线粒体基因组基因的组成及排列 除Eg G1外,棘球绦虫属线粒体基因组有36个编码基因,包括22个转运RNA基因、12个蛋白基因、2个核糖体RNA基因。其中Eo、Es、Ev、Eg G1、Eg G4、Ef线粒体ND4L-ND4基因基因序列存在2-30 bp序列的重叠。基因排列次序为:trnY-trnL-trnS-trnL-trnR-ND5-trnG-COX3-trnH-CYTB-ND4L-ND4-trnQ-trnF-trnM-ATP6-ND2-trnV-trnA-trnD-ND1-trnN-trnP-trnI-trnK-ND3-trnS-trnW-COX1-trnT-rrnL-trnC-rrnS-COX2-trnE-ND6。但Eg G1线粒体基因组最小,只有30个编码基因,在起始编码区缺少6个编码转运RNA(trnY-trnL-trnS-trnL-trnR-trnG)的基因。且第一个编码基因不是ND5,而是COX3,ND5变为最后一个。Em、EgG1 mtDNA全序列见图1、图2。

图1 多房棘球绦虫线粒体基因组全基因组序列Fig.1 Echinococcus multilocularis mitochondrion, complete genome

2.2棘球属绦虫线粒体基因组的蛋白基因核苷酸序列变异位点分析 12种棘球属绦虫线粒体基因组的蛋白基因核苷酸序列变异位点分析结果显示,蛋白基因核苷酸序列变异率为27.9%~42.7%,其中COX1最为保守,这也是在棘球属种系鉴定中常选择COX1基因作为分子标记物的原因之一,其次为ND3、COX2变异率分别为27.9%、29.7%,另外ND4、ATP6、ND6、ND5基因进化速率较快,其中以ND5变异率最大达到42.7%,因此,ND4、ATP6、ND6、ND5基因也可以作为COX1基因的辅助分子标记(表1)。

表1 棘球属绦虫线粒体基因组的蛋白编码基因核苷酸序列变异位点分析Tab.1 Nucleotide sequence variation of protein-coding genes in mitochondrial genome of Echinococcus genus

2.3转录密码子使用情况 与大多数真核生物一样,棘球属线虫线粒体蛋白基因起始密码子主要为atg,但也有一些蛋白质以gtg作为起始密码子,COX2在12种棘球属绦虫中均以gtg作为起始密码子,有些蛋白质只在部分虫株中以gtg作为起始密码,例如ND4L、ND4、ND2、ND1。终止密码子以taa和tag常见,但也有以ttt作为终止密码子(表2)。

表2 棘球属绦虫线粒体编码蛋白基因起始密码子和终止密码子Tab.2 Initiation codon and termination codon of mitochondrial protein gene in Echinococcus genus

2.4蛋白翻译密码子使用情况 棘球绦虫属使用的密码子为棘皮类和扁形虫线粒体密码(transl_table=9),与标准密码子表的区别为:在标准密码子表中AAA编码Lys,AGA、AGG编码Arg,UGA为终止密码子,而棘球属绦虫中AAA编码Asn,AGA、AGG编码Ser,UGA编码Trp。在棘球属绦虫中编码氨基酸的密码子使用频率最高的是UUG(2.72%),频率最低的是CUC(1%)、CGC(1%),编码亮氨酸 L(UUA、UUG、CUU、CUC、CUA、CUG)、精氨酸R(CGU、CGC、CGA、CGG、AGA、AGG)的密码子最多达6个,编码甲硫氨酸M(AUG)、色氨酸W(UGG)最少只有1个。亮氨酸 L也是棘球属绦虫最偏好的氨基酸达到6%(表3)。

表3 蛋白编码密码子使用情况Tab.3 Protein coding codon usage

2.5核糖体(rRNA)基因的二级结构 棘球属绦虫核糖体基因有两个分别为l-rRNA及s-rRNA,长度大小分别为977~985 bp、700~727 bp,两个基因的位置十分靠近中间只隔一个trnC基因。通过RNAfold在线预测网站预测棘球绦虫rRNA结构类似,形成较多的茎环结构。多房棘球绦虫rRNA结构见图3。

s-rRNAl-rRNA

2.6线粒体基因组序列系统进化分析 基于12种棘球绦虫线粒体基因组全序列,以T.s作为外类群,使用邻接法构建系统进化树。由图5可以看出Ev、Eo单独为一枝,Em、Es及Eg G1、Ef形成姐妹枝。细粒棘球绦虫G4、G5、G6、G7、G8、G10亚型聚为一枝,进化距离较近(见图4)。

图4 棘球属绦虫系统发育树Fig.4 Phylogenetic tree of Echinococcus genus

3 讨 论

目前棘球属绦虫种及亚种的分类存在着争议,自从多房棘球绦虫、少节棘球绦虫、福氏棘球绦虫立为独立种之后,争论渐趋平息,目前比较公认的棘球属绦虫共有4种,但近年,我国学者肖宁等先后从高原鼠兔(Ochotonacurzoniae)和藏狐(Vulpesferrilata)分离出一种棘球绦虫,其成虫和幼虫形态、分子遗传特点、寄生宿主范围和地理分布、物种进化等方面与其他棘球属绦虫存在较大差异,具备种间差异条件,并以其首次发现地——四川石渠县命名为石渠棘球绦虫[7-8]。但其能否作为新的种还存在许多疑点,石渠棘球绦虫是否为细粒棘球绦虫或多房棘球绦虫在非适宜宿主中适应性的改变不得而知。由于棘球属绦虫特别是细粒棘球绦虫种内变异现象非常普遍[9],根据线粒体COX1和NAD1基因部分序列的差异,细粒棘球绦虫分为G1-G10 10种不同基因型[1,10-12]。

随着新的寄生宿主[13]及生物学特征[14]被发现,这样的分类依然不尽完善,因此本研究通过分析12种报道的棘球属绦虫的线粒体基因组序列,为深入了解棘球属绦虫,本文从棘球属绦虫线粒体基因组序列碱基组成、基因结构与排列、密码子使用及偏好、系统发育等进行分析。通过分析发现棘球属线粒体主要有三部分组成包括22个转运RNA基因、12个蛋白基因、2个核糖体RNA基因,但E.g G1 线粒体基因组发生了重排,只有30个编码基因,且第一个编码基因不是ND5,而是COX3,ND5变为最后一个,重排是种系进化中的稀有事件,重排的规律性可为重建物种演化历史提供重要信息。且E.g G1缺少6个编码转运RNA,无法转运酪氨酸、亮氨酸、丝氨酸、精氨酸、甘氨酸,这些氨基酸可能有其他转运RNA转运或由宿主提供。

目前对于棘球属绦虫基因型分类常用的工具包括核基因和mtDNA,核基因主要包括核糖体DNA第一、二内转录间隔区基因ITSl、ITS2,肌动蛋白III,延长因子1A,转化生长因子,硫氧还蛋白过氧化物酶,钙网蛋白,疏水性类弹性蛋白,抗原B 1,Eg9和Eg16等,而线粒体基因主要有cox1、nad1、nad2,nad3、cytb、ATP6、12s rRNA和16s rRNA等[15-16],一般认为线粒体基因序列进化较快,种系发育关系分析方面比核基因更有效,随着近年来学者们对于棘球属线粒体基因测序数据的不断积累,棘球绦虫mtDNA数据库较核基因更完善,在棘球属绦虫分类中更具有优势[17]。本研究通过多序列比较也发现,12个线粒体基因编码的基因中COXⅠ最为保守,ND5变异率最大达到42.7%,另外ND4、ATP6、ND6基因进化速率较快,提示除COXⅠ基因外,ND4、ATP6、ND6、ND5也可辅助作为棘球绦虫鉴定的分子标记。

同时,棘球绦虫属寄生虫缺少高等生物拥有的ATP8基因,这可能是棘球属绦虫在寄生的环境中丢弃了部分“无用”的基因[18],进化为更高级的生存方式,这一点在多房棘球绦虫生长特性中表现得更为明显,因为在中间宿主人中无法找到虫体,仅有一层叫生发层的细胞即可实现无限增殖,在寄生虫疾病中极为罕见[19];起始密码中除以atg作为起始密码外,一些进化较快的基因例如COX2及ND部分亚基还以gtg作为起始密码,终止密码子中甚至有以ttt作为终止密码的。如此一个基因的终止密码中的碱基也可能是另一个基因的起始密码中的碱基,使得线粒体碱基的利用度达到最大,结构更为紧凑。棘球绦虫属使用频率最高的蛋白编码密码子是UUG,频率最低的是CUC和CGC,编码亮氨酸、精氨酸的密码子最多达6个,而编码甲硫氨酸(AUG)、色氨酸(UGG)最少只有1个。亮氨酸也是棘球属绦虫最偏好的氨基酸达到6%,这也反映出棘球属绦虫对于氨基酸具有明显的偏好性。

使用邻接法构建系统进化树可以看出E.v、E.o单独为一枝,E.m、E.s及E.g G1、E.f形成姐妹枝,细粒棘球绦虫G4、G5、G6、G7、G8、G10亚型聚为一枝,进化距离较近,这与Wassermann M等人的研究结果较为一致[20]。在发现石渠棘球绦虫前,因其形态学上与Em相近似,则被误认为是多房棘球绦虫的变异种,由线粒体进化距离上看两者亲缘关系也较近。总之,利用线粒体基因研究棘球绦虫系统起源、演化、分类及亲缘关系,离不开对于线粒体基因的充分了解,通过本文分析期望能为进一步认识棘球属线粒体基因组提供一定的参考。

猜你喜欢
密码子细粒绦虫
鲫成鱼绦虫病治疗一例
外在水分对潮湿细粒煤风力分级效果影响的研究
精锐微泡浮选机在上宫金矿的试验应用
细粒级尾砂高浓度胶结充填试验研究与工业应用
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
以“题”带“面” 突破密码子与反密码子的特性
鸡绦虫病症状及治疗
新型密码子、反密码子、氨基酸对应盘
牛羊绦虫病的预防和中西医治疗分析
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析