毛明光 顾 杰 刘瑞婷 陈 雨 吴玲梅 姜志强 蒋洁兰
(1. 大连海洋大学农业农村部北方海水增养殖重点实验室, 大连 116023; 2. 中国科学院水生生物研究所, 武汉 430072)
太平洋鳕(Gadus macrocephalus)又称大头鳕,隶属于鳕形目(Gadiformes)、鳕科(Gadidae)、鳕属(Gadus), 属冷水性底层鱼类, 是重要的海洋经济鱼类[1—3]。近年来, 由于过度捕捞及环境污染等问题,黄渤海域的太平洋鳕产量显著下降, 美国、加拿大等国也对太平洋鳕的捕捞量开始了严格的限制[4,5]。
目前, 对太平洋鳕的研究主要集中在人工繁殖和免疫学[6—10]。此外, 尹伟力等[11]设计了鳕物种特异性PCR鉴定方法以区分包括太平洋鳕在内的鳕制品与其他鱼类制品。1987年, Grant等[12]的研究显示, 日本海和黄渤海不同海域的太平洋鳕在某些基因位点存在明显差异, 推测太平洋鳕虽然属于洄游性鱼类, 但这种洄游是一种短距离洄游, 造成了较小范围内的地理隔离。由于样品数量较少,Grant等[12]无法明确划分地理隔离的界限。另一方面, 太平洋鳕溯源以及与其他鳕科鱼类的进化关系仍是值得探讨的问题之一。脊椎动物线粒体DNA因具有自主复制、结构紧密、编码效率高、无重组现象、无组织特异性、进化速率快以及遵循严格的母系遗传等特点, 被广泛地应用于系统发育、物种分类和群体遗传进化等领域中[13]。本研究通过第二代测序技术获得太平洋鳕线粒体全基因组序列, 并对该线粒体全基因组序列进行分析, 为进一步研究鳕系统进化关系、鳕鱼种属间分类提供依据, 并且为系统研究因地理隔离而引发太平洋鳕线粒体变异等问题提供重要数据支持。
本实验所用的太平洋鳕捕自大连旅顺海域。解剖并采集太平洋鳕肌肉、肝脏组织后用去离子水冲洗, 液氮速冻, 转移至-80℃冰箱冷冻保存。
组织DNA提取按照北京艾德莱生物科技有限公司DNA快速提取试剂盒说明进行。采用NV 3000微量分光光度计检测DNA浓度, 1%琼脂糖凝胶电泳检测DNA的质量和完整性。
首先根据近缘物种序列设计简并引物(表 1),使用LATaqpolymerase进行PCR扩增。PCR程序为: 94℃ 30s, 50℃退火30s, 72℃延伸1min/kb。直接用PCR产物在ABI 3730全自动测序仪中测序, 使用DNAstar软件对测序结果进行拼接组装, 并人工分析调整, 最终补全序列。将太平洋鳕线粒体全基因序列上传至NCBI数据库, 获得GenBank序列号为KY296294。
使用GENEIOUS R8软件进行线粒体基因组注释。利用软件MITOS Web Server (http://mitos.bioinf.uni-leipzig.de/index.py)[14]进行转运RNA(tRNA)及核糖体RNA(rRNA)注释, 基于已有的鳕科鱼类线粒体基因组进行比对, 对蛋白质编码基因(Protein coding genes, PCGs)以及D-Loop区进行注释。利用MEGA 7.0软件进行线粒体DNA序列的碱基组成特征、密码子使用情况以及碱基偏移度分析。
表 1 太平洋鳕线粒体基因组全序列扩增使用的引物序列Tab. 1 Sequences of primers used in amplification of the complete mitochondrial genome in G. macrocephalus
使用在线tRNAscan-SE软件对太平洋鳕线粒体tRNA基因进行定位, 并使用The mfold Web Server(http://unafold.rna.albany.edu)在线软件对线粒体tRNA的二级结构进行预测。
为了分析鳕科鱼类的系统发育关系, 从Gen-Bank中下载相关的线粒体全序列或部分序列, 以斑马鱼(Danio rerio, NC002333)和红鳍东方鲀(Takifugu rubripes, NC004299)等线粒体基因组全序列为外群, 使用MEGA 7.0软件构建进化树, 分别构建11种鳕科鱼类线粒体基因组全序列和Cytb基因序列系统进化树。本研究所使用的基因组具体信息见表 2。
本研究采用第二代基因测序技术, 获得太平洋鳕线粒体全基因组序列, 其长度为16569 bp。与大多数脊椎动物线粒体组成相似, 太平洋鳕线粒体全基因组序列包含了13个PCGs、22个tRNA基因、2个rRNA基因和1个D-Loop (图 1)。PCGs、rRNA基因、tRNA基因和D-Loop区分别占整个线粒体长度的69.26%、15.79%、9.30%和5.26%。太平洋鳕线粒体包括D-Loop区在内的各基因大小、位点、排列顺序与大多数脊椎动物相同, 但D-Loop区序列长度有较大差异, 同源性相对较低。除tRNA-Gln、tRNA-Trp、tRNA-Ala、tRNA-Asn、tRNA-Cys、tRNA-Ser、tRNA-Glu和tRNA-Pro以及NAD6基因在H-链编码外其余基因及tRNA均在L-链编码(表 3)。
太平洋鳕线粒体全基因组的A+T含量达到57.3%, 明显高于C+G的含量, 呈现AT偏向性, 并且本文所选物种均有不同程度的AT偏向(表 4)。太平洋鳕线粒体全基因组碱基含量由高到低依次为:T(29.4%)>A(27.9%)>C(25.9%)>G(16.9%), A+T-skew%碱基组成和G+C-skew% 碱基组成分别为-0.026和-0.211。另外, 本文中所选鳕科鱼类除蓝鳕和生活在淡水中的江鳕外, 其余种类线粒体基因组碱基组成均显示出较弱的AT负偏斜现象(A+T-skew%<0), 而外群中除大菱鲆外均显示AT正偏斜现象。文中各鳕科鱼类线粒体基因组中胸腺嘧啶(T)含量最高的要属黑线鳕(30.6%), 而最低的为蓝鳕(27.1%)(表 4)。
太平洋鳕线粒体基因组13个蛋白质编码基因中的12个基因(NAD1、NAD2、COX1、COX2、ATP8、ATP6、COX3、NAD3、NAD4L、NAD4、NAD5和Cytb)在L链上编码蛋白, 仅NAD6在H链上编码。编码基因拥有2种典型的起始密码子(GTG和ATG), 除COX1基因使用GTG作为起始密码子, 其余所有蛋白质编码基因均采用ATG作为起始密码子。终止密码子的使用情况则有较大的变化。太平洋鳕线粒体有5种终止密码子(TAG、AGA、TAA、AGG、T--)(表 3), 其中TAG为NAD1、NAD2、COX1和NAD3基因的终止密码子; AGA为COX2、NAD4基因的终止密码子; TAA为ATP8、ATP6、COX3、NAD4L和NAD5基因的终止密码子;AGG为NAD6基因的终止密码子; Cytb基因则使用不完全的T作为终止密码子。其中AGG与AGA在哺乳动物线粒体中作为终止密码子使用更为常见。
表 2 线粒体系统发育分析所用基因组Tab. 2 The complete mitochondrial genomes used in phylogenetic analysis
13个蛋白编码基因序列总长度为11444 bp, 除了终止密码子外共有3815个密码子。使用MEGA 7.0软件分析密码子平均使用频率和相对同义密码子平均使用频率(表 5)。太平洋鳕线粒体基因组13个蛋白质编码基因中存在32个偏好密码子(RSCU密码子), 其中第三位点为A或T(U)的密码子普遍具有较高的使用频率。除了CAU(H)、CGU(R)、AGU(S)、GGU(G)和CCA(P)、AGA(*)密码子之外, 密码子第三位碱基为A或T的密码子RSCU均大于1, 密码子第三位点对A、T的偏好性与蛋白质编码基因密码子的第三位点对A、T偏向性相一致。
图 1 太平洋鳕线粒体基因组结构Fig. 1 Schematic Map of the mitochondrial genome of G. macrocephalus
对太平洋鳕线粒体22个tRNA基因的定位以及二级结构进行预测分析, 结果表明22个tRNA基因分布于13个蛋白质编码基因之间, 大小从67到74 bp不等, 总长度为1540 bp(表 3)。通过比对发现, 太平洋鳕相邻tRNA基因之间存在相互折叠的现象, 如tRNA-Ile和tRNA-Gln、tRNA-Gln和tRNA-Met、tRNA-Thr和tRNA-Pro之间, 相互折叠的核苷酸数目不定, 1—2个较为多见, 最长可达74 bp。22个tRNA中13个由L-链编码, 其他9个则由H-链编码(表 3)。所有的tRNA基因序列的A+T碱基含量低于控制区, 高于蛋白质编码区和rRNA区。tRNA二级结构预测结果显示, tRNA-Phe、tRNA-Val、tRNALeu等21个tRNA基因均形成典型的三叶草结构, 而tRNA-Ser(GCT)基因缺失二氢尿嘧啶臂(DHU臂) (图2)。
表 3 太平洋鳕线粒体基因注释结果Tab. 3 The result of the complete mitochondrial genome annotation for G. macrocephalus
线粒体基因组中的非编码区是不参与编码基因, 而是调节线粒体DNA复制和转录的片段, 主要分布于L-链复制起始区和各个tRNA基因之间, 其中位于tRNA和tRNA之间的称为D-Loop区。根据结构组成和分布位置的不同, 非编码区可分为基因间隔序列区和基因序列重叠区。在太平洋鳕线粒体中共寻找到11处重叠区, 序列总长度达43 bp, 最大重叠碱基数为10 bp, 位于ATP6基因和ATP8基因之间, 最小重叠碱基数为1 bp。非编码区有12个基因间隔序列, 长度在1—74 bp不等, 其中最长的间隔位于tRNA-Thr基因和tRNA-Pro基因之间, 长达74 bp。在tRNA-Asn基因和tRNA-Cys基因之间寻找到能够启动L-链复制的序列(OL), 该序列由14 bp的茎和13 bp的环组成, 并且在5′端有一段短的序列5′-GCCGG-3′(图 3)。
表 4 太平洋鳕及其他物种线粒体基因组碱基组成比较Tab. 4 Comparison of base composition in mitochondrial genome between G. macrocephalus and other species
表 5 太平洋鳕13个编码蛋白编码基因密码子使用频率Tab. 5 Total codon average usage in the thirteen protein-coding genes for G. macrocephalus
图 2 太平洋鳕tRNA-Ser(GCT)二级结构预测图Fig. 2 The second structures of the tRNA-Ser(GCT) genes in G.macrocephalus mitogenome
富含A+T的控制区在调控线粒体DNA的复制和转录中起到重要的作用。本研究中太平洋鳕控制区显示出相对不稳定性, 与哺乳动物相比只能鉴定到一个与CSB-2相对应的保守序列CSB(图 4)。在太平洋鳕D-Loop区发现与终止结合序列区(Terminal associated sequences, TAS)共有序列相似的序列且包含保守的5个核苷酸5′-TACAT-3′, 该序列可以形成发夹结构, 是D环DNA终止的候选位点。另外太平洋鳕D环含有一个17 bp的嘧啶序列。
以斑马鱼和红鳍东方鲀等几种常见经济鱼类作为外群, 采用最大似然法(Maximum Likelihood,ML), 构建几种鳕科鱼类的系统进化树(图 5)。蓝鳕、北鳕、杜氏银大眼鳕、江鳕与斜带石斑鱼、斑马鱼、大菱鲆等经济鱼种聚为一大支, 而红鳍东方鲀与其他海水性鳕鱼聚为一大支。传统观点所认为的3种真鳕(太平洋鳕、格陵兰鳕、大西洋鳕)并没有汇聚成一个分支, 北极鳕与太平洋鳕和大西洋鳕两种真鳕汇成一支, 而格陵兰鳕则与阿拉斯加狭鳕以及挪威狭鳕汇成一个大支。另外江鳕虽然作为鳕科鱼类, 但进化分析结果显示, 江鳕、蓝鳕和杜氏银大眼鳕3种鳕科鱼类与其他鳕科鱼类进化关系相对疏远。
Cytb基因因为存在于所有鱼类线粒体中, 且进化速度适中, 在一定的进化尺度内不会受到饱和效应的影响, 常被作为分析物种种间和属间差异的依据[15]。以Cytb基因采用邻接法构建的进化树则更符合传统分类学的观点(图 6)。在淡水环境中生活的江鳕与其他鳕科鱼类进化关系较为疏远, 但仍然与其他鳕科鱼类聚为一大支。
图 3 L-链复制起始区茎环结构Fig. 3 Stem-loop structure of L-strand replication initiation region
图 4 太平洋鳕D-Loop区序列Fig. 4 Schematic map characterizing of the control region of G. macrocephalus
图 5 基于线粒体基因组全序列构建的ML进化树Fig. 5 Phylogenetic tree based on the ML analysis of the whole mitochondrial genome
通过研究太平洋鳕线粒体基因组碱基组成发现其基因组成与其他典型脊椎动物相似, 并且呈明显的AT偏向性, 其他鱼类中也同样报道了此类的AT偏向性, 只是含量因物种的差异而有所区别[16]。连总强等[16]指出大多数鱼类L-链编码了tRNAGln、tRNA-Ala、tRNA-Asn、tRNA-Cys、tRNATyr、tRNA-Ser(UCN)、tRNA-Glu和tRNA-Pro 8个tRNA以及ND6基因, 其余tRNA均在H-链编码, 但本研究中太平洋鳕H-链只编码了tRNA-Gln、tRNATrp、tRNA-Ala、tRNA-Asn、tRNA-Cys、tRNASer、tRNA-Glu和tRNA-Pro以及NAD6基因, 其他tRNA均在L-链编码, 似乎恰好与大多数鱼类不同。此外, tRNA-Thr和tRNA-Pro之间出现74 bp的基因间隔区, 在其他鱼类中同样存在这种现象,Christoph等[17]在鲅鲷(Petrochromis trewavasae)线粒体中发现最长为4 bp的折叠区, 与本文相比只在折叠的碱基数目方面存在差异。此间隔区未发现与H链或L链复制相关的起始序列。在tRNA-Asn基因和tRNA-Cys基因之间发现的OL序列主要功能是调节L-链的复制[18], 此序列在哺乳动物和其他鱼类线粒体控制区中都存在[19,20]。
图 6 采用邻接法构建的鳕科鱼类Cytb基因进化树Fig. 6 Phylogenetic tree based on the NJ analysis of the Cytb genes
太平洋鳕线粒体基因组蛋白质编码基因中, 起始密码子与大多数鱼类一致, 均使用2种密码子(ATG和GTG), 但是终止密码子则与大多数硬骨鱼不同[16], 除了TAA、TAG、TAA和T--四种终止密码子外, 出现了以AGA和AGG为终止密码子的情况。其中,COX2和NAD4基因以AGA为终止密码子,NAD6基因以AGG为终止密码子。这2种密码子多在哺乳动物线粒体中使用, 而太平洋鳕线粒体中使用这两种密码子预示着太平洋鳕在进化过程中与哺乳动物进化方式更为相似。在碱基偏移方面,除了生活在南半球的蓝鳕以及淡水类江鳕, 其他鱼类均表现出弱AT负偏移, 并且作为外群物种中的大菱鲆同样表现出弱AT偏移, 但生活在热带和亚热带海域的斜带石斑鱼却没有这种现象, 推测A+T-skew%的偏移很可能与物种生活的地理位置以及环境温度有关, 甚至可能涉及蛋白质编码的方向。Mclean等[21]通过检测9种真细菌中GC和AT偏斜情况, 发现AT偏斜与转录复制的方向有关, 这或许可以解释上文中提及到的太平洋鳕大量tRNA和基因在L-链编码的原因。同时根据Weber等[22]对黑腹果蝇(Drosophila melanogaster)内含子中AT偏斜差异的研究, 发现其可能控制着物种之间的物理距离。本文所涉及的鳕科鱼类的地理隔离是否也是由AT偏斜控制的尚需探究。
线粒体12S rRNA和16S rRNA的功能主要决定于其二级结构。太平洋鳕rRNA的序列十分保守,与其他已报道的硬骨鱼类十分相似, 如兰州鲇[16]。本研究中22个tRNA基因中除了tRNA-Ser(GCT)外, 其余均形成典型的三叶草结构。tRNA缺少DHU臂,在DHU臂的位置上形成一个单环结构。此种情况在鱼类线粒体中较为常见。Cheng等[23]研究证明这种缺失DHU臂的tRNA可以调整结构形态, 并不会影响其进入核糖体以及携带并转运氨基酸等功能。
鱼类线粒体控制区包含: 终止序列区(TAS)、中央保守区、H-链复制起始区(OH)等保守序列[24],而本文中太平洋鳕线粒体控制区中仅含有一个与CSB-2相对应的保守序列CSB和一个与TAS功能类似的序列TAS*(图 4)。TAS*虽然在结构上与其他鱼类不同, 但此序列可以形成发夹结构同时含有保守的五核苷酸序列5′-TACAT-3′, 是D-Loop区DNA终止的候选位点[25]。太平洋鳕D-Loop区中的17 bp嘧啶序列, 是线粒体单链结合蛋白(Single strand DNA-binding protein, mtSSB)假定结合位点。这种蛋白特异性结合单链嘧啶区域, 被认为在DNA复制调节过程中起作用。Johansen等[25]在大西洋鳕中分别发现了17和27 bp的嘧啶序列, 以及位于D-Loop区5′端的4个完美重复序列。太平洋鳕控制区没有发现存在于大西洋鳕控制区的27 bp的嘧啶序列以及5′端的4个完美重复序列。在大西洋鳕线粒体控制区发现的重复序列只是DNA重复复制的结果, 据此推测虽然太平洋鳕线粒体基因组在控制区与其他鱼类存在较大差异, 但是在具有关键功能的序列上通常是保守的或具有相似的代替序列,似乎太平洋鳕在进化的过程中更加倾向于功能上的完整, 而非结构上的相似。这些D-Loop序列的独特性是否是导致太平洋鳕与其他鳕鱼地理隔绝的另一个原因, 目前尚没有明确的观点。
线粒体基因组相关基因或结构已经被广泛应用于系统发育、物种分类等不同研究领域[26]。本研究以最大似然法构建线粒体全基因组进化树(图5)并没有显示出与传统分类学观点相似的结果。其中被认为是真鳕的太平洋鳕、大西洋鳕与格陵兰鳕并没有出现在同一支中, 生存环境更加苛刻的北极鳕则取代了格陵兰鳕的位置, 并且同为江鳕的3个不同样本在该进化树中也在不同分支中。以线粒体全基因组构建的进化树可信度较差, 原因可能是这些鱼类线粒体中非编码区存在大量的变异。太平洋鳕存在长达74 bp的基因间隔区和差异较大的D-Loop区。而无论以何种方法构建进化树, 其原理都是检测各个碱基的替换率, 而非编码区的变异则会将线粒体整体进化水平夸大。鉴于太平洋鳕和其他鳕之间, 尤其是与大西洋鳕线粒体基因组有着非常高的同源性, 所以采用Cytb基因作为进化树分析的依据(图 6)。分析结果显示, 与大西洋鳕相比, 太平洋鳕与格陵兰鳕在系统进化上更为亲近,这似乎也能解释为什么太平洋鳕和大西洋鳕在D-Loop区上有如此巨大的差异。
线粒体基因组进化速度快于物种进化速度, 另外不同地理分布有可能造成动物体DNA的变异, 如太平洋鳕和大西洋鳕2个物种, DNA序列同源性很高, 单独比较分析某一个编码基因时差别更小, 但是它们往往在生活习性等方面有着较大的区别。目前的技术发展水平很难分析这些线粒体基因组,尤其是控制区上的微小变化所导致的结果, 进一步分析线粒体基因组的变异不仅可以分析不同物种之间的遗传关系, 还可为解决因不同地理分布而导致物种之间的变异等问题提供数据支持。