宋兴超,孟金柱,赵园园,吴震洋,安清明
(铜仁学院农林工程与规划学院贵州省梵净山地区生物多样性保护与利用重点实验室,贵州 铜仁 554300)
脊椎动物生长激素(growth hormone,GH)由脊椎动物脑垂体前叶嗜酸性细胞合成和分泌,它和催乳素(prolactin,PRL)及胎盘催乳素(placental lactogen,PL)属同一个基因家族,是与脊椎动物生长发育关系最为密切的一种单链多肽类激素[1]。GH的主要生物学功能是促进蛋白质和核酸的合成[2],参与脂肪分解和葡萄糖吸收[3],加速脊椎动物骨骼和肌肉的生长发育[4]等。此外,GH 基因是一种宝贵的基因资源,在转基因畜禽品种培育和生长激素制剂开发等方面具有重要的应用价值。迄今为止,国内外对该基因的研究主要集中于马鹿[5]、梅花鹿[6,7]、狐狸[8]、山羊[9,10]和家兔[11,12]等哺乳动物与鸡[13]、鸭[14]等禽类以及鱼类[15,16]GH 基因的克隆及其变异位点与重要经济性状的相关性等方面。随着基因组学大数据的逐渐更新,美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的GenBank 数据库中也集中收录了大量物种GH 基因相关DNA 或mRNA 序列,然而,在分子水平上对生长性状相关基因的研究还相对薄弱,远远满足不了当今组学时代研究基因对生长性能影响机制的需要,同时也较少有研究者从比较基因组学角度探究不同物种GH 基因的变异及遗传多样性。为此,本研究选取GenBank公共数据库中已报道的马鹿等21 个物种的GH基因完整编码区序列(codingregionsequence,CDS),利用比较基因组学和生物信息学结合的方法分析了不同物种间和物种内GH 基因的遗传多样性,旨在探明该基因在不同物种种间和种内的遗传变异及分化特征,为进一步研究其调控动物生长、发育和分化等方面的分子遗传学机制提供基础资料,同时也为探寻调控鹿科动物特殊经济性状的重要候选基因以及马鹿的分子育种工作的深入开展奠定科学依据。
从美国国立生物技术信息中心(http://www.ncbi.nlm.nih.gov/)的GenBank 公共数据库中查询并下载马鹿等21 个物种的150 条GH 基因CDS 序列(表1)。
表1 不同物种GH 基因序列信息Table 1 The information of sequences for GH genes in different species
续表
首先,利用BioEdit软件(Version 3.3.19.0)的Clustal W 方法对选取的150 条序列的完整编码区进行多重比对,运用DnaSP(Version 4.0.10.4)软件对比对结果进行遗传变异及多样性分析,包括多态位点(S)、单一多态位点(SP)和简约多态位点(PIP)等参数,进一步生成单倍型,计算物种间核苷酸歧异度(Dxy)、净遗传距离(Da)、同义替换位点数(SS)、非同义替换位点数(NSS)以及密码子有效值(ENC)和偏爱指标(CBI)。其次,采用MEGA 5.05 软件的UPGMA 方法进行物种间聚类,分析物种间亲缘关系的远近。然后利用Prot-Param、SignalP[17]等相关在线软件预测不同物种GH基因核苷酸及编码氨基酸序列结构特征。最后基于PHD 和SWISS-MODEL 同源建模的方法进行马鹿GH 蛋白二级与三维结构分析。
2.1.1 多态位点、单倍型和多样性分析 在所研究的共有片段为576 bp 的不同物种150 条序列中,共发现426 个多态位点,其百分率约为63.68%,包括单一多态位点(S)43 个,占6.43%,简约多态位点(PIP)383个,百分率为57.25%。21 个物种的GH 基因序列共生成92 种单倍型,单倍型多样性(Hd)为0.985,平均核苷酸差异数目(K)为89.10,核苷酸多样性()为0.1547。不同物种内的多态位点数和单倍型数不一致表明GH基因在种群间存在遗传变异(表2)。其中,山羊和原鸡GH 基因的多态位点数较多,说明这两个物种的GH基因多态性比较丰富。GH 基因在狨多态位点数为0,仅生成1 种单倍型,初步表明GH 基因编码区核苷酸多态性在物种间比在物种内丰富,也可能与该物种样本含量较少有关,有待进一步研究证实。猕猴GH 基因的多态位点、平均核苷酸差异数目最多,核苷酸多样性也最高,经查阅猕猴GH 基因序列(GenBank 登录号:U02293)为GH 基因的一种变异体,利用BioEdit软件多重比对后发现该序列变异位点很多,这可能是导致猕猴核苷酸多样性最高的直接原因。
表2 不同物种GH 基因序列多态信息、单倍型及遗传多样性Table 2 Polymorphic information,haplotype and variety of GH gene in different species
续表
2.1.2 核苷酸歧异度、净遗传距离和遗传分化 各物种间净遗传距离(Da)在0.004~0.474 之间,核苷酸歧异度(Dxy)在0.013~0.485 范围(表3)。不同物种间净遗传距离和核苷酸歧异度的变化范围均较大,说明不同物种之间的遗传分化比较明显。其中,绵羊和山羊之间的净遗传距离和核苷酸歧异度最小,表明绵羊和山羊之间的亲缘关系在所分析的16 个物种间最近;Da的最大值出现在人、狨与草鱼之间,而猕猴和草鱼之间的Dxy 值最大,说明人、狨、猕猴与草鱼间的亲缘关系最远,初步推测人、狨与草鱼的GH 基因在进化过程中的遗传分化较大。
表3 不同物种间净遗传距离(Da)和核苷酸歧异度(Dxy)Table 3 Net genetic distance and nucleotide divergence in different species
根据不同物种间的遗传分化指数(Gst),利用MEGA 5.05 软件的未加权配对组(UnweightedPairGroupMethod with Arithmetic mean,UPGMA)方法构建16 个物种GH 基因的分子聚类图(图1)。由图1可知,绵羊与山羊的亲缘关系较近,草鱼与其他物种间的亲缘关系最远,这与NCBI 中公布的动物形态、生理分类学结果基本相符。
图1 根据16 个物种GH 基因的遗传分化指数构建的分子聚类图Fig.1 Phylogenetic tree based on genetic differentiation of GH gene of 16 different species
2.1.3 编码区核苷酸序列长度及终止密码子的差异 由表1可知,不同物种GH 基因完整编码区序列长度为633~654 bp,大多数物种GH 基因CDS 长654 bp,家马、家犬、家猫、水貂、小家鼠、褐家鼠、原鸡、火鸡、鹌鹑、野鸭和鹅GH 基因CDS 为651 bp,草鱼和斑马鱼为633 bp。终止密码子TAG 普遍用于马鹿、绵羊等哺乳动物及草鱼、斑马鱼等鱼类,鸟类中原鸡、鹌鹑、野鸭和鹅采用TGA 作为GH 基因的终止密码子。
2.2.1 密码子偏爱性 本研究选取的各个物种GH基因序列编码区密码子有效值(Effective Number of Codon,ENC)为42.056(<61),密码子偏爱指标(Codon Bias Index,CBI)为0.566(>0),经过卡方检验并计算未校正的2 值为0.702,说明GH 基因对密码子有较强的偏爱性。
2.2.2 同义替换和非同义替换 不同物种的150 条GH基因序列编码区中同义替换平均位点数为133.73,核苷酸多样性均值为0.310 2,非同义替换平均位点数为418.27,核苷酸多样性均值为0.099 8。含有两条序列以上物种的同义替换位点数(Synonymous site,SS)为140.42~158.70,非同义替换位点数(Non-synonymous site,NSS)为478.25~489.28。本研究结果表明,所选物种GH 基因的同义替换位点数明显低于非同义替换位点数,说明所分析的这些不同物种在进化过程中可能受到正选择的影响。猕猴的非同义替换位点数较其他物种多,初步表明猕猴GH 基因编码区的非同义替换较其他物种高。
表4 不同物种GH 基因同义替换和非同义替换位点数Table 4 Synonymous and nonsynonymous substitution of GH gene among different species
2.2.3 不同物种GH 基因编码氨基酸序列理化特性分析 利用在线工具ProtParam(http://web.expasy.org/protparam/)和SignalP 4.0(http://www.cbs.dtu.dk/services/SignalP/)分别预测不同物种GH 蛋白的理化特性及信号肽裂解位点(表5)。结果表明,21 个不同物种GH 基因编码的氨基酸序列长度为210~217 aa,相对分子质量为23 653.23~24 959.61 Da,大多数物种的理论等电点在7.00 以下(马鹿、绵羊、山羊、牛、火鸡和鹌鹑除外),为一种酸性蛋白,不稳定系数和亲水性值分别为29.81~53.44 与(-0.286)~(-0.080),推断大多数物种GH 蛋白属亲水性不稳定蛋白质。GH 蛋白在N 端存在一段信号肽,不同物种信号肽的长度及裂解位点稍有差异,但亲缘关系较近的物种裂解位点大致相同。
表5 不同物种GH 基因编码氨基酸序列理化特性参数及信号肽裂解位点Table 5 Physicochemical characteristic parameters and cleavage sites of GH amino acid in different species
根据PHD(http://npsa-pbil.ibcp.fr)方法预测马鹿GH 蛋白二级结构,由图2可知,马鹿GH 蛋白具有生长激素特征性的5 个螺旋区(图中下划线所示:H1~H5)。二级结构主要为-螺旋(67.74%),其次是无规则卷曲(32.26%),它将5 个-螺旋区连接起来。
图2 马鹿GH 蛋白二级结构Fig.2 Secondary structure prediction of the GH protein in Cervus elaphus
为精确揭示马鹿GH 蛋白的高级结构,本研究采用SWISS-MODEL 同源建模方法构建了马鹿GH 蛋白的三维结构模型。将马鹿GH 蛋白(GenBank 登录号:CAJ18232)进行模板比对,发现该蛋白28~216 位氨基酸与人Growth Hormone Prolactin 1~186 位氨基酸同源性达到64%,利用SPDBV 软件显示(图3),初步表明马鹿GH 蛋白的三级结构与其他物种相似,28~216 位氨基酸包括4 个反向平行的-螺旋,推测与GH 蛋白功能相关的位点主要集中在这4 个螺旋中,反向平行的空间结构更有利于疏水基团暴露于蛋白空间结构的外侧,有利于功能的发挥。
图3 马鹿生长激素(GH)蛋白三级结构Fig.3 Tertiary structure of GH protein in Cervus elaphus
从本研究所分析物种GH 基因核苷酸序列多态信息、单倍型及其多样性等参数可以看出不同物种的相关遗传变异参数存在较大差异,初步表明GH 基因存在种间遗传变异,种内相对保守,即种间遗传多样性较种内丰富。研究显示,GH基因在狨中仅生成1 种单倍型,分析认为,除了GH 基因在种内比较保守外,还可能与该物种样本量较少有关。本研究结果还表明,不同物种间的核苷酸歧异度、净遗传距离均较大,这说明不同物种间的遗传分化已经十分明显。山羊和绵羊以及山羊和牛间的核苷酸歧异度最小,表明其亲缘关系很近;草鱼和猕猴间的核苷酸歧异度最大,表明二者间的亲缘关系最远。从16 个物种的150 条GH 基因序列构建的聚类图也可看到,山羊和绵羊之间的亲缘关系最近,而斑马鱼、草鱼和其他物种间具有较远的亲缘关系。上述结果与NCBI 中动物分类学基本一致。
本研究结果表明,生长激素GH 多肽链表现为亲水性,理论等电点除马鹿、山羊、绵羊、牛、火鸡和鹌鹑外,其他物种均小于7.00,表现为酸性蛋白质,等电点高于7.00 的物种尚需进一步的生化试验进行验证。通过ProtParam 分析不同物种GH 蛋白发现其不稳定系数在29.81~53.44,软件分析得出大多数物种GH蛋白不稳定(计算指数<40:稳定,计算指数>40:不稳定)。对21 个物种的GH 蛋白信号肽分析结果表明,这些物种的GH 蛋白都有一段约26 个氨基酸的信号肽,但亲缘关系较近的物种裂解位点基本一致,可以推断该基因在游离的核糖体上起始合成后再进行蛋白转运从而发挥作用。蛋白质在翻译过程中,物种间或物种内的不同基因在密码子的使用上一般都有明显的偏爱性[18],本研究也得出GH 基因对密码子具有较强的偏爱性。蛋白质在翻译过程中某些碱基会发生一定程度的替换,包括同义替换和非同义替换。同义替换现象的发生大多不受自然选择的控制,同义替换速率远远高于非同义替换速率,且这种现象发生的速率与基因密切相关,被认为是净化选择的结果。而在某些基因中,非同义替换速率则远远高于同义替换速率,前人分析在于达尔文正向选择[19]。本研究结果显示,所分析物种GH 基因的非同义替换位点数明显高于同义提换位点数,初步表明,所分析16 个物种在进化过程中很大程度上可能受到达尔文正向选择的影响。利用DnaSP软件分析发现,狨GH 基因中非同义替换位点数为488.33,明显多于其他物种,表明狨GH 基因编码区的非同义替换较其他物种更为明显,其原因尚待进一步深入分析。
蛋白质结构、功能及其关系的分析是蛋白质组学研究中的一个重要组成部分。通过分析未知功能或新发现蛋白质的结构,确认其功能单位或结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,为预测新基因的结构和功能提供参照[20]。本研究预测马鹿GH 蛋白二级结构的方法为PHD,主要以-螺旋和无规则卷曲为主,-螺旋通常是脊椎动物的高度保守序列,而无规卷曲则将-螺旋连接起来,这与王磊等利用Jpred 3 在线软件预测牦牛[21]和汪艳宏[22]采用DNAman 软件分析赤鳞鱼GH 蛋白二级结构基本一致。说明马鹿GH 基因编码氨基酸序列具有生长激素典型的螺旋结构。蛋白质三级结构的预测和分析,对理解蛋白质结构和功能之间的关系有着极其重要的意义。本研究通过SWISS-MODEL同源建模方法构建了马鹿GH 蛋白的三级结构,马鹿GH 蛋白与其他物种的空间结构相似,均形成4 个反向平行的生长激素特征性螺旋结构模式,从侧面更好地诠释了GH 蛋白功能位点。
本研究基于比较基因组学和生物信息学方法分析发现GH 基因在21 个物种间的遗传多样性比较丰富,种内相对保守;山羊和绵羊之间的亲缘关系最近,斑马鱼、草鱼和其他物种间具有较远的亲缘关系;GH蛋白属不稳定酸性蛋白,均存在1 个信号肽且亲缘关系较近的物种具有相似的裂解位点;马鹿GH 蛋白三级结构存在4 个反向平行的互补螺旋。本研究结果可为进一步研究GH 基因功能及其应用奠定理论基础。