宋兴超,孟金柱,赵园园,吴震洋,安清明
(铜仁学院农林工程与规划学院 贵州省梵净山地区生物多样性保护与利用重点实验室,贵州 铜仁 554300)
我国山羊遗传资源较为丰富,贵州白山羊属肉用型优良地方山羊品种,该品种已被列入《贵州地方畜禽遗传资源志》《中国畜禽遗传资源志羊志》和农业农村部最新颁布的《国家畜禽遗传资源目录》[1,2],因其具有抗逆性强、耐粗饲、肉质细嫩、膻味轻和肉味鲜美等优点,深受消费者喜爱,但该品种存在屠宰率低、净肉率低及生长速度较慢等缺点[3],限制了地方山羊品种养殖产业的进一步发展。在保证地方品种原有优质特点的前提下,如何提高其生长速度和成年体重是目前贵州地方山羊品种改良及山羊产业规模化发展的一个关键核心问题,然而传统育种方法周期长,遗传进展缓慢且效果不显著。基于分子水平,筛选山羊生长性状的关键基因及相关分子标记,并进行标记辅助选择育种,可加快肉用山羊品种选育的遗传进展,同时也是改良贵州特色地方山羊品种的有效策略。
肌肉生长抑制素(Myostatin,MSTN)又称生长与分化因子8(Growth and differentiation factors 8,GDF8),属于转化生长因子β超家族成员,是控制肌肉生长发育的重要负调控因子[4],解除MSTN 基因的生长抑制功能是提高畜禽肌肉产量的一种有效途径。小鼠MSTN基因被敲除后,可加快肌肉细胞增殖及增加骨骼肌含量,而过表达MSTN 基因小鼠的肌肉量明显降低[5,6]。MSTN 基因第3 外显子编码的蛋白是MSTN 成熟肽部分,也是该基因的主要功能域。陈晨等[7]研究发现,MSTN基因第3 外显子nt175~180 缺失突变使MSTN蛋白缺失一个蛋白结合位点,可导致小鼠出现肌肉肥大表型。钟东明等[8]利用RACE 技术克隆了大刺鳅MSTN 基因全长cDNA 序列,其编码蛋白的N 末端具有分泌必需的信号肽序列。Bi 等[9]检测MSTN 基因5'UTR 存在5 bp 插入突变与内蒙古白绒山羊胸深显著相关(P=0.003)。
目前,牛、羊、猪、家禽及鱼类等主要农业经济动物MSTN 基因序列已被相继鉴定且该基因的变异可引起肌肉产量及肉质性状的变化,然而,目前鲜见贵州白山羊MSTN 基因分子结构特性及其分子系统进化方面的相关报道。本研究以贵州白山羊MSTN基因为研究对象,应用比较基因组学方法对该基因编码区核苷酸组成及蛋白结构特性进行了相对全面的生物信息学预测与系统进化分析,旨在为进一步解析贵州白山羊肌肉发育相关候选基因及其调控肉质性状的遗传机制提供借鉴与参考,同时也为贵州白山羊功能基因组学深入研究及特色山羊品种遗传资源合理保护和利用奠定理论基础。
通过美国国家生物信息中心NCBI 网站(http://www.ncbi.nlm.nih.gov/)的Nucleotide 数据库中筛查获得贵州白山羊MSTN 基因(登录号:EF588022)核苷酸序列。同时,下载与贵州白山羊相似性较高的绵羊(MH025940)、牛(JQ711180)、马鹿(EF629535)、猪(AY208121)、家马(KY746356)、人(NG-009800)、小家鼠(AY204900)、褐家鼠(NM-019151)、家犬(NM-001002959)、北极狐(AY606017)、赤狐(FJ966248)、貉(FJ966250)、家鸡(NM_001001461)和绿头野鸭(AF440861)MSTN 基因核苷酸与对应氨基酸序列。
将下载的贵州白山羊MSTN 基因核苷酸序列导入在线软件GENSCAN(http://genes.mit.edu/GENSCAN.html),预测该基因结构组成。运用ExPASy(Expert Protein Analysis System)在线服务平台ProtParam(https://web.expasy.org/protparam/)预测MSTN 基因编码蛋白质一级结构理化参数。运行里昂大学法国国家科学研究中心开发的在线程序(https://npsa-prabi.ibcp.fr/),基于蛋白质二级结构分类识别(Discrimination of protein secondary structure Class,DSC)、多元线性回归组合(Multivariate linear regression combination,MLRC)和PHD 方法分析MSTN 蛋白二级结构,并参考Skolnick 等[12]判断蛋白质分类方法综合预测其二级结构类型。通过SignalP 4.1、TMHMM 2.0、Scratch Predict Protein 和NetPhos 3.1 在线软件(https://services.healthtech.dtu.dk/services/NetPhos-3.1/)分别预测贵州白山羊MSTN 蛋白潜在的信号肽、跨膜区、二硫键和磷酸化位点。利用CDART在线工具(https://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps)、SMART软件(http://smart.embl.de/)和Motif Scan 程序(https://myhits.sib.swiss/cgi-bin/motif_scan)分别分析贵州白山羊MSTN 蛋白结构域和功能模体。利用DNASTAR Lasergene 17.3 软件中MegAlign程序进行贵州白山羊与其他物种MSTN 基因核苷酸和编码氨基酸的相似性分析;基于MEGA 5.0 软件构建贵州白山羊与其他物种MSTN 基因序列的系统进化树。
MSTN 基因结构分析表明,贵州白山羊基因包括完整的3 个外显子、2 个内含子及部分5′UTR(222bp),2 个内含子均以“GT”开始,结束于“AG”;编码序列(coding sequence,CDS)全长1 128 bp,起始密码子为ATG,TGA 为终止密码子,且其外显子和内含子碱基AT 含量均明显高于GC,见表1。
表1 贵州白山羊μgene in Guizhou white goat
2.2.1 一级结构理化参数 贵州白山羊MSTN 基因共编码375 个氨基酸,由20 种常见氨基酸组成(表2),其中,亮氨酸(9.9%)含量最高,色氨酸(1.6%)含量最低,带正电荷氨基酸(Arg+Lys)和带负电荷氨基酸(Asp+Glu)均为48 个。ProtParam 在线软件预测表明,贵州白山羊MSTN 蛋白化学分子式为C1912H3018N512O561S21,由6 024 个原子组成,分子质量为42.827 35 ku,理论等电点(PI)为7.01,属于弱碱性蛋白。贵州白山羊MSTN 蛋白不稳定指数44.87,为不稳定蛋白质(计算指数<40:稳定,计算指数>40:不稳定);脂肪族氨基酸指数为84.45;亲水性总平均值(Grand average of hydropathicity,GRAVY)为 0.411,初步推测该蛋白具有较强的亲水性。
表2 贵州白山羊MSTN 蛋白氨基酸组成Table 2 Amino acid composition of MSTN protein in Guizhou white goat
2.2.2 二级结构 多种在线软件综合预测蛋白质二级结构表明,无规卷曲、延伸链和α-螺旋为贵州白山羊MSTN蛋白的主要二级结构,属混合型二级结构,见表3。
表3 贵州白山羊MSTN 蛋白二级结构综合分析Table 3 Comprehensive analysis of secondary structure of MSTN protein in Guizhou white goat
2.2.3 信号肽、跨膜区、二硫键与磷酸化位点分析 信号肽预测表明,C、Y 和S 分别表示原始剪切位点(Raw cleavage site)、综合剪切点(Combined cleavage site)和信号肽(Signal peptide)的分值,当C 值较高且S 分值由高转低的位点是典型信号肽的可能剪切点(图1)。由图1 可知,贵州白山羊MSTN 蛋白C 端存在1 段18 个氨基酸的潜在信号肽,剪切位点为第18~19 位氨基酸位点(…LVA-GPV…)。
图1 贵州白山羊MSTN 蛋白信号肽分析Fig.1 Analysis of signal peptide for MSTN in Guizhou white goat
TMHMM 2.0 分析表明,贵州白山羊MSTN 蛋白不存在跨膜结构域,为非跨膜蛋白。Scratch Protein Predictor 预测蛋白质二硫键发现,13 个半胱氨酸残基(Cys)中,10 个Cys共形成5 对二硫键,分别为:39~42、272~281、137~138、309~339 和313~340 位氨基酸。NetPhos 3.1 在线软件分析(分值>0.7)显示,贵州白山羊MSTN 蛋白含有16 个可被激酶磷酸化的位点,其中1 个酪氨酸(Tyrosine,Y)位点、4 个苏氨酸(Threonine,T)位点和11 个丝氨酸(Serine,S)位点,包括5 个蛋白激酶C(ProteinkinaseC,PKC)磷酸化位点,分别位于143位(FFKFSSKIQ)、144位(FKFSSKIQH)、205 位(GIWQSIDVK)丝氨酸和187 位(GTRYTGIRS)、210 位(IDVKTVLQN)苏氨酸,其余11 个则为无特异性激酶位点。
贵州白山羊MSTN 蛋白存在2 个重要功能域:转化生长因子-β-生长分化因子8(TGF-β-GDF 8)和转化生长因子b 前肽超家族(TGFb-propeptide super family),分别位于第268~375 和42~236 位氨基酸;该蛋白包含1 个信号肽,1 个TGFb-propeptide 结构域,1个转化生长因子-β家族(TGFB)和2 个低复杂度结构域,分别位于1~18、37~267、281~375、99~110 和136~145 位氨基酸。贵州白山羊MSTN蛋白存在5 个酪蛋白激酶II 磷酸化位点(Casein kinase II phosphorylation site,CK2):51~54(SRLE)、105~108(SLED)、123~126(TESD)、240~243(TFPE)、264~267(SRRD);1 个亮氨酸拉链模块(Leucine zipper pattern):216~237(LKQPESNLGIEIKALDENGHDL)位氨基酸,符合Lx(6)-L-x(6)-L模块的结构特征;3 个N-豆蔻酰基化位点(N-myristoylation site,MYRISTYL):37~42(GLCNAC)、183~188(GTRYTG)和201~206(GIWQSI)位氨基酸;5 个蛋白激酶C磷酸化位点(Protein kinase C phosphorylation site,PKC):50~52(SSR)、143~145(SSK)、191~193(SLK)、260~262(TPK)和264~266(SRR)位氨基酸;1 个酪氨酸激酶磷酸化位点(Tyrosine kinase phosphorylation):178~186(KPMKDGTRY)位氨基酸;1 个EF-手型钙结合域(EF-hand calcium-binding domain):99~111(DDSSDGSLEDDDY)位氨基酸;1个转化生长因子-β前体肽(TGF-beta propeptide)和1 个转化生长因子-β样结构域(Transforming growth factor beta likedomain,TGF-beta):分别位于278~375和39~257位氨基酸。
贵州白山羊与绵羊、牛、马鹿、猪、家马、人、小家鼠、褐家鼠、家犬、北极狐、赤狐、乌苏里貉、家鸡和绿头野鸭核苷酸相似性分别为:99.47%、96.45%、96.28%、94.68%、93.71%、92.38%、89.12%、88.59%、91.22%、90.60%、90.78%、90.96%、82.54%和82.89%,氨基酸序列相似性分别为:100%、93.33%、94.93%、95.47%、94.40%、94.13%、92.02%、90.69%、93.07%、92.53%、93.07%、93.07%、87.73%和87.73%。由系统进化树可知,贵州白山羊与绵羊同属羊亚科,聚为一支,亲缘关系最近,与家鸡和绿头野鸭亲缘关系最远,见图2。
图2 不同物种MSTN基因编码核苷酸序列系统进化树Fig.2 Phylogenetic tree based on the nucleotide sequence of MSTN gene among different species
基因是决定家畜重要经济性状的遗传基础,随着测序成本的逐渐下降及大数据组学的不断更新,美国国家生物信息中心数据库也注释了大量不同物种的关键基因序列,为进一步研究相关基因调控经济性状的功能提供了便利。本研究通过整合生物信息学与比较基因组学方法对NCBI 数据库中贵州白山羊MSTN基因进行了较为全面的综合分析。首先,从该基因编码区核苷酸序列基本结构组成、编码蛋白质的理化参数、二级结构、信号肽、跨膜区及关键功能结构域等方面做简要预测,其次分析了该基因编码氨基酸序列在不同物种间的同源性,并基于氨基酸序列构建了15 个物种的系统进化树,从分子水平探讨了它们之间的进化关系。该结果为深入研究MSTN 基因调控不同物种骨骼肌生长发育的分子机制及改良畜禽肉质性状提供了比较全面的生物学基础信息。GenBank 数据库中登录的贵州白山羊MSTN 基因全长为5 211 bp,由222 bp启动子区、3 个外显子和2 个内含子(长度分别为1 834 bp和2 027 bp)组成。编码区序列长度为1 128 bp,外显子1 全长372 bp,翻译第1~124 位氨基酸,外显子2 全长375 bp,翻译第125~249 位氨基酸,外显子3 全长381bp,翻译第250~375 位氨基酸。贵州白山羊基因结构与其他哺乳动物一样,外显子和内含子连接处符合RNA 剪接信号“GT…AG”法则[10]。贵州白山羊MSTN 基因编码区A+T 含量为57.89%,高于G+C含量,这与梁春年等[11]和Stefaniuk 等[12]分别报道的牦牛和马的研究结果基本一致。除此之外,贵州白山羊MSTN 蛋白包括1 个由18 个氨基酸组成的N-端信号肽、1 个TGFb-propeptide 结构域,1 个转化生长因子-β家族(TGFB)和2 个低复杂度结构域,具有转化生长因子家族成员典型的结构域,这些预测的潜在特有结构域与绵羊[13]、马鹿[14]及福建白兔[15]MSTN 蛋白研究结果一致。信号肽位于分泌蛋白的N 端,它对分泌蛋白起着重要引导作用[16]。Martinez-ruiz 等[17]研究表明,改造信号肽可以大大提高外源蛋白的表达量,因此,可对预测的贵州白山羊MSTN 基因信号肽位置进行修饰,减少MSTN 蛋白在贵州白山羊体内的表达,以进一步提高该品种的肌肉增长速度,提高产肉量。由MSTN 基因编码氨基酸序列相似性比对结果推测,贵州白山羊与绵羊、牛和马鹿的亲缘关系最近,与啮齿目、鸡形目相对较远,这与相似性比对分析的结果相符,也与15 个物种的形态学分类及实际演化顺序一致,符合物种的进化规律,而且也反映了不同物种MSTN 编码蛋白结构的一致性对其生物学功能的重要意义。
在肉用动物新品种选育及培育过程中,生长、胴体及肉质性状作为其重要的经济性状,是家养动物新品种选育工作的一项关键育种目标。体重和日增重是肉用山羊的关键性状,在肉类加工业中具有重要的经济价值。作为一种高原山地特色肉用山羊品种资源,如能挖掘调控生长性状关键基因或筛查获得与肌肉发育连锁的分子标记,基于分子水平探究其蛋白关键功能位点变异与性状间的关系,可为后续利用基因敲除和过表达技术解析基因功能以及运用基因编辑技术开展生长性状的遗传改良提供分子育种策略。MSTN 基因作为肌肉生长的负调控因子,在畜禽中的研究进展表明,该基因活性的降低或丧失会造成其肌肉与其他组织的比例大大提高[18,19]。在山羊MSTN基因研究中,Bi 等[20]研究表明,MSTN 基因5'UTR 中5 bp 缺失(TTTTA)与陕北白绒山羊体高和胸宽指数显著相关(0.01 <P<0.05),可作为正调控DNA 标记用于优良个体的选择育种。Kolenda等[21]研究发现,在卡缅涅茨羊和波美拉尼亚羊MSTN 基因均存在多个SNP 位点,并且某些多态性位点可以作为生长性状的遗传标记。Na等[22]利用PCR 产物直接测序方法在大足黑山羊、酉州黑山羊、波尔山羊和努比亚山羊群体的MSTN基因内含子1、2 和3 中共检测到20 个SNPs,其中,联合基因型(CT-AA-TT-CC-CC)个体具有较高的初生重和断奶重(P <0.05)。刘铮铸等[23]基于PCR-RFLP 方法分析了我国主要地方山羊品种MSTN 基因内含子2 和外显子3 的遗传变异。在贵州白山羊MSTN 基因应用方面,可以进一步筛选MSTN 基因突变的个体,然后通过分子标记辅助选择技术培育出产肉率高的优良个体。