刘鹏程,张 继,邱淦远,龚 俞,李雪松,李 维,张依裕,刘若余,*
(1.贵州大学 动物科学学院,高原山地动物遗传育种与繁殖教育部重点实验室,贵州 贵阳 550025;2.贵州省畜禽遗传资源管理站,贵州 贵阳 550001)
生物体的生长发育受到外界营养条件和体内信号通路等多方面的调控,其中雷帕霉素靶蛋白(mTOR)是一种丝氨酸/苏氨酸激酶,mTOR信号通路可对细胞外包括生长因子、营养素、胰岛素、氨基酸、葡萄糖等多种刺激产生应答,在细胞中通过mTORC1和mTORC2两种复合物发挥作用。其中,mTORC1信号通路能够感受一系列细胞内外环境因素的变化,如能量水平、氨基酸浓度、生长因子等,进而通过蛋白质合成、脂肪生成、能量代谢、抑制自噬作用调节细胞生长;对mTORC2的研究较少,其主要在肌动蛋白细胞骨架、细胞存活及代谢等方面发挥重要作用。TBC1D7(TBC1 domain family,member 7)是tre2-bub2-cdc 16结构域家族成员7,有研究证明TBC1D7是mTORC1上游TSC1-TSC2复合体的第三个子单元。近年来有研究发现,17基因对苍蝇和小鼠的生长存在调控作用,在果蝇中可调控ILP2(insulin like pepdite 2)的合成与分泌,并且不依赖于TSC复合物,进而会影响果蝇个体的生长发育、衰老和寿命,在敲除17基因后果蝇和小鼠呈现个体变大和寿命变短的现象。可见,17基因在动物的生长发育中起调控作用,但17基因调控畜禽的生长发育还未检索到相关研究。
关岭牛是主产于贵州省关岭县的优质地方黄牛品种,是贵州省四大黄牛之一,因具有肉质优良、体质健壮、耐粗饲和耐役用等优点而受到人们青睐。但其也存在体型较小,后躯欠发达,生长性能较差等不足。因此,充分利用中国地方品种优势,并应用现代生物技术快速培育生长速度快、屠宰率和净肉率高的新型地方黄牛品种(系),是肉牛选育的重要方向。DNA混合池是将提取到同样特质的个体DNA按比例混合得到的,再经PCR扩增测序后可以直接检测SNPs,该方法成本低且效率高。
17基因定位于牛的23号染色体,为了研究17基因的性质和功能,以便后续深入探究其对关岭牛生长性状的影响,提高关岭牛分子辅助选择效率。本实验以关岭牛为研究对象,采用DNA混合池和直接测序法对关岭牛17基因单核苷酸多态位点(single nucleotide polymorphism sites,SNPs)进行筛选,并对其进行生物信息学分析,探究该基因编码蛋白理化性质、功能信息、遗传特性。为后续在细胞水平、基因编辑方向研究17基因与对牛生长性状的调控提供基础数据。
在贵州省关岭县关岭牛核心育种场对109头关岭牛进行尾根静脉采血。采用DNA提取试剂盒(北京天根生化科技有限公司)从冻存关岭牛血样中提取基因组DNA,采用UV2100紫外分光光度计(厦门群创科技有限公司)检测每个DNA样品浓度,基因组DNA以1%琼脂糖凝胶电泳检测后-20 ℃冰箱保存备用。
根据GenBank数据库中牛的17基因序列(登录号NC_037350.1),利用Primer primer 5.0设计10对特异性引物(表1),引物由生工生物工程(上海)股份有限公司合成。
表1 关岭牛TBC1D7基因引物信息
取109个单样母液DNA各5 μL构建DNA混合池,以DNA混合池为模板进行PCR扩增。PCR扩增体系共20 μL,其中:模板DNA 1 μL,2×PCR Master Mix 10 μL,上下游引物各1 μL,蒸馏水7 μL。PCR反应程序:94 ℃预变性6 min;94 ℃变性30 s,63 ℃退火50 s,72 ℃延伸5 min,30个循环;最后72 ℃延伸5 min。
用凝胶回收试剂盒纯化回收PCR产物后送至生工生物工程(上海)股份有限公司进行测序,测序结果用DNAStar软件中的MegAlign和Editseq程序进行比对和拼接,获得关岭牛17基因编码区序列。采用Chromas软件查看测序图谱,MWSnap序列分析软件标尺测量关岭牛17基因各突变位点等位基因峰图高度,对各等位基因频率进行估算。
参照文献[7-9]通过在线软件(RNAfold web server)预测关岭牛17基因mRNA二级结构;运用 ExPASy 服务器分析关岭牛TBC1D7蛋白理化性质、亲水性和疏水性;用 TMHMM 软件预测关岭牛TBC1D7蛋白跨膜结构;采用 SignalP 4.0在线工具对关岭牛TBC1D7蛋白进行信号肽预测;利用NetNGlyc 1.0 Server在线软件预测关岭牛TBC1D7蛋白的N-糖基化位点;用SOPMA软件预测关岭牛TBC1D7蛋白二级结构。运用在线网站SMART与STRING分别预测17基因编码蛋白功能结构域和相关互作蛋白。
采用分段扩增方法获得包含关岭牛17基因CDS区的10段基因片段,PCR扩增产物经1.5%琼脂糖凝胶电泳检测,条带单一且明亮清晰,特异性好。产物大小分别为397、248、197、245、250、226、227、938、783、478 bp,与目标片段大小一致(图1)。
M,DL2000 DNA marker; 1~8.3,引物P1~P8.3的 PCR扩增产物。
根据测序峰图,将关岭牛17基因测序与NCBI中公布的牛17基因CDS区序列进行比对,以该基因CDS区第1位碱基开始计数的方式命名。在第5外显子发现2个SNPs,分别为c.402T>C、c.414A>G。在第6外显子发现2个SNPs,分别为c.609C>T、c.648T>C。由于突变位点核苷酸的密码子简并现象,4个位点的突变都未引起编码氨基酸的改变,均属同义突变(图2)。
图2 关岭牛TBC1D7基因测序结果
由表2可知,关岭牛17基因5个突变位点的等位基因频率在突变前后皆存在差异,对比发现,c.402T>C位点突变前后等位基因频率差异最大为0.218 4,c.414A>G位点次之。c.609C>T和c.648T>C位点突变前后等位基因频率差异较小。
表2 关岭牛TBC1D7基因突变位点等位基因频率估算
2.4.1 关岭牛17基因mRNA二级结构预测分析
通过在线软件(RNAfold web server)预测参考序列(XP_027306738.1),对比参考序列和关岭牛17基因4个SNPs 的mRNA二级结构。结果表明,SNPs 突变后引起mRNA二级结构改变,并导致mRNA二级结构的最小自由能发生改变(图3)。其中c.402T>C、c.414A>G、c.609>T和c.648T>C分别导致mRNA二级结构的最小自由能由突变前的-991.40 kcal·mol变为-993.20 kcal·mol、-992.70 kcal·mol、-993.30 kcal·mol和-990.20 kcal·mol。
图3 关岭牛TBC1D7基因mRNA 二级结构
2.4.2 关岭牛TBC1D7蛋白的理化性质预测分析
关岭牛17基因CDS 区全长882 bp,包含1个完整地开放阅读框(open reading frame,ORF),既有起始密码子也有终止密码子,编码氨基酸293个,蛋白质分子式为CHNOS,分子量约为33 904.44 ku,理论等电点(pI)约为6.76,半衰期30 h,不稳定指数为52.53。由表3可知,亮氨酸数量最多,共35个,占整个氨基酸组成的11.9%;色氨酸数量最少,占整个氨基酸组成的1.7%,正电荷残基总数(Arg+Lys)37个,负电荷残基总数(Asp+Glu)38个。
表3 TBC1D7基因编码蛋白的氨基酸组成
2.4.3 关岭牛TBC1D7蛋白疏水性/亲水性预测分析
据预测图(图4)可知。第238位的缬氨酸(Val)疏水性最强为(2.944),第83位的天冬氨酸(Asp)亲水性最强为(-2.556)。在整条肽链中,亲水性氨基酸占62.46%,疏水性氨基酸占37.54%,总体表现为亲水性。由此可预测关岭牛TBC1D7蛋白为一种可溶性蛋白。
正值表示疏水,负值表示亲水。
2.4.4 关岭牛TBC1D7蛋白跨膜结构预测分析
采用TMHMM在线跨膜运输软件(http://www.cbs.dtu.dk/services/TMHMM/)进行预测,结果显示,组成TBC1D7蛋白的293位氨基酸均在膜内,不存在跨膜区域,故关岭牛TBC1D7蛋白不是跨膜蛋白(图5)。
图5 TBC1D7蛋白跨膜区域分析
2.4.5 关岭牛TBC1D7蛋白的信号肽预测分析
采用 SignalP 4.0在线工具对关岭牛TBC1D7蛋白进行信号肽预测,分析结果主要涉及3个值:C、S和Y。其中C 值是剪切位点的值,每个氨基酸会有一个C值,剪切位点处的C值最高。每个氨基酸对应1个S值,在结果显示的图标中有一个曲线显示S值的变化趋势,信号肽区域的S值较高,可用S平均值判断确定分泌蛋白(若S平均值高于0.5,预测存在信号肽)。Y值是综合考虑S值和C值的一个参数最大值,可以分析判断信号肽剪切位置。由图6可知,C值、S值和Y值均较低,结果说明,关岭牛17基因编码的蛋白不存在信号肽,为非分泌蛋白。
图6 关岭牛TBC1D7基因编码蛋白的信号肽预测
2.4.6 关岭牛TBC1D7蛋白的N-糖基化位点预测分析
如图7,关岭牛17基因编码蛋白中存在6个潜在的N-糖基化位点。分别是Asn8、Asn160、Asn163、Asn182、Asn254和Asn265。蛋白质糖基化修饰不仅影响蛋白质的空间构想、生物活性、运输和定位,而且在分子识别、信号转导、细胞免疫等特定生物过程中发挥着至关重要的作用。
图7 关岭牛TBC1D7基因编码蛋白的N-糖基化位点预测
2.4.7 关岭牛TBC1D7蛋白二级结构和三级结构预测分析
蛋白二级结构是依靠不同氨基酸之间的氢键形成的稳定结构。关岭牛17基因编码蛋白二级结构预测如下(图8)。结果显示,关岭牛17基因编码蛋白包含4种二级结构。其中α-螺旋占66.89%(196个氨基酸);无规则卷曲占25.60%(75个氨基酸);β-转角占4.44%(13个氨基酸),另外的9个氨基酸(4.44%)构成延伸链。高含量的α-螺旋对蛋白空间稳定性产生了重要作用。
h,α-螺旋; e,延伸链; t,β-转角; c,无规则卷曲。
通过SWISS-MODEL同源建模获得关岭牛17基因编码蛋白三级结构模型,由图9可见,关岭牛17基因编码蛋白主要由α-螺旋和无规则卷曲构成,符合二级结构预测结果。
图9 TBC1D7基因编码蛋白三级结构预测
2.4.8 关岭牛TBC1D7蛋白功能结构域及互作蛋白预测分析
运用在线网站SMART预测17基因编码蛋白功能结构域,结果显示,17基因编码蛋白只存在一个RabGAP-TBC结构域(图10)。运用STRING在线工具对关岭牛17基因编码蛋白进行互作蛋白预测。结果表明,关岭牛17基因编码蛋白存在互作的蛋白有TSC1、TSC2、RHEB、AKT1、AKT2、AKT3、RPS6KA1、RPS6KA2、RPS6KA3、DDIT4等(图11)。
图10 TBC1D7基因编码蛋白功能结构域预测分析
图11 关岭牛TBC1D7基因编码蛋白互作网络预测
TBC1D7的结构功能研究表明,TBC1D7可以稳定结合TSC1蛋白C末端区域,促使后者发生二聚化并维持此二聚结构的稳定性。有研究表明,AKT可通过磷酸化TBC1D7蛋白第124位丝氨酸的方式调控TBC1D7蛋白与14-3-3ζ及β-TrCP2的相互作用,而14-3-3ζ可与mTORC1复合物中Raptor亚基相互作用来抑制mTORC1的激酶活性。生长因子受体信号传导和细胞的整体代谢状态在细胞质中由mTORC1的机械靶点进行协调。当TSC1-TSC2-TBC1D7(TSC-TBC)复合物形成时,它通过其GTP酶激活蛋白(GAP)结构域抑制mTORC1活性,盖中朝等的研究证实了TBC1D7的表达量与mTORC1活性呈负相关关系。
在真核生物细胞控制分解代谢和合成代谢的过程中,mTOR信号通路是关键的通路之一,在细胞生长、增殖等生理过程中发挥着至关重要的作用,而TBC1D7作为mTOR信号通路中的重要组件,会不会也对细胞乃至机体的生长发育产生影响呢?2017年任肃霞研究发现,17基因可以通过调节胰岛素肽2(insulin like pepdite 2,ILP2)信号的方式调节苍蝇和小鼠的生长,且该过程不依赖于TSC复合物。17基因调节哺乳动物生长发育已经在小鼠上得到验证,由于17基因在人、小鼠和果蝇中的功能有较强的保守性,可以猜想17基因对大型家畜的机体生长发育也可能存在调控作用,或许能作为候选基因以提高牛生长发育性状的分子标记辅助选择。
SNPs是基因组水平上单个核苷酸的突变,对其进行研究和分析对研究基因的功能和指导选种选育具有重要意义。DNA混合池扩增后直接测序是一种简单有效SNP位点筛选方法。本研究通过DNA混合池扩增后直接测序的方法在关岭牛17基因第5和第6外显子中共检测到4个同义突变位点,分别为c.402T>C、c.414A>G、c.609C>T和c.648T>C,在其余外显子中未发现SNPs,4个SNPs由于关岭牛17基因比较保守,以及氨基酸密码子存在简并性均未引起编码氨基酸变异,但这些变异位点可能对RNA剪接、稳定性和折叠等产生影响,进而影响基因的表达与生理功能。
蛋白质是生命活动的主要载体,其结构与机体生长、发育等功能密切相关。本研究结果显示,关岭牛TBC1D7蛋白由293个氨基酸折叠而成;为亲水的可溶性蛋白;不稳定指数52.53(>40),为不稳定蛋白。通常情况下,蛋白质稳定性与半衰期是呈正相关的,在本研究中,关岭牛TBC1D7蛋白为不稳定蛋白却有相对较长的半衰期(30 h),这可能与TBC1D7蛋白的氨基酸结构组成和在机体中多种生理功能的发挥有关系。
基因编码区中的核苷酸突变可能导致mRNA二级结构的改变,进而影响其蛋白质结构和生物学功能。本研究发现,关岭牛17基因4个位点突变前后mRNA二级结构和自由能均发生了改变并影响其结构的稳定。其中c.402T>C、c.414A>G、c.609C>T突变分别使mRNA自由能降低了1.8、1.3和1.9 kcal·mol,导致mRNA二级结构稳定性升高;c.648T>C突变使mRNA自由能增加了1.2 kcal·mol,即稳定性降低。mRNA二级结构稳定性的变化可能会对基因的表达效率产生影响,这些影响均有可能对17基因对牛的生长以及其他性状带来关联性的改变。蛋白质二级结构是多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象。本研究中关岭牛17基因编码蛋白的二级结构主要由196个氨基酸构成的α-螺旋、75个氨基酸构成的无规则卷曲、13个氨基酸构成的β-转角和9个氨基酸构成的延伸链组成。其中α-螺旋结构含量最高,达到了66.89%,这对蛋白质空间结构稳定性具有重要作用。本研究关岭牛17基因编码蛋白中未发现信号肽,揭示该蛋白可能是一种定位于细胞器基质或细胞质基质中的非分泌蛋白。此外,本研究还发现,关岭牛17基因编码蛋白中存在6个潜在的N-糖基化位点,会对分子识别、信号转导、细胞免疫等多种生命功能产生影响。综上,关岭牛17基因编码区具有4个SNPs,并且影响了mRNA二级结构的稳定性,预测结果显示其编码蛋白为不稳定的非分泌蛋白,后续将收集关岭牛的表型数据,筛选影响生长发育性状的位点。