焦义然,陈文烨,杨 帆,刘永伟,董福双,杜进民,周 硕*
(1.河北科技大学 生物科学与工程学院,河北 石家庄 050000;2.河北省农林科学院 遗传生理研究所/河北省植物转基因中心,河北 石家庄 050051)
植物由营养生长到生殖生长离不开一个重要的过程,即开花相关基因的表达[1]。对于植物的成花诱导途径主要有6种,分别是光周期(Photoperiod)、春化(Vernalization)、赤霉素(Gibberellin)、 自主调节(Self-regulation)、年龄依赖(Age dependence)和温敏(Temperature sensitive)[2-3]。许多研究表明,开花是由FT(Flowering Locus T)基因及其同源物来调节的[4-6]。在模式植物拟南芥FT基因研究中,发现其编码产物能长距离转运成花激素,对花的形成具有决定作用[7-8]。小叶杨具有两个FT同源基因,分别是FT1和FT2,40 d内转基因杨树具有开花能力[9]。山葡萄FT基因的表达高峰出现于花序刚开始展露期,在花的前期形成过程中可能具有调控作用[10]。番茄和烟草FT基因的过表达能导致开花期提前,杨树FT同源基因转化到模式植物拟南芥中,造成拟南芥对光周期不敏感,以至开花期的提前[11-13]。FT基因编码蛋白的结构对其功能具有决定作用,且大多数氨基酸残基的突变对开花不存在显著影响,即为FT基因序列的多样性[14]。在长期进化过程中,不同植物FT同源基因为适应各自的生态环境具有不同的功能[15-16]。在植物界中,同一个基因的多功能现象是普遍存在的,且进化形成的复制加倍也能造成植物基因组中基因多拷贝的结果[17-18]。某种物种基因的核苷酸或蛋白质序列的结构功能可以通过生物信息学分析得出,本研究利用生物信息方法分析小麦FT基因编码蛋白的理化性质、结构域、信号肽、跨膜区、亚细胞定位,并通过同源建模的方法预测小麦FT基因编码蛋白的三级结构,并对不同植物FT基因编码蛋白的功能位点、密码子使用偏性和系统发育进行分析。对小麦FT蛋白的结构和功能研究奠定基础,并为研究不同植物FT基因在进化过程中的保守性提供理论依据。
如表1所示,不同植物的序列来源于NCBI的核苷酸和蛋白质数据库,通过登录号可查询不同植物FT基因的序列信息。利用ProtParam在线软件(http://web.expasy.org/protparam/)对21种植物FT基因理化性质进行分析,同时通过Protscale在线软件(http://web.expasy.org/protscale/)分析小麦FT基因编码蛋白亲水性,通过CFSSP(http://www.biogem.org/tool/chou-fasman/)、SignalP 4.1 Server(http://www.cbs.dtu.dk/services/SignalP/)、TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)、Prosite(http://prosite.expasy.org/)和TargetP 1.1(http://www.cbs.dtu.dk/services/TargetP/)等在线软件对小麦FT基因编码蛋白的二级结构、信号肽、跨膜结构域、模块和亚细胞定位进行分析,通过SSWISS MODEL(http://swissmodel.expasy.org/)中的同源建模预测小麦FT基因编码蛋白的三级结构,通过CodonW和MEGA软件中的最大似然法分析21种不同植物FT基因的密码子偏性和系统发育。
表1 不同植物FT基因编码蛋白信息
小麦FT基因共编码177个氨基酸,如图1所示,缬氨酸(V)、精氨酸(R)和甘氨酸(G)在FT基因编码氨基酸中所占比例最高,分别是11.3%、9.6%和9.6%。等电点为7.73,分子量为19849.55,含有17个带负电荷氨基酸残基数(Asp+Glu),18个带正电荷氨基酸残基数(Arg+Lys),分子式为C876H1357N253O256S10,总原子数为2752。当全部Cys形成为胱氨酸,其消光系数为1.086,不能形成胱氨酸的消光系数为1.080。其余20种植物FT基因编码蛋白的不稳定指数、脂肪族氨基酸指数和亲水性总平均值如表1所示,小麦的脂肪族氨基酸指数最低,为70.9,拟南芥为88.97,位居最高;不稳定指数最低的是番茄,其次是小麦,最高的是大蒜,表明小麦和番茄相比其他植物相对较为稳定;本研究中所选取的多种植物的亲水性总平均值均为负值,其中大豆的亲水性最低,而黑杨的亲水性最高,上述结果均表明植物FT基因为亲水性的脂溶性蛋白质。
图1 小麦FT基因编码蛋白氨基酸组成成分
如图2所示,通过Hphob./Kyte&Doolittle方法对小麦FT基因编码蛋白序列的疏水性分析得知该蛋白为亲水性蛋白,与理化性质中预测结果一致。第121个氨基酸(V)和第124个氨基酸(L)得分最高,均为2.044,第142个氨基酸(F)得分最低,为-2.422,大多数氨基酸得分为负值,表明小麦FT基因编码的多肽链为亲水性蛋白。
图2 小麦FT基因编码蛋白的疏/亲水性分析结果
如图3所示,通过Chou&Fasman方法对小麦FT基因编码蛋白序列的二级结构分析得知该蛋白主要以β折叠(beta-sheet)为主,共120个氨基酸,其次是α螺旋(alpha-helix),共84个氨基酸,上述两个结构域在整条肽链中分布较为均匀,结构域中最少的为β转角(beta-turn),共26个氨基酸,在整条肽链中主要分布在N端和C端两端,主要分布在第74~81个氨基酸和第109~113个氨基酸两个区域内。
图3 小麦FT基因编码蛋白的α螺旋、β折叠和β转角的预测结果
如图4所示,小麦FT基因前70个氨基酸中不存在典型的信号肽趋势,最高的C-score(raw cleavage site score)为0.144,最高的Y-score(combined cleavage site score)为0.122,最高的S-score(signal peptide score)为0.172,其中第1~10个氨基酸的平均切割点值为0.124,表明小麦FT基因不存在信号肽。如图5所示,小麦FT基因编码蛋白不含有跨膜结构域,表明小麦FT基因编码产物为非跨膜蛋白。
如表2所示,除满天星外,其余20种植物均存在PEBP(Phosphatidylethanolamine-binding protein family signature)蛋白,虽然不同植物编码FT基因蛋白长度不一致,但PEBP蛋白所在区域极为保守,其中第65~87个氨基酸(YTLVMVDPDAPSPSDPNLREYLH)为小麦PEBP蛋白。
如表2所示,小麦的有效密码子数(ENc=35.27)均低于其他20种植物,而苹果的ENc值最高(ENc=61),表明小麦对密码子的使用具有更强的偏性,而苹果不存在密码子偏性;小麦的GC含量(GC=0.627)和密码子第三位的GC含量最高(GCs=0.815),其次是臭菘,但番茄的GC含量(GC=0.367)最低,马铃薯的密码子第三位的GC含量(GCs=0.299)最低,牵牛的最优密码子使用频率(CBI=0.153)最高,其次是小麦(CBI=0.15),最低的是番木瓜(CBI=-0.176)。
如表3所示,小麦FT基因编码产物在线粒体中的分布最高,所占比例为18.9%,其次是作为分泌通路信号肽,但绝大部分编码蛋白分布在其他区域,且无具体描述。
如图6所示,利用同源建模(预测模板为3axy.1.A)对小麦FT基因编码蛋白的三级结构进行构建,此模板与小麦FT基因编码蛋白序列的相似度为89.57%。
如图7所示,不同植物FT基因的聚类关系主要分为三簇,番木瓜、苹果、桦树、葡萄和满天星与莴苣、荔枝、油菜、牡丹和黑杨聚为一簇,大蒜、牵牛、小麦、臭菘和春剑兰花聚为一簇,上述两簇与三花龙胆聚为一大簇,再与马铃薯、番茄、大豆、拟南芥和白芥聚为一簇,簇内的亲缘关系高于簇间。联系密码子偏性相关分析,得出番木瓜、苹果、桦树、葡萄和满天星对FT基因密码子使用偏性具有一致性,且苹果的有效密码子数为61,表明苹果对密码子使用不存在偏性,且PBP位点具有绝对保守性,莴苣、荔枝、油菜、牡丹和黑杨对FT基因密码子使用偏性也具有一致性。这说明密码子偏性间的相似关系与系统发育分析得出的亲缘关系具有一致性。
图5 小麦FT基因编码蛋白的跨膜区域预测结果
物种氨基酸个数PEBP位点ENcGCGCsCBI小麦(Triticum aestivum)17765-8735.270.6270.8150.15大蒜(Allium sativum)17563-8549.230.4690.4040.023大豆(Glycine max)17464-8649.270.4710.4190.047臭菘(Symplocarpus renifolius)17363-8549.170.5690.6690.122马铃薯(Solanum tuberosum)17464-8647.910.4320.299-0.085番木瓜(Carica papaya)17464-8644.930.4440.341-0.176莴苣(Lactuca sativa)17565-8759.290.4840.429-0.021桦树(Betula platyphylla)17464-8649.640.5250.541-0.067三花龙胆(Gentiana triflora)17565-8758.870.4970.450.058牡丹(Paeonia suffruticosa)17364-8652.840.4870.444-0.072苹果(Malus domestica)17464-86610.50.465-0.052牵牛(Ipomoea nil)17464-8655.120.5380.5330.153油茶(Camellia oleifera)17969-9147.480.5010.454-0.022拟南芥(Arabidopsis thaliana)17565-8752.780.4550.392-0.072葡萄(Vitis vinifera)17464-8650.380.50.465-0.029春剑兰花(Cymbidium goeringii)17664-8657.370.5130.497-0.068荔枝(Litchi chinensis)17464-8656.30.4980.5-0.072黑杨(Populus nigra)17464-8660.580.5040.4970.017白芥(Sinapis alba)17565-8754.130.480.424-0.094满天星(Gypsophila paniculata)178no53.820.5010.462-0.008番茄(Solanum lycopersicum)17562-8457.410.3670.369-0.146
表3 小麦FT基因编码蛋白的亚细胞定位结果
植物FT蛋白是磷脂酰乙醇胺结合蛋白(phosphatidylethanolamine-binding protein, PEBP)家族成员之一,对开花具有促进作用[19]。在高等植物花发育研究中,FT基因是目前作为调控植物开花的研究热点[14,20-23]。如拟南芥FT蛋白与具有昼夜变化的卵磷脂结合来促进开花[21]。被子植物FT基因对开花具有调控作用,木本植物FT基因对光周期的营养生长也具有调控作用[7]。不同植物FT基因编码蛋白的基本功能具有较高的保守性[24]。本研究发现小麦等植物FT基因编码蛋白长度相似,小麦FT基因编码产物为一种亲水性的脂溶性蛋白质,不存在信号肽和跨膜结构域。菊花FT基因编码蛋白含有FT类蛋白保守基序和2个关键性的氨基酸残基[25]。荔枝具有两个FT同源基因,分别是FT1和FT2基因,两个同源基因间存在少数的碱基差异,但编码产物的二级结构和三级结构相似度较高,二级机构中的α螺旋和β折叠数量一样,但对功能分化还有待研究[26]。本研究发现小麦FT基因编码蛋白的二级结构主要是由β折叠为主,其次分别是α螺旋和β转角,这与荔枝FT蛋白不一致。密码子偏好性研究发现小麦对密码子使用具有较强的偏好性,且不同植物间密码子偏好性的相似关系与基于最大似然法构建的系统发育分析的亲缘关系具有一致性。黄玮婷等[27]发现墨兰FT基因与春兰、建兰等植物相比,具有较高的保守性和同源性。黑果枸杞和宁夏枸杞的FT基因同源性高达98%,与马铃薯和烟草FT基因编码蛋白也具有极高的相似度,同时黑果枸杞和宁夏枸杞的FT基因编码蛋白具有相同的PEBP结构域[28]。本研究发现除满天星外,其余植物均具有PEBP结构域,尽管不同植物FT基因编码蛋白长度不一致,但是PEBP结构域具有极强的位置保守性。刘新宇等[29]发现茄子FT蛋白定位于细胞质中,与番茄FT蛋白定位结果不一致[30],有研究表明,不同品种FT基因及其同源基因定位是存在差异的[31]。本研究发现小麦FT基因编码蛋白主要位于线粒体,但该定位与其功能是否具有相关性,还需要进一步实验验证。
图6 小麦FT基因编码蛋白的三级结构预测结果
图7 不同植物FT基因编码蛋白的系统发育树
本研究利用生物信息学方法分析小麦FT基因编码蛋白结构和功能,发现小麦FT蛋白由177个氨基酸组成,其编码产物为一种亲水性的脂溶性蛋白质,二级结构主要是由β折叠为主,其次分别是α螺旋和β转角,无信号肽和跨膜区,主要存在于线粒体中,小麦FT基因对密码子的使用具有极强的偏好性,尤其偏爱使用G/C碱基,通过同源建模对其蛋白三级结构进行预测,同源性高达89.57%,比较不同植物FT基因对密码子的使用情况发现密码子偏性间的相似关系与系统发育分析得出的亲缘关系具有一致性,且大多数植物均具有PEBP蛋白,为FT基因的结构和功能研究提供理论基础。