赵珊珊 ,董琳琳 ,柴文婷 ,杨博慧 ,孙慧琼 ,王新宇 ,刘卓君 ,郭子浩 ,史小霞 ,郝昱宁 ,朱立勋 ,邹春雷 ,姜晓东 ,赵威军 ,吕晋慧 ,张春来
(1.山西农业大学 农学院/教育部省部共建黄土高原特色作物高效生产协同创新中心,山西 太谷 030801;2.山西农业大学 高粱研究所,山西 晋中 030600;3.山西农业大学 林学院,山西 太谷 030801)
粒用高粱(Sorghum bicolor)为C4 短日照植物,已有超过5 000 a 的栽培历史,是世界第五大粮食作物,也是非洲及一些南亚地区的主要粮食作物,其高产、耐盐、抗旱等特点倍受关注[1-5]。随着人们的生活条件越来越好,更多的高粱被用来作饲料,用来酿酒,用来作其他的工业材料。高粱的谷蛋白是一种用于储藏粮食的重要蛋白,与醇溶蛋白共同影响着整个蛋白质的生物学价值,2 种蛋白加在一起,占据了整个高粱蛋白质总量的70%[6-9]。目前,对谷蛋白的研究主要集中在其提取、纯化和蛋白质加工特性方面。
前期研究表明,高粱籽粒蛋白的变化幅度在4.4%~21.1%,籽粒蛋白由水溶性蛋白,如清蛋白、球蛋白、谷蛋白以及交联的醇溶蛋白组成,其中,谷蛋白及醇溶蛋白所占的比例超过70%,按照分子质量又可划分为α-、β-、γ-、δ-kafirin(高粱醇溶蛋白),储存在球状蛋白体的内质网中[10]。籽粒储藏蛋白的合成和积累是禾本科作物储藏蛋白的重要来源。有研究表明,高粱glutelin 是一种与高粱利用价值密切相关的蛋白质,是一种与小麦谷蛋白同源性很高的蛋白质[11]。
本研究主要利用数据库,对高粱glutelin基因表达和其结构进行研究,观察它是否属于所需要改良的基因或者蛋白质,并对高粱的利用价值进行更深层次地了解,旨在为高粱籽粒蛋白质含量的调控研究提供参考。
利用Phytozome Plant 数据库(https://phytozome-next.jgi.doe.gov/)检索出小麦glutelin 蛋白序列,结合转录组的测序数据,筛选出高粱glutelin家族。
运用ExPASy(https://web.expasy.org/protparam/)汇总分析高粱glutelin 家族成员蛋白质的结构和理化性质。
将CDS 序列文本、基因序列文本以及nwk 格式树文本文件上传在GSDS 2.0 在线工具(http://gsds.cbi.pku.edu.cn/),对高粱glutelin基因结构进行分析。
利用SignalP-5.0(SignalP 5.0-DTU Health Tech-Bioinformatic Services)预测高粱glutelin 蛋白家族信号肽;利用PSORT Prediction(http://psort1.hgc.jp/form. html)进行亚细胞定位汇总分析。
利用TMHMM Server v2.0(http://www.cbs.dtu.dk/services/TMHMM/)预测高粱glutelin 蛋白质跨膜螺旋;利用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)预测分析高粱glutelin 蛋白二级结构;利用Phyre2(http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index)进行三级结构预测分析。
采用Pfam 数据库(http://pfam.xfam.org/)对高粱 glutelin 蛋白进行全基因组测序,获得其蛋白质结构域,并通过TBtools 软件对其进行可视化处理。
上传高粱glutelin蛋白序列,利用MEME(http://meme-suite.org/tools/meme)在线数据网站,获取高粱glutelin 蛋白meme.xml 文件,并且使用TBtools 软件对高粱glutelin 蛋白保守性进行分析。
利用Phytozome Plant 数据库检索高粱(3 个)、水稻(7 个)、小麦(7 个)、玉米(3 个)和谷子(4 个)不同的glutelin 蛋白序列,通过MEGA 7.0 软件进行Clustal W 多重比对,获取高粱、水稻、小麦、玉米和谷子不同物种glutelin 进化树的结果树文本格式,利用iTOL(http://itol.embl.de)在线工具对进化树进行美化分析。
高粱种质资源3chi3、IS22203、IS22204、Laohanye(老汉叶,山西和顺)从国家农作物种质资源库获取,其中后2 个为高蛋白种质。1383-2×7050B_F4-12由山西农业大学农学院作物基因组与分子育种实验室团队选育。
根据山西农业大学农学院作物基因组与分子育种实验室团队高粱籽粒转录组数据,在百迈客云平台(biocloud.net.cn)获取表达量,再利用TBtools软件作出表达量的热图。
利用STRING (https://cn.string-db.org/)数据库分析高粱全基因组glutelin 的蛋白互作。
本研究以高粱为研究对象,利用NCBI 数据库下载得到高粱全基因组文件及GFF 注释文件,结合高粱各组织的转录组测序数据并通过结构域验证,最终得到3 个glutelin基因分别为SbGLUA1(Sobic.001G143700编码11S globulin seed storage protein 2)、SbGLUA2(Sobic.009G017600编码Glutelin type-A2)、SbGLUB4(Sobic.009G007100编码glutelin type-B4)。高粱glutelin 中2 个基因家族成员SbGLUA2和SbGLUB4分布在SBI-09染色体上,SbGLUA1位于SBI-01染色体上。3 个基因的氨基酸具体含量、分子质量和理化特性等信息如表1、2 所示。
表1 高粱glutelin 蛋白家族成员及理化性质Tab.1 glutelin member in sorghum and their physico-chemical properties
由表1 可知,SbGLUA1基因位于SBI-01∶11527023—11528931,编码氨基酸375 个,分子质量为40 068.60 u;SbGLUA2基因位于SBI-09∶1633682—1636453,编码氨基酸360 个,分子质量为37 886.30 u;SbGLUB4基因位于SBI-09∶639510—641454,编码氨基酸484个,分子质量为53 099.81 u;理论等电点为5.60~6.44;不稳定系数分析显示,所有的高粱glutelin蛋白都是稳定的(Instability index<40);蛋白质的流动性取决于其脂肪系数,脂肪系数越大,说明其流动性就越好,SbGLUA1、SbGLUA2、SbGLUB4 蛋白的脂肪系数都低于90,说明其流动性不强。结果显示,除了SbGLUA2 之外,其他蛋白质的总平均吸水性均为负值,说明其余蛋白质是亲水蛋白。
从表2 可以看出,SbGLUA1 和SbGLUA2 相似度高,可达80%,而它们与SbGLUB4 的相似度很低,分别仅为23%、24%。在高粱基因组还有些相似度很低,如Globulin1S(由SORBI_3001G144900编码)、Cupincin(由SORBI_3001G059800 编码)、vicilin-like(由SORBI_3001G469300 编码)。
表2 高粱glutelin 蛋白之间的关系Tab.2 Relationship between glutelins in sorghum
从图1 可以看出,上下游非编码区域均存在于SbGLUA1、SbGLUA2、SbGLUB4 家族成员上;其中,SbGLUA1、SbGLUA2上、下游的非编码区相对较长,而SbGLUB4上较短。CDS 是一种编码蛋白质产物的序列,高粱glutelin基因外显子数量集中在3~4 个,SbGLUB4具有4 个外显子,SbGLUA1、SbGLUA2的外显子数量都只有3 个。并且从图1可以清楚地看到,SbGLUA2是3 个基因中内含子最长的。
图1 glutelin 基因结构Fig.1 glutelin gene structure
蛋白质前体的信号肽结果用C 值表示,成熟蛋白的信号肽用S 值表示。通过分析(图2、3)可以看出,SbGLUB4 蛋白C 值结果为第35 位氨基酸(分值约为0.491),S 值结果是第13 位氨基酸(分值约为0.983),优化后的C 值和S 值的最佳结果用Y 值来表示,高粱glutelin 拟合后的最佳结果为第35 位氨基酸,得分是0.663,存在信号肽;而SbGLUA2 蛋白、SbGLUA1 蛋白信号肽的剪切位点分值以及综合剪切位点分值均小于0.5,则表明SbGLUA2 及SbGLUA1 蛋白都不含信号肽,不是分泌性蛋白。SbGLUA1、SbGLUA2、SbGLUB4 蛋白质的亚细胞定位预测显示,各高粱glutelin 蛋白都位于液泡上,并且仅高粱GLUB4 蛋白具有1 个跨膜结构(表3)。
图2 SbGLUA1(A)及SbGLUA2(B)信号肽Fig.2 SbGLUA1(A)and SbGLUA2(B)signal peptide
图3 SbGLUB4 信号肽Fig.3 SbGLUB4 signal peptide
表3 glutelin 蛋白信号肽与亚细胞定位预测Tab.3 The signal peptide and subcellular localization prediction of glutelin protein
对跨膜结构域进行分析发现(表3),除SbGLUA1、SbGLUA2 外,SbGLUB4 蛋白跨膜结构域为1 个。从表1 可以看出,编码SbGLUA1 蛋白的氨基酸数为375 个,编码SbGLUA2 蛋白的氨基酸数为360 个,通过二级结构发现,SbGLUA1 和SbGLUA2 蛋白以延伸链和无规则卷曲为主,在氨基酸中所占的比例在60%以上,而α-螺旋和β-转角的比例很小(表4);编码SbGLUB4 蛋白的氨基酸数为484 个,α-螺旋和无规则卷曲构成蛋白质中所占比例超过60%,推测它们是SbGLUB4 蛋白跨膜域形成的关键因素。因此可以推断,SbGLUB4蛋白中,α-螺旋和无规则卷曲是最主要的结构元素,而延伸链和β-转角则是散布于整个蛋白中。
表4 glutelin 蛋白二级结构Tab.4 The secondary structure of glutelin protein %
在此基础上,进一步对高粱glutelin 基因家族中SbGLUB4 进行了蛋白质的跨膜螺旋预测,生物信息学分析结果显示,SbGLUB4 在膜内的区域为第1—11 位氨基酸,跨膜蛋白区域为第12—34 位氨基酸,膜外的区域为第35—484 位氨基酸(图4)。综上所述,仅有SbGLUB4 存在跨膜蛋白区域。
图4 SbGLUB4 跨膜区域预测结果Fig.4 Prediction results of transmembrane region of SbGLUB4 protein
对高粱glutelin 蛋白的三维结构进行预测,从图5 可以看出,3 种高粱glutelin 蛋白均具有特异的类似的结构和特异的功能。其中,SbGLUB4 的分子质量更大、结构更复杂、亲水性更强,而且这种螺旋状的多肽可以形成一些特殊的结构域,起到一定的生物作用,推测SbGLUB4 多肽链经过多次盘曲后,可形成某些发挥生物学功能的特定区域。
图5 高粱glutelin 蛋白三级结构预测Fig.5 Prediction of tertiary structure of glutelin protein in sorghum
通过结构域分析可知,所有glutelin 蛋白均含有cupinRmIC-like superfamily 结构域(图6)。Cupin超家族最初是基于在胚芽素和胚芽样蛋白中发现的高度保守的基序。Cupin 超家族成员的活性位点通常位于中心,包括金属离子。Cupin 超家族成员可分为两大类:参与细胞壁碳水化合物修饰的单域细菌异构酶(例如耐干燥种子储存球蛋白),以及参与豆科植物根结瘤的多域核转录因子。推测,glutelin蛋白可通过与多个不同类别的蛋白质相互作用来发挥其生物学功能,正是因为Cupin 超家族保守结构域的存在,使得glutelin 蛋白可提升作物品质。
图6 高粱glutelin 蛋白功能结构域Fig.6 Function domain of glutelin protein in sorghum
利用MEME 数据库,对高粱glutelin基因的氨基酸序列进行保守基序分析,结果发现(图7),glutelin基因包含的10 种保守基序命名为Motif 1~Motif 10。在SbGLUB4 蛋白序列中,存在Motif 4、Motif 5、Motif 6、Motif 7 和Motif 10 的缺失,各Motif在glutelin 蛋白家族的排列位置基本一致。因此说明,glutelin基因的基序相对较为保守,推测蛋白质基序Motif 1~Motif 10 很可能与glutelin 执行储藏蛋白密切相关。
图7 高粱glutelin 蛋白保守基序Fig.7 Conserved motifs of glutelin protein in sorghum
将高粱(S.bicolor)(3个)、水稻(O.sativa)(7个)、小麦(T.aestivum)(7 个)、玉米(Z.mays)(3 个)、谷子(S.italica)(4 个)基因家族共24 个glutelin 蛋白,采用邻接法构建glutelin 蛋白系统进化树(图8),不同颜色范围代表不同亚族,24 个glutelin 蛋白可以分为4 个亚家族。其中,SbGLUA1与SbGLUB4、SbGLUA2与Ta1DL 757719220最先聚类合并,在进化上靠得最近,分别汇聚在同一分支下,且成对出现,说明亲缘关系更近。
图8 高粱与水稻、小麦、玉米和谷子glutelin 系统进化树分析Fig.8 Phylogenetic tree of glutelin in S. bicolor,O. sativa,T. aestivum,Z. mays,and S. italica
根据山西农业大学农学院作物基因组与分子育种实验室团队高粱籽粒转录组数据,绘高粱表达的数据构造热图,从图9可以看出,SbGLUB4在种子部位的表达量最高,而在其他部位的表达量均较低;SbGLUA1在各组织中的表达量均很低,只有在穗部位的表达量稍高;而SbGLUA2在各组织中的表达水平都比较高。
图9 高粱3chi3 不同组织中glutelin 基因的表达Fig.9 Expression of glutelin genes in different tissues of sorghum 3chi3
高粱不同籽粒发育期、不同品种中谷蛋白的基因表达如图10 所示,SbGLUB4、SbGLUA2随着种子发育期的推进而逐渐升高;其中,SbGLUB4在IS22204 表达最高,SbGLUA2在1383-2x7050BF4-12R 表达最高,其次是IS22203、IS22204 和Laohanye。
利用STRING 预测互作蛋白显示(图11、表5),SbGLUA2(C5YYX1)平均聚类系数为9.09;PPI 富集P值为5.51E-14。通过邻接节点数筛选出SORBI_3002G420000(C5X5N6)、SORBI_3004G181500(A0 A1Z5RP56)、SORBI_3003G370300(A0A1W0W0 R8)、SORBI_3003G314900(A0A1W0VZV3)、SOR BI_3005G115500(A0A1B6PRT5)、SORBI_3003G 023200(A0A1B6Q0Y2)、SORBI_3008G010900(A0 A1Z5R4C2)、SORBI_3004G107000(A0A1Z5RMU 4)、SORBI_3003G045200(C5XMS3)、SORBI_300 4G151000(A0A1Z5RNL4)核心蛋白。SbGLUA2蛋白与DNA 解旋酶、重组酶等互作,推测功能发生变化。SbGLUB4(C5YY38)平均聚类系数为3.45;PPI 富集P值为0.00 765。通过邻接节点数筛选出SORBI_3001G144900(A0A1Z5S5M9)、SORBI_30 01G059800(A0A1Z5S4J3)、SORBI_3009G186400(C5Z0E2)、SORBI_3003G064200(A0A1W0VVX 4)、SORBI_3007G062200(A0A1B6PFX4)、SORBI_3006G042800(C5YE64)、SORBI_3004G147300(A 0A194YPS5)、SORBI_3001G363200(C5WZK2)、SORBI_3003G185500(C5XN00)、SORBI_3004G1 55400(C5XSL9)核心蛋白。可以看出,SbGLUB4与数个种子储藏蛋白结果基因及调节基因(如MYB和bHLH)互作。
图11 SbGLUs 蛋白互作网络Fig.11 Network of SbGLUs proteins interaction
表5 STRING 预测SbGLUs 的互作Tab.5 SbGLUs interaction predicted by STRING
高粱是一种多用途的粮食、饲草和能源作物,是非洲和部分亚洲国家的主粮作物。除了具有优良的农艺性状外,其籽粒中还具有丰富的营养成分,如蛋白质、碳水化合物、脂肪、矿物质等。其中蛋白质含量的变幅为4.4%~21.1%,存在较大遗传变异。籽粒储藏蛋白是指储藏于高粱籽粒中的蛋白质组分。它们在细胞外分散于细胞间隙和细胞内,其存在形式可分为2 类,一类是游离状态的可溶性蛋白(如清蛋白),另一类是结合状态的不可溶性蛋白(如球蛋白)。高粱籽粒中的清蛋白占总蛋白质含量的80%以上,其所含的清蛋白是小麦中所不具备的,这就造成了高粱与小麦之间在蛋白质含量上存在差异。根据蛋白质的可溶性,又将蛋白质分为以下几类:清蛋白、球蛋白、谷蛋白和醇溶蛋白,谷蛋白也作为高粱籽粒中蛋白质存储的主要形式,除本研究的SbGLUA1、SbGLUA2 和SbGLUB4外,还有Globulin1S(由SORBI_3001G144900编码)、Cupincin(由SORBI_3001G059800 编码)、vicilinlike(由SORBI_3001G469300 编码)等[12]。关于对籽粒蛋白总含量的贡献,它们是否涉及过敏反应等有待进一步研究。
利用基因工程手段对其进行遗传改良,是当前高粱育种面临的一个长期课题。籽粒中含有丰富的淀粉、脂肪、蛋白、微量营养元素和酚类抗氧化物质,但是蛋白中赖氨酸、甲硫氨酸的含量比较低,因此,淀粉和蛋白的可消化性比较差[13-16]。随着膳食结构调整和人们对谷物营养需求不断增加,对高粱食品的开发和利用显得尤为重要[17]。目前,对高粱的研究已成为一个热门话题,但改良其食用性的研究却是排在第1 位的,而发掘优良品种、选育可食性优良的新品种也是一个重要的发展方向。
山西农业大学农学院作物基因组与分子育种实验室团队积累基因组、转录组、表型组资源,熟练掌握了生物信息分析与分子生物学实验技术,解析高粱抗逆和耐瘠性状形成机制。最近,对高粱DCL、HSF、NRT1、NRT2/3、CLC家族的表达和DNA 变异进行了分析[18-22]。本研究从全基因组水平上对高粱glutelin 蛋白进行分析。前人对高粱谷蛋白研究较少,认为高粱不含麦谷蛋白,是缓解麦谷蛋白导致肠糜病的理想谷物[23]。本研究表明,高粱glutelin基因在种子表达有待用Western 杂交研究在高粱籽粒中蛋白的积累。
高粱谷蛋白依据山西农业大学农学院作物基因组与分子育种实验室团队高粱籽粒转录组数据,热图显示,SbGLUA1在高粱3chi3 各组织中的表达量都不是很高,SbGLUA2则是在根和种子中较SbGLUA1均高表达,而SbGLUB4在高粱3chi3 不同组织中只有一个部位表达较高,其余部位表达均低,但是在不同高粱品种的各个部位表达都高。本研究鉴定出3 个高粱glutelin基因家族成员,分析其基因表达为glutelin基因家族的克隆及功能,进一步解析和提高作物食用品质研究创造了条件,且蛋白含量决定了高粱面筋蛋白品质,对决定高粱加工品质好坏起重要作用,极大地影响了高粱籽粒最终用途性状[24-26]。随着分子生物学和基因组学研究发展,挖掘高粱加工品质相关的优异基因,解析其作用机制,对进一步提升高粱品质具有重要意义[27]。
在未来的研究中,应继续研究蛋白质的组学分析、性能分析和域分析,以及谷物中麦谷蛋白形成及影响。通过对谷蛋白进行分析,了解其进化过程中谷蛋白的作用和功能,预测出基因内的各种性质,从而观察谷蛋白的存在以及含量的高低对高粱的使用价值的影响。