王谢琴,李瑞雪,张 红,陈 娇,于小蓉,刘汉梅
(四川农业大学生命科学学院,四川雅安 625000)
小麦是三大主要粮食作物之一,其籽粒富含蛋白质、淀粉等多种营养物质。在小麦灌浆期,籽粒淀粉合酶活性较高,促进了贮藏淀粉的合成和积累,进而影响小麦的产量和品质。
淀粉合酶催化α-1,4糖苷键的形成,具有延伸淀粉链的功能。在绿色植物形成早期经基因复制和功能分化产生了六种淀粉合酶亚型,即GBSS、SSⅠ、SSⅡ、SSⅢ、SSⅣ和SSⅤ。按进化关系,将其分为Group A(GBSS、SSⅠ、SSⅡ)和Group B(SSⅢ、SSⅣ、SSⅤ)两大类。各淀粉合酶亚型经功能分化后,具有各自独特的底物和产物特异性,催化不同结构和不同链长淀粉链的延伸。GBSS亚型负责直链淀粉的合成,SSⅠ、SSⅡ和SSⅢ亚型负责支链淀粉的合成,分别延长短链(聚合度8~12 bp),中等链(聚合度13~25 bp)和长链(聚合度大于30 bp)。SSⅣ亚型负责淀粉颗粒的起始形成,SSⅤ亚型是本课题组近期鉴定并报道的一个新的植物淀粉合酶亚型,可影响淀粉颗粒的数量和大小。典型的淀粉合酶家族包含GT5和GT1结构域,可结合葡萄糖基供体ADPG,将葡萄糖基转移至糖链的非还原端。淀粉合酶各亚型的催化结构域在进化中较为保守,但N端的结合结构域变化较大,决定了其结合不同链长的底物。在进化过程中,相同淀粉合酶亚型内的基因经复制后拷贝数增加。在水稻、高粱等二倍体作物中,GBSS亚型有两个拷贝,SSⅡ有三个拷贝,SSⅢ两个拷贝,这些基因拷贝在不同组织和不同发育时期存在表达差异,具有独特的表达特性。如编码GBSSⅠ的基因,主要负责胚乳等贮藏器官直链淀粉的合成,抑制其表达会导致直链淀粉合成受阻,籽粒表现为糯性。编码GBSSⅡ的基因主要在根、茎、叶等营养器官中表达,负责这些器官中直链淀粉的合成。小麦是六倍体植物,淀粉合酶基因拷贝数多于二倍体物种;在二倍体植物中存在一个拷贝,在小麦中就可能存在三个拷贝。目前,小麦基因组测序已经完成,虽然李春艳等对小麦淀粉合酶基因进行了鉴定,但并未报道小麦淀粉合酶基因不同拷贝间的序列特性、表达差异及分化机制。因此,本研究对小麦淀粉合酶基因家族所有成员进行鉴定,重点分析不同基因拷贝间的表达差异,并探究引起基因发生表达差异的潜在启动子元件,以期为小麦产量和品质改良奠定基础。
在Gramene数据库(http://www.gramene.org/)中初步检索获取已注释的小麦淀粉合酶基因序列,再以水稻的淀粉合酶蛋白序列为查询序列,利用SPDE软件对小麦全基因组进行blastp搜索,筛选小麦全基因组中未被注释的淀粉合酶基因,最后在Pfam数据库进行结构域分析,将具有GT5和GT1两个典型结构域的序列确定为小麦淀粉合酶基因。
从小麦基因组数据库(http://www.wheatgenome.org),获取小麦淀粉合酶基因序列的基本信息;通过MG2C在线软件(http://mg2c.iask.in/mg2c_v2.0/)绘制小麦淀粉合酶基因的染色体定位图;利用ExPASy在线软件(https://prosite.expasy.org)分析蛋白分子量(MW)和等电点(pI);利用MEME在线软件(http://meme-suite.org/tools/meme)和pfam数据库(https://pfam.xfam.org/)预测保守基序和保守结构域,利用TBtools软件进行可视化。通过Gramene数据库获取拟南芥()、高粱()、玉米()、水稻()、谷子()的淀粉合酶基因,利用MEGA 7.0软件构建N-J树,bootstrap设置为1 000。通过PlantCARE(http://bioinformatics.psb.ugent.be/webtools/PlantCARE/html/)和Place(https://www.dna.affrc.go.jp/PLACE/?action=newplace)在线软件对小麦淀粉合酶基因起始密码子上游2 000 bp序列进行顺式作用元件分析,利用TBtools进行顺式作用元件的统计及可视化。
从小麦基因表达数据库(http://www.wheat-expression.com/)下载小麦品种中国春中淀粉合酶基因在不同组织和不同发育时期的表达数据,计算并获取小麦淀粉合酶基因的差异倍数,采用TBtools软件将表达结果可视化。
通过对小麦全基因组的搜索及蛋白结构域分析,共鉴定到27个小麦淀粉合酶基因,结合基因的进化树分支及染色体分布对27个小麦基因进行命名,结果见表1。淀粉合酶基因集中分布于1A/1B/1D、2A/2B/2D、6A/6B/6D、7A/7B/7D染色体上,可编码599~1 629个氨基酸,等电点为4.87~7.50,分子量为58~183 kD。
为了解淀粉合酶基因家族成员间的进化关系,用NJ法构建拟南芥、玉米、水稻、高粱、小麦的淀粉合酶蛋白序列的进化树(图1)。发现小麦淀粉合酶蛋白家族成员分为Group A和Group B两大类,Group A包含GBSS、SSⅠ、SSⅡ三个亚家族,Group B包含SSⅢ、SSⅣ两个亚家族。与玉米、水稻、高粱、拟南芥不同的是,小麦淀粉合酶基因家族中没有SSⅤ亚家族。拟南芥作为双子叶植物,籽粒胚乳退化,所有淀粉合酶亚家族只有单个基因拷贝。禾本科作物玉米、水稻、高粱、小麦的淀粉合酶亚家族基因经历了多次复制,存在多个基因拷贝。小麦中除SSⅠ和SSⅣ亚家族淀粉合酶基因为单拷贝之外,GBSS亚家族存在和两个拷贝,SSⅡ亚家族存在、和三个拷贝,SSⅢ亚家族存在和两个拷贝。由于玉米分化后经历了第二次全基因组复制事件,因此玉米的淀粉合酶基因拷贝数量最多。
小麦是异源六倍体,存在A、B、D三个染色体组,对27个小麦淀粉合酶基因进行染色体定位分析发现,大多数小麦淀粉合酶基因都具有三个高度同源的基因。但同源群Ⅶ中的B染色体缺少,该基因位于同源群Ⅳ的A染色体上,表明小麦在进化过程中,同源群Ⅳ的A染色体与同源群Ⅶ的B染色体相应区段发生了染色体片段交换(表1)。
表1 小麦淀粉合酶基因家族成员的基本信息Table 1 Basic information of starch synthase gene family members in wheat
At:拟南芥;Os:水稻;Zm:玉米;Sb:高粱;Si:谷子;Ta:小麦。
为揭示小麦淀粉合酶基因的序列特征,根据其进化关系,比较分析不同拷贝间的基因结构、蛋白质保守基序和结构域(图2和图3)。基因进化常伴随着编码区外显子数目的增多或减少,进而引起蛋白结构域改变以及功能分化。从图2可以看出,小麦不同淀粉合酶亚家族间和相同亚家族内的基因拷贝间,基因的外显子数目不同。部分同源群内的淀粉合酶基因外显子数目和内含子相位则比较保守,仅、、的外显子数目减少了1~3个,导致5′端编码区片段缺失,蛋白序列变短,但与同源基因相比,蛋白结构域并无变化(图3),因此推测缺失的5′端序列均为非结构域序列,对蛋白功能影响不大。外显子数目增加,但没有改变编码区序列长度,仅改变了基因5′端的非编码区序列(图2)。
淀粉合酶家族蛋白都具有典型的GT5和GT1结构域(PF08323和PF00534),SSⅢ亚家族还具有CBM53结构域(PF16760)。利用MEME软件在小麦淀粉合酶蛋白保守结构域中共鉴定到10个保守基序,其中,GroupA中淀粉合酶蛋白的motif十分保守,都具有motif1~motif10,且排列顺序也一致;而GroupB中淀粉合酶蛋白都缺少motif9和motif10,且SSⅢ亚家族还缺少motif8。推测保守基序差异可能引起不同亚家族蛋白之间的功能特性差异。
小麦淀粉合酶不同亚家族间的基因以及相同亚家族内的不同基因拷贝间在不同组织和不同发育时期均具有明显的表达差异。其中,和是单拷贝,在小麦各个组织和发育时期都有表达,且在籽粒中表达量较高。、、在进化中均产生了多个拷贝,其中、、在胚乳中特异表达,而、、、在根、茎、叶等营养器官及早期阶段的穗中表达量较高(图4)。在胚乳中的表达量显著高于、、,表明可能在小麦籽粒淀粉合成中扮演着十分重要的角色。
内含子相位由内含子在基因内插入遗传密码子3个核苷酸的位置来确定。内含子插入时,若位于两密码子之间,则称为0相位;插入密码子的第一、二位核苷酸之间,称为1相位;插入第二、三位之间时,称为2相位。
图3 小麦淀粉合酶蛋白保守基序分析
不仅小麦淀粉合酶亚家族间的基因以及相同亚家族内的基因拷贝之间存在表达差异,相同部分同源群内的小麦淀粉合酶基因间也存在时空表达差异。其中,仅在开花期的穗中有较高的表达量,而和在穗的不同发育时期均有较高的表达量;在授粉后20 d和30 d的胚乳中表达量均比和低;在茎和穗中的表达量比和高;此外,与同源群内的其他基因相比,和在不同组织和不同发育时期的表达量均最低。由此可见,小麦相同部分同源群内的淀粉合酶基因间在不同组织和不同发育时期存在表达差异。
WE 10:授粉后10 d的整个胚乳;SE 20:授粉后20 d的淀粉胚乳;WE 20:授粉后20 d的整个胚乳;TC 20:授粉后20 d的转移细胞;AL 20:授粉后20 d的糊粉层;SE 30:授粉后30 d的淀粉胚乳;AL and SE 30:授粉后30 d的糊粉层和淀粉胚乳;GR 2:授粉后2 d的籽粒;GR 4:授粉后4 d的籽粒;GR 30:授粉后30 d的籽粒;LSS:幼苗期叶片;LTS:分蘖期的叶片;Leaf 2:授粉后2 d的叶片;RST:幼苗期的根;RTL:三叶期的根;RFL:七叶期的根;SPT:可检测到两个节点的穗;SPF:七叶期的穗;SPA:开花期的穗;STS:穗长1 cm时的茎;STT:可检测到两个节点的茎;STA:开花期的茎。
利用Plant CARE在线软件分析27个小麦淀粉合酶基因起始密码子上游2 000 bp启动子中的顺式作用元件,发现其含有多种元件,按照功能可分为三大类,即植物激素反应类、生物/非生物胁迫类、生长发育调控类(图5)。在生长发育调控类元件中,GCN4-motif、AACA-motif、RY-element是已报道的胚乳特异表达元件。
图5 小麦淀粉合酶基因三类顺式作用元件的比较分析
为进一步了解淀粉合成相关元件对小麦淀粉合酶基因表达差异的影响,又用Place在线软件分析小麦淀粉合酶基因启动子中与淀粉合成代谢相关的元件,结果共鉴定了12种元件(表2)。其中RYREPEATVFLEB4、AACACOREOSGLUB1、GCN4OSGLUB1/GLMHVCHORD分别是PlantCARE软件预测到的RY-element、AACA-motif、GCN4-motif元件。Place软件预测的RY-element、GCN4-motif元件与PlantCARE预测结果相同,但AACA-motif数目增加,可能是由于PlantCARE数据库未及时更新,其参考序列水稻AACA-motif元件序列过长 导致。
表2 小麦淀粉合酶基因家族启动子中预测到的与淀粉合成相关的顺式作用元件Table 2 Cis-acting elements associated with starch synthesis in the promoters of starch synthase genes in wheat
进一步分析发现,淀粉合成代谢相关顺式作用元件总数在不同基因拷贝间均存在着较大差异。部分胚乳特异表达元件在胚乳高表达基因的数目明显多于其对应的非胚乳特异表达基因,如RYREPEATVFLEB4、AACACOREOSGLUB1和AGGTOSGLUB1元件在、、中的总数明显多于、、和(图6)。由此表明,相同的淀粉合酶亚家族内的基因拷贝间,在长期的进化中启动子序列发生变化,改变了顺式作用元件的类型和数量,进而导致基因出现表达差异,使得胚乳高表达的基因拷贝、、存在更多的胚乳特异表达元件。
小麦相同部分同源群内淀粉合酶基因间也存在元件类型和数量差异,且与其表达特性差异相符。如和比部分同源群内的其他两个基因,在不同组织和不同发育时期的表达量均较低。从元件分布来看,的元件数量均少于和;的元件数量也均少于和(图6)。由此可见,生长发育类元件对小麦部分同源群内的淀粉合酶基因表达差异影响较大。
SUM1:RYREPEATVFLEB4、AACACOREOSGLUB1和ACGTOSGLUB1三类胚乳特异表达元件的数量之和;SUM2:除DOFCOREZM元件外,其他所有预测到的淀粉合成相关元件的数量之和。
小麦淀粉合酶经基因复制产生不同淀粉合酶亚型,各亚型内又产生不同数量的基因拷贝,这些拷贝在不同组织和不同发育时期均存在明显的表达差异。探究小麦淀粉合酶基因主要调控元件对基因表达差异的影响,对小麦产量和品质改良有重要意义。
在小麦基因组中共鉴定到27个淀粉合酶基因,由于小麦是六倍体植物,有三个染色体组,除缺失的SSⅤ亚家族外,小麦淀粉合酶各亚家族基因数目之和是二倍体高粱的三倍。水稻SSⅣ亚家族基因存在两个拷贝,这与水稻在进化过程中发生染色体大片段复制有关。玉米淀粉合酶基因数目最多,这是因为玉米在演化中多经历了一次全基因组复制事件。本研究小麦27个淀粉合酶基因按照进化关系可分为GBSS、SSⅠ、SSⅡ、SSⅢ和SSⅣ五个亚家族,缺少TaSSⅤ亚家族,通过对麦类植物大麦、乌拉尔图小麦和节节麦全基因组搜索,均未发现SSⅤ亚家族成员。本课题组曾报道在藻类、苔藓类、双子叶植物(拟南芥)和禾本科作物(水稻、高粱、玉米等)中都存在SSⅤ亚家族,因此推测可能在麦类植物的祖先中丢失了SSⅤ亚家族。
Dian等在水稻中共鉴定出10个淀粉合酶基因,对其进行表达分析发现,相同亚家族内不同基因拷贝间具有明显的表达差异,可分为两组,一组在胚乳中优先表达,影响贮藏淀粉合成,另一组主要在叶片中表达,影响瞬时淀粉合成,如SSⅢ和SSⅣ亚家族内水稻淀粉合酶基因各有两个拷贝,其中和主要在叶片中表达,而和主要在胚乳中表达。本研究发现,小麦淀粉合酶基因相同亚家族内不同基因拷贝间也具有明显的表达差异,如、和在胚乳中特异表达,而、、和在根、茎、叶等营养器官及早期阶段的穗中表达量较高。
Zhao等分析发现,多倍体小麦进化中,某些功能基因有多种表达模式。Pfeifer等对六倍体面包小麦的胚乳特异表达基因进行共表达分析,发现部分同源群内只有28%的基因属于一个共表达簇,而大多数分布在不同的共表达簇上,表明绝大多数的部分同源基因间存在表达差异。小麦淀粉合酶基因相同亚家族内的基因拷贝在不同组织和不同发育时期存在表达差异,部分同源群基因间也存在表达差异,但差异程度不及相同亚家族内基因拷贝间大。
特定的启动子元件可以调控基因在不同组织和不同发育时期的表达,胚乳特异表达元件可引起基因在胚乳中高表达。Maier等发现-300CORE是决定玉米醇溶蛋白胚乳特异表达的必要元件,但本研究发现此元件的数目在小麦胚乳高表达与非胚乳表达的淀粉合酶基因间并没有明显差异。Wu等发现,从水稻贮藏蛋白编码基因中鉴定的GCN4-motif、AACA-motif、ACGT-motif都是胚乳特异表达元件,其中,GCN4-motif决定胚乳组织特异性,AACA-motif和ACGT-motif影响胚乳中谷蛋白基因表达量的高低;当AACA-motif和ACGT-motif单独存在时,不能发挥作用,需与GCN4-motif共同作用才能决定胚乳的表达组织特性。本研究发现,含GCN4-motif元件的小麦淀粉合酶基因数目较少,AACA-motif和ACGTOSGLUB1(ACGT-motif)元件在胚乳高表达基因的数目高于其他基因。Xiang等发现贮藏蛋白基因在胚乳中特异表达,而淀粉合成相关基因在胚和胚乳中协调表达。因此,胚乳贮藏蛋白基因中胚乳特异表达元件与淀粉合酶基因的顺式作用元件不完全相同。
胚乳中基因的胚乳表达特异性受不同类型转录因子和元件的控制。水稻谷蛋白基因中的GCN4-motif元件主要受bZIP类转录因子Opaque-2(O2)的调控,参与基因的胚乳特异性表达。NAC128和NAC130是玉米胚乳特异性转录因子,与启动子区域中的核心元件ACGCAA结合,通过调节关键淀粉生物合成酶和主要种子贮藏蛋白基因的表达来协调淀粉和蛋白质的积累。由此可见,基因的胚乳表达特异性是由不同转录因子和顺式作用元件相互作用来实现的。因此,胚乳表达特异性的调控机制非常复杂,不同物种不同类型基因的具体机制可能存在一定差异,可通过具有表达差异的基因拷贝间的元件差异来揭示胚乳特异表达机制。