宋迎辉,朱灿灿,代书桃,秦娜,王春义,张真,李君霞,平西栓
(1.河南省农业科学院粮食作物研究所,河南 郑州 450002;2.洛宁县农业技术推广服务中心,河南 洛宁 471700;3.河南省农业技术推广总站,河南 郑州 450002)
GATA转录因子是一种转录调节蛋白,包含一个典型的Ⅳ型锌指DNA结合域CX2CX17~20CX2C和一个后续保守区域,这类锌指的一些成员在基因的调控区域特异性地结合DNA序列(A/T)GATA(A/G),从而调节基因的转录水平。从细胞黏菌到脊椎动物的生物体中都发现了该基因家族成员[1]。
Reyes等[2]对拟南芥和水稻的GATA家族基因进行研究发现,GATA家族基因DNA基序与光依赖和硝酸盐依赖的转录调控有关。真菌GATA因子调控氮代谢、光诱导、铁载体生物合成和配对类型转换[3]。旁系同源GATA转录因子GNC和CGA1/GNL受光、氮和细胞分裂素的调控,同时也受赤霉素信号的抑制[4]。在许多研究报道中对不同作物GATA转录因子家族进行了全基因组的鉴定分析,分别在拟南芥(Arabidopsis thaliana)[5]、水稻(Oryza sativaL.)[6]、大豆(Glycine max)[7]、棉花(Gossypium genus)[8]、甘蓝型油菜(Brassica napus)[9]、谷子(Setaria italica)[10]、番茄(Solanum lycopersicon)[11]、葡萄(Vitis viniferaL.)[12]、蓖麻(Ricinus communisL.)[13]和毛竹(Phyllostachys edulis)[14]中鉴定出了29、28、64、179、96、33、30、19、19、31个成员,为其在其他作物中的结构和生物学功能研究提供了参考。
高粱(Sorghum bicolor)是世界第五大禾谷类作物,广泛种植于全球干旱和半干旱地区。也是我国主要的杂粮作物之一,是传统酿造业,尤其是高端白酒酿造的主要原料。高粱具有光合效率高、抗旱耐涝、耐盐碱等诸多优良性状,同时也是研究甘蔗、玉米和柳枝稷等能源作物的重要模式作物[15]。2009年,高粱全基因组测序完成;2017年,高粱基因组序列得到进一步完善[16],许多基因家族的鉴定和功能研究迅速展开[17-21]。但目前尚未见有关高粱GATA家族全基因组鉴定的报道。本研究利用分子生物学技术在全基因组水平上鉴定高粱GATA家族成员,并对其进行生物信息学分析,为探究高粱GATA家族基因功能奠定基础。
GATA基因家族典型锌指结构域种子序列(PF00320)从Pfam网站(http://pfam.xfam.org/)下载,并以PF00320的HMM模型为探针序列,利用HMMER 3.3软件搜索高粱基因组功能蛋白序列数据库,E值小于1×10-10。当同一基因对应多个蛋白序列时,仅保留氨基酸长度最长的序列作为GATA基因家族成员。进一步利用SMART(http://smart.embl.de/)在线工具验证GATA保守结构域的完整性,利用DNAMAN软件(https://www.lynnon.com)分析保守结构蛋白序列。利用ProtParam tool(https://web.expasy.org/protparam/)对最终筛选出的氨基酸序列进行在线分析,以确定蛋白的氨基酸长度、分子质量、等电点、疏水性平均值等理化特性。
提取高粱GATA家族基因的已知基因组位置信息,利用Mapinspect软件绘制染色体分布图。
将所有的高粱GATA蛋白与从PlantTFDB网站下载的拟南芥、玉米和谷子GATA蛋白序列通过ClustalX 2.0软件进行多重序列比对,然后用MEGA 11.0软件以邻接法(Neighbor joining,NJ)构建进化树,Bootstrap replications设置为1 000,其他参数默认。
从数据库中提取鉴定到的GATA基因结构注释信息,利用GSDS(http://gsds.gao-lab.org/)在线软件分析高粱GATA基因的结构。
利用在线保守基序分析软件MEME(http://meme-suite.org/tools/meme/)进行Motif分析,参数中预测数目设置为8,其余均为默认设置。
从NCBI基因组数据库(https://www.ncbi.nlm.nih.gov/gene/)获取每个SbGATA基因起始密码子上游2 kb序列,上传至PlantCARE服务器(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)搜索预测,分别统计每个SbGATA基因启动子检测到的顺式作用元件数量,利用MeV4.9软件绘制热图。
高粱不同组织中GATA转录组测序数据来自Phytozome(https://phytozome.Jgi.doe.gov/pz/),用FPKM(fragments per kilobase of exon model per million mapped fragments)值表示基因相对表达水平,利用MeV 4.9软件绘制热图。
选择常规种豫粱10号在温室中用Hoagland营养液进行水培,待幼苗长至三叶一心时,在处理中加入PEG6000模拟干旱处理,并分别于0、12、24、36 h取样,通过转录组测序的方法获得基因相对表达量,变化倍数用FC表示,用Log2FC表示基因相对表达量变化情况。
经比对共鉴定出30个高粱GATA基因,根据其染色体位置分别命名为SbGATA1~SbGATA30。高粱GATA基因编码的氨基酸数量差异较大,最多可以编码547个氨基酸(SbGATA23),最少编码125个氨基酸(SbGATA9),平均编码345个氨基酸。高粱GATA基因编码蛋白分子质量在13 611.44~59 298.79 ku,平均为36 559.86 ku。等电点平均值为8.02,SbGATA4、SbGATA5、Sb-GATA11、SbGATA13、SbGATA16、SbGATA20、Sb-GATA26、SbGATA30等电点小于7.0,呈酸性;Sb-GATA2等电点约为7.0,接近中性;其余21个高粱GATA蛋白等电点大于7.0,呈碱性。不稳定系数50.54~80.91,均为不稳定蛋白(>40);疏水性平均系数均为负数,表明高粱GATA蛋白均为亲水性蛋白(表1)。
表1 高粱GATA基因家族成员基本信息
30个高粱GATA基因家族成员不均匀地分布在8条染色体上,2号和7号染色体上无SbGATA基因分布(图1)。其中,1号染色体上的基因数量最多,有8个基因;其次是3、4、8、9号染色体,各有4个基因;5、6、10号染色体上各有2个基因。根据Holub[22]对基因簇的界定,本研究中30个SbGATA基因没有形成基因簇分布,说明串联重复不是SbGATA基因家族扩展的主要因素。
图1 高粱GATA基因在染色体上的分布
将鉴定到的高粱GATA基因家族成员氨基酸序列与拟南芥、玉米和谷子的GATA基因家族成员氨基酸序列进行比对(图2),根据已知拟南芥GATA基因家族成员进化分类信息对高粱GATA基因家族进行分类(图3),可将高粱GATA基因家族分为4组(Ⅰ、Ⅱ、Ⅲ、Ⅳ),其中Ⅰ组包含15个家族成员,占总数的1/2,Ⅱ、Ⅲ、Ⅳ组分别包含9、4、2个家族成员,同组内GATA成员之间蛋白序列一致性较高。Ⅲ组4个成员SbGATA3、SbGATA4、SbGATA18、SbGATA30的保守锌指结构域为CX2CX20CX2C,其他基因家族成员保守锌指结构域为CX2CX18CX2C;Ⅳ组两个成员SbGATA5和SbGATA20保守结构域蛋白序列完全一致。
图2 SbGATA蛋白家族保守序列比对分析
对4种不同作物的126个GATA基因家族成员,包括高粱30个、拟南芥29个、玉米36个和谷子31个,构建系统进化发育树,如图3所示,可将GATA基因家族分为4个分支,分支Ⅰ含有高粱GATA家族成员15个,拟南芥GATA家族成员14个,玉米GATA家族成员20个,谷子GATA家族成员15个;分支Ⅱ中高粱、拟南芥、玉米、谷子GATA家族成员分别为9、10、10、9个;分支Ⅲ含高粱和谷子GATA家族成员各4个,拟南芥、玉米GATA家族成员各3个;分支Ⅳ中高粱、拟南芥、玉米、谷子GATA家族成员分别为2、2、3、3个。
对4种作物GATA家族成员保守结构域分析发现,分支Ⅲ中全部GATA家族成员均为CX2CX20CX2C锌指结构,而其他分支GATA家族成员保守结构域为CX2CX18CX2C锌指结构。
除分支Ⅰ中SbGATA6和拟南芥GATA蛋白AT3G45170.1亲缘关系较近外,其他拟南芥GATA家族成员多单独聚为一类,表明高粱GATA家族基因与单子叶植物玉米和谷子GATA的亲缘关系较近,与双子叶植物拟南芥GATA的亲缘关系较远。
高粱GATA家族基因含有1~8个外显子(图4),其中Ⅰ组SbGATA13和SbGATA17含有1个外显子;SbGATA15、SbGATA19含有3个外显子,其他11个GATA基因含有2个外显子。Ⅱ组GATA基因含有2~3个外显子。Ⅲ组中SbGATA18含有3个外显子,SbGATA3、SbGATA4和SbGATA30含有7~8个外显子。Ⅳ组中SbGATA5和SbGATA20分别含有6个和8个外显子。说明同组中GATA家族成员基因具有很强的一致性。
图4 高粱GATA家族基因结构分析
如图5所示,将鉴定的8个保守基序命名为Motif1~Motif8。Motif1为CX2CX18~20CX2C锌指结构域,所有高粱GATA蛋白均含有Motif1。同一组的高粱GATA家族成员具有相似的保守基序,除Motif1外,Ⅰ组中15个GATA家族成员均含有Motif2;Ⅱ组中9个家族成员只含有Motif1;Ⅲ组中SbGATA3、SbGATA4和SbGATA30含有Motif4和Motif7,SbGATA18含有Motif4的部分保守序列(结果未展示);Ⅳ组中SbGATA5和SbGATA20均含有Motif5和Motif8。
图5 高粱GATA家族蛋白保守基序分析
如图6所示,鉴定到的胁迫相关顺式元件主要包括ABRE(脱落酸响应元件)、ARE(厌氧诱导响应元件)、CAT-box(分生组织表达)、CGTCAmotif(茉莉酸甲酯响应元件)、G-box(光响应元件)、LTR(低温响应元件)、MBS(干旱诱导响应元件)、O2-site(醇溶蛋白代谢调控元件)、RY-element(种子特异调控元件)、TC-rich(防御措施响应元件)、TCA-element(水杨酸响应元件)、WUNmotif(机械伤害响应元件)和circadian(昼夜节律控制元件)。
图6 高粱GATA家族基因顺式调控元件分析
多数高粱GATA家族成员都含有ABRE、ARE、CGTCA-motif和G-box元件。SbGATA2和SbGATA26中G-box和ABRE检测量高于其他家族成员,SbGATA5中未检测到ABRE和G-box,SbGATA6中未检测到ABRE,其他GATA家族成员中均至少有一个ABRE和G-box。SbGATA11检测到RY-element元件7个,SbGATA22中CATbox和SbGATA15中LTR分别检测到5个,明显高于其他家族成员。
30个SbGATA家族成员中共检测到492个主要顺式调控元件,其中,光响应元件G-box数量最多,共检测到116个;其次为ABRE,检测到105个;CGTCA-motif和ARE分别检测到70个和48个;CAT-box、LTR、MBS、O2-site、RY-element、TC-rich、TCA-element、WUN-motif、circadian分别检测到24、23、24、12、21、9、16、17、10个。表明高粱GATA家族基因可以响应低温、干旱、光强和光周期等多种逆境条件。
2.7.1 不同生长发育时期组织中的表达 由图7可知,Ⅰ组SbGATA19在各组织中无表达;SbGATA15在花分化期至成熟期下部叶片和叶鞘中表达量较高;SbGATA16除在幼苗期叶片、花分化期花序梗和成熟期干籽粒中表达量较低外,在其他组织中表达量均较高。Ⅱ组中SbGATA29在幼苗期和花分化期叶片中表达量较高;SbGATA9和Sb-GATA25除在圆锥花序、花序梗和干籽粒中表达量较低外,在其他组织中表达量均较高;SbGATA1和SbGATA12花分化期圆锥花序和花序梗中表达量较高。Ⅲ组中SbGATA30在成熟期干籽粒中表达量较高。Ⅳ组中SbGATA5和SbGATA20两个基因除在成熟期干籽粒中几乎无表达外,在其他组织中均有不同程度表达,SbGATA20在不同组织中表达量均较高。总体上,Ⅲ组和Ⅳ组中SbGATA基因家族成员表达量较高。表达分析表明SbGATA基因家族在高粱生长发育中发挥着重要作用。
图7 高粱GATA家族基因在不同生长发育时期组织中的表达分析
2.7.2 干旱胁迫下的表达 转录组分析发现,只有当高粱幼苗模拟干旱处理36 h时,与对照相比,SbGATA11和SbGATA26上调表达,其他时间段其他GATA家族基因表达无差异,说明SbGATA11和SbGATA26基因可能在高粱响应干旱胁迫时发挥重要作用(图8)。
图8 高粱GATA家族基因在干旱处理下的表达分析
本研究从高粱基因组中鉴定出30个GATA成员,其中,26个蛋白序列包含CX2CX18CX2C锌指结构域,与拟南芥[23]和水稻[24]等作物的研究结果一致,而SbGATA3、SbGATA4、SbGATA18和Sb-GATA30的保守锌指结构域为CX2CX20CX2C。这些基因不均匀地分布在8条染色体上,1号染色体上基因数最多(8个),2号、7号染色体上未鉴定到SbGATA基因。
SbGATA蛋白均为不稳定的亲水蛋白,有21个呈碱性,8个呈酸性;编码125~157个氨基酸,
分子质量13 611.44~59 298.79 ku。这些差异可能使其具有不同的生物功能。系统进化分析发现,高粱GATA家族成员可分为4组,与单子叶植物玉米和谷子的GATA亲缘关系较近,与双子叶植物拟南芥的GATA亲缘关系较远;同一组的SbGATA基因结构和蛋白保守基序一致性高,而不同组的SbGATA基因外显子数量差异较大,UTR结构长度差异明显。
SbGATA蛋白含有多种顺式作用元件,可以调控对低温、干旱、厌氧、光强和光周期等非生物胁迫的响应,并参与调控脱落酸、茉莉酸甲酯、水杨酸等激素信号传导。部分基因在分生组织表达、醇溶蛋白代谢调控、防御措施响应、机械伤害响应及种子特异调控元件有响应位点,但不能说明都可以有效结合并影响表达,而且调控方向未明。
表达分析发现,SbGATA15在花分化期至成熟期下部叶片和叶鞘中表达量较高;SbGATA29在幼苗期和花分化期叶片中表达量较高;SbGATA1和SbGATA12在花分化期圆锥花序和花序梗中表达量较高;SbGATA30在成熟期干籽粒中表达量较高;SbGATA16、SbGATA9、SbGATA25和SbGATA20在多数组织中表达量均较高。Zhang等[25]在水稻中发现一个GATA转录因子,可以增加水稻耐冷性,在所有组织中均有表达,在圆锥花序中表达量最高。本研究也发现多个SbGATA基因有低温响应位点,SbGATA16和Ⅲ组、Ⅳ组的6个基因在圆锥花序中表达量较高。马铃薯GATA基因的组织定位研究也发现,StGATA9基因主要表达于叶维管束的韧皮部和茎维管束系统[26],StGATA12基因在马铃薯根、茎、花和叶中均有表达,在花中的表达量最高[27]。卢成达等[10]研究发现,谷子GATA家族成员可以响应干旱胁迫、缺氧胁迫、光强及光周期等多种逆境条件,参与生长素、赤霉素、水杨酸等激素信号传导调控。玉米GATA家族成员在热胁迫处理后,表达上调的基因有9个,可能在应答热胁迫过程中发挥重要作用[28]。以上研究说明GATA转录因子对植物的抗逆性调控具有重要作用,进一步研究高粱GATA基因功能,对充分了解高粱抗逆性及抗逆育种都具有重要意义。