王家啟 张 曦 李 莉
(东北林业大学林木遗传育种国家重点实验室,哈尔滨 150040)
转录因子(Transcription factor)是指能与基因启动子区域特定的顺式作用元件相互结合,激活或抑制相关蛋白转录,在信号通路中起承上启下作用的关键蛋白[1]。在逆境胁迫响应过程中起作用的转录因子是植物中非常重要的一类调节基因,它们可以通过形成复杂的网络,在时空两个维度上共同调控各类基因的表达,因而是提高植物对逆境的抗性以及优良性状改良的一种更加行之有效的潜在工具[2~3]。近年来,很多研究者对能够被非生物胁迫诱导表达的基因产生了浓厚的兴趣,期望通过研究这些基因的分子作用机制来揭开植物逆境生长的谜团,从而利用基因工程的手段来提高植物抵御各类非生物胁迫的能力。到目前为止,许多与非生物胁迫有关的转录因子基因相继被克隆出来,如AP2/EREBP、MYB、NAC、WRKY、HSF、ZFP和bHLH等[4~5]。
同源异型域—亮氨酸拉链(HD-Zip)蛋白是植物界所特有的一类转录因子,调控植物特有的生长发育过程。HD-Zip包含一个由61个氨基酸构成的高度保守的同源异型域HD(Homeodomain,HD)和紧随其后的亮氨酸拉链(Leucine zipper,LZ)结构域[6]。根据序列的保守性、结构特点、功能以及其他特征,将HD-Zip转录因子分成HD-ZipⅠ、HD-ZipⅡ、HD-Zip Ⅲ和HD-Zip Ⅳ4个亚家族[7~8]。HD-ZipⅠ亚家族基因进化相对保守,分别在羧基端(carboxyl-terminal region,CTR)和氨基端(amino-terminal region,NTR)分布着一些保守结构[9]。研究表明,HD-ZipⅠ蛋白主要参与植物光信号转导[10]、叶片和种子发育调节[11~12]以及植物对逆境胁迫的应答反应等过程[13~14];HD-Zip Ⅱ亚家族由半胱氨酸(Cys)、脯氨酸(Pro)、丝氨酸(Ser)、半胱氨酸(Cys)、谷氨酸(Glu)构成,其特有的保守结构域是CPSCE[15],在介导植物对光质改变的应答[16]、避荫反应[17]和非生物胁迫响应[18]等过程中发挥着重要作用;HD-Zip Ⅲ亚家族的结构复杂,除具有HD和Zip结构域外,从N端到C端还含有START(steroidogenic acute regulatory protein lipid transfer domain)、HD-SAD(homeodomain-START associated domain)和MEKHLA(Met-Glu-Lys-His-Leu-Ala)结构域[19],该亚家族具有抑制转录的作用,主要参与植物的胚胎发育[20]、分生组织形成[21]、维管发育[22]等;HD-ZipⅣ亚家族含有4个与HD-ZipⅢ亚家族相同的保守结构域,HD、Zip、START和HD-SAD结构域,但该亚家族蛋白也有其特点[23],该亚家族基因主要参与表皮细胞的发育[24]、物质积累及运输[25]、抵抗生物胁迫以及非生物胁迫过程[26]中起重要作用。
白桦(BetulaplatyphyllaSuk.)具有耐寒性强、生长快、适应性强、材质优良等优点,是我国东北地区具有重要应用价值和发展潜力的树种之一。在我国愈来愈多的土地大面积盐渍化等国情条件下,白桦速生、抗逆等优良品种的缺乏已成为制约白桦木材生产的严重问题。为了获得提高白桦耐盐性的相关基因并深入研究它们调控的分子机理,我们对盐胁迫下白桦转录组数据和白桦全基因组数据进行了分析,从中挑选出在白桦中尚无研究的HD-Zip转录因子家族基因成员,对这些基因进行了生物信息学特征以及应答盐胁迫的表达特征分析,为进一步深入研究该基因功能奠定了理论基础。
白桦组培苗移栽到混合培养基质中,挑选苗龄八周且长势基本一致的白桦幼苗作为本研究材料,用200 mmol·L-1NaCl溶液分别胁迫处理0、6、12、24和48 h后收根、茎、叶样品,每个处理设3个生物学重复,液氮速冻,提取样品RNA,委托生物公司进行转录组测序,最后利用qRT-PCR对RNA测序结果进行验证。
从TAIR(http://www.arabidopsis.org/)数据库中查找并下载拟南芥HD-Zip基因家族成员的蛋白序列,作为鉴定白桦HD-Zip的请求序列,采用BLASTP程序检索(E值设为1-e10)目前已完成的白桦全基因组数据库(未发表),得到靶序列。将这些候选靶序列在pfam数据库中进行结构域检验。采用BioEdit软件对所获得的蛋白质序列进行多重序列比对分析。
将获得的HD-Zip基因的氨基酸序列放入ExPASy站点中的ProtParam(http://web/expasy/org/protparam/)在线工具预测分析,Compute pI/Mw获得蛋白质分子量、等电点等理化属性;对白桦HD-Zip基因家族成员蛋白序列的二级结构应用在线工具PBIL(https://npsa-prabi.ibcp.fr/)进行预测分析;利用MEGA7.0软件,用邻接法构建系统进化树;利用在线工具MEME(http://meme-suite.org/)对所获得的蛋白质保守结构域进行预测,MEME鉴定的所有结构域均在SMART和Pfam数据库中进行搜索。
提取样品总RNA,反转录合成cDNA。根据基因的序列,分别设计定量引物(表1),参考SYBR Premix Ex TaqTMⅡ说明书设置qRT-PCR反应体系。内参基因为BpTubulin(GenBank登录号:FG067376)。每个样品进行3次技术重复,采用2-△△Ct相对定量法计算基因的相对表达量。
利用拟南芥的HD-Zip基因, 采用BLASTP程序在目前已完成的白桦基因组库中进行序列相似性搜索,获得35条候选序列,并利用HD、Zip结构域进行验证。参考拟南芥HD-Zip基因家族的分类以及与拟南芥48个基因家族成员序列比对的结果,将白桦HD-Zip基因家族分成四个亚家族,其中HD-ZipⅠ中有10个,HD-ZipⅡ有11个,HD-Zip Ⅲ中有4个,HD-Zip Ⅳ有10个成员。
表1 qRT-PCR引物序列
通过在线网站MEME分析获得了白桦HD-Zip家族成员的15个保守序列(表2,图1),对其中的保守结构域进行分析,结合该家族四个亚家族不同的结构特征,结果显示,高度保守的HD结构和LZ结构域是由保守序列2、1和6保守结构域编码的;保守结构域12与编码HD-ZipⅡ亚家族的CPSCG保守结构域相关;3、5、9、10、和13与START和HD-SAD结构域编码有关,11、14和15可能与编码HD-ZipⅢ亚家族特有的MEKHLA结构域相关的,4、7和8是HD-ZipⅣ亚家族特有的保守结构域。
图1 白桦HD-Zip基因家族的预测保守结构域和系统进化树分析Fig.1 Predicted conserved motif and phylogenetic analysis of HD-Zip genes in B.platyphylla
Table2TheconservedaminoacidsequenceofHD-ZipproteinfromB.platyphylla
基序编号Code长度Length保守氨基酸序列Conserved amino acid sequence129ZLGLEPRQVKVWFQNRRARTKTKQEEVDY229KKKLRLTKEQIQALERSFKECPKLEPKQK341GMAGNRNGTJQLMYAELQVPSPLVPTREFYFLRYCKQLEDG450TSVWLPVSPQRVFDFLRDERLRSZWDILSNGGPVQEMAHIANGQDPGNCV529SFVRCRRLPSGCLIQDMPNGYSKVTWVEH650ESLRDENRRLQKEVQELRALK21750NSSQSNMLILQESCTDSSGSLVVYAPVDIVAMNLVMSGGDPSYVALLPSG841SRETGVVIMNSISLVEILMDVNQWAELFPCIVSRAKTIEVJ930ELDKWSVHELYRPLVESGLAFGAKRWVATL1030KSLLKLAQRMVRGFCAAVSASTDHGWTTLS1150FLSKATGTAVDWVQMPGMKPGPDSIGIVAISHGCSGVAARACGLVGLEPT1250LGSSSPLYIQLPKAATLGMCPACDKIVKATEGKNAAVLDVVGRRNKKLQI1329GGSLLTVAFQILVDSSPTAKLALESVZTV1450PVFTFANQAGLDMLETTLVALQDITLDKIFDDNGRKTLCSEFPKIMQQGF1549GGVLCAKASMLLQNVPPAILLRFLREHRSEWADYNIDAYSAAAJKAGPY
根据白桦基因组注释,发现白桦HD-Zip基因家族成员在白桦染色体上的分布不均匀,在第6、1、8和11染色体上较多,分别为5、4、4和4条,在第4、14、3、5、10和12染色体上分布较少,分别只有3、3、2、2、2和2条,其他染色体上都只有1条,第9条染色体上没有该家族的基因。
通过对白桦HD-Zip基因家族成员的序列进行分析,结果显示,白桦HD-Zip基因的编码的蛋白质氨基酸长度范围在195~1 100个氨基酸残基,分子量在22 215.30~120 849.4 Da范围。各亚家族蛋白之间氨基酸长度相差很大,其中HD-ZipⅠ和HD-ZipⅡ在100~400 aa,而HD-Zip Ⅲ和HD-Zip Ⅳ在600~1 100 aa。各亚家族氨基酸长度不同是因为其结构不同,HD-Zip Ⅲ和HD-Zip Ⅳ亚家族的结构相对复杂,因而这两个亚家族的基因较长。等电点分析发现,除BPChr08G31889为中性外,有12个蛋白的等电点在8.00以上,其他都在7.00以下,呈偏酸性。不稳定指数分析显示,各成员编码蛋白的不稳定指数几乎都在40以上,为不稳定蛋白。疏水性分析表明,疏水平均系数都为负值,因此所有白桦HD-Zip蛋白为亲水性蛋白。
通过对各成员二级结构预测可知,白桦HD-Zip家族成员的二级结构由α螺旋、β转角、延伸连和无规则卷曲四部分组成,α螺旋和无规则卷曲是该家族蛋白的主要组成部分。利用Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)对白桦HD-Zip基因家族的蛋白质成员进行亚细胞定位预测分析,除了HD-Zip Ⅲ亚家族的BPChr10G05966,HD-Zip Ⅳ亚家族的BPChr03G10886和BPChr08G07648定位于细胞质,HD-Zip Ⅳ亚家族的BPChr04G02674定位于线粒体之外,其他蛋白均定位于细胞核,表明HD-Zip转录因子在细胞核中发挥作用。
通过分析白桦盐胁迫转录组数据,筛选出7个HD-Zip家族差异表达基因,分别为MH381401、MH381502、MH381603、MH381704、MH381805、MH381906和MH382007,根据转录组数据的FPKM值,进一步分析这些基因响应NaCl胁迫时的表达情况,可以发现MH381401和MH381603基因胁迫处理后表达量略微下调;而MH381502、MH381704和MH381906则是表达量略微上调;MH381805基因除了在胁迫处理6 h时有略微的下调之外,其他时间点均是显著上调表达,并且在胁迫处理48 h是对照的16.11倍;MH382007基因在胁迫处理后表达量显著上调,在处理了6 h时表达量达到对照的70.68倍(图2)。另外,根据表3分析发现,7个差异表达的基因中的MH381401和MH381805属于HD-ZipⅡ亚家族,其他5个属于HD-ZipⅠ亚家族。
图2 转录组中HD-Zip家族7个差异表达基因的表达模式Fig.2 Expression analysis from HD-Zip family gene of seven DEGs by transcriptomic analysis
基因编号Code类型Type染色体Chromosome氨基酸数量Number of amino acids分子量Molecular weight等电点Theoretical PI不稳定指数Instability index脂肪系数Aliphatic index疏水性平均系数Grand average of hydropathicity二级结构预测Secondary structure prediction(%)α-螺旋Alpha belix延伸链Extended strandB转角Beta Corner无规则链Random coil亚细胞定位预测Subcellular localization predictionBPChr12G11484Ⅰ1270679555.146.3344.4586.74-0.31741.6415.868.5033.99细胞核NucleusBPChr07G26403Ⅰ732336227.475.1266.4170.06-0.67234.679.603.1052.63细胞核NucleusBPChr08G01281Ⅰ830634510.184.7953.7965.29-0.83031.0510.782.2955.88细胞核NucleusBPChr04G03645Ⅰ432937048.564.6659.3767.84-0.77130.0912.462.4355.02细胞核NucleusMH381906Ⅰ1128732683.776.6058.1967.00-0.79130.666.621.7460.98细胞核NucleusBPChr08G31889Ⅰ824327616.657.6953.2959.01-1.06538.683.703.7053.91细胞核NucleusMH382007Ⅰ623827113.345.4246.3265.63-0.83949.165.041.6844.12细胞核NucleusMH381704Ⅰ219522222.946.2566.4072.56-0.81041.546.672.5649.23细胞核NucleusBPChr14G27919Ⅰ1422225726.076.6162.6563.24-0.86337.3910.812.7049.10细胞核NucleusMH381502Ⅰ421324709.446.1660.6759.48-1.07451.646.576.1035.68细胞核NucleusBPChr08G20441Ⅱ820723413.659.1373.3262.66-0.83436.238.701.4553.26细胞核NucleusBPunChr33111ⅡUnknon19722215.309.2140.0876.24-0.84839.5913.202.0345.18细胞核NucleusBPChr01G13738Ⅱ119722714.879.6047.4068.83-1.03937.0612.693.0547.21细胞核NucleusBPChr01G13608Ⅱ122726054.598.7055.4972.20-0.91432.6012.783.5251.10细胞核NucleusMH381805Ⅱ122826096.508.0943.9073.16-0.84431.5814.041.7552.63细胞核NucleusMH381401Ⅱ1225728793.568.5165.2169.49-0.75334.2411.283.1151.36细胞核NucleusBPChr05G22459Ⅱ528231275.438.5257.8470.99-0.59231.5615.604.2648.58细胞核NucleusBPChr14G12954Ⅱ1433837305.628.6958.9059.85-0.78429.5915.682.6652.07细胞核NucleusBPChr03G10966Ⅱ328531914.019.1472.6067.05-0.77431.5813.682.1152.63细胞核NucleusBPChr13G24610Ⅱ1333637115.908.4568.2170.80-0.68230.3615.1810.7143.75细胞核NucleusBPChr06G30202Ⅱ633637115.908.4568.2170.80-0.68230.3615.1810.7143.75细胞核NucleusBPChr06G21476Ⅲ684192602.106.0649.0786.55-0.14540.3114.514.8840.31细胞核NucleusBPChr01G05204Ⅲ183391293.396.2349.3449.34-0.13443.2213.575.1638.06细胞核NucleusBPChr10G05966Ⅲ101100120849.436.1543.5786.09-0.08941.2717.097.5534.09细胞质CytoplasmBPChr10G24042Ⅲ1084391824.555.9348.7487.40-0.09040.5713.884.2741.28细胞核NucleusBPChr03G10886Ⅳ355763239.635.1251.6290.66-0.24839.5016.883.7739.86细胞质CytoplasmBPChr04G02674Ⅳ469476480.445.5249.3186.07-0.11533.7215.565.4845.24线粒体MitochondrionBPChr05G17507Ⅳ577885700.875.3056.3579.00-0.33432.1314.013.9849.87细胞核NucleusBPChr11G18694Ⅳ1167374775.446.3445.6785.47-0.28535.2216.054.9043.83细胞核NucleusBPChr11G06804Ⅳ1187797563.778.2850.8587.59-0.17435.9216.195.3642.53细胞核NucleusBPChr06G08066Ⅳ675683485.526.0347.3475.21-0.45534.3913.763.9747.88细胞核NucleusBPChr08G07648Ⅳ877184734.246.0648.4184.47-0.23033.7214.272.8549.16细胞质CytoplasmBPChr06G02186Ⅳ681988765.756.0647.6181.81-0.26133.2114.163.4249.21细胞核NucleusBPChr11G28673Ⅳ1175482129.935.8639.9779.54-0.32125.5413.663.3247.48细胞核NucleusBPChr14G27036Ⅳ1472880464.326.0446.5782.35-0.33036.8114.153.7145.33细胞核Nucleus
通过qRT-PCR分析结果表明,7个基因在不同胁迫时间下的表达模式与转录组数据基本吻合,验证了转录组数据分析的准确性和和真实性,同时,也为以后研究白桦中该家族基因的表达模式提供了很好的依据。
通过qRT-PCR研究发现,7个基因在根、茎和叶组织中均有表达,其中在茎和根中的表达量相对较高,在叶中的表达量相对较低,如图4所示,表明这些基因响应盐胁迫的表达没有组织特异性。
图3 qRT-PCR验证7个白桦HD-Zip差异表达基因的表达模式Fig.3 Expression analysis from HD-Zip family gene of seven DEGs by qRT-PCR
图4 白桦7个HD-Zip差异表达基因在不同组织中的表达模式Fig.4 Expression patterns in different tissues of seven HD-Zip genes from B.platyphylla
目前,在一些植物中已经开展了全基因组范围内的HD-Zip基因家族的鉴定,如拟南芥中鉴定出48个HD-Zip基因[27],水稻33个[28],玉米55个[29],杨树63个[30],小麦46个[31],棉花61个[32]。近年来,在大豆[33]、小麦[31]、玉米[34]、木薯[35]等植物中把全基因组水平的HD-Zip基因家族鉴定与高盐、干旱、冷害或ABA等非生物胁迫下的基因表达模式研究相结合,对HD-Zip基因家族的调控植物应答非生物胁迫应答的功能有了一定的了解。但白桦HD-Zip基因家族尚未报道。本研究利用拟南芥HD-Zip基因家族序列作为请求序列鉴定出35个具有完整结构域的HD-Zip基因,家族成员数量较目前已知的其他物种少。这可能是由于白桦全基因组数据库中的基因注释工作尚未完成。我们查找到43条包含HD结构域的候选序列,其中有8条序列较短。除此,系统进化分析发现白桦HD-Zip基因与林木模式植物杨树以及其他草本模式植物的同源性不高,种间差异较大。因此,不能预测其完整的氨基酸序列。
本文利用序列比对鉴定的白桦HD-Zip基因,在13条染色体上分布不均匀,可能与进化过程中基因的功能特征有关。HD-Zip基因编码的蛋白氨基酸数量和分子量的大小与各亚家族的结构基本符合;HD-ZipⅠ、HD-Zip Ⅲ和HD-Zip Ⅳ蛋白质等电点几乎都是偏酸性的,而HD-ZipⅡ亚家族的都是偏碱性,主要由于这些蛋白含有许多亮氨酸在内的碱性氨基酸,这可能与形成亮氨酸拉链结构域,从而介导蛋白二聚体的形成密切相关;不稳定系数表明该家族蛋白都是不稳定蛋白,脂肪系数都在49.34以上,而且大部分都是亲水性极强的蛋白,二级结构预测结果中α-螺旋和无规则卷曲所占的比重最大,这些性质可能都与该家族蛋白的功能有关,本研究结果为进一步研究该基因家族的功能提供参考。
目前,对HD-Zip蛋白的研究表明,HD-ZipⅠ和Ⅱ亚家族基因的表达能够被高盐、干旱、ABA等胁迫的诱导,一些基因能够提高植物耐逆性[36],如水稻中HD-ZipⅠ亚家族OsHOX24基因在持续干旱的胁迫下上调显著,而且该基因的启动子融合OsNAC基因过表达水稻不仅提高了水稻的抗旱性,还增强了水稻的耐盐性,而且还不会给水稻的生长发育带来负面影响[37];苜蓿中HD-ZipⅡ亚家族的MTHB1基因在盐胁迫下能够提高植物的耐盐能力[38];向日葵中的HaHB4基因与拟南芥中的AtHB7和AtHB12序列相似性很高,属于HD-ZipⅠ亚家族的成员,都能响应植物的高盐、干旱及ABA等非生物胁迫[39]。通过高盐胁迫白桦转录组测序结果获得的7个差异表达的HD-Zip家族基因都属于HD-ZipⅠ或Ⅱ亚家族成员,表明这些基因参与白桦对高盐胁迫的响应。本研究是基于现有的白桦基因组和盐胁迫转录组数据,开展白桦HD-Zip基因家族的鉴定与分析工作,为进一步研究该基因家族在提高植物耐盐性的功能奠定了理论基础。