杨 博,丁洪霞,陈方军,郭善利,陈世华
(烟台大学生命科学学院,山东 烟台 264005)
在植物中,三萜皂苷的前体2,3-氧化角鲨烯是由甲羟戊酸(MVA)途径产生的,其中2,3-氧化角鲨烯环化酶(2,3-Oxidosqualene Cyclases,OSC)家族蛋白是三萜皂苷生物合成的关键酶[1-2]。目前OSC基因已在拟南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、大豆(Glycinemax)和人参(Panaxginseng)等多种植物中发现。OSC家族成员具有DCTAE和 QW(QXXXXXW)高度保守序列[3],前者负责与底物结合,后者是带有负电性的芳香族氨基酸,在环化反应中起到稳定碳阳离子的作用,这些重复序列可能与稳定蛋白质结构和其功能相关。
藜麦(ChenopodiumquinoaWilld.)是南美安第斯地区的本土食用植物,其种植和食用历史可追溯到公元前5000年,营养价值高且易于碾磨加工[4]。藜麦蛋白质中的必需氨基酸组成平衡,是世界公认的全营养谷物[5]。该植物对于干旱、盐渍等苛刻条件具有良好的抗逆性,具有极好的经济和研究价值。本研究基于前人公布的藜麦基因组数据[6],应用生物信息学的方法对藜麦2,3-氧化角鲨烯环化酶基因(CqOSC)家族成员进行了鉴定,并对其基因结构、编码蛋白Motif及启动子区顺式作用元件、基因表达模式等进行了分析,以期为CqOSC基因功能的预测及研究提供理论基础。
从拟南芥基因组数据库TAIR(https:∥www.arabidopsis.org/)和水稻数据库(http:∥rice.uga.edu/index.shtml)中查询并下载拟南芥、水稻的OSC蛋白序列。获取序列后使用Tbtools[7]软件与藜麦的蛋白数据库(https:∥www.cbrc.kaust.edu.sa/chenopodiumdb)的蛋白序列进行对比,得到CqOSC候选基因。使用美国国家生物技术信息市中心(NCBI)的保守结构域数据库(CDD)(https:∥www.ncbi.nlm.nih.gov/cdd/)[8]对候选基因的蛋白结构域进行鉴定,最终确认含有OSC蛋白保守结构域的CqOSC基因家族成员。根据CqOSC基因家族全部成员在染色体上的位置进行基因命名。然后使用在线网站(https:∥web.expasy.org/protparam/)[9]对CqOSC家族进行蛋白的理化性质预测。使用Plant-mPLoc(http:∥www.csbio.sjtu.edu.cn/bioinf/plant-multi/#)在线网站进行CqOSC基因家族的蛋白亚细胞定位的预测。
利用MEGA7.0[10]软件中的ClustalW对藜麦、拟南和水稻OSC的蛋白序列进行多序列比对。使用MEGA7.0软件的邻接法(neighbor joining,NJ)并设置1000次boots-trap重复抽样来进行系统发育进化树的构建。
从Phytozome v13数据库(https:∥phytozome.jgi.doe.gov/pz/portal.html)中搜索CqOSC基因家族基因和CDS序列并下载,使用GSDS 2.0在线网站(http:∥gsds.gao-lab.org/index.php)[11]描绘CqOSC基因家族的基因结构,并利用MEME5.1在线网站(http:∥meme-suite.org/tools/meme)[12]对CqOSC蛋白进行保守基序搜索,绘制作图。
C.quinoa和C.pallidicaule(A亚基因组)C.suecicum(B亚基因组)两个祖先种的基因组数据来自Chenopodium DB (https:∥www.cbrc.kaust.edu.sa/chenopodiumdb/download/download-auth.html)。利用共线性扫描工具包MCScanX[13]来分析研究CqOSC基因家族所有成员与两个祖先基因的共线性区域。使用TBtools软件绘制共线性图。
CqOSC基因家族成员启动子序列(转录起始位点上游1500 bp)来源于NCBI网站,使用TBtools软件提取信息,提交到Plantcare 在线网站(http:∥bioinformatics.psb.ugent.be/webtools/plantcare/html)[14]进行预测顺式作用元件的种类及分布情况,绘制顺式作用元件图。
从SRA网站(https:∥www.ncbi.nlm.nih.gov/sra/)下载已知的藜麦多种组织的转录组数据(SRP226463、SRP116149)。以TPM(每百万读取转录本)的形式将RNA-seq数据进行标准化统计和计算[15],进行CqOSC基因的表达模式的分析,使用TBTools软件绘制CqOSC基因家族表达模式分析图。
在藜麦(品种Faro)开花时外施不同浓度0(CK)、0.5、1和2 mmol/L的MeJA,处理24 h,提取花的RNA,进行反转录。使用RT-qPCR测定CqOSCs的基因相对表达量,内参为Cq-Actin。使用Origin[16]软件制作基因表达柱状图:以CK处理下CqOSC11基因表达量作为相对对照处理数据,绘制藜麦花中各CqOSC基因的表达量图;以每个基因各自CK处理下基因表达量为相对对照处理数据,绘制不同浓度MeJA处理下藜麦开花时期各CqOSC基因表达量图。
在藜麦全基因组中共鉴定到15个CqOSC基因家族成员,根据其在染色体上的位置依次命名为CqOSC1~CqOSC15(表1)。CqOSC基因的CDS长度为1124~2630 bp;编码的蛋白长度为373~875个氨基酸,蛋白偏酸性;分子质量介于42 186.54~100 870.02 U,分子质量最大的蛋白是CqOSC4,最小的是CqOSC2;理论等电点介于5.54~6.48之间,其中等电点最大的蛋白是CqOSC5,等电点最小的蛋白是CqOSC2。蛋白亚细胞定位预测结果显示,CqOSC2编码的蛋白定位在细胞质和叶绿体中,其余成员编码的蛋白都定位在叶绿体中。
表1 CqOSCs基因及蛋白基本信息
以藜麦、拟南芥和水稻的OSC蛋白序列为基础,进行系统发育进化分析(图1)。结果显示,来自上述3个物种的40个蛋白根据进化距离被划分为4个亚组(Ⅰ、Ⅱ、Ⅲ、Ⅳ)。亚组Ⅰ只有一个水稻基因(OsOSC12),亚组Ⅱ含有14个基因,其CqOSC基因有2个,拟南芥和水稻各有2和10个,亚组Ⅲ是CqOSC基因家族6个成员自成一支,亚组Ⅳ含有7个CqOSC家族成员和11个AtOSC家族成员。在进化树中可以看到CqOSC9和CqOSC10与AtCAS1进化距离较近,初步可以推测它们是朝着CAS的方向进化。亚组Ⅳ中CqOSC7、CqOSC11、CqOSC12、CqOSC13、CqOSC14和CqOSC15与分支中AtLUPs进化距离相对较近,可以对其功能进行简单预测,但具体的验证要在以后的实验中进行探究。
种缩写:Cq,藜麦;Os,水稻;At,拟南芥,据文献[17]单独命名。
对CqOSC基因家族成员的基因结构(图2)及蛋白序列(图3)结果显示,由图2可见整体CqOSC基因家族各个成员基因结构存在较大差距,序列长度长短不一,内含子与外显子数目存在较大差异,外显子数目从7~20不等,内含子数目从6~19不等。但大多数位于同一分支或进化距离较近的基因家族成员结构相似,序列长度、外显子和内含子数目相近,但也有同一分支成员存在较大差异,CqOSC2与CqOSC6序列长度虽然相近,但是外显子与内含子的数目明显不同。相反,CqOSC7与CqOSC12虽然序列长度存在很大差异,但外显子与内含子的数目相近,并且含有一段十分相似的内含子区域。由图3可见,CqOSC2和CqOSC14蛋白序列上缺少N端的一个Motif,CqOSC2和CqOSC15蛋白序列缺少C端的一个Motif,保守基序的缺失可能会对蛋白质的功能产生影响。保守结构域DCTAE和QW包含在Motif 2和Motif 3中,15个CqOSCs都含有这两个结构域。除CqOSC2与CqOSC6外,同一分支或进化距离较近的家族成员Motif相似,由图可见CqOSC蛋白序列同源性较高,结合说明CqOSC大部分基因家族成员家族进化过程中变化较小。
图2 CqOSC基因家族成员的基因结构分析
图3 CqOSC基因家族成员的蛋白保守基序分析
由图4(a)可见,C.quinoa与C.pallidicaule(A亚基因组)、C.suecicum(B亚基因组)的共线性分析有6个基因(CqOSC9、CqOSC1、CqOSC5、CqOSC7、CqOSC14、CqOSC15)与C.pallidicaule祖先种存在同源性,其中CqOSC1与CqOSC5均与scaffold-487染色体上的基因同源,CqOSC7、CqOSC14与CqOSC15均与scaffold-349染色体上的基因同源,只有CqOSC9与scaffold-122染色体上的基因同源。由图4(b)可见,C.quinoa有7个基因(CqOSC10、CqOSC7、CqOSC8、CqOSC11、CqOSC12、CqOSC13、CqOSC15)与C.suecicum祖先种存在同源性,其中除CqOSC10与scaffold-92染色体上的基因同源外,其余基因家族成员与scaffold-44同源。这一分析结果可以显示CqOSC基因家族成员在系统发生上与其祖先种的进化关系。
图4 C. quinoa与C. suecicum、C. pallidicaule间OSC基因的共线性分析
CqOSC基因家族启动子区共鉴定到多种顺式作用元件(图5)。经鉴定共有18种响应元件,其中数量最多的是光响应元件(160个),可分为24类;激素响应元件也占很大比例(77个),包括赤霉素(TATC-box、P-box、GARE-motif)、生长素(TGA-element、AuxRR-core)、脱落酸(ABRE)、茉莉酸甲酯(CGTCA-motif、TGACG-motif)、水杨酸(TCA-element)等响应元件,其中茉莉酸甲酯响应元件占比较大,12个成员含有该响应元件,其中CqOSC2基因上游1500 bp含有3个MeJA响应元件,CqOSC8、CqOSC10和CqOSC14上游含有2个,CqOSC1、CqOSC4、CqOSC5、CqOSC7、CqOSC9、CqOSC11、CqOSC12和CqOSC13上游只含有1个,而CqOSC3、CqOSC6和CqOSC15上游不含MeJA响应元件;还有逆境胁迫和环境应激响应元件,包括厌氧诱导(ARE、GC-motif)、低温(LTR)、干旱(MBS)、参与防御和压力反应(TC-rich repeats)、和创伤应激(WUN-motif)等响应元件。这表明CqOSC基因家族成员的表达会受到激素或逆境胁迫等因素影响。
图5 CqOSC基因启动子区(1500 bp)顺式作用元件的分布
除此之外,还存在其他的作用元件,但具有明显的特异性,数量较少,如根上的顺式作用元件motif I是根上的特殊元件、CAT-box参与分生组织的表达、GCN4-motif参与胚乳表达的顺式作用元件、Circadian控制植物的昼夜节律、O2-site参与玉米醇溶蛋白代谢调节、MBSI调控类黄酮合成等。
CqOSC基因家族在10种不同组织器官中的表达模式表明(图6),总体来看家族成员表达具有较大区别:CqOSC2、CqOSC3、CqOSC4、CqOSC5、CqOSC11、CqOSC14和CqOSC15在各个部位的表达量都较低,而CqOSC9与CqOSC10在所有组织中均存在不同水平的表达,说明这两个成员与藜麦的这个整个生长发育阶段都有关系,其余CqOSC家族成员的基因表达情况具有明显的特异性。CqOSC6虽然和CqOSC2属于同一分支,但基因表达情况却明显不同,CqOSC6在顶端分生组织、花和未成熟的果实、叶柄、节间茎、花序、叶、白甜藜花和白黄苦藜花都有不同程度的表达,猜测CqOSC6主要参与藜麦的生长阶段的前中期。CqOSC1和CqOSC8都主要在顶端分生组织和花序中表达。CqOSC7和CqOSC12除了在叶和白藜的花中存在较少外,在其他组织中都有所表达,尤其是在花和未成熟的种子中表达量极高,在其他几个部位的花和种子中表达量也都较高,推测其主要与藜麦种皮上皂苷的积累有关,具体的情况需要后续实验的验证。
图6 CqOSC基因在藜麦不同组织中的表达模式分析
对藜麦开花期花序中CqOSC基因家族各成员的相对表达量的RT-qPCR分析(图7)可知,在开花时CqOSC7的基因表达量是最高的,CqOSC11的表达量最低,除此之外还有CqOSC6、CqOSC9、CqOSC10、CqOSC12基因表达量相对较多,CqOSC13、CqOSC15基本不表达,大部分同一分支基因表达量相近。通过外施不同浓度MeJA可以看到各个基因对MeJA的响应情况(图8),其中CqOSC2、CqOSC4、CqOSC8等基因的表达量受MeJA影响较为显著,而CqOSC3、CqOSC6、CqOSC15基因表达量则基本没有变化。CqOSC基因家族对外施不同浓度MeJA响应表现为常见的低促高抑现象。在外施0.5 mmol/L和1 mmol/L MeJA时基本是提高基因表达量,在浓度达到2 mmol/L时表达量显著下降。
图7 开花时期藜麦花中CqOSC基因的表达
图8 不同浓度MeJA处理藜麦开花时期CqOSC基因表达量
藜麦目前作为一种高营养的新兴粮食在市场逐渐火热,但研究发现藜麦种皮上含有的皂苷使其具有一定的苦味与毒性,需要水洗或机械研磨去除[18],影响其种植与推广。2,3-氧化角鲨烯环化酶(OSC)是皂苷产生途径中的关键酶,在多种植物中皆有发现,依据其蛋白上具有高度保守序列的特点,结合前人对基因家族生信分析的研究,可以快速找到藜麦中OSC基因家族成员。有研究在拟南芥和水稻中分别发现13个AtOSCs与12个OsOSCs[19]。通过与这25个成员对比,在藜麦基因组中鉴定得到15个CqOSC基因家族成员,在系统发育发育分析中可以看到CqOSC的成员与同为双子叶植物的拟南芥亲缘关系更近。研究发现OSC基因家族的天然结构具有多样性,这是由于OSC酶的核心部位可以具有多种变换而产生的[3],所以CqOSC家族的基因结构具有较大差别。同时家族成员都含有Motif1/2/3这三个蛋白保守基序,推测这三个保守基序对其生物学功能具有重要意义。皂苷的苦味使其在一定程度上具有抵御虫害的作用,所以CqOSC成员与祖先种相较在进化过程中不仅没有丢失,相反数目还进行了明显的扩增,并且表现为祖先种一条染色体上的基因进化到藜麦的不同染色体上,猜测与二倍体祖先种C.pallidicaule(A亚基因组)、C.suecicum(B亚基因组)不断杂交产生染色体加倍相关。
结合各CqOSC基因在藜麦不同组织中的表达模式分析和开花时外施不同浓度MeJA处理后各成员基因表达情况结果来看,CqOSC家庭成员在生殖生长过程中具有显著的组织特异性,CqOSC6、CqOSC7、CqOSC12在花以及种子中表达量较高,其可能与种子中皂苷的积累有密切关系;而CqOSC6同时与CqOSC8在顶端分生组织中表达量高,CqOSC9与CqOSC10在整个表达模式中表达量都较高,其可能与藜麦整株皂苷的积累相关。FIALLOS-JURADO[20]等发现将藜麦叶片浸泡在MeJA中30 s后,藜麦叶片的皂苷合成量增加,本实验适当改变处理条件,再结合图5与图8的结果显示,开花时外施不同浓度MeJA,基因上游不含有MeJA的响应元件的CqOSC3、CqOSC6、CqOSC15基因表达量基本没有变化,而含有MeJA响应元件较多的CqOSC2、CqOSC4、CqOSC8等基因的表达量变化显著,所以CqOSC基因家族成员的表达模式与其基因上游MeJA响应元件数量相关。同时CqOSC基因家族对外施不同浓度MeJA响应变现为常见的低促高抑现象:在外施0.5 mmol/L和1 mmol/L MeJA时基本是提高基因表达量,在浓度达到2 mmol/L时表达量显著下降,抑制了基因表达,说明MeJA同样影响藜麦花期皂苷合成,在后续种植或研究可以考虑外施MeJA来降低种子中的皂苷含量。综上所述,通过生物信息学的方法对CqOSC基因家族各个成员进行分析预测,对其基因功能的后续研究具有一定的参考意义。