王星文,吴 端,师玉华,张 栋,丁丹丹,马婷玉,向 丽**
(1. 中国中医科学院中药研究所/中药鉴定与安全性评估重点实验室 北京 100700;2. 北京城市学院生物医药学部北京 100083;3. 贵州大学生命科学学院/农业生物工程研究院,山地植物资源保护与种质创新教育部重点实验室,山地生态与农业生物工程协同创新中心 贵阳 550025)
中药青蒿源于菊科植物黄花蒿(Artemisia annua)的干燥地上部分,味苦、辛,性寒;归肝、胆经,具有清虚热,除骨蒸,解暑热,截疟,退黄等功效,在中国具有2000 多年的药用历史[1]。研究发现,黄花蒿主要药用有效成分为倍半萜类物质,其中青蒿素以极高的抗疟活性著名,青蒿素联合疗法(Artemisinin-based combination therapies,ACTs)是目前为止治疗疟疾,尤其是脑疟和对氯喹耐药的疟疾,最高效快速且无严重副作用的治疗手段,此外青蒿素类药物还具有抗肿瘤、抗炎、免疫调节等药理作用[2]。青蒿素在野生黄花蒿植物体内含量较低,目前对青蒿素高产的黄花蒿优质株系培育已有大量研究[3],但其生物合成的转录调控机制却还未完全明晰。因此,深入研究青蒿素合成途径转录调节因子对培育高含量植株,促进青蒿素生物合成及开发青蒿素类药物等具有重要意义。
转录因子是影响药用植物次生代谢物质合成和积累的重要调控因子,其中碱性亮氨酸拉链(basic leucine zipper,bZIP)是真核生物转录因子中分布最广泛、最保守的转录因子家族之一,在拟南芥[4]、黄瓜[5]、苦荞[6]、油菜[7]、水稻[8]等植物中均有报道,主要参与抵御生物胁迫与非生物胁迫[9,10]、调控种子休眠萌发[11,12]、光信号传导[13]及组织生长分化[14]等植物生理过程。
研究已证明,植物激素对青蒿素的转录调控具有积极作用[15],bZIP转录因子主要通过参与脱落酸(Abscisic acid,ABA)信号传导途径来影响青蒿素的合成,如AabZIP1 通过结合ABA 信号转导响应元件ABRE,激活青蒿素合成途径上关键酶紫杉醇二烯合酶(Amorpha-4,11-diene synthase,ADS)和细胞色素P450 单加氧酶(CYP71AV1)基因的启动子表达[16-18],bZIP同时也部分参与到水杨酸(Salicylic acid,SA)与茉莉酸(Jasmonic acid,JA)对青蒿素合成的调控中[19,20]。虽然一些研究表明这与bZIP转录因子家族特异性识别A-box(TACGTA),C-box(GACGTC)和Gbox(CACGTG)等核心基序为“ACGT”的顺式作用元件密切相关,但具体的分子调控机制仍有待进一步探索[21-22]。
光作为必要能量和重要的环境信号因子,在药用植物次生代谢物质合成和积累中起重要调控作用,Hong 等[23]发现蓝光下过表达拟南芥隐花色素1(Cryptochrome Circadian Regulator 1,CRY1)基因的黄花蒿植株,青蒿素含量明显增加;Zhang 等[24]研究发现红光和白光胁迫对青蒿素代谢途径中关键酶基因具有激活作用;此外,UV-B、UV-C 也对青蒿素的合成具有较强的诱导作用[25]。bZIP转录因子家族作为重要的光信号传导调控因子,其H 亚族成员HY5 转录因子(Long hypocotyl 5)可以通过结合G-box 激活下游许多光诱导基因的表达,如青蒿中的β-pine 烯合酶基因(QH6)及青蒿素正向调节因子AaGSW1,对青蒿素底物法呢基焦磷酸酯(Farnesyl pyrophosphate,FPP)的合成也具有一定影响[13,26,27]。
随着Shen 等[28]对黄花蒿核基因组数据测序的完成,黄花蒿bZIP(AabZIP)基因家族的全面分析及基因功能研究已成为可能。本研究基于黄花蒿基因组及转录组数据,利用生物信息学手段,通过对黄花蒿bZIP转录因子家族成员理化性质、系统进化分析、基因结构及不同光照条件下基因表达情况等进行研究,以期为后续深入探索黄花蒿bZIP基因功能,解析青蒿素合成途径及光信号网络转录水平调控机制,黄花蒿良种选育等工作提供参考依据。
本研究以黄花蒿(Artemisia annua)基因组数据库(登录号:PRJNA416223)为研究对象,对应基因组数据获取自NCBI(https://www.ncbi.nlm.nih.gov/datasets/genomes/?txid= 35608),对应的拟南芥bZIP转录因子序列获取自TAIR 数据库(http://www.arabidopsis.org/)。通过构建本地黄花蒿全基因组序列数据库,利用Wang 等[29]报道的71 条拟南芥(Arabidopsis thaliana)bZIP转录因子序列执行本地BLAST 搜索(E-value =1e- 10);同时利用Pfam 数据库(http://pfam.xfam.org/)下载的bZIP转录因子隐马尔可夫模型(Hidden Markov Model,HMM)矩 阵 文 件bZIP_1(PF00170)、bZIP_2(PF07716)、bZIP_C(PF12498)、bZIP_Maf(PF03131)对黄花蒿基因组数据进行筛选鉴定,合并2次鉴定结果,去除重复序列并将所得候选AabZIP蛋白序列提交Pfam 数据库(http://pfam.sanger.ac.uk/search)进行进一步鉴定,以明确黄花蒿bZIP转录因子家族成员。此外利用在线工具ExPASy(http://expasy.org/tools/protparam.html)对AabZIP蛋白质分子量、理论等电点、总平均亲水性等蛋白质理化性质进行预测,并通过在线 软 件Cell-PLoc 2.0(http://www.csbio sjtu.edu.cn/bioinf/Cell-PLoc-2/)对AabZIP蛋白质进行亚细胞定位及分析。
利用MEGA7.0 软件的MUSCLE 工具进行多重序列联配比对分析,利用邻接法(Neighbor-Joining,NJ)构建拟南芥-黄花蒿bZIP基因系统发育树,并使用Pairwise Deletion 处理缺失数据,P-distance 模型,校验参数Bootstrap 重复次数设置为1000 次。利用在线软件 EvolView (https://www. evolgenius. info/evolview/#login)对系统发育树进行可视化修饰。
利用BLAST 软件对黄花蒿bZIP 蛋白序列进行比对,利用软件TBtools 中KaKs_Calculator 工具计算基因同义替换率(Ks)与非同义替换率(Ka),获得基因Ka/Ks 比率。当Ka/Ks 大于1 时认为基因存在正向选择效应,当Ka/Ks 小于1 时则认为存在纯化选择响应。通过计算Ka/Ks之间的比率判断是否有选择压力作用于黄花蒿bZIP基因家族。
利用在线工具meme(http://meme-suite.org/tools/meme)对黄花蒿bZIP家族成员蛋白保守结构域进行预测分析。使用在线工具Gene Structure Display Sever(http://gsds.cbi.pku.edu.cn/index.php)绘制AabZIP基因结构图并进行可视化分析。
黄花蒿转录组数据下载于NCBI 数据库(登录号:SRP133983),利用perl 脚本解析不同光照处理下黄花蒿基因转录数据,获取(LED)蓝光(470 nm)、红光(670 nm)、远红光(735 nm)、白光及黑暗处理下黄花蒿bZIP转录因子FPKM 值(Fragments per kilobase of transcript per million mapped reads),利用TBtools 软件对其进行聚类及可视化分析。
表1 黄花蒿bZIP转录因子家族信息
全基因组水平中初步筛选得到的144 条AabZIP候选蛋白序列,后经Pfam 在线数据库进行鉴定,去除假阳性及结构域极不完整的序列后(表1),最终得到78 条黄花蒿bZIP 蛋白序列作为后续分析对象。氨基酸理化性质分析表明,78 条AabZIP 蛋白氨基酸长度范围为119 aa(AabZIP61)-649 aa(AabZIP8),对应的分子量大小范围为13.459(AabZIP61)-72.525(AabZIP78)KDa,其中S 亚族氨基酸长度大部分小于200 aa;理论等电点变化范围在10.27(AabZIP5)-4.86(AabZIP17)之间,A 亚族与H 亚族理论等电点多为8-10,显碱性,而G与I亚族多为5-7,偏酸性,F亚家族成员及AabZIP4、AabZIP66蛋白较为稳定。所有蛋白亚细胞定位分布于细胞核上且均表现为亲水性(GRAVY<0),这与Zhang 等[18]、Shen 等[22]及Zhong 等[30]的报道结果相一致。
续表
对黄花蒿bZIP家族成员进化选择压力进行分析发现,14 组同源基因序列中AabZIP21与AabZIP25存在非同义替换而无同义替换(表2)。而AabZIP75与AabZIP55仅存在同义替换,除AabZIP33/AabZIP38的KA/KS 值为0.915,AabZIP72/AabZIP58为0.610 外,其余11组序列Ka/Ks值均小于0.5,这表明大部分黄花蒿bZIP基因经历了强烈的纯化选择[29]。
表2 黄花蒿bZIP基因进化压力分析
为研究黄花蒿bZIP基因的进化关系,在多序列联配的基础上,利用MAGA7.0软件构建黄花蒿与拟南芥bZIP转录因子家族系统发育树(图1)。两者bZIP转录因子家族成员在进化上高度保守。依据Jakoby 等[4]对拟南芥的分类方法将黄花蒿bZIP基因家族分为A、B、C、D、E、F、G、H、I、S 等10 个亚家族,并根据分组情况依次进行重命名(AabZIP1-AabZIP78),同亚家族成员功能推测存在相似性。
10 个亚家族中,S 亚族的AabZIP成员数量最多,有22 条(28.2%);B 与D 亚族数量最少,均只有1 条。研究表明D 亚族成员在植物防御病害和生理生长环节中扮演着重要角色,可以与NPR1相互作用,或结合SA 诱导元件激活SA 介导的植物病原体防御机制[10],相比拟南芥中10 条[4],毛竹中16 条[31],黄花蒿bZIP家族转录因子可能在抵抗病原体侵染方面参与较少。G亚族与H 亚族成员数量分别为12 和2 条,其均可以特异性结合光诱导基因重要顺式元件G-box[13,32],在光形态发生和光信号转导中发挥重要的作用。这也表明这2个亚族成员很可能参与到光调控下青蒿素合成途径之中,其生物学功能具有进一步研究意义。此外AabZIP78未与其他任何序列聚类,推测可能是其基因结构在进化中出现了较大的差异,或与拟南芥中bZIP家族序列出现不同的进化方向,具体的基因结构及功能需要继续深入探索。
为进一步分析黄花蒿bZIP基因之间的进化关系,利用在线工具GSDS 构建黄花蒿bZIP基因的外显子-内含子结构图(图2),结果显示,AabZIP亚家族与外显子关联明显,同一亚家族成员基因结构(外显子的数量、长度和位置)大多相似,而不同亚家族间表现出高度特异性。黄花蒿78个AabZIP基因外显子数在1-18(AabZIP20)间分布,其中16 个(20.5%)AabZIP基因无内含子结构且大部分集中在S 亚族。除AabZIP70外(含9 个),S 与F 亚族AabZIP序列外显子数均为1-2个;A 与I 亚族外显子数大多为4 个,而G 亚族AabZIP结构最为复杂,其外显子数在10-16 之间(大多为12个);C 亚族中AabZIP17的外显子数量(11 个)几乎是AabZIP15(6 个)、AabZIP16(5 个)的2 倍;E 亚族的2 条基因AabZIP19(4 个)、AabZIP20(18 个)间差异也较大。保守的基因结构变化很有可能是进化中关键事件的记录,而这些外显子-内含子位置与数量的差异或许会导致特殊的基因功能及进化方向[33]。
利用Pfam 数据库及在线软件meme 对黄花蒿78个AabZIP蛋白保守结构进行预测(图3)。同亚家族的AabZIP蛋白含有的保守结构类别及位置相似,不同亚家族间差异较大。各亚家族的保守基序均与拟南芥中报道相似,说明在功能方面拟南芥bZIP序列具有很大参考作用。
AabZIP蛋白主要含有bZIP1、bZIP2和bZIPC这3种bZIP结构域,其中大部分为bZIP1结构域,少部分为bZIP2结构域,且主要集中在F 亚族,bZIPC结构域仅有一条,为C 亚族成员。除AabZIP62外,黄花蒿中bZIP家族成员均搜索到motif1(图3b),该基序在多种植物[5-7]中均有报道,推测为黄花蒿bZIP转录因子的保守基序。而与其他物种bZIP保守基序相比,AabZIP62存在拟南芥bZIP保守基序(N-X7-R/K-X9-L-X6-LX6-L),其功能是否具有特异性有待进一步深入研究。AabZIP78的保守基序中-10 位由R/K 变为I,其结构变化与茄科植物番茄中报道的bZIP结构域变化相吻合,推测二者亲缘关系较近[34],这与Shen 等[28]进化分析结果一致,同样的变化在拟南芥、水稻、葡萄、蓖麻、玉米等植物[4,8,29,35-37]中均有发现。I 亚族成员在-10 位均存在K 而无R,与拟南芥中报道吻合,可能与其影响维管束发育的功能有关[4],同时也有研究表明I亚族参与植物组织分化过程[14],Gibalová 等[38,39]等的研究发现拟南芥 中E 亚 族AtbZIP34、AtbZIP61可 以 与I 亚 族AtbZIP18、AtbZIP52一同参与调控花粉的发育过程。
图1 拟南芥与黄花蒿bZIP转录因子系统发育树
除bZIP保守基序外,AabZIP蛋白还含有其他保守的功能基序。其中,除AabZIP29外,G 亚家族成员均含有多功能镶嵌区MFMR,其可以识别并结合顺式作用元件G-box,在光调控信号转导与种子成熟中发挥重要的作用,同时G 亚族成员与A 亚族AabZIP3、AabZIP9及I 亚族的AabZIP42、AabZIP52序列N 端均还发现了富含脯氨酸的结构域,这种结构在G 亚族GBF 类转录因子中推测具有转录激活或抑制作用[32]。AabZIP29含有结构域Mito_carr,为线粒体载体蛋白标志。D 亚家族AabZIP18中存在DOG1 结构域,其在拟南芥中具有控制种子休眠相关的功能[40]。A 亚族AabZIP8含有Retrotran_gag_2(逆转录转座子病毒gag蛋白)结构域,推测可能与其特殊调控功能有关。同时,通过对AabZIP蛋白保守基序的研究还发现其存在Ca2+依赖性蛋白激酶磷酸化位点(R/KxxS/T)及酪蛋白激酶Ⅱ(Casein kinase II,CKII)磷酸化位点(S/TxxD/E),后者与光信号传导紧密相关,表现为复杂的调控机制,而提高CKII活性很可能会使GBF转录因子功能增强,HY5转录因子表达水平降低[32,41]。而在F亚族的AabZIP22、AabZIP23、AabZIP24、AabZIP26、AabZIP27序列中发现的萜类合酶含有的典型保守结构(DDxxD),其功能可能是通过结合金属离子对底物催化过程产生影响[42]。
图2 AabZIP基因结构图
图3 黄花蒿bZIP蛋白保守结构域分析
图4 光调控下AabZIP基因表达特征分析
通过解析黄花蒿在光调控下转录组数据,获取蓝光、黑暗、红光、远红光、白光处理下AabZIP基因表达数据并进行聚类分析(图4),其中,71 条AabZIP序列注释到基因表达数据,而除AabZIP24外,AabZIP6(AabZIP7) ,AabZIP30、AabZIP32 (AabZIP31),AabZIP36 (AabZIP35) ,AabZIP47 (AabZIP48) ,AabZIP53(AabZIP54)序列均具有相同的转录本信息,因此无注释内容,AabZIP24缺失可能与基因组数据拼装有关。
此外,除AabZIP72、AabZIP26、AabZIP58基因外,其他AabZIP基因均响应光照胁迫,同一基因对不同光照胁迫响应水平存在较大差异。其中A 亚族、S 亚族与I亚族中的大部分基因及C亚族中的AabZIP16基因与未分组的AabZIP78基因,在蓝光和红光胁迫下高表达,S 亚族中的AabZIP70、AabZIP73基因在白光下高表达,AabZIP57、AabZIP71基因与A 亚族AabZIP12、AabZIP15基因相比黑暗在白光、蓝光与红光下的表达量均有明显提升。E 亚族成员在远红光中高表达。G亚 族 中AabZIP28、AabZIP29、AabZIP33、AabZIP38、AabZIP35基因在蓝光下高表达,但剩下的AabZIP31、AabZIP34、AabZIP39 与AabZIP37基 因,包 括D 亚 族AabZIP18与S 亚族中的AabZIP63、AabZIP67基因,在三种中低表达,并在远红外中有较高表达。H 亚族AabZIP40在除黑暗外的其他光胁迫中均有较高表达,但同AabZIP41基因一样对蓝光的响应最为显著,F 亚族的AabZIP22、AabZIP27基因也在蓝光下高表达。I亚族表达模式不明,其成员分别对不同光胁迫处理均有较高表达。
随着对中药有效成分研究的不断深入,越来越多具有生物活性的次生代谢产物被发现,包括萜类、黄酮类、生物碱类等等,这些次生代谢产物在植物中大部分都含量极低且存在化学合成困难,生物合成途径复杂的问题,而通过转录因子间接调控其合成途径中一系列关键酶基因的表达是现在较常用的一种解决方法[43]。bZIP转录因子参与调控多种次生代谢产物的生物合成,但在中药植物中报道较少。除黄花蒿中发现的4 个[18,19,22,30]青蒿素正向调控因子外,丹参中SmbZIP7和SmbZIP20也被发现可能对丹参酮的生物合成具有调控功能[44],Sibérilÿ 等[45]报道长春花bZIP家族GBF 转录因子可以通过结合萜类吲哚生物碱合成途径中关键酶基因,丁硫醇合酶启动子上G-box 元件来抑制其表达,D 亚族TGA 转录因子对阻碍单萜类吲哚生物碱合成的C2H2 型锌指蛋白也很可能具有激活作用[46]。
黄花蒿属菊科植物,基因组较大且存在大量重复序列,目前还不能将转录因子准确定位到黄花蒿基因组上。这种高杂合性同样也影响了黄花蒿品种选育,使品系的不稳定性增高[3]。本文基于Shen 等[28]黄花蒿全基因组数据,利用生物信息学方法对黄花蒿bZIP 转录因子家族进行全面分析,共鉴定出78 条AabZIP家族成员,并将其分为10 个亚族和1 个未分组成员(AabZIP78)。蛋白理化性质分析表明AabZIP 氨基酸长度、理论等电点、分子量大小间差异较大,但所有序列均为亲水蛋白,且亚细胞定位于细胞核。基因进化方面较为稳定,除了AabZIP23与AabZIP27基因对外,黄花蒿中的复制基因均经历了纯化选择压力。结构方面相对保守,同一亚家族成员具有高度特异性,但特殊序列如AabZIP70、AabZIP45、AabZIP19/AabZIP20等在基因结构方面存在较大差异,AabZIP78 蛋白的bZIP 保守基序也与其他AabZIP 明显不同,更接近番茄[34]中 报 道 的N-X9-R/KR/K-X6-L-X6-L-X6-L 结构,这些差异都预示着该转录因子出现新的特异性结合或进化的可能,需要进一步挖掘。
青蒿素的生物合成途径由甲羟戊酸(Mevalonic acid,MVA)途径与2-C-甲基-D-赤藓糖醇4-磷酸(2-methyl-D-erythritol-4-phosphate,MEP)途径共同生成FPP,后经过关键酶ADS,CYP71AV1,DBR2 和ALDH1等调控与非酶反应最终完成[3]。Zhang 等[24]的研究表明,光照处理,尤其是白光可以增加FPP 的合成,而单色光中,排除可能会给植物造成较大损害的UV,除远红光起抑制作用外,红光、白光和蓝光均可导致ADS与CYP71AV1基因过表达,因此推测蓝光、红光与白光是正向调控青蒿素合成的重要光质,并且蓝光对ALDH1和DBR2基因也具有诱导作用,同时还可以抑制竞争途径中合成酶的表达,因此探究这3种光质,尤其是蓝光调控下黄花蒿基因表达模式对于促进青蒿素合成具有重要意义。
bZIP 转录因子可以通过结合光或植物激素诱导基因的启动子区“ACGT”元件来激活相关基因表达,进而参与青蒿素的合成过程。其中A 亚族可以通过与ABRE 元件(ACGTG)相互作用继而诱导下游相关基因的表达,是ABA 信号转导途径中重要的响应因子,在植物非生物胁迫信号调控系统中发挥着重要作用[9],其参与青蒿素的合成,除AabZIP1可以激活ADS与CYP71AV1外[18],AaABF3(与A 亚族AabZIP11有2 个氨基酸差异)也可以通过激活醛脱氢酶(ALDH1)进而起到积极作用[30,47]。这与A 亚族主要响应红光与蓝光胁迫相吻合。C亚族参与植物蛋白储存过程并响应光调控[12,48],Shen 等[22]对AabZIP9(与C 亚族AabZIP16有3个氨基酸差异)的研究发现其可以激活ADS基因,而AabZIP16在蓝光下高表达,因此推测其功能应与AabZIP9一致。
H 亚族与G 亚族均可能通过结合G-box 参与调控。其中G 亚族部分基因表现为对蓝光的高响应,剩余G 亚族,包括D 亚族AabZIP18、E 亚族AabZIP19、AabZIP20及部分S 亚族,在除远红光处理外其他光照处理下均表现为低表达的基因,基于Zhang 等[24]研究推测其可能不参与调控或对青蒿素的合成起抑制作用。而Lv 等[19]的研究也表明AaTGA2(与D 亚族AabZIP18 有1 个氨基酸差异)在幼叶与嫩芽中表达量均极低,符合对AabZIP18功能的推测。HY5转录因子在黄花蒿光调控途径中具有关键作用,实验证明AaHY5 可以通过G-box 调控AaGSW1,增加CYP71AV1与AaORA的表达[27],且AaORA也是青蒿素合成途径中的重要转录因子,对CYP71AV1,ADS,DBR2及AaERF1均有激活作用[49]。H 亚族的2 个成员AabZIP40、AabZIP41注释为HY5 转录因子,且均在蓝光下高表达,其功能极可能对光诱导的青蒿素生物合成途径起正向调节作用。
探索青蒿素的光调控机制对继续青蒿素合成研究具有重要意义,本文通过对黄花蒿bZIP 基因家族进行综合分析,挖掘AabZIP在青蒿素合成途径中重要作用,期望能为黄花蒿bZIP基因功能与转录调控的进一步研究提供数据支持。