张朵朵,林丽梅,国红玉,龙月红,邢朝斌
(华北理工大学 生命科学学院,河北 唐山 063210)
三萜皂苷(triterpenoid saponins)是一类广泛分布于植物中天然存在的三萜皂苷类化合物,是常见的植物防御化学物质,具有潜在的药物特性[1]。人参皂苷是存在于人参属植物中的三萜皂苷,是其主要生物活性成分[2-4],具有抗肿瘤、抗衰老、抗炎症、抗凋亡和神经保护等多种显著的药用功效, 具有重要的商业价值[5-10]。三萜皂苷含量和组成的变化取决于三萜皂苷合成途径中的一些关键酶及其在细胞中的表达水平。三萜皂苷是通过甲羟戊酸(MVA)途径和2-甲基赤藓醇磷酸(MEP)途径合成角鲨烯,角鲨烯环氧酶(squalene epoxidase, SE)催化角鲨烯向2,3-氧化鲨烯转化;2,3-氧化鲨烯依次经过环化、羟基化、糖基化修饰后最终形成三萜类皂苷[11-13]。SE催化角鲨烯向三萜骨架的前体2,3-氧化角鲨烯的转化,该酶是一种非细胞色素P450型单加氧酶,它参与三萜的生物合成,并在通路中起限速步骤的作用[14]。目前,研究人员已经从人参[15]、三七[16]等药用植物中克隆了SE基因。Han等[15]克隆了2个人参的SE基因:PgSQE1 (AB122078)和PgSQE2 (FJ393274)。牛云云等[17]克隆了三七中与人参同源的SE基因PnSE1(KC953033)和PnSE2(JX625132),因此,推测人参属植物中至少存在2种类型的SE,一种类型基因参与三萜皂苷的合成,另外一种类型基因可能参与植物甾醇的合成。
人参(Panax ginseng C. A. Meyer)(四倍体)、三七(P. notoginseng (Burk.) F.H. Chen)(二倍体)在中国都有久远的种植历史,具有很高药用价值,而且人参、三七已有基因组测序数据。三萜皂苷是人参属植物中主要的生物活性成分,其生物合成途径已被大量研究。SE是三萜皂苷合成途径中的限速酶,研究证实SE是多拷贝基因。目前主要研究方向是在SE分子克隆、功能表达调控方面,尚未有关于全基因组水平上SE基因家族系统的分析。该研究基于人参、三七基因组测序数据,在基因组水平上对SE基因家族进行鉴定,对其系统进化关系、基因结构、顺式作用元件以及SE基因复制事件等进行系统分析,为进一步阐明SE在人参属药用植物三萜皂苷合成中的作用机理提供参考。
在Pfam数据库中下载SE结构域的隐马尔可夫模型(PF08491),并使用HMMER程序在人参[18]、三七[19]基因组数据中搜索SE结构域,设定E值为0.001进行结构域的筛选。之后通过Pfam、CDD、SMART数据库进一步确认是否含有完整的SE基因结构域。
对已经鉴定出的SE蛋白及从NCBI上下载的SE蛋白PgSQE1 (BAD15330)、PgSQE2 (ACJ24907)、PnSE1(AGS79227)和 PnSE2(AFV92748)的domain序列使用ClustalW进行多重序列比对,使用MEGA X软件通过邻位相接法(neighbor-joining)构建系统进化树,通过1 000个重复的引导分析来评估树节点的统计可靠性使用。使用PotParam预测SE蛋白理化性,SOPMA和SWISS-MODEL预测其结构,CELLO RESULTS (预测其亚细胞定位)。
使用MEME软件分析SE基序,参数设定为:搜索基序总数为10,最短长度为6,最大长度为50。使用TBtools软件展示SE的基因结构[20]。使用TBtools截取SE基因起始密码子上游2 000 bp,通过在线软件PLANTCARE(预测SE基因顺势作用元件,并通过TBtools软件进行可视化展示)。
使用TBtools软件分析SE基因的染色体定位信息,利用MCScanX对人参属SE基因进行共线性分析,通过TBtools软件进行可视化。
利用ClustalW对20个人参、三七SE基因的CDS序列进行多重序列比对,使用phyml构建系统发育树,通过1000个重复的引导分析来评估树节点的统计可靠性。采用 PAML 中的位点模型检测SE基因家族在进化过程中受到的选择压力变化。检测基因是否存在正选择位点是根据非同义替换(dN)与同义替换(dS)的比值(ω)。当ω>1时,表明出现了正选择;ω=1时,出现中性选择;ω<1时,为负选择[21]。通过LRT检验比较M0(单比率)与M3(离散)、M1a与M2a、M7与M8,根据P值判定备择假设是否成立[22]。利用Datamonkye[23]和 MEC在线服务器对序列数据进一步分析。在Datamonkey服务器中选择3种模型进行分析:单一似然祖先计算法(single likelihood ancestor counting, SLAC)、IFEL、随机效应似然模型(random effects likelihood model, REL)。
根据SE结构域的隐马可夫模型(PF08491),通过HMMER搜索人参、三七的SE基因。经过在线Blast比对,共筛选出20条SE基因,人参(14条)、三七(6条)。植物中不同的SE基因可能在植物应对生物或非生物胁迫时具有不同的功能。拟南芥具有6个角鲨烯环氧酶序列:其中3个序列(SQE1、SQE2和SQE3)具有应对功能,而其他3个酶(SQE4、SQE5和SQE6)没有任何功能,命名为SE-like(Laranjeira et al. 2015; Rasbery et al. 2007)。人参、三七中2种角鲨烯环氧酶PgSQE1和PgSQE2,PnSE1和PnSE2的活性均正常,PgSQE1和PnSE1参与三萜皂苷的合成,PgSQE2和PnSE2参与植物甾醇的合成[15, 24]。PgSE1的过表达有效地提高了转基因人参根中人参皂甙和植物甾醇的产量,这可能是由于三萜对人参皂苷和植物甾醇生物合成的刺激作用所致。
使用人参、三七鉴定出来的20条蛋白序列与已确定功能的4条人参、三七SE蛋白序列进行多序列比对,构建系统进化树。如图1所示人参、三七SE聚为5大分支。其中Pjap31602、Pg_S6308.10、Pg_S3064.5与PgSQE1、PnSE1聚为一支; Pjap08406、Pg_S3767.14、Pg_S2606.7与PgSQE2、PnSE2聚为一支。Pg_S1693.31、Pjap26690、Pg_S0129.28、Pg_S2840.6和Pjap03499聚为一支,Pg_S2606.8、Pg_S3767.15、Pjap29328和Pg_S1672.1聚为一支,Pg_S6152.1、Pg_S6081.2、Pjap12581、Pg_S4651.2和Pg_S4651.3聚为一支。说明Pjap31602、Pg_S6308.10、Pg_S3064.5参与三萜皂苷的合成,Pjap08406、Pg_S3767.14、Pg_S2606.7参与植物甾醇的合成。表1为人参、三七SE序列信息及理化性质
图1 人参、三七SE蛋白序列构建的系统进化树
表1 人参、三七SE序列信息及理化性质
由表1可知人参、三七SE基因编码蛋白质的氨基酸残基数量为346~671 aa,分子量为37.8~73.7 KD。其中, Pg_S3064.5基因编码的氨基酸数量最少,Pjap26690基因编码的蛋白质氨基酸数量最多。20条基因编码的蛋白中,等电点为8.46~9.17,大部分为疏水蛋白,均具有跨膜结构域。人参、三七SE的理化性质并存在组间特异性。人参、三七的SE蛋白定位在质膜上,研究表明SE是位于内质网(ER)的膜结合酶[25, 26],这与预测结果一致。
利用MEME在线软件分析人参、三七SE蛋白质序列基序,通过TBtools分析基因组数据得到SE基因结构特征,结果如图2(a)、图2(b)所示。图2(a)为SE蛋白保守基序分析,可以发现在人参和三七的SE中共得到10种保守基序,且10种不同的保守基序用不同的颜色表示,20条 SE氨基酸序列中均存motif 1、motif 2、motif 5、motif 6、motif 7、motif 8,且都是高度保守的;从图2(b)可以观察到人参、三七SE基因序列CDS长度为1 038 bp(Pg_S3064.5)至2013 bp(Pjap26690);CDS数量在4~8个之间,大部分为8个。序列分析表明,20个SE具有较高的序列相似性,功能域分析显示,所有SE均包含SE域和FAD/NAD (P)结合域。NAD结合存在于许多代谢途径的脱氢酶中,如糖酵解和许多其他氧化还原酶。FAD结合域参与FAD与各种酶的结合,FAD作为辅助因子负责生命系统中的许多催化特性。人参、三七的SE基因保守基序以及结构分布模式都不存在特异性,SE基因结构类似,这验证了SE基因进化上的高度保守。
图2 人参、三七SE的 motif、基因结构及顺式作用元件分析
为分析SE基因的表达调控机制,通过PLANTCARE软件预测得到SE基因启动子区域的顺式作用元件,结果如图2(c)所示。图2(c)可以看出人参、三七SE基因启动子中除了含有绝大多数真核生物启动子所具有的保守序列元件TATA-box和CAAT外,还包含多个与激素以及非生物胁迫等相关的顺式作用元件。激素响应作用元件包括: 脱落酸响应调控元件(ABRE)、赤霉素响应元件(GARE-motif、P-box、TATC-box)、生长素响应元件(TGA-element、AuxRR-core)、茉莉酸甲酯响应元件(CGTCA-motif、TGACG-motif)。非生物胁迫响应相关顺式作用元件主要包括: 光响应元件(GT1-motif、Sp1、ACE、G-box)、低温响应元件(LTR)、干旱诱导元件(MBS)、参与防御胁迫反应元件(TC-rich repeates)、昼夜节律调控元件(circadian)等。这些作用元件的发现可以初步说明SE基因的转录水平可能受到激素(如脱落酸、赤霉素、生长素)及非生物胁迫(干旱、低温和光照)等多种理化因素的调节。茉莉酸甲酯(MeJA)是一种植物特异性信号分子,在植物防御反应、发育过程和次生代谢中发挥重要作用[27]。MeJA对人参三萜皂苷生物合成的影响已被证实。MeJA处理后人参不定根培养中涉及人参皂苷生物合成的PgSE基因的转录水平上调,人参皂苷水平相应升高[28]。白桦[29]BpSE启动子包含与应激相关的cis-acting元件和MYB结合位点,共同赋予BpSE基因适应环境的能力。在柴胡[30]中,SE的表达随着干旱胁迫的增加而增加。在人参、三七启动子中也存在的相应的顺式作用元件,进一步说明SE基因受激素以及非生物胁迫等多种理化因素的调节。
由于人参、三七的基因组拼装信息不完全,因此仅基于目前各物种的组装水平进行基因定位,根据scaffold大小重新命名,见表1所示。人参、三七的SE基因定位到不同的scaffold如图3(a)所示。从图3(a)中可以发现人参中的pg_S2606.7与pg_S2606.7,pg_S3767.14与pg_S3767.15,Pg_S4651.2与Pg_S4651.3分别定位到pgsca4(pg_scaffold2606), pgsca7(pg_scaffold3767)和pgsca8(pg_scaffold4651)上,其余人参SE基因定位到不同的scaffold上。三七的Pjap08406与Pjap29328定位到pnsca3(scaffold5697)上,其余的三七SE基因定位到不同的scaffold上。
通过MCscanX程序计算人参、三七物种内部共线性关系结果如图3(b)所示。从图3(b)中可以看出,人参SE基因在scaffold水平上发生了染色体片段复制现象(pg_scaffold2606- pg_scaffold3767),位于scaffold上的SE基因Pg_S3767.14、Pg_S2606.7与Pg_S3767.15、Pg_S2606.8是一一对应关系。三七中不存在染色体片段复制情况,但是具有一对串联重复基因(Pjap08406-Pjap29328)。Pjap08406、Pg_S3767.14、Pg_S2606.7与PgSQE2、PnSE2聚为一支,Pg_S3767.15、Pg_S2606.8和Pjap29328是属于同一大支的,推测Pg_S3767.15、Pg_S2606.8和Pjap29328所在的分支可能也参与调控甾醇的合成。
图3 SE的染色体定位及其共线性分析
2.4.1基于PAML的正选择分析
利用PLAM软件中的Comedlc程序检测SE基因家族中每个位点的选择压力(见表2)。单比率模型M0的参数np=39,似然值InL=-4 764.69;离散模型M3的参数np=43,似然值InL=-4 735.41,两者之间的LRT检验P<0.001。模型M1a与M2a的LRT检验值P=1,说明M2a并不存在正选择位点。通过比较模型M7与M8得到的P>0.01,说明模型M8不成立。备择假设模型M3成立,M3明显优于M0,说明各个位点存在选择压力的差异。M3的ω1、ω2均小于1,不存在正选择位点,表明SE蛋白在进化过程中是以纯化选择为主。
表2 人参、三七基因基于PAML软件的适应性分析
2.4.2 基于Datamonkey的正选择分析
基于Datamonkey检测选择压力:分别以SLAC模型、IFEL模型及REL模型进行正选择位点的鉴定。SLAC模型在P<0.1水平下检测到了10个正选择位点,6个负选择位点; 在P<0.01水平下检测到了23个负选择位点。在IFEL模型中,当P<0.1时,检测到3个(15N、12A、30D)正选择位点,167个负选择位点;在P<0.01水平下检测到了1个(24V)正选择位点。REL检测在significance level为50时具有统计学意义,检测到了27个负选择位点。负选择位点占绝大多数,SE进化过程中较为保守,同样可以说明纯化选择在SE基因家族的进化过程中占主导地位。
2.4.3基于MEC模型的分析结果
将人参、三七20条SE基因的CDS序列上传到在线服务器MEC中,以MUSAL为比对方法,在Pg_S2606.7一级结构上标注选择压力。图4是人参、三七SE基因MEC模型分析结果,结果表明SE基因中存在7个橙色标记的位点和25个黄色标记的位点。但大部分的位点被标注为紫色,其中深紫色位点有72个,占总位点的13.93%,表明了纯化选择在SE基因家族的进化过程中占主导地位。
图4 人参、三七SE基因MEC模型分析结果
关键的功能蛋白在进化过程中受到强大的选择压力,其适应性进化分析为探索酶的活性位点和功能提供了关键信息。SE是植物中三萜皂苷合成途径中的关键酶,利用分子适应性进化原理进行功能位点的筛选可以为植物SE的活性位点提供有价值的参考。研究中通过 PAML、MEC 模型、Datamonkey3种方式对20种人参属植物次生代谢途径中的关键酶 SE进行了分析,结果表明人参属中SE基因在自然选择中以纯化选择为主导。这也证明了人参和三七SE基因在进化过程中的高度保守。推测是由于人参和三七SE 作为三萜类化合物合成途径中关键酶,需要维持其结构的稳定性以确保其功能,故在进化过程中较为保守。该研究初步了解了五加科植物中SE基因的进化,为进一步研究三萜皂苷的合成奠定了基础。利用适应性进化原理筛选功能位点可以为植物硒的活性位点提供有价值的信息。
(1)人参、三七中共鉴定到20条SE蛋白序列,系统发育树结果显示共有5个分支。其中Pjap31602、Pg_S6308.10、Pg_S3064.5参与三萜皂苷的合成,Pjap08406、Pg_S3767.14、Pg_S2606.7参与植物甾醇的合成。
(2)人参、三七在进化过程中高度保守,基因结构及Motif基序没有组间差异,所有SE均包含SE域和FAD/NAD (P)结合域。人参、三七在进化过程中以纯化选择为主。