崔秀文,刘 迪,黄天苗,李美玲,栗孟飞*,魏建和
1.甘肃农业大学生命科学技术学院 干旱生境作物学国家重点实验室,甘肃 兰州 730070
2.中国医学科学院北京协和医学院 药用植物研究所,北京 100193
当归Angelica sinensis(Oliv.)Diels 为伞形科多年生草本植物,干燥根是我国传统中药材,素有“十方九归”之称,具有补血活血、调经止痛、润肠通便等功效[1]。现代药理学研究表明,当归根中的有机酸类、挥发油类和多糖类等化学成分在消炎、抗癌和治疗心脑血管疾病等方面具有显著效果[2]。目前,当归年需求量超3 万t,年种植面积达4.35 万hm2[3-4]。然而,当归在第2年肉质根成药过程中,出现高达50%植株早薹开花的现象,导致肉质根木质化,药用有效成分含量降低且大量减产,药农经济收入减少,影响当归种质资源及产业发展[5-8]。
MADS-box 基因家族是一类广泛存在于真核生物中的转录因子,在植物花器官分化、开花时间调节、以及果实发育等方面起到重要的调控作用[9];其通常分为I型和II型,其中,II型有4个保守结构域:M-domain(MADS-domain)、I-domain (intervening domain)、 K-domain(keratin-like domain)和 C-domain(C-terminal domain)[10]。目前,在模式植物拟南芥中发现了deficiens (DEF)、SQUAMOSA(SQUA)和TOMATO gene 3 (TM3-like)等12 个MADS-box亚家族[11]。前期在当归转录组学的研究中发现,MADS-box 亚家族基因,如SOC1(suppressor of overexpression of constans1)、FLC(flowering locus C)和AGL26(agamouslike 26)等,在抽薹开花过程中差异表达[12-16]。
研究证实,SOC1基因是花器官分生组织形成过程中的关键基因,其通过整合外界环境和内在因素等各种成花途径信号,激活下游花器官发育所需的基因,如LEAFY(LFY)、APETALA 1(AP1)和AGAMOUS(AG),进而促进植株开花[17]。前期当归研究中发现,SOC1基因在完成春化作用的种苗根茎顶端分生组织以及早薹植株中高表达[12-13],其上游基因[如COL16(constans-like)]和下游基因(AGL62)在抽薹开花过程中也呈现高表达[14]。综合以上研究表明,尽管前人及本课题组已通过转录组测序获得了当归抽薹开花相关的MADS-box基因家族序列,并对关键基因(如SOC1、AG和VRN1)的表达水平进行了qRT-PCR 检测与分析[12-16,18],然而,针对当归MADS-box 基因家族以及关键基因SOC1的生物信息学分析等方面的系统研究尚未有报道。因此,本研究基于前期当归全长转录组测序结果,开展了MADS-box基因家族生物信息学系统分析、SOC1-4基因克隆及表达验证,旨在深入揭示MADS-box基因家族的生物学功能,为有效抑制抽薹开花提供理论基础。
当归MADS-box 编码序列来源于:(1)不同品种(岷归1 号和岷归2 号)两年生大田植株叶片和叶柄的全长转录组,结果已提交NCBI(Access:PRJNA782300),样品采集等详细信息见Zhu 等[18];(2)岷归1 号种苗春化作用过程中[T1(0 ℃、14 d;未通过春化)、T2(0 ℃、60 d;通过春化)和T3(-3 ℃、125 d;低温规避春化)]根茎顶端分生组织的全长转录组,结果已提交NCBI(Access:PRJNA789039),样品采集等详细信息见Luo 等[12],样品原植物均由甘肃农业大学栗孟飞教授鉴定为当归A.sinensis(Oliv.)Diels。
台式高速离心机(德国SORVAL 公司);ABIQuantStudio 5 实时荧光定量PCR 仪(美国ABI公司);超微量分光光度计(上海宝予德科学仪器有限公司)。
蛋白质序列(包括氨基酸长度、相对分子质量和理论等电点)分析利用 ExPASy(https://web.expasy.org/protparam/);亚细胞定位利用Cell-PLoc(http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/);蛋白质二级结构预测利用 PRABI-Gerland(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?pa ge=/NPSA/npsa_sopma.html);蛋白质3D 建模利用Phyre 2 (http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi)。
在 NCBI 数据库(https://www.ncbi.nlNm.nih.gov)选择模式植物拟南芥Arabidopsis thalianaL.和伞形科植物黄胡萝卜Daucus carotasubsp.sativus(Hoffm.)中与当归29 个MADS-box基因家族置信度较高的116 个蛋白质,利用MEGA7.0 软件最大似然法(maximum likelihood estimate,MLE)构建系统进化树(重复次数1000 次,其他参数为默认值)。蛋白质保守基序分析利用 MEM E(https://memesuite.org/meme/tools/meme),并利用TBtools 进行可视化。利用DNAMAN 软件进行蛋白质多序列比对(深蓝色表示相似度100%、粉色>75%、浅蓝色>50%)。
以岷归1 号温室栽培植株功能叶片为材料(“1.1”项中T2:0 ℃、60 d 通过春化,种苗移栽生长40 d),种苗种植及生长环境等详细信息见Liu等[19]。总RNA 提取使用Plant RNA Kit R6827(Omega Bio-Tek,Norcross,GA,United States),其纯度和浓度检测使用超微量分光光度计(Micro Drop,上海宝予德科学仪器有限公司);反转录使用First-Strand cDNA Synthesis SuperMix(北京百泰克生物技术有限公司)得到cDNA;利用NCBIPrimer-BLAST(https://www.ncbi.nlm.nih.gov/tools/primer-blast/)设计SOC1-4基因引物序列,forward:5’-TGAGGGGAAAGACTCAGA-3’ 和 reverse :5’-CTGTTTCGACATCGGAAT-3’;扩增产物利用1%TAE 琼脂糖凝胶电泳进行检测;胶回收使用琼脂糖凝胶纯化试剂盒TIANgel Midi Purification Kit(天根生化科技有限公司),具体反应体系及条件见说明书。基因克隆使用平末端克隆试剂盒pHANDY®-Blunt Cloning Kit(哈尔滨晔健生物科技有限公司);引物合成及阳性克隆测序由兰州天启基因生物科技有限公司完成。
基因表达材料:(1)岷归1 号两年生大田种植早薹(early bolting,EB)和非早薹(un-early bolting,Un-EB)植株叶和侧根(混合1∶1),植株生长环境和样品采集等详细信息见Li 等[13];(2)岷归1号三年生不同生长发育期(S1:营养生长期、S2:营养生长到生殖生长过渡期、S3:抽薹初期、S4:抽薹伸长期)植株叶和侧根(混合1∶1),植株生长环境和样品采集等详细信息见Li 等[14]的实验;(3)岷归1 号不同春化期(T1、T2 和T3)种苗根茎顶端分生组织;(4)岷归1 号温室栽培植株(“1.1”项中T2:0 ℃,60 d 通过春化,种苗移栽生长60 d)不同器官(根、茎、叶)。
利用NCBI Primer-BLAST 设计SOC1-4基因qRT-PCR 表达引物,forward:5’-CGAAACGGCGAAATGGACTG-3’和reverse:5’-CTGAATGTCTTGCCCAGCAG-3’,引物合成由上海生工生物工程技术服务有限公司完成。以Actin作为内参基因[20],设计引物序列,forward:5’-TGGTATTGTGCTGGATTCTGGT-3’和 reverse:5’-TGAGATCACCACCAGCAAGG-3’ ,利用 FastKing cDNA Kit(KR116,天根生化科技有限公司)合成cDNA;利用 SuperReal PreMix Plus(SYBR Green)进行qRT-PCR 检测,具体反应体系及条件见说明书。利用2-△△Ct法计算SOC1-4基因的相对表达水平[21]。
在qRT-PCR 实验中,所采集材料进行了3 个生物学重复和3 个技术重复。运用Excel 2019 进行数据的计算及制图。
通过对当归不同品种叶片和叶柄、种苗春化作用过程中根茎顶端分生组织的全长转录组进行筛选,发现有29 个MADS-box 基因,基于所编码蛋白质序列和亚细胞定位分析,结果显示,蛋白质序列长度为49(AP1-1)~422(At5g65490-1)、相对分子质量为5 697.56~49 624.90、等电点为5.06(J)~11.00(AGL14-1),亚细胞定位分析预测 29 个 MADS-box 蛋白分别位于叶绿体(AGL14-1、At3g28050-2和At5g65490-1)、细胞核(AGL14-2、AGL16和AGL19-1等22 个)、细胞质(AP1-1、AP1-2和At3g28050-1等7 个)和线粒体(SVP)(表1)。
表1 当归MADS-box 基因家族蛋白质特征及亚细胞定位Table 1 Protein characteristic and subcellular location of MADS-box gene family in A.sinensis
通过对29 个MADS-box基因所编码的蛋白质进行二级结构预测以及3D 建模,结果显示,蛋白质二级结构由α 螺旋、延伸链、β 转角和无规则卷曲组成(表2);三级结构预测结果(图1)与二级结构(表2)相符合,主要由α 螺旋、无规则卷曲和延伸链进一步折叠组装为三级结构,各亚家族内蛋白质三级结构较为相似,如AGL14-2、SOC1-1、SOC1-2、SOC1-3 和SOC1-4均以α 螺旋为主,无规则卷曲次之,β 转角最少。但各亚家族之间空间结构差异较大,如AGL65、SOK2 及AP1-2 等以无规则卷曲为主、而AP1-1无延伸链(图1)。
图1 当归MADS-box 基因家族蛋白质三级结构Fig.1 Tertiary structure of MADS-box gene family in A.sinensis
表2 当归MADS-box 基因家族蛋白质二级结构Table 2 Secondary structure of MADS-box gene family in A.sinensis
通过对29 个当归MADS-box基因家族蛋白质、61 个拟南芥和55 个黄胡萝卜MADS-box 蛋白质进行系统进化树构建,基于蛋白质序列相似性,145个MADS-box 蛋白质分为10 个亚家族,可分为I型和II型,其中,I型包括suppressor-like,II型包括SOC1、TM3、DEF、MADS8、SQUA、FLC、STMADS11、MIKC 和SOK;另外,SOC1 亚家族包括5 个当归MADS-box 成员(SOC1-1、SOC1-2、SOC1-3、SOC1-4 和AGL14-2)(图2)。
图2 当归、拟南芥和黄胡萝卜MADS-box 蛋白质系统进化树Fig.2 Phylogenetic tree of MADS-box family proteins in A.sinensis, A.thaliana and D.carota subsp.sativus
通过对以上29 个当归MADS-box 基因家族蛋白质、61 个拟南芥和55 个黄胡萝卜MADS-box 蛋白质进行结构域和基序分析,结果显示,MADS-box蛋白质分为10 个亚家族,与图2 系统进化树关系一致,序列含有6 个保守基序(表3);当归MADS-box同一亚家族蛋白质基序具有高度相似性,其中,SOC1 亚家族均含有Motif 1~Motif 5;不同亚家族蛋白质基序存在较大差异,比如,Motif 6 只存在于suppressor-like 亚家族(图3)。
图3 当归、拟南芥和黄胡萝卜MADS-box 蛋白质保守基序Fig.3 Conserved sequences of MADS-box proteins in A.sinensis, A.thaliana and D.carota subsp.sativus
表3 MADS-box 蛋白质6 个保守基序及其序列Table 3 Six motifs and their conserved sequences of MADS-box proteins
通过对当归SOC1 亚家族5 个成员(SOC1-1、SOC1-2、SOC1-3、SOC1-4 和AGL14-2)及来自拟南 芥 (AtNP_182090.1) 和 黄 胡 萝 卜(DcXP_017232221.1)2 个物种的SOC1 同源蛋白质等7 个蛋白质进行多序列比对,结果显示,SOC1亚家族5 个蛋白质均含MADS-domain、I-domain、K-domain 和C-domain 结构域,其中,MADS-domain结构域高度保守,C-domain 结构域保守性较低(图4);通过对SOC1-1、SOC1-2、SOC1-3、SOC1-4进行进一步比对,发现SOC1-1、SOC1-3 和SOC1-4蛋白质的4 个结构域较为完整、且保守性较高,而SOC1-2 在C-domain 不完整;其中,SOC1-1、SOC1-3和SOC1-4 的相似性为73.27%。
图4 当归SOC1 亚家族蛋白质多序列比对Fig.4 Multiple sequence alignment of SOC1 subfamily proteins in A.sinensis
为了保证全长转录组中当归SOC1-4基因碱基序列的准确性,基于全长转录组中SOC1-4基因碱基序列设计扩增引物,以岷归1 号功能叶片中RNA反转录所得的cDNA 为模板,进行SOC1-4基因克隆。琼脂糖凝胶电泳显示,SOC1-4基因扩增片段大小在500~750 bp(图5);产物回收与碱基测序显示,SOC1-4基因克隆长度为585 bp;通过与全长转录组测序获得的SOC1-4进行序列比对,根据引物设计所得克隆结果与测序序列5-590 bp 相似度为100%(图6)。
图5 当归SOC1-4 基因扩增产物琼脂糖凝胶电泳Fig.5 Agarose gel electrophoresis of amplification products of SOC1-4 gene in Angelica sinensis
图6 当归SOC1-4 基因克隆与全长转录组测序的序列比对Fig.6 Sequence alignment of SOC1-4 gene obtained from gene clone and full-length sequencing in A.sinensis
为了进一步验证SOC1-4基因的生物学功能,本研究对当归不同材料中SOC1-4基因的表达水平进行了qRT-PCR 检测与分析。结果显示,早薹植株相对非早薹植株,SOC1-4基因表达量上调6.42 倍;不同生长期植株中,SOC1-4基因表达水平随着时间延长呈现逐渐增加,S2、S3 和S4 时期相对于S1时期分别增加2.16、2.31 和5.79 倍;不同春化期种苗根茎顶端分生组织中,通过春化作用(T2)处理相对于未春化作用(T1)SOC1-4基因表达水平呈现3.39 倍高表达,而规避春化作用(T3)处理相对于T1 处理SOC1-4基因表达水平呈现0.48 倍降低;不同器官中,茎和叶相对于根SOC1-4基因表达水平分别上调9.23 和4.90 倍(图7)。
图7 当归SOC1-4 基因在不同材料中的相对表达水平Fig.7 Relative expression level of SOC1-4 gene in different materials of A.sinensis
目前,早薹开花导致根木质化不能入药仍是困扰当归生产、质量和效益提升的重大难题[4]。研究发现,当归抽薹开花受到内在(如种质、苗龄和种苗大小等)和外在(如温度、光照和干旱等)多种因素的影响[4,22]。此外,当归为“低温长日照型”植物,即植株由营养生长转入生殖生长必须同时满足低温春化作用和长日照[22-24]。大量研究表明,MADS-box基因家族,尤其是开花抑制因子FLC和整合因子SOC1,在植物花器官分化和开花时间调节等方面起到核心调节作用[17]。尽管MADS-box基因家族在模式植物拟南芥及其他植物中调节开花的作用已进行了深入研究,然而在药用植物当归中的生物学功能还鲜见报道。本研究基于前期当归全长转录组测序,发现有29 个MADS-box基因分布于10 个亚家族,所编码蛋白质序列含有6 个保守基序,其中,亚家族有5 个成员;另外,还对SOC1-4基因进行了克隆和表达分析,为后续探究SOC1 在当归抽薹开花的分子调控研究奠定了基础。
模式植物拟南芥中有DEF、STMADS11 和TM3-like 等12 个MADS-box 亚家族[11];山茶中有83 个MADS-box基因,可分为I型(Mα、Mβ 和Mγ亚家族)和II型(MIKCC和MIKC*亚家族)[25];荔枝中有101 个MADS-box基因,可分为I型和II型,其中,50 个I型分为Mα、Mβ 和Mγ 3 个亚家族,51 个II型进一步分为MIKC*、SOC1 和FLC等13 个亚家族[26]。本研究基于全长转录组鉴定出29 个MADS-box基因家族成员,基于蛋白质序列分为10 个亚家族,可分为I型(Suppressor-like)和II型(SOC1、TM3、DEF、MADS8、SQUA、FLC、STMADS11、MIKC 和SOK);其中,SOC1 亚家族包括 SOC1-1、SOC1-2、SOC1-3、SOC1-4 和AGL14-2。另外,前人预测22 种植物(拟南芥、水稻、烟草等)的SOC1 二级结构与亚细胞定位[27],与本研究MADS-box 蛋白质理化性质和结构分析,尤其是SOC1 亚家族等的结果基本一致,表明表明SOC1基因在进化上较为保守,在植物的生殖发育过程起着重要作用。
植物中MADS-box 的I型和II型蛋白质结构域各具有高度相似性,其中I型只含有一个保守结构域,而II型均具有M-domain、I-domain、K-domain和C-domain 结构域,推测当归MADS-box 基因功能存在多样性[7,11,28-30]。蛋白质保守基序比对发现不同亚家族保守基序存在数目及位置差异,预测不同亚家族功能有所差异。本研究中,SOC1 亚家族均含有II型的4个结构域,通过对5个成员SOC1-1、SOC1-2、SOC1-3、SOC1-4 和AGL14-2 进行多序列比对,发现MADS-domain 结构域高度保守,而C-domain 结构域保守性较低。这表明,5 个SOC1亚家族成员在当归抽薹开花过程中可能发挥相似或协同的功能。另外,SOC1-1、SOC1-3 和SOC1-4蛋白质的4 个结构域较为完整,而SOC1-2 在C-domain 不完整,而樊世婷等[31]克隆的当归SOC1基因(XM_017379845.1)与本研究中4 个SOC1基因比对存在差异,可能由于当归无参考基因组序列,转录组序列拼接参考不同物种而产生的差异;或全长转录组样本来自不同品种及材料所致。
尽管前期研究已获得了当归全长转录组,为了保证SOC1基因碱基序列的准确性、以及更深入探究SOC1基因的生物学特性,本研究通过克隆当归SOC1-4基因,获得了585 bp 片段,与全长转录组测序中SOC1-4基因序列 5-590 bp 结果完全一致,大量研究证实,作为开花整合因子SOC1,在植物花器官分化和开花时间调控过程中高表达[17,32]。本研究发现,SOC1基因表达量随着种苗春化作用和植株生长发育时期延长随之增加、在抽薹植株中高于非抽薹植株、而在冷冻规避春化作用种苗中显著降低。
综合以上研究表明,本课题组首次对当归MADS-box基因家族进行了挖掘和生物信息学分析,并对开花整合因子SOC1基因进行了基因克隆与表达验证。但对于SOC1基因片段的完整性、以及其它调控当归抽薹开花的关键基因(如FLC、AG和AP1等)还需要进一步研究和验证。
利益冲突所有作者均声明不存在利益冲突