基于转录组信息的甘松MADS-box 转录因子家族分析

2023-02-08 03:21俸明康丰日落张绍山
中草药 2023年3期
关键词:拟南芥开花家族

崔 琪 ,俸明康 ,丰日落,王 涛,张绍山,李 莹,陈 晨*,刘 圆*

1.西南民族大学药学院,四川 成都 610041

2.西南民族大学青藏高原研究院,四川 成都 610225

3.四川省羌彝药用资源保护与利用技术工程实验室,四川 成都 610225

4.青藏高原民族药用资源保护与利用国家民委重点实验室,四川 成都 610225

败酱科甘松属植物甘松Nardostachys jatamansiDC.主要分布于四川省、甘肃省、青海省、云南省、西藏等地海拔2800~4500 m 的高山草甸区,历版《中国药典》均有收载,其药用部位为干燥根及根茎,具有理气止痛、开郁醒脾,外用祛湿消肿的功效;用于脘腹胀满、食欲不振、呕吐;外用治牙痛、脚气肿毒[1],是古印度阿育吠陀(Ayurveda)和尤纳尼医(Unani)学体系的常用药材,在我国为藏、蒙、维、傈僳、纳西等传统民族医学临床常用品种[2],也是藏香的主要原料之一[3]。另外,甘松在精油、日化品等领域也有较大的经济价值。

MADS-box 蛋白家族是一类N 端存在1 个氨基酸数目为58~60 的保守结构域-MADS-box 结构域[4]的重要的转录因子,广泛存在于真核生物中,其名称源自酿酒酵母的 MCMI、拟南芥的AGAMOUS、金鱼草的 DEFICIENS 和人类的SRF4 4 种类[5]。常被分为Type I 型和Type II 型,Type I 型包括Mα、Mβ、Mγ、Mδ 亚族,目前仅少数TypeI 型蛋白的生物学功能已被探明,且与植物胚和胚乳的发育有关[6],TypeII 型包括MIKCc和 MIKC*亚族[7],MIKC*通常参与调控雄配子的生长发育,MIKCc对花器官生长发育有重要作用[8],在花育的ABCDE 模型中,TypeII型蛋白中所涉及的花四聚体能调节不同花序中的特定表达过程[9]。MADS-box 家族转录因子大多参与花器官的发育、开花时间和果实成熟等过程的调控[7],少数参与调控植物侧根的形成[10]。

甘松的药用部位为营养器官-根茎,开花时间及侧根的发育影响其产量及品质。因此,甘松花及侧根发育分子调控机制的研究,可为其优质高产及优良种质资源的培育提供理论基础和技术手段。MADS-box 家族基因对开花时间调控、花器官发育及侧根发育至关重要,但甘松MADS-box 家族转录因子未见报道,因此,基于课题组前期的转录组数据,鉴定和分析甘松MADS-box 转录因子家族的生物信息学功能,为进一步探究甘松MADS-box 家族转录因子在花器官形成机制及侧根发育的分子调控机制提供重要的理论基础。

1 材料与方法

1.1 样品与处理

甘松植株经西南民族大学青藏高原研究院刘圆教授鉴定为甘松Nardostachys jatamansiDC.,现蕾后套袋收集同一株的种子。

将采集的甘松种子播种于花盆中,共6 盆,在培养箱中(温度20 ℃;相对湿度50%;8 h/16 h 光照/黑暗)培育至长出两片真叶。3 盆喷洒50 mg/mL 吲哚乙酸溶液,另外3 盆喷洒同样数量的清水作空白对照,24 h 后取处理后的甘松叶片,每份样品采集3 个生物学重复,液氮速冻,-80 ℃保存,送至上海欧易生物医学科技有限公司进行转录组测序。

1.2 甘松MADS-box 家族的来源、筛选及序列分析

甘松MADS-box 转录因子家族序列来源于课题组上传于NCBI 的SRA 数据库中的转录组数据,检索号分别为SRR21656214、SRR21656215、SRR21656216、SRR21656217、SRR21656218、SRR21656219、SRR21656220、SRR21656221、SRR21656222、SRR21656223、SRR21656224、SRR21656225、SRR21656226、SRR21656227、SRR21656228、SRR21656229、SRR21656230、SRR21656231。利用数据中NR 和Swiss 注释搜索甘松中潜在的MADS-box 转录因子,筛选的E值为1×10-5。利用数据在NCBI 查找其开放阅读框(open reading frame,ORF),再利用CDD、pfam对保守结构域进行鉴定,筛选并剔除不完整的甘松MADS-box 转录因子,最终获得20 条MADS-box转录因子序列,将其命名为 NcMADS01~NcMADS20。

1.3 甘松MADS-box 家族蛋白理化性质、二级结构、三级结构和保守基序(motif)分析

对筛选出的MADS-box 家族蛋白序列,利用Expasy(https://web.expasy.org/protparam/)分析甘松MADS-box转录因子家族成员的蛋白相对分子质量、理论等电点等基本理化性质,利用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?pa ge=npsa_sopma.html)预测甘松MADS-box 蛋白二级结构,利用 MEME(https://memesuite.org/meme/tools/meme)分析甘松MADS-box 蛋白保守基序及其分布,利用SWISS MODEL(https://swissmodel.expasy.org/)预测甘松MADS-box 蛋白的三维结构。

1.4 甘松MADS-box 家族蛋白亚细胞定位、导肽、信号肽、跨膜结构预测分析

利用Cello(http://cello.life.nctu.edu.tw/)进行亚细胞定位预测分析。利用TargetP-2.0(https://services.healthtech.dtu.dk/service.php?TargetP-2.0)预测导肽,利用SignalP-4.1(http://www.cbs.dtu.dk/services/SignalP-4.1/)预测信号肽,跨膜结构预测通过 TM-HMM Server.2.0(http://www.cbs.dtu.dk/services/TMHMM/)完成。

1.5 甘松MADS-box 家族蛋白系统进化树构建

使用MEGA6 软件以邻位连接法(neighborjoining,NJ)构建甘松MADS-box 蛋白序列与TAIR拟南芥官网(https://www.arabidopsis.org/browse/genefamily/mads_tffamily.jsp)中下载的拟南芥MADS-box 蛋白序列的系统发育树,并用iTOL 软件进行美化。

2 结果与分析

2.1 甘松MADS-box 家族蛋白的筛选

甘松相关数据来源于课题组前期的转录组测序数据。本研究在Swiss-Prot、NR 数据库中筛选得到了 39 个 MADS-box 家族转录因子,再通过ORFfinder 对其开放阅读框进行分析,进一步通过CDD 和Pfam 进行结构域预测分析,删除没有完整保守结构域以及重复的序列,最终得到 20 个MADS-box 蛋白,按照转录组数据编号从小到大的顺序进行编号,分别编号为 NcMADS01~NcMADS20。

2.2 甘松MADS-box 蛋白序列理化性质分析

利用 Protparam 在线工具,对 20 条甘松MADS-box 蛋白序列进行理化性质分析,结果显示,20 条NcMADS 蛋白序列长度在90~365 aa,相对分子质量在10 179.96~41 707.68。理论等电点(PI)在4.87~10.43,其中9 个蛋白等电点<7 显酸性,11 个蛋白等电点>7 显碱性。20 个NcMADS 蛋白中,3 个蛋白序列的不稳定指数<40,为稳定蛋白,17 个蛋白序列的不稳定指数>40,为不稳定蛋白。甘松MADS-box 蛋白脂肪系数在73.12~108.44,其中有2 个脂肪系数大于100。20 个甘松MADS-box蛋白的平均疏水指数-0.84~-0.15,均为负值,其中16 个小于-0.5,占比80%,可推出大部分甘松MADS-box 蛋白质是亲水蛋白质,两性蛋白质为4个,占比20%(表1)。

表1 甘松MADS-box 转录因子家族信息Table 1 Information of the MADS-box transcription factor family in N.jatamansi

2.3 甘松MADS-box 蛋白二级结构与三级结构分析

蛋白质的二级结构是蛋白质中有规则重复的构象,研究蛋白质二级结构是研究蛋白质结构和功能的基础。甘松MADS-box 蛋白序列的二级结构均含有α-螺旋、β-转角、无规则卷曲和延伸链,α-螺旋和无规则卷曲作为二级结构的主要构成元件,占二级结构的70%左右,这对蛋白质的特殊结构构象具有一定的作用,无规则卷曲和β-转角占比相对较小(表2)。

表2 甘松MADS-box 转录因子家族二级结构Table 2 Secondary structure of the MADS-box transcription factor family in N.jatamansi

利用在线软件SWISS-MODEL 对甘松的20 个MADS-box 家族基因进行结构预测(图1),可从构建的模型中清楚地观察到各家族蛋白的空间结构(α-螺旋、β-转角、无规则卷曲、延伸链)。结果显示甘松9 个亚族之间以及同一亚族不同蛋白之间的α-螺旋、β-转角、无规则卷曲、延伸链的比例均不相同,从而导致其空间结构存也存在一定差异,结构的差异使得各自呈现不同的功能。

图1 甘松MADS-box 转录因子家族三维结构预测Fig.1 Tertiary structures prediction of MADS-box transcription factor family in N.jatamansi

2.4 甘松MADS-box 蛋白基序分析

利用MEME 在线软件分析了甘松MADS-box家族蛋白的保守基序,得到MADS-box 蛋白的10个保守基序,命名为motif1~motif10,长度为12~50 aa。

其中motif1 为MADS 结构域,motif2 和motif5为K-box结构域。通过分析发现,20个NcMADS-box蛋白序列含有2~7 个保守基序(图2)。

图2 甘松MADS-box 转录因子家族motif 分布Fig.2 Motif analysis of the MADS-box transcription factor family in N.jatamansi

2.5 甘松MADS-box 蛋白亚细胞定位

利用 Cello v.2.5 在线数据库对 20 个甘松MADS-box 蛋白进行亚细胞定位预测分析,结果表明甘松大部分MADS-box 蛋白定位在细胞核,说明它们作为转录因子大部分能调控下游基因的表达[11],而少数MADS-box 蛋白在细胞质、线粒体中也有定位,其中 2 个定位到细胞质,2 个定位到线粒体。NcMADS19 定位到细胞质中,NcMADS16 定位到线粒体中;其余转录因子均定位到细胞核内,说明大部分MADS-box 蛋白作为转录因子,不进行蛋白转运,直接在细胞核中发挥转录调控作用(表3)。

表3 甘松MADS-box 转录因子家族亚细胞定位Table 3 Subcellular location prediction of the MADS-box transcription factor family in N.jatamansi

2.6 导肽、信号肽和跨膜结构域预测分析

导肽是将新合成的肽链引入不同细胞器的一段识别序列[12]。信号肽是导肽的一种,其位于蛋白质的N 端,具有指导分泌型蛋白到内质网上合成的作用。导肽和信号肽在蛋白定位过程中起重要作用。预测分析导肽和信号肽,利于进一步研究蛋白的功能和作用途径。利用TargetP2.0 分析22 个甘松MADS-box 蛋白是否具有信号肽和导肽结果表明:20 个NcMADS 蛋白均不含信号肽和导肽,为非分泌蛋白。同时利用TM-HMM Server.2.0 在线软件对其跨膜结构进行分析,发现20 个NcMADS 蛋白均无跨膜结构特征,这与亲水性的分析结果是一致的。同时表明甘松22 个MADS-box 蛋白无法跨膜运输或者作为转录因子通过核孔运输(表4)。

表4 甘松MADS-box 转录因子导肽预测Table 4 Leader peptide prediction of MADS-box transcription factors in N.jatamansi

2.7 甘松MADS-box 家族成员系统进化树构建

利用MEGA6 软件,对筛选获取的20 个甘松MADS-box 的蛋白序列和TAIR 数据库查询得到的97 个拟南芥MADS-box 蛋白序列进行同源对比,采用邻接法,构建系统进化树,在通过iTOL 进行美化处理。结果显示(图3),20 个甘松MADS 蛋白聚类可分为9 个亚族。其中4 个Type I 型NcMADS蛋白聚类到拟南芥Type I 型(Mα 与Mδ)中Mα 中仅包含NcMADS19,Mδ 中包含NcMADS02、NcMADS03、NcMADS08;其余16 个NcMADS 蛋白分别聚到拟南芥MICK 型蛋白的不同亚族。其中AP3、STK/SHP、FUL、SOC1 亚族各包含1 个成员,分别为NcMADS04、NcMADS05、NcMADS14、NcMADS16;SEP 亚族包含2 个成员,分别是NcMADS09、NcMADS20;SVP 亚族中包含4 个成员,分别是NcMADS06、NcMADS07、NcMADS13、NcMADS18;还有6 个成员归属到ANR1 亚族,分别是 NcMADS01、NcMADS10、NcMADS11、NcMADS12、NcMADS15 和NcMADS17。

图3 甘松与拟南芥MADS-box 家族转录因子系统进化树Fig.3 Phylogenetic tree of MADS-box family transcription factors in N.jatamansi and Arabidopsis thaliana

3 讨论

3.1 甘松MADS-box 家族转录因子是参与多项生理活动的重要调控因子

MADS-box 家族转录因子参与调控植物生长发育和生殖发育过程中的多种生物学功能,尤其在花序、花、果实的生长发育过程中起重要作用[13]。中药火麻仁中共鉴定出39 个MADS-box 家族转录因子,其参与调控火麻仁的营养和生殖结构、开花时间、花器官形成[14],茶树中MADS-box 蛋白CsGLO1 和CsGLO2 可形成二聚体调控第2 轮花瓣和第3 轮雄蕊的发育[15]。马铃薯中XAL1 蛋白参与调控其块茎的发育[16]。甘松MADS-box 家族转录因子尚未见报,本研究从甘松中鉴别出20 个功能未知的MADS-box 家族转录因子,首次全面分析了甘松的MADS-box 家族转录因子,有利于进一步对甘松MADS-box 家族转录因子进行功能分析及后续验证。

与拟南芥相比,甘松MADS-box蛋白相对较少。一方面与所测转录组序列完整度有关,另一方面可能与甘松MADS-box家族转录因子的重复率较高或重复后拼接丢失率较高有关。这一结果表明,不同物种间MADS-box 家族转录因子的差异较大,导致不同物种间MADS-box 家族转录因子不同,各自的功能也差别较大,具有不同的进化限制[17]。

3.2 甘松MADS-box 家族转录因子与其药用价值的息息相关

抽薹开花是植物从营养生长到生殖生长的关键环节,通常称为成花转变[18]。多数以根茎入药的药材抽薹开花后药效显著降低。如当归抽薹过程中,多个生理指标发生变化,开花后,营养物质大量消耗,根部木质化,丧失药用价值[19]。防风以干燥根入药,抽薹前后,其主要有效成分人参炔醇含量逐渐自根部向地上部分转移,随后根部开始木质化并中空腐烂,药用价值显著降低[20]。研究表明,MADS-box 家族中转录因子较多与植物抽薹开花相关。模式植物拟南芥中MADS-box 家族中AP1 蛋白能调控与抽薹相关的结构基因,与拟南芥AP1 蛋白同源的的春甘蓝AP1 蛋白也对植株抽薹有调控作用[21],十字花科植物芥菜中SOC1 蛋白可直接作用于抽薹的决定基因LFY,此外SVP 蛋白结合SOC1 能调控AP1 蛋白从而影响其抽薹。MADS-box家族转录因子多参与调控植物抽薹过程以及开花时间[22]。莴苣LsRGL1 蛋白可通过调控赤霉素途径控制抽薹开花时间[18],LSMADS16 和LSMADS37 蛋白对莴苣高温抽薹具有负调控作用。甘松以干燥根及根茎入药,也面临抽薹开花后有效成分含量降低的问题,本研究鉴定出20 个甘松MADS-box 家族转录因子,其中NcMADS14 与拟南芥SOC1 同源,NcMADS06、NcMADS07、NcMADS13、NcMADS18与拟南芥SVP 蛋白同源明,推测这5 个蛋白可能参与调控甘松抽薹开花过程,为晰甘松MADS-box 家族转录因子如何调控其抽薹开花时间,减慢甘松根茎木质化过程,保证药材药效提供理论基础。

3.3 甘松MADS-box 家族转录因子参与调控花器官发育与药用部位的优质生产

MADS-box 家族转录因子在控制植物开花时间及花器官发育中起重要作用[23],部分参与调控植物根的发育。2001 年,Theissen[24]提出了四聚体模型即ABCDE 模型:A 类和E 类基因控制花萼的形成,A 类、B 类和E 类基因共同控制花瓣的形成,B 类、C 类和E 类基因共同控制雄蕊的形成,而心皮由C类和E 类基因共同控制,胚珠由C 类、D 类和E 类基因共同控制。系统发育分析发现,NcMADS04与拟南芥A 类基因FUL同源性高,其可能与甘松花萼形成相关,NcMADS16与拟南芥B 类基因AP3同源性高,推测NcMADS16可能参与调控甘松花瓣与雄蕊的形成过程。NcMADS05与拟南芥D 类基因SHP同源性高,可能参与甘松心皮的形成过程。NcMADS09、NcMADS20与拟南芥E 类基因SEP聚为一类,则二者可能为甘松的E 类基因,与ABCD类基因共同参与调控花器官的形成过程。本研究通过同源比对发现,甘松20 个MADS-box 家族中未有与拟南芥同源的C 类基因,可能是转录组拼接错误导致甘松C 类基因缺失,需继续试验验证。

SOC1 为开花整合因子,可通过整合光周期途径、春化途径、赤霉素途径、自主途径、温度途径和年龄途径等相关开花信号来控制开花时间[25],已有研究表明脐橙中CsSOC1基因能响应低温信号,表达量上调,促进脐橙成花[26],胡萝卜DcSOC1-1是光周期成花途径的整合因子,长日照使胡萝卜抽薹延迟[27]。本研究发现NcMADS14 与拟南芥SOC1同源,推测其具有与SOC1 类似的功能。

NcMADS06、NcMADS07、NcMADS13、NcMADS18 与拟南芥SVP 蛋白同源,SVP 为开花抑制因子[28],可直接结合在开花途径整合因子SOC1 的启动子上,从而调节SOC1的转录,抑制其表达,延迟抽薹开花[29]。若将甘松中与拟南芥SOC1、SVP同源的基因合理地通过基因工程手段改造植株,则可获得晚开花的植株。以延长甘松采收时期,加大生产。

甘松以根及根茎入药,本课题组前期研究表明,仿野生栽培甘松须根根尖数明显多于野生品,且主根变细,严重影响仿野生栽培甘松的品质[30],ANR1是在根中特异性表达的基因,也是MADS-box 家族基因中第一个被鉴定的唯一通过NO3-对信号调控侧根形成[31]。研究表明,ANR1在拟南芥根中特异性表达,菊花中CmANR1 通过同源/异源二聚体调节侧根发育[32]。ANR1在水稻中的同源基因OsMADS25在NO3-存在时过表达,能显著促进水稻主根和侧根生长[10]。系统发育分析结果显示,甘松MADS-box 家族基因转录因子中NcMADS01、NcMADS10、NcMADS11、NcMADS12、NcMADS15、NcMADS17 与拟南芥ANR1 同蛋白源性高,可能参与调控甘松根的生长发育过程。后期可通过探明其如何参与根发育调控,从而减少须根数,保持主根粗壮,从而获得根及根茎性状符合药用规定且统一的优良甘松品种。

4 结论

甘松MADS-box家族转录因子的鉴定和挖掘有待进一步完善。本研究通过了解甘松MADS-box 家族转录因子的生物信息学,预测其生物学功能及参与的生理过程,为后续试验奠定基础,也为甘松的分子生物学研究提供一定的支持。

利益冲突所有作者均声明不存在利益冲突

猜你喜欢
拟南芥开花家族
富天冬酰胺蛋白增强拟南芥辐射抗性的研究
HK家族崛起
《一棵开花的树》
雨开花
《小偷家族》
家族中的十大至尊宝
两种LED光源作为拟南芥生长光源的应用探究
木醋液与6-苄基腺嘌呤对拟南芥生长的影响研究
番茄SlMIP基因参与转基因拟南芥的渗透调节