闫海霞 罗红梅 李滢 孙永珍 孙超 钱忠直 陈士林
[摘要] 该研究应用454 GS FLX Titanium高通量测序技术对5年生草麻黄Ephedra sinica的草质茎进行转录组测序,共获得48 389条表达序列标签(express sequence tags,ESTs),序列平均长度为373 bp。所得序列与GenBank中麻黄的EST合并拼接,获得18 801条一致性序列(unigene)。通过与公共数据库中的序列进行同源性比较分析对所得转录本进行功能注释,结果表明其中56.0%(10 531条)的unigenes与其他生物的已知基因具有一定程度的同源性。进一步分析获得了19条可能参与麻黄生物碱生物合成的序列(共编码9个关键酶),97条细胞色素P450序列,以及大量转录因子序列。该研究为麻黄生物碱类化合物的生物合成研究奠定了基础,同时为麻黄转录组学的研究提供了海量数据,对于麻黄的功能基因组学研究具有重要意义。
[关键词] 草麻黄; 454 GS FLX; 表达序列标签(EST); 转录组
Transcriptome characterization of Ephedra sinica with 454 ESTs
YAN Haixia1,4, LUO Hongmei1, LI Ying1, SUN Yongzhen1, SUN Chao1, QIAN Zhongzhi2*, CHEN Shilin3*
(1. Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100193, China;
2. Chinese Pharmacopoeia Commission, Beijing 100061, China;
3. Institute of Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100700, China;
4. Beijing Institute for Drug Control, Beijing 102206, China)
[Abstract] Using the latest 454 GS FLX platform and Titanium regent, a substantial expressed sequence tag (ESTs) dataset of Ephedra sinica was produced, and the profile of gene expression and function gene of which were investigated. A total of 48 389 reads with an average length of 373 bp were generated. These 454 reads were assembled into 18 801 unigenes, which were all 454 sequencing identified. A total number of 10 531 unigenes(56.0%) were annotated using BLAST searches (Evalue≤1×10-5) against the Nr, Nt, TAIR, SwissProt and KEGG databases. With respect to genes related to ephedrine biosynthesis, 19 unigenes(encoding 9 enzymes) were found. A total of 97 putative genes encoding cytochrome P450s were also discovered. Data presented in this study will provide an important resource for the scientific community that is interested in the functional genomics and secondary metabolism of E. sinica.
[Key word] Ephedra sinica; 454 GS FLX; expressed sequence tags; transcriptome
doi:10.4268/cjcmm20162212
麻黄Ephedra sinica为裸子植物门买麻藤纲Gnetopsida麻黄科Ephedraceae麻黄属草本状小灌木。麻黄属是一类古老的种子植物,自古生代泥盆纪演化至今,繁衍出在形态结构等方面高度特化的一些类型,同时产生了很多结构特异、生理活性显著的次生代谢产物。麻黄属为麻黄科仅有的一个属,全世界共有67个种,我国有15个种及2个变种,主要分布于我国的内蒙古、甘肃、山西、河北、四川、青海等地,生长在沙丘、干草原、丘陵山地、荒滩等干燥地区。常见的有草麻黄E. sinica、木贼麻黄E. equisetina、中麻黄E. intermedia等[1]。据药典记载,麻黄以干燥草质茎入药,具有发汗平喘宣肺的功效,而麻黄根具有固表止汗的功效[2]。麻黄也是我国特产且闻名世界的一种中药,早在2 000多年前就用作发汗和止咳平喘药,并沿用至今[3]。麻黄碱是麻黄中主要活性成分之一,具有收缩支气管平滑肌、收缩血管、兴奋大脑皮层等作用,因此,对麻黄碱的分析方法及化学合成、麻黄的组织培养等研究较多[49],但对麻黄碱生物合成途径的研究较为有限。
麻黄基因组及转录组数据的缺乏制约了麻黄碱类化合物的次生代谢研究。表达序列标签(expressed sequence tags, EST)代表了特定组织和特定时期的基因表达特征,广泛用于基因识别、新基因的发现、基因克隆、功能分析、基因作图等方面[1013]。最近几年,EST技术也被应用于药用植物次生代谢相关基因的发掘中,一些重要的药用植物已建立了EST文库,如西洋参、丹参、蛇足石杉、甘草等[1417]。以454 GS FLX(454 Life of Science, Roche)为代表的新一代高通量测序技术应用于转录组研究,大大降低了测序时间和成本,促进药用植物转录组和次生代谢相关基因的研究高效率开展。
本研究利用454 GS FLX Titanium测序技术应用于药用植物麻黄的转录组研究,试图从功能基因组水平研究麻黄重要基因的表达并从中发掘重要的功能基因,旨在为阐明麻黄碱生物合成途径提供研究基础,同时也为麻黄生物碱类化合物的生物合成研究奠定了基础。
1 材料与方法
1.1 材料 草麻黄采自中国医学科学院药用植物研究所药用植物园,经中国医学科学院药用植物研究所林余霖教授鉴定。流水洗净其草质茎,用吸水纸吸干表面水分,迅速将其切成结节,立即用液氮冷冻,保存于-80 ℃备用。
1.2 RNA提取和反转录 采用通用植物总RNA提取试剂盒(百泰克公司)提取麻黄草质茎总RNA,Oligotex mRNA kit(Qiagen)分离纯化mRNA。以2 μg mRNA为模板,SMARTTM PCR cDNA Synthesis kit(Clontech)反转录合成cDNA。采用PCR Advantage Ⅱ polymerase(Clontech)对cDNA进行扩增获得双链cDNA(ds cDNA),扩增条件为95 ℃,1 min;94 ℃,15 s,65 ℃,30 s;68 ℃,6 min,13个循环。采用PureLinkTM PCR Purification kit(Invitrogen)去除体系中小于300 bp的ds cDNA片段。
1.3 454文库构建和测序 应用454 GS FLX Titanium对cDNA样品测序,取5 μg ds cDNA打断为300~800 bp的片段后,两端添加特异性衔接子A和B,变性为单链连接到磁珠上,经油包水 PCR(emPCR)富集后,置于Pico Titer Plate板上,上机测序。
1.4 序列拼接 采用GSFLX Software去除衔接子区域和低质量序列,屏蔽SMART PCR引物。将测序序列与GenBank中的一条麻黄EST序列合并,经GS De Novo Assembler Software进行序列拼接。所有分析使用默认参数。
1.5 功能注释、分类和代谢途径分析 使用BLAST程序将拼接所得一致性序列(unigene)与核酸、蛋白质序列数据库比对(E≤1×10-5),并选取最佳注释。蛋白质数据库包括SwissProt,KEGG,拟南芥蛋白质组数据库TAIR9和NCBI 非冗余蛋白数据库Nr;核酸数据库为NCBI非冗余核酸数据库Nt。
根据TAIR9注释所含Gene Ontology(GO)信息,对序列(按照分子功能、细胞组分、生物学过程)进行分类。根据KEGG注释的基因功能信息,对参与次生代谢的序列(按照次生代谢物种类)进行分类。
对所有注释信息进行整理、搜索麻黄碱类化合物生物合成途径中的关键酶基因,以及可能参与或调控次生代谢的细胞色素P450和转录因子等基因。
2 结果
2.1 454测序和EST序列拼接 采用454 GS FLX Titanium高通量测序技术对5年生麻黄草质茎的转录组进行测序,见表1,从1/8 run的测序反应即获得48 389条读长序列(reads),序列平均长度为373 bp。将实验中所得的454 ESTs与GenBank dbEST数据库中的麻黄EST合并,经过软件拼接,共获得18 801条unigene,包括5 753个序列重叠群(contig)和13 048条单一序列(singleton),unigene总长7.46 Mb,均为由454测序新鉴定的unigene(因为Genbank中只有1条麻黄的EST序列)。
2.2 序列功能注释 通过BLAST搜索比对,见表2,共有10 531条unigene获得了基因注释。根据拟南芥蛋白质组数据库的注释结果,被注释序列大约包含9 752个转录本。另有8 270条unigene(44.0%)未被注释。
2.3 EST文库中的高表达转录本 Unigene所包含的EST数目代表了其表达丰度,麻黄草质茎中表达丰度最高的前10个转录本见表3。表达丰度最高的转录本编码过氧化氢酶(Catalase3 sp|Q42547|CATA3_ARATH),该酶在药用植物体内参与氨基酸、色氨酸代谢及能量代谢等。表达丰度排在第二位的转录本编码碳酸酐酶(Carbonic anhydrase sp|P27141|CAHC_TOBAC),它参与能量代谢和氮代谢,与植物的光合成有关。其他高表达转录本包括氧化还原酶家族蛋白、参与糖酵解的果糖二磷酸醛缩酶、半胱氨酸蛋白酶、谷氨酰胺合成酶、硫基蛋白酶、丝氨酸乙醛酸氨基转移酶等。表达丰度最高的前10个转录本中有4个注释到已知的酶类。表达丰度位于第8位的转录本未得到注释,可能是新基因。
2.4 功能分类研究 通过与拟南芥的蛋白质组序列比对,获得麻黄unigene的GO分类信息。其中,8 926条unigene归入“分子功能”(molecular function),8 743条归入“生物学过程”(biological process),8 693条归入“细胞组分”(cellular component)。在GO分类体系中,分子功能、生物学过程和细胞组分三大类别被划分为更详细的45个小类别,这一分类结果显示了麻黄草质茎基因表达谱的总体特征,见图1。
2.5 代谢途径分析 在麻黄草质茎EST文库中,与次生代谢相关的unigene共130条。根据KEGG注释结果,可将次生代谢途径按照代谢物分为15类,包括生物碱(alkaloid biosynthesis)、油菜甾醇类(brassinosteroid biosynthesis)、咖啡因(caffeine metabolism)、类胡萝卜素(carotenoid biosynthesis)、二萜类化合物(diterpenoid biosynthesis)、黄酮和黄酮醇(flavone and flavonol biosynthesis)、类黄酮(flavonoid biosynthesis)、吲哚和吐根生物碱(indole and ipecac alkaloid biosynthesis)、柠檬烯和蒎烯降解(limonene and pinene degradation)、新生霉素生物合成(novobiocin biosynthesis)、苯丙烷类生物合成(phenylpropanoid biosynthesis)、链霉素生物合成(streptomycin biosynthesis)、萜类生物合成(terpenoid biosynthesis)、四环素生物合成(tetracycline biosynthesis)、玉米素生物合成(zeatin biosynthesis)。参与各类次生代谢的unigene数目见图2。
麻黄主要药理活性成分麻黄碱类化合物的生物合成途径见图3,麻黄生物碱的生物合成途径属于苯丙氨酸/酪氨酸途径,在图中以苯丙氨酸的合成及其代谢为麻黄生物碱为例,展示了麻黄生物碱的可能生源途径。麻黄碱生物合成过程目前仍有几个关键步骤和相关酶类未得到阐明,在作者所得到的麻黄EST数据中,通过同源性搜索,找到19条unigene可能编码麻黄碱生物合成途径的9个关键酶。
2.6 转录因子分析 转录因子是一种序列特异的DNA结合蛋白,在调节响应植物发育和环境变化过程中的基因表达发挥了重要作用。在对TAIR9自动预测结果进行搜索之后,得到109条麻黄的unigene,见表4,它们代表了属于不同转录因子家族的同源染色体,包括ARF,AUX/IAA,B3,MYB,basic HelixLoopHelix(bHLH),bZIP,Homeobox,Homeodomainlike/related,pathogenesisrelated/ERF,WRKY和Zinc finger家族蛋白。在麻黄的EST数据集中,表达丰度最高的转录因子家族是CCCH型锌指蛋白aroD.3脱氢奎尼酸脱水酶 I;aroE.莽草酸脱氢酶;aroK.莽草酸激酶;aroA.3磷酸化莽草1羧基乙烯基转移酶;aroC.分支酸合成酶;E5.4.99.5.分支酸变位酶;E4.2.1.91.羧基环己二烯基脱水酶;E2.6.1.1.天冬氨酸转氨酶;hisC.组氨酸磷酸转氨酶;E4.3.1.24.笨丙氨酸转氨酶;PTAL.苯丙氨酸/酪氨酸转氨酶。
(zinc finger CCCH)家族,锌指蛋白是在生物体中广泛存在的具有典型锌指结构特征的超蛋白家族,几乎参与了生物体生长发育的各个阶段,主要分为9类,其中CCCH型锌指蛋白约占所有锌指蛋白的0.8%,CCCH锌指蛋白在生物与非生物胁迫、生长发育、疾病方面都行使着不同的功能,表明CCCH是一类极具研究价值的锌指蛋白。此外,在麻黄的EST数据集中,生长素响应因子(ARF)的表达丰度也比较高,ARF能够与生长素反应原件特异性地结合并调节生长素响应基因的表达,在激素介导的生长刺激响应中具有关键作用,这为深入研究生长素的作用机制提供了分子层面的着眼点。从麻黄454EST数据集中发现的这些候选转录因子将有助于麻黄生长发育及环境应答相关转录因子的进一步研究。
3 讨论
本研究采用454 GS FLX Titanium高通量测序技术对草麻黄5年生草质茎的转录组进行了测序和功能分析,发掘其活性次生代谢物生物合成相关基因。GeneBank已有麻黄EST仅为1条,拼接得到的18 801条unigene,全部为本实验454测序所得。表明高通测序技术是大量发现麻黄功能基因的有效手段。
通过同源性搜索,获得麻黄碱生物合成相关转录本19条,编码9个关键酶。由于对麻黄碱生物合成研究较少,其生物合成途径中的2步关键反应(反式肉桂酸盐苯甲酸酯苯基丙烷二酮)的反应机制及相关催化酶类尚未得到阐明,因此对麻黄EST文库的深入研究,将为麻黄碱生物合成研究提供良好的分子生物学研究基础和研究线索。此外,细胞色素P450家族在麻黄碱类生物合成途径中具有非常重要的作用,从麻黄EST文库中,找到97条可能编码细胞色素P450的unigene,这为筛选参与次生代谢的细胞色素P450酶相关基因提供了足够的候选序列。
在麻黄草质茎EST文库中,与次生代谢相关的unigene共130条,其中与苯丙烷类次生代谢相关的unigene多达47条,苯丙烷次生代谢途径通过合成木质素、类黄酮等多种次生物质而影响植物的许多重要性状[18],由此推测,麻黄草质茎中,除了生物碱类活性成分外,还可能含有较大量的黄酮类和/或木质素类;与柠檬烯和蒎烯降解相关的unigene多达23条,由此推测,麻黄中可能含有挥发油类。以上推论,得到了麻黄相关化学成分研究的证明[1921]。表明EST数据从分子生物学角度为药用植物有效成分的研究提供了依据和研究基础,这不仅为药用植物有效成分生物合成途径关键酶基因的发现和克隆提供基础数据,为麻黄碱生物合成途径和调控机制研究奠定基础,从而使采用生物技术手段进行有效成分的在体或离体合成成为可能,也可为有效成分的分离分析提供佐证,减少药用植物化学成分研究的盲目性,并促进其生物学上的复杂行为的进一步深入研究。
[参考文献]
[1] 南京中医药大学. 中药大辞典[M]. 2版.上海:上海科学技术出版社,2006:3092.
[2] 中国药典.一部[S]. 2010:300.
[3] 洪浩,陈虎彪,徐风,等. 麻黄药材原植物资源和市场品种调查[J].中国中药杂志,2010,38(2):51.
[5] 沈少林,陈勇. 麻黄生物碱类化合物电喷雾电离质谱[J]. 湖北大学学报:自然科学版,2004,26(4):330.
[6] 刘罡,陈德军,王吉德,等. 盐酸L麻黄碱异构化为盐酸D伪麻黄碱的反应机理探讨[J]. 应用化学,2008,25(2):173.
[7] 胥秀英,郑一敏,温寿祯,等. 左旋麻黄素半生物合成研究(Ⅰ) L2苯基乙酰基甲醇生物合成条件研究[J]. 中国中药杂志,2001,26(2):119.
[8] 赖陈武,刘颖,李艾莲. 麻黄离体培养研究进展[J]. 世界科学技术——中医药现代化,2003,5(2):37.
[9] 陈书安,赵兵. 麻黄植物细胞工程的关健技术及研究进展[J]. 世界科学技术——中医药现代化,2006,8(5):54.
[11] 陈求全,詹先进,蓝家祥. EST分子标记在基因组学中应用的研究进展[J]. 中国农学通报,2010,26(3):59.
[12] 吕桂云,张海英,郭绍贵. 表达序列标签(EST)分析方法及在植物抗病研究中的应用[J]. 中国农学通报,2010,26(8):56.
[13] 吴春颖,宋经元,陈士林. 表达序列标签在药用植物研究中的应用[J]. 中草药, 2008, 39(5):778.
[14] Sun C, Li Y, Wu Q, et al. De novo sequencing and analysis of the American ginseng root transcriptome using a GS FLX Titanium platform to discover putative genes involved in ginsenosidebiosynthesis[J]. BMC Genomics, 2010, 11:262.
[15] 李滢,孙超,罗红梅, 等. 基于高通量测序454 GS FLX的丹参转录组学研究[J]. 药学学报,45(4):524.
[16] Luo H, Li Y, Sun C, et al. Comparison of 454ESTs from Huperzia serrata and Phlegmariurus carinatus reveals putative genes involved in lycopodium alkaloid biosynthesis and developmental regulation[J]. BMC Plant Biology, 2010, 10:209 .
[17] Li Y, Luo HM, Sun C, et al. EST analysis reveals putative genes involved in glycyrrhizin biosynthesis[J]. BMC Genomics, 2010, 11:268.
[18] 钟巍然, 柴友荣, 张凯, 等. 苯丙烷代谢途径中细胞色素 P450的研究[J]. 安徽农业科学. 2008, 36(13):5285.
[19] 周玲, 吴德康, 唐于平, 等. 麻黄中化学成分研究进展[J]. 南京中医药大学学报, 2008, 24(1):71.
[20] 吴海, 易伦朝, 高敬铭, 等. 野生与人工栽培麻黄不同部位成分的比较研究[J]. 中草药,2007, 38(9):1298.
[21] 张连茹, 邹国林, 杨天鸣. 麻黄的化学研究进展[J]. 中南民族学院学报:自然科学版, 2000, 19(3):87.
[责任编辑 孔晶晶]