刘洪旭 邓思珊 马丽红 杨兴全 林文津 徐小妹
摘要:目的 采用Illumina HiSeq 4000测序技术获得三叶青转录组数据,为三叶青分子生物学研究提供重要分子信息。方法 以三叶青根和茎叶为材料,进行转录组测序,对测试数据进行基因功能注释、代谢途径及微卫星等的生物信息学分析。结果 共获得24.13 Gb Clean Data,拼接组装得到84 433条Unigene,与7个基因数据库进行比对,最终获得47 766个有注释信息的Unigene。在GO数据库中注释27 790条,其根和茎叶的差异表达基因数目为4989个,其中上调为3511个,下调为1478个;COG数据库得到16 152条三叶青Unigene的同源序列,共分为25个类别;在KEGG数据库有14 511条Unigene获得对应的Ko编号,可分为130个信号代谢分支,其中核糖体合成途径的Unigene数量最多,有1042条,而异黄酮的生物合成途径只有1条Unigene。结论 对三叶青转录组进行拼接、组装和功能注释得到大量转录本信息,为三叶青分子生物学研究提供基因组数据库资源。
关键词:三叶青;转录组;基因;表达差异
DOI:10.3969/j.issn.1005-5304.2018.07.018
中图分类号:R282.5 文献标识码:A 文章编号:1005-5304(2018)07-0075-04
Abstract: Objective To obtain the transcriptome database and differentially expressed genes of Tetrastigma hemsleyanum Diels et Gilg. by Illumina HiSeq 4000; To provide important molecular information for its molecular biology research. Methods Leaves and roots of Tetrastigma hemsleyanum Diels et Gilg. were chosen as experimental materials to conduct transcriptome sequencing. Then bioinformatics analysis of gene function annotations, metabolic pathways, and microsatellites was performed on the test data. Results 24.13 Gb Clean Data were assembled. Afer assembly steps, 84 433 of T. hemsleyanum Unigene were obtained, and then they were compared in the 7 gene database, and 47 766 annotated information of Unigene was obtained. There were 27 790 annotations in the GO database. The number of differentially expressed genes in the roots, stems and leaves was 4989, of which 3511 were up-regulated and 1478 were down-regulated. The COG database obtained 16 152 homologous sequences of Unigene, which were divided into 25 categories. In the KEGG database, there were 14 511 Unigene obtained the corresponding Ko number, which could be divided into 130 branches of signal metabolism, among which the number of Unigene in the ribosome synthesis pathway was the most, with 1042, and there was only 1 Unigene in the biosynthetic pathway of isoflavones. Conclusion A large number of transcripts of the transcriptome were obtained through splicing, assembling and functional annotation of Tetrastigma hemsleyanum Diels et Gilg., which can provide genomic database resources for molecular biology research of Tetrastigma hemsleyanum Diels et Gilg.
Keywords: Tetrastigma hemsleyanum Diels et Gilg.; transcriptome; gene; expression difference
三葉青为葡萄科三叶崖爬藤Tetrastigma hemsleyanum Diels et Gilg.全草,是我国特有的珍稀中草药,具有较好的抗炎[1]、抗肿瘤[2-4]等功效,被誉为“植物抗生素”。三叶青的主要活性成分是黄酮和有机酸类化合物。目前对三叶青的研究主要集中在良种选育、栽培技术管理和活性成分的提取分离,及以细胞和实验动物为基础的药理实验上,而从分子基因层面上对不同药用部位的药效差异及次生代谢合成通路的研究较少。
随着基因分析技术的发展,利用转录组学可以有效揭示细胞的生理活动规律,探讨生物代谢的机理。转录组是指某一物种或者特定细胞在一个特定的时间段或特定的环境条件下产生的所有转录物的集合。利用转录组技术可以了解基因的功能和结构,揭示器官及细胞在特定生物学过程中的机制。近年有较多学者采用转录组技术进行植物的遗传学研究,如石斛[5]、山茱萸[6]、紫草[7]、黄芪[8]等。由于环境破坏及无度采挖,群体结构衰退日趋明显,野生资源日趋濒危,因此种质资源保护迫在眉睫。利用分子生物学手段对三叶青的遗传背景进行研究,可为三叶青遗传多样性和分子标记等提供信息基础。
本研究利用高通量测序技术对三叶青根和茎叶进行转录组测序,利用生物学技术和软件构建转录组数据库,分析不同部位间的差异表达基因,并对组装后的测序数据进行功能注释分类、功能聚类及代谢通路挖掘,旨在通过三叶青转录组数据的分析,为三叶青的品质鉴定及遗传资源评价等提供标记和序列信息,有助于进一步有效发掘和鉴定三叶青次生代谢产物合成及其调控相关基因,进而了解其有效成分的生物合成途径及其调控机制。
1 仪器与试药
Illumina HiSeq 4000测序仪(美国Illumina公司)。植物总RNA提取试剂盒和逆转录试剂盒(批号2016-0924),生工生物工程(上海)股份有限公司。三叶青药材取自福建省闽侯县白沙种植基地,分为根和茎叶2个部位,采集后迅速用锡箔纸包好,放于干冰中保存备用。样品经福建省医学科学研究院刘洪旭副研究员鉴定为葡萄科植物三叶崖爬藤Tetrastigma hemsleyanum Diels et Gilg.。
2 方法
2.1 转录组数据的组装
提取样品总RNA,通过Nanodrop测量RNA纯度得到A260/A280为1.88,采用Agilent 2100 bioanalyzer(美国Agilent公司)检测RNA样品完整性,记录电泳图,得到清晰的18 S峰值。反转录为cDNA后,构建三叶青转录组数据库。采用Illumina HiSeq 4000测序仪进行测序,对得到的reads进行数据除杂和冗余处理,去除其中的接头序列及低质量Reads,获得高质量序列数据(Clean Data),采用Trinity2.4.0软件进行序列组装,得到Unigene数据库。
2.2 转录组功能预测
使用BLAST(2004版)软件将最终得到的Unigene序列与NR、Swiss-Prot、GO、COG、KOG、PFAM、eggNOG4.5、KEGG数据库比对分析,确定对应核苷酸和蛋白质的注释信息。利用Blast2GO软件(2015年)获得Unigene的功能注释和分类。利用富集因子(enrichment factor)分析Pathway的富集程度,并利用Fisher精确检验方法计算富集显著性。
2.3 差异表达基因的筛选
使用EBSeq对Unigene数据库进行差异表达分析,获得两样品之间的差异表达基因集。利用Benjamini-Hochberg方法对原有假设检验得到的显著性P值(P-value)进行校正,并最终采用校正后的P值(false discovery rate,FDR)作为差异表达基因筛选的关键指标,FDR<0.01且差异倍数(fold change,FC)≥2作为筛选标准。
3 结果与分析
3.1 测序结果与组装
经测序,得到24.13 Gb Clean Data,GC含量不低于47.13%,各样品Q30碱基百分比均不小于94.18%,各项指标均符合转录组测序要求。用Trinity软件对样品数据进行序列组装,共得到84 433条Unigene,N50为1180 bp,其长度集中于200~2000 bp,在200~300 bp长度区间的数量占总Unigene序列的42.26%(35 684条),在300~500 bp长度區间的数量占总Unigene序列的20.88%(17 632条),大于2000 bp长度区间的数量占总Unigene序列的6.64%(5607条)。
3.2 Unigene功能注释
利用BLAST软件将Unigene序列分别与8个数据库进行比对分析,最终获得47 766个有注释信息的Unigene。其中NR数据库注释到的Unigene数量最多,其次是eggNOG数据库,KEGG数据库注释到的数量最少。结果见表1。
3.3 三叶青根和茎叶基因本体GO注释差异基因分析及聚类
利用GO数据库对注释到的27 790条Unigene进行比对分析,结果将其分成细胞组分(20 750条)、生物过程(5012条)、分子功能(46 570条)3个基本功能本体,并划分为47个组别。以FDR<0.01且FC≥2作为筛选标准,三叶青根与茎叶的差异表达基因数目为4989个,其中上调为3511个,下调为1478个。对这些差异基因在不同组织内的表达量做聚类分析,三叶青根和茎叶组织的基因呈现显著的差异特征。根据功能和表达量对基因进行聚类,共聚为7大簇。第一簇共有1008个基因,GO功能注释主要与分生组织的生长和微管的结合相关,这一类基因主要在茎叶中高表达。第二簇共有878个基因,GO功能注释主要与天冬氨酰酯酶活性、果胶酯酶活性、转录因子等相关,这一类基因主要在根中高表达。第三簇共有1255个基因,GO功能注释主要与一些酶的活性、电子传递、离子结合等相关,这一类基因主要在根中高表达。第四簇共有914个基因,GO功能注释主要与抗坏血酸氧化酶活性、木脂素降解过程、对苯二酚氧化还原酶活性、植物细胞次生壁生物合成类型、木聚糖生物合成过程等相关,这一类基因主要在茎叶中高表达。第五簇共有3118个基因,GO功能注释主要与光合作用功能相关,这一类基因主要在茎叶中高表达。第六簇共有1251个基因,GO功能注释主要与氧化还原、氮的利用等功能相关,这一类基因主要在茎叶中高表达。最后一簇包含421个基因,GO功能注释主要与萜烯合酶活性、转移酶活性、过氧化物酶等作用相关,主要在根中高表达。
3.4 三叶青根和茎叶中差异表达基因的COG注释
利用COG数据库对基因产物进行直系同源分类,共得到16 152条三叶青Unigene的同源序列,共分为25个类别。其中与生物过程相关的Unigene最多,有6526条,占40.41%,包括复制、重组和修饰(1125条,6.97%),转录(563条,3.48%)和信号传导(396条,2.45%);与功能预测类别相关的Unigene基因有2541条,占15.73%;此外,与代谢相关的Unigene基因数量为1548条,占总Unigene数量的9.58%。将三叶青根和茎叶中差异表达的基因比对到COG数据库进行注释,结果见图1。
3.5 三叶青根和茎叶中差异表达基因的生物学代谢KEGG分析
根据KEGG数据库的注释信息进一步将三叶青Unigene进行pathway注释,其中有14 511条Unigene获得对应的Ko编号,大于2%注释基因比例的10条代谢途径见表2。利用KEGG数据库对三叶青非冗余Unigene的pathway进行富集性分析,5个代谢通路又可分为130个信号代谢分支。其中核糖体合成途径的Unigene数量最多,有1042条;而异黄酮的生物合成途径只有1条Unigene,数量最少。
4 讨论
高通量转录组测序可以高通量测定cDNA序列,揭示特定细胞或组织中表达的全部基因,成为中草药生物学研究中的重要手段。三叶青微观方面的研究较少,可供参考的遗传背景较少,严重影响三叶青各种生物学性状分子机理的研究,利用转录组测序技术可获得大量的转录本信息,对解决三叶青基因进化、遗传育种及生态等诸多方面的问题具有重要意义。本课题选用闽侯县白沙基地的三叶青进行转录测序,并对原始序列数据(Raw Data)进行数据过滤、拼接,共获得24.13 Gb Clean Data,且GC含量不低于47.13%,各样品Q30碱基百分比均不小于94.18%,各项指标均符合转录组分析的要求。用Trinity软件对样品数据进行序列组装,共得到84 433条Unigene,N50为1180 bp,其长度集中在200~300 bp区间的数量占总Unigene序列的42.26%(35 684条)。利用BLAST软件将Unigene序列分别与NR、Swiss-Prot、GO、COG、KOG、PFAM、eggNOG4.5、KEGG数据库进行比对分析,然后统计在各数据库中注释到的Unigene数目,最终获得47 766个有注释信息的Unigene,占全部Unigene的56.57%。其中NR数据库注释到的Unigene数量最多(44 769条,占53.02%),KEGG数据库注释到的数量最少(14 511条,17.19%)。利用GO数据库注释得到27 790条Unigene,可分成细胞组分、生物过程、分子功能3个基本功能本体,并划分为47个组别。利用COG数据库进行对比分析,共得到16 152条三叶青Unigene的同源序列,共分为25个类别,其中与生物过程相关的Unigene最多。根据KEGG数据库的注释信息进一步将三叶青Unigene进行pathway注释,其中有14 511条Unigene获得对应的Ko编号,5个代谢通路又可分为130个信号代谢分支。
本研究首次利用Illumina HiSeq高通量测序技术对三叶青cDNA文库进行测序,建立了三叶青的转录组数据库,并对获得的转录本信息进行序列组装、功能注释和分类,以及代谢通路分析,为三叶青生物学研究提供了宝贵的基因数据库资源。
参考文献:
[1] LIU D, CAO G, HAN L, et al. Flavonoids from Radix Tetrastigmae inhibit TLR4/MD-2 mediated JNK and NF-κB pathway with anti- inflammatory properties[J]. Cytokine,2016,84:29-36.
[2] QINGLIN L, XIN W, ZHONG L, et al. A study on the anti-tumor mechanism of total flavonoids from Radix Tetrastigmae against additional cell line based on COX-2-mediated Wnt/β-catenin signaling pathway[J]. Oncotarget,2017,8(33):54304-54319.
[3] LIU D D, CAO G, HAN L K, et al. Flavonoids from Radix Tetrastigmae improve LPS-induced acute lung injury via the TLR4/MD-2-mediated pathway[J]. Mol Med Rep,2016,14(2):1733-1741.
[4] FENG Z, HAO W, LIN X, et al. Antitumor activity of total flavonoids from Tetrastigma hemsleyanum Diels et Gilg is associated with the inhibition of regulatory T cells in mice[J]. Onco Targets Ther,2014,7:947-956.
[5] 李清,李標,郭顺星.金钗石斛转录组SSR位点信息分析[J].中国中药杂志,2017,42(1):63-69.
[6] 朱畇昊,董诚明,郑晓珂,等.基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘[J].中国中药杂志,2017,42(2):213-219.
[7] 谢腾,王升,黄蕾,等.基于转录组的新疆紫草ERF转录因子家族生物信息学分析[J].中国中药杂志,2014,39(24):4732-4739.
[8] 常越,闫嵩,刘振鹏,等.膜荚黄芪的转录组测序质量评估及其SSR位点信息分析的研究[J].中国中药杂志,2016,41(8):1430-1434.
(收稿日期:2017-12-28)
(修回日期:2018-01-16;编辑:陈静)