传统中草药高通量测序技术RNA-seq及lncRNA挖掘的应用策略

2014-12-17 05:30白晶李力恒孙尧扈韵绮付博
中医药信息 2014年2期
关键词:信息学中草药基因组

白晶,李力恒,孙尧,扈韵绮,付博

(1.黑龙江中医药大学,黑龙江 哈尔滨 150040;2.黑龙江省农业科学院博士后科研工作站,东北林业大学博士后科研流动站,黑龙江 哈尔滨 150086;3.黑龙江省农业科学院畜牧研究所,黑龙江 哈尔滨 150086)

中药成分的药理学及化学研究已很成熟,但其天然活性成分的调控机理、生物合成途径的研究才刚起步。未来中医药发展的主要方向,是运用次生代谢工程手段研发生产中药,对于中草药次生代谢产物合成途径及其调控机制的阐明尤为重要。

然而,由于大多数中草药为非模式生物,很多中草药的生长、发育、次生代谢等生物学过程中的分子机制尚未得到详细阐述,大多数药用植物基因组信息缺乏,遗传信息和功能基因的研究滞后,尤其是对以上过程中的功能基因挖掘明显滞后于模式植物,这严重阻碍了传统中医向现代中医的发展。因此,对传统中草药重要功能基因的挖掘成为当务之急。

转录组代表细胞或组织内全部RNA转录本,包括编码蛋白质的mRNA和各种非编码RNA(microRNA、lncRNA等)。后基因组时代,转录组研究能够从整体水平研究基因功能以及基因结构,对解决生物学功能研究、基因进化、遗传育种以及生态多样性等诸多方面的问题具有重要意义,现已广泛应用于临床诊断和药物研发[1]。药用植物次生代谢产物生物合成关键酶基因的发现,次生代谢途径的阐明,转录组学研究显示了重要的应用价值。RNA-seq作为新兴的高通量测序技术以其成本低,速度快,精确度高等优势逐渐应用到转录组的研究中[2-3]。近期,作为非编码RNA的lncRNA逐渐得到了研究人员的重视,并认为lncRNA在基因表达调控中发挥重要作用,广泛参与生理活动和疾病过程[4]。

应用RNA-seq技术挖掘传统中草药中若干重要长非编码RNA(lncRNA)可为阐明中草药的生长、发育、次生代谢等生物学过程中的分子调控机制奠定理论基础。本文将对中草药RNA-seq技术研究策略及lncRNA挖掘方法做简要综述。

1 RNA-seq技术用于中草药转录组研究的优势

通过单基因研究策略不能很快揭示中草药天然活性成分生物合成途径,亟需采用高通量方式在整体水平上全面分析基因组和功能表达之间的联系。因此,从RNA水平研究中草药在特定生长时期和培养条件下全基因组转录情况可揭示基因编码RNA(mRNA)和非编码RNA(Non-codingRNA,ncRNA)的表达水平及其调控规律,进一步推动中草药基因功能和ncRNA调控机制的研究。上一代转录组研究方法主要通过基因芯片技术、基于传统sanger测序法的SAGE技术(serial analysis of gene expression)、LongSAGE技术、MPSS(massively parallel signature sequencing)等。其中,基因芯片技术应用较广。但与RNA-seq研究方法相比,基因芯片技术存在以下缺陷:

1)基因芯片的精确度依赖于探针的数量和重叠度,使得基因芯片的成本大大增加。

2)由于基因芯片是通过判断杂交信号的强弱来间接反映转录本表达水平,因此容易受到背景信号和交错杂交的干扰,也不能用于低丰度转录本的检测(细胞内低丰度的ncRNA往往具有重要的调控作用并发挥重要生物学功能)。

3)基因芯片法必须有相应物种的基因组序列作参照[5]。

因此该方法只能用于基因组序列已知的物种的转录组分析,使得缺乏基因组序列参照的传统中草药转录组研究举步维艰。

RNA-seq测序刚刚发展起来,它利用深度测序方法进行转录组分析,该技术正在改变着转录组研究的方式,它具有以下优势:

1)在转录组水平上发现SNP。识别一个基因不同的转录本和可变剪切位点。

2)无需设计特异性的探针。可以无研究物种基因信息,直接对任何物种的转录组进行分析。

3)以更高的分辨率和覆盖度对细胞内所有转录本进行直接检测。

4)能够检测未知基因和发现新的转录本。

5)测序成本大大降低。

目前,有Illumina公司(Genome Analyzer II)、ABI公司(ABSOLiD)、Roche公司(454 GS-FLX)三大公司是比较大规模平行测序(Massive parallel sequencing,MPS)的技术平台。这三个平台各有优势,其中,Illumina公司的Genome Analyzer II平台通过文库构建、锚定桥接、PCR扩增、单碱基延伸测序等步骤实现高通量测序过程,该平台具有高准确性、高通量、高灵敏度和低运行成本等突出优势,是目前使用最广泛的新一代测序平台。ABI公司的ABSOLiD平台具有读取精确度高和数据输出量大和低成本等优势,但序列读长较短,测序后数据的装配需要强大生物信息学分析技术的支持。Roche公司的454 GS-FLX平台虽准确率较低,成本高,但读长可达400bp,尤其适用于缺乏基因组参考而需要从头拼接的中草药等转录组研究。

笔者认为,在中草药大多缺乏可参考的基因组信息的情况下,Roche公司的454 GS-FLX平台比较适合中草药的RNA-seq研究。因为,测序读长越长,越有利于序列的组装和生物信息学分析,Roche公司的454 GS-FLX平台可达400bp左右。

目前,应用RNA-seq技术,可以对中草药进行转录本结构及变异、基因表达水平差异、非编码区域功能、低丰度全新转录本发现等研究。RNA-seq已经成功用于水稻、玉米等的大规模EST测序研究,并发现了这些物种更多 EST[6-8]。例如,Logacheva等通过比较甜荞(F.esculentum)和苦荞(F.tataricum)的转录组测序结果,分析了两者的差异表达基因,这些差异基因包括逆转座子基因以及糖类合成与代谢相关基因[9]。

最近,我国学者对少数中草药的转录组研究上也取得了可喜进展[10-12]。

尽管RNA-seq技术的应用前景广阔,但该技术也面临一系列挑战,在海量的序列数据中,如何诠释和鉴定同源基因,如何确定最佳测序深度,如何针对更复杂的转录组来识别RNA亚型的表达变化,如何降低样本起始量以满足某些珍贵中草药转录组测序要求,如何提供序列转录的方向信息,以及在缺乏基因组信息的情况下,如何对中草药等非模式生物测序序列进行基因组定位和注释(目前,只能进行从头拼装,并通过同源比对进行测序序列的注释和分析,因此对后期生物信息学分析方法及软件有极高的要求)。相信随着测序方法的不断进步,使用更长的读段技术或单分子测序技术有望回答以上问题。

2 lncRNA生物信息学挖掘方法

非编码RNA是一类不编码蛋白质但具有多种重要生物学调控功能的RNA分子,可以通过调节mRNA的稳定性及参与RNA的加工和修饰、参与蛋白质的运输、调控染色体的结构等机制,发挥在胚胎发育、组织分化、器官形成等生物学过程中的调控作用。

近期,非编码 RNA中的长非编码 RNA(long non-protein coding RNA,lncRNA)得到了研究人员的广泛关注。长非编码RNA是在真核生物中新发现的一类核苷酸,它具有低丰度、类似mRNA结构特征,无长阅读框架,且长度大于200 bp。基因表达、基因组印记、表观遗传调控、X染色体失活、蛋白质折叠等生物学过程,都有其广泛参与。

lncRNA还可以作为分子伴侣调控蛋白质的构象和作为结构分子锚定蛋白质在细胞内的位置。不仅可以通过结合转录因子来激活或抑制靶基因的表达,还能参与组蛋白修饰、mRNA拼接等过程。

虽然lncRNA在各种生物学过程中发挥极其重要的调控作用,而且目前部分lncRNA已得到确定,但对绝大部分lncRNA在生命活动过程中的具体调控机制及功能模式仍不清楚,中草药转录组中lncRNA资源更是急待挖掘。

现阶段lncRNA的预测仍依赖生物信息学技术,以挖掘其中lncRNA的序列、结构、表达及功能等信息。使用生物信息学方法对RNA-seq测序结果进行预测,根据预测结果进行RNAi和RIP等lncRNA功能验证实验,可以避免功能研究实验的盲目性,从而节约大量实验成本。

将测序读段集合并恢复转录组结构的过程被称作转录组重建,转录组重建主要分为参考基因组法和基因组独立法,基因组独立法更适用于中草药转录组重建,同时需要较高的测序深度。转录组重建后通过Cuffcompare等软件将重建转录组与现有基因注释进行比较,以获取重建转录组的分类,进而利于lncRNA的识别过程。lncRNA识别过程简要概述如图1。

图1 IncRNA识别过程

提取外显子总长度大于200碱基的转录本,此阈值是由lncRNA的定义所决定,本质上是用来区分lncRNA与小ncRNA(如miRNA等),但从转录本中区分mRNA与ncRNA确实是一个繁琐复杂的过程。对于编码蛋白质的mRNA来说,其开放阅读框(ORF)长度一般大于300碱基,若RNA序列的假定ORF长度小于300碱基,则会被判定为ncRNA,但这显然会导致H19、Xist等假定ORF长度大于300碱基的ncRNA的误判。应用CPC、CONC、lncRNA等监督机器学习(supervised machine learning)方法,可通过学习肽链长度、氨基酸构成、蛋白质同源性、二级结构、蛋白质比对或表达等多种特征,建立分类模型,因而可以减少此类误判的发生。

近年来,研究人员开发了多种用于lncRNA差异表达分析的软件。其中,EdgeR、Cuffdiff、DESeq和DEXSeq等方法引入负二项分布(negative bionormial distribution)模型,相比泊松分布能更好地适应生物学偏差。随着生物信息学的迅猛发展,研究人员也开发了包括catRAPID(Fast predictions of RNA and protein interactions and domains)在内的若干在线分析lncRNA的生物信息学平台。但是,比较综合且较完善的涵盖各物种lncRNA的强大数据库尚未建立,由于lncRNA属于低丰度mRNA,需要RNA-seq的测序深度更深,中草药重要功能lncRNA的挖掘面对极大的挑战。

当前,lncRNA研究正处于起步阶段,面临着诸多问题亟待解决:

1)lncRNA的定义尚存争议。一般认为,lncRNA是长度大于200个核苷酸的非编码RNA。但是,有研究者认为,以200个核苷酸作为界定lncRNA过于武断,因为很多小于200个核苷酸的非编码RNA既不属于小RNA(Small RNA)也不属于结构RNA(Structural RNA)。

2)如何区分功能性和非功能性非编码转录物依然存在困难。

3)由于lncRNA种类和功能的多样性,致使不同lncRNA研究结果之间的借鉴意义不高。

4)已有lncRNA数据较少,对lncRNA的注释不够丰富。

3 结语

尽管RNA-Seq技术还面临着种种困难,而且,目前对lncRNA的生物学功能和结构特征知之甚少,但是它的发现能力和寻找新的转录本的能力从本质上高于芯片技术,相信随着生物物理技术的不断进步和测序成本的进一步降低,通过RNA-Seq高通量测序技术对传统中草药中lncRNA的序列、结构、表达及功能等信息的挖掘,定会为中草药的生长、发育、代谢等生物学过程中的分子机制的阐明奠定理论基础。

[1] Swarbreck SM,Lindquist EA,Ackerly DD,et al.Analysis of leaf and root transcriptomes of soil-grown Avena barbata plants[J].Plant Cell Physiol,2011,52(2):317-332.

[2] 夏天,肖丙秀,郭俊明.长链非编码RNA的作用机制及其研究方法[J].遗传,2013,35(3):269-280.

[3] Marioni JC,Mason CE,Mane SM,et al.RNA-seq:an assessment of technical reproducibility and comparison with gene expression arrays[J].Genome Res,2008,18(9):1509-1517.

[4] 祁云霞,刘永斌,荣威恒.转录组研究新技术:RNASeq及其应用[J].遗传,2011,33(11):1191-1202.

[5] 李湘龙,柏斌,吴俊,等.第二代测序技术用于水稻和稻瘟菌互作早期转录组的分析[J].遗传,2012,34(1):102-112.

[6] Weber APM,Weber KL,Carr K,et al.Sampling the arabidopsis transcriptome with massively parallel pyrosequencing[J].Plant Physiol,2007,144(1):32-42.

[7] Logacheva MD,Kasianov AS,Vinogradov DV,et al.De novo sequencing and characterization of floral transcriptome in two species of buckwheat(Fagopyrum)[J].BMC Genomics,2011,12(1):30.

[8] Li Y,Sun C,Luo HM,et al.Transcriptome characterization for Salvia miltiorrhiza using 454GS FLX[J].Acta Pharmaceutica Sin,2010,45(4):524-529.

[9] Wu Q,Sun C,Luo HM,et al.Transcriptome analysis of Taxus cuspidate needles based on 454 pyrosequencing[J].Planta Med,2011,77(4):394-400.

[10] Zhou YJ,Gao F,Liu R,et al.De novo sequencing and analysis of root transcriptome using 454 pyrosequencing to discover putative genes associated with drought tolerance in Ammopiptanthus mongolicus[J].BMC Genomics,2012,13(1):266.

[11] Hao DC,Ma P,Mu J,et al.De novo characterization of the root transcriptome of a traditional Chinese medicinal plant Polygonum cuspidatum[J].Sci China Life Sci,2012,55(5):452-466.

[12] Lu ZJ,Yip KY,Wang G,et al.Prediction and characterization of noncoding RNAs in C.elegans by integrating conservation,secondary structure,and high-throughput sequencing and array data[J].Genome Res,2011,21(2):276-285.

猜你喜欢
信息学中草药基因组
益林中草药 初现规模化
三味中草药 消炎效果好
牛参考基因组中发现被忽视基因
鸡NRF1基因启动子区生物信息学分析
生物信息学辅助研究乳腺癌转移相关lncRNA进展
中草药制剂育肥猪
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
PBL教学模式在结构生物信息学教学中的应用
药用植物黄花蒿ATP合成酶电子克隆及生物信息学分析