高通量测序技术在分子生物学中的应用*

2012-08-15 00:45张春兰
潍坊学院学报 2012年6期
关键词:高通量甲基化基因组

张春兰

(潍坊学院,山东 潍坊 261061)

第一代测序技术是Sanger等于1970年代发明的双脱氧测序法,在过去的30多年中一直在DNA测序领域占据着主要地位。高通量测序技术又称为深度测序技术、新一代测序技术或第二代测序技术。新一代测序技术可通过聚合酶或连接酶进行体外合成测序。相对于传统的Sanger测序技术,具有通量更高、运行时间更短、测序片段更长、花费更少等优点。高通量测序技术的迅猛发展,将生物学在基因水平的研究带入了一个新的时期。高通量测序技术不仅可以进行大规模基因组测序,还可用于基因表达分析、非编码小分子RNA分析、表观遗传学分析等相关研究。

1 高通量测序技术在DNA水平的应用

1.1 未知基因组序列的全基因组从头测序

全基因组测序对全面了解一个物种的分子进化、基因组成和基因调控等有着非常重要的意义。新一代测序技术极大地推动了各物种的全基因组测序工作,越来越多的物种基因组信息相继公布。全基因组从头测序指利用测序平台对某物种进行测序,然后从头组装数据,与数据库比对统计进行基因作图、与性状的关联分析、不同组织或材料间基因差异表达分析等,并最终完成基因组作图。Li等首次在动物方面完全运用高通量测序技术模式完成了大熊猫基因组从头测序的组装,测序深度达73倍,覆盖约94%的基因组区域,组装形成了大熊猫的基因组草图[1]。Rasmusse等从4000年前爱斯基摩托人的一束头发中提取DNA,利用Solexa进行全基因组测序,得到大约79%的序列[2]。Dalloul等联合多个测序平台(454测序平台完成5倍测序深度、Illumina GAⅡ测序平台完成20倍测序深度、Sanger技术完成6倍覆盖度)完成了火鸡基因组的从头测序[3]。Jared等利用全基因组测序对一家四口(父母及其孩子)进行研究,发现了影响人类自发性基因突变的平均速度,以及一些与影响兄弟姐妹疾病有关的基因[4]。到目前为止,NCBI上公布的已测序物种有人、小鼠、大鼠、牛等19种动物,拟南芥、水稻、大豆、隐藻4种植物以及其他真菌和原生生物。

1.2 已知基因组序列的重测序

对已知基因组物种进行重测序是第二代测序技术目前应用最为广泛的领域。通过重测序,可以将测序数据与已有基因组信息相比对,发现基因结构变异、单核苷酸多态性、群体多态性、突变热点等,从而进行辅助分子育种、遗传进化分析及重要性状候选基因预测等。中科院上海生命中科学院、北京基因组所等六家科研机构共同对150个水稻RIL系进行重测序,第一次利用全基因组重测序筛选水稻SNP位点,对群体进行表达差异分析,发现了122万多个SNPs[5]。Rubin等通过全基因组重测序对8个家鸡品系和1个野生品系进行测序,分析鸡驯养过程中的位点选择,发现了7000多万个SNPs,约1300多个插入/缺失位点[6]。利用对不同条件下或不同表型的样本进行重测序,也可在个体或群体水平进行差异性分析、遗传疾病分析等。William等对一名烟龄超过15年,平均每天吸烟25根的原发性肺部肿瘤患者进行分析,将该患者的癌组织与相邻正常组织的基因组进行测序,发现了超过5万个基因点突变,并且确认有392个在编码区域[7]。

1.3 宏基因组学研究

宏基因组学(Meta-Genomics)测序是近年来提出的一种新概念,目前主要用于微生物的研究中。是指直接从环境中提取所有物种的DNA进行全基因组测序。即不再进行分离,而是从整体上研究整个微生物种群结构的特征,研究对象从单一基因组发展到基因组集合。与传统的微生物研究相比,宏基因组不再局限于实验室培养,更真实地接近于大自然生态群落和复杂性和多样性,对人类更好地了解微生物群落有着重要的意义。

2 高通量测序技术在RNA水平的应用

2.1 转录组测序(RNA-seq)

RNA-Seq技术能够在单核苷酸水平对特定物种的整体转录活动进行检测,从而全面快速地获得该物种在某一状态下的几乎所有转录本信息。由于转录组测序可以得到全部RNA转录本的丰度信息,加之准确度又高,使得它具有十分广泛的应用领域。主要应用于:

(1)检测新的转录本。Marten Jäger等比较了绵羊的正常组和骨延迟愈合组的基因表达谱,与绵羊基因组比对后发现了12431个新的转录本[8]。Huang W等比较了不同发育时期牛胚胎的转录本,与牛基因组比较后发现了1785个新的转录本[9]。

(2)基因转录水平研究,如基因表达量、不同样本间差异表达。李新建在其博士论文中比较了荣昌猪和长白猪的转录本,筛选出1596个差异表达显著的基因[10]。

(3)基因功能注释。将所测reads与已有数据库(如GO、KEGG)已注释功能的基因相比对分析,从而揭示特定转录状态下的基因的功能和生物通路等。Ajai K等采用454测序平台对牛角癌组织和正常角组织转录本分析,并对909345个转录本进行了GO和KEGG分析[11]。

(4)转录本结构变异研究,如可变剪接、RNA编辑、基因融合等。转录本结构的变异能揭示基因转录后表达的多样性。可变剪接使一个基因产生多个mRNA转录本,从而翻译成不同的蛋白。Sergei A等对拟南芥的RNA-Seq分析发现至少有约42%含有内含子的基因进行了可变剪切[12]。RNA编辑通过碱基的替换或转换等使基因序列发生改变。Peng Z Y等通过对一个汉族男性约76700万个转录表达序列分析,发现在22688个在非编码基因、内含子、非翻译区和蛋白编码基因的编码序列中存在RNA编辑,为后期的实验制作了一个综合性的RNA编辑组图谱[13]。基因融合是最近利用转录组高通量测序研究的一个新的内容,主要在肿瘤组织中发现。Shancheng Ren等对14个中国汉族人的原发性前列腺癌和他们的正常组织进行RNA-seq分析,揭示前列腺癌的基因融合、长非编码RNA、可变剪切和体细胞突变的多样性[14]。

(5)开发SNPs和SSR等。通过比对转录本和参考基因组间的序列,寻找潜在的SNPs或SSRs。Stephen B等对HapMap中60个欧洲后代进行了转录组测序分析,开发了901个人基因组上的的cSNP(编码SNP)[15]。Angela Ca′novas等对荷斯坦奶牛乳样品进行转录组分析,开发了33045个具有多态性的cSNPs[16]。

2.2 小分子RNA测序

近年来研究发现小分子RNA是一类主要存在于真核生物体内的特殊的内源性调控序列。长度范围在18-27nt,进化上高度保守。目前认为主要通过与靶基因配对结合抑制基因翻译,或影响基因的降解来调控基因表达。自从1993年首次在秀丽线虫(Caenorhadits,elegans)中被发现以来[17],人们越来越意识到小分子RNA的重要作用。人们开始采用大规模平行标签测序技术、454-FLX、Solexa/Illumina测序技术为代表的新型焦磷酸高通量测序技术来发掘生物体内的大量小分子RNA。并随着技术的逐渐升级,使得测序深度更深、费用更低、速度更快。高通量测序既能捕捉到真实存在的小RNA,甚至是体内表达量很低的小RNA,同时也能对没有注释的小片段RNA进行预测。

3 表观遗传学研究

3.1 甲基化研究

DNA甲基化是基因表达调控的另一种广泛而重要的方式。它通过改变染色质结构、DNA稳定性及DNA与蛋白质相互作用,从而控制基因的表达。对甲基化位点及方式的研究,近年来也发展了多种方法,如甲基转移酶法、免疫化学法、氯乙醛法、直接测序法、甲基化特异性的PCR法、DNA微阵列法等。利用高通量测序法在全基因组范围内检测甲基化位点是近年来发展起来的一种方法。目前已建立了至少三种依赖于高通量测序的DNA甲基化分析技术:甲基化DNA免疫共沉淀测序[18]、甲基结合蛋白测序和亚硫酸氢盐测序[19]。高通量测序已应用于拟南芥[19]、水稻[20]、人[21]等生物 DNA甲基化的研究,取得了丰硕的成果,并逐步应用于各种生物体上。

3.2 转录因子结合位点研究

转录因子通过与DNA特定区域相结合,开启或关闭基因的表达以达到调控基因表达目的。染色质免疫共沉淀(chromatin immunoprecipitation assay,ChIP)是目前研究体内蛋白质与DNA相互作用的最为经典的一种实验技术,广泛应用于组蛋白修饰、特定转录因子的基因调控作用等相关领域。其基本原理是在活细胞状态下固定蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。自从2007年应用该技术获得的科研成果分别在Science[22]、Nature[23]和 Cell[24]等顶级刊物上发表以来,利用该技术揭示蛋白因子作用位点的文章如雨后春笋般出现在各种刊物和杂志上。

4 结束语

分子生物学的发展离不开测序技术,自从1977年Sanger测序法的问世到近年来高通量测序法的广泛应用,相继揭秘了大量的遗传信息。但是,第二代高通量测序技术还处于起步阶段,由于测序费用仍很昂贵、测序长度也受到限制、信息平台尚未完善等原因,使得该技术的应用受到了一定的限制。相信随着测序技术的逐步改进,高通量测序将成为一项实验室常规手段,为生物学的分子研究带来革命性的变革。

[1]Li R,Fan W,Tian G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.

[2]Rasmussen M,Li Y,Lindgreen S,et al.Ancient human genome sequence of an extinct Palaeo-Eskimo[J].Nature,2010,463(7282):757-62.

[3]Dalloul.Multi-platform next-generation sequencing of the domestic turkey(Meleagris gallopavo):genome assembly and analysis[J].PLoS Biol,2010,8(9):e100475.

[4]Roach J C,Glusman G,Smait A F ,et al.Analysis of genetic inheritance in a family quartet by whole-genome sequencing[J].Science,2010,328 (5978):636-639.

[5]Huang X,Qi F,Qian Q,et al.High-throughput genotyping by whole-genome resequencing[J].Genome Res,2009,19(6):1068-1076.

[6]Rubin C J,Zody M C,Eriksson J.Whole-genome resequencing reveals loci under selection during chicken domestication[J].Nature,2010,464(7288):587-591.

[7]Lee W,Jiang Z,Liu J,et al.The mutation spectrum revealed by paired genome sequences from a lung cancer patient[J].Nature,2010,456(7279):473-479.

[8]Jäger M,Ott C E,Grünhagen J,et al.Composite transcriptome assembly of RNA-Seq data in a sheep model for delayed bone healing[J].Bmc Genomics,2011,12:158.

[9]Huang W,Khatib H.Comparison of transcriptomic landscapes of bovine embryos using RNA-Seq[J].Bmc Genomics,2010,11(1):711-720.

[10]李新建.猪脂肪沉积关键基因筛选及TCTP基因功能研究[C].陕西:西北农林科技大学,2011.

[11]Tripathi A K,Koringa P G,Jakhesara S J,et al.A preliminary sketch of horn cancer transcriptome in Indian zebu cattle[J].Gene,2012,493(1):124-131.

[12]Filichkin S A,Priest H D ,Givan S A ,et al.Genome-wide mapping of alternative splicing in Arabidopsis thaliana[J].Genome Research,2010,20(1):45-58.

[13]Peng Z Y,Cheng Y B,Tan C M,et al.Comprehensive analysis of RNA-seq data reveals extensive RNA editing in a human transcriptome[J].Nature Biotechnology,2012,30(3):253-262.

[14]Ren S,Peng Z Y,Mao J H,et al.RNA-seq analysis of prostate cancer in the Chinese population identifies recurrent gene fusions,cancer-associated long noncoding RNAs and aberrant alternative splicings[J].Cell Research,2012,22(5):806-821.

[15]Montgomery S B,Sammeth M,Gutierrez-Arcelus M,et al.Transcriptome genetics using second generation Sequencing in a Caucasian population[J].Nature,2010,464(7289):773-777.

[16]Cánovas A,Rincon GIslas-Trejo A,et al.SNP discovery in the bovine milk transcriptome using RNA-Seq technology[J].Mamm Genome,2010,21(11/12):592-598.

[17]Lee R C,Feinbaum R L,Ambros V.The C elegans heterochronic gene lin-4encodes small RNAs with antisense complementarity to lin-14[J].Cell,1993,75(5):843-854.

[18]Down T A,Rakyan V K,Turner D J,et al.A Bayesian deconvolution strategy for mmunoprecipitation-based DNA methylome analysis[J].Nat Biotechnol,2008,26 (7):779-785.

[19]Cokus S J,Feng S,Zhang X,et al.Shotgun bisulphate sequencing of the Arabidopsis genome reveals DNA methylation patterning[J].Nature,2008,452(7184):215-219.

[20]Yan H H,Kikuchi S,Neumann P,et al.Genome-wide mapping of cytosine methylation revealed dynamic DNA methylation patterns associated with genes and centromeres in rice[J].Plant J,2010,63(3):353-365.

[21]Li N,Ye M,Li Y,et al.Whole genome DNA methylation analysis based on high throughput sequencing technology[J].Methods,2010,52(3):203-212.

[22]Johnson D S,Mortazavi A,Myers R M,et al.Genome-wide mapping of in vivo protein-DNA interactions[J].Science,2007,316(5830):1497-1502.

[23]Mikkelsen T S,Ku M,Jaffe D B,et al.Genome-wide maps of chromatin state in pluripotent and lineage-committed cells[J].Nature,2007,448(7153):553-560.

[24]Barski A,Cuddapah S,Cui K,et al.High-resolution profiling of histone methylations in the human genome[J].Cell,2007,129 (4):823-837.

猜你喜欢
高通量甲基化基因组
高通量卫星网络及网络漫游关键技术
牛参考基因组中发现被忽视基因
高通量血液透析临床研究进展
Ka频段高通量卫星在铁路通信中的应用探讨
中国通信卫星开启高通量时代
鼻咽癌组织中SYK基因启动子区的甲基化分析
胃癌DNA甲基化研究进展
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组
全甲基化没食子儿茶素没食子酸酯的制备