韩慧霞综述,陆洪光,王 鲁审校
(1.贵阳医学院附属医院皮肤科,贵州贵阳550004;2重庆市第一人民医院皮肤科 400011)
全长cDNA文库及构建方法与应用进展
韩慧霞1综述,陆洪光1,王 鲁2审校
(1.贵阳医学院附属医院皮肤科,贵州贵阳550004;2重庆市第一人民医院皮肤科 400011)
DNA,互补;基因组文库;实验室技术和方法
互补DNA(complementary DNA,cDNA)文库是指生物不同生长发育时期,特定组织或器官所转录的全部mRNA经反转录形成的cDNA与载体连接后形成的克隆的集合,cDNA文库是在基因组水平上研究某一生物特定器官、组织和发育时期基因表达的前提和基础[1]。全长cDNA文库是生物体内完整的mRNA分子反转录而获得的DNA分子群集,是mRNA分子群的一个完整的拷贝。全长cDNA文库不仅提供完整的mRNA信息,而且可以通过基因序列比对得到mRNA剪接信息,此外,还可以对蛋白质序列进行预测及进行体外表达和通过反向遗传学研究基因的功能等[2]。全长cDNA文库的优点明显,克隆大部分是全长的,有效提高了基因测序和生物信息学分析的进程,利于后期蛋白质表达及功能分析。目前几乎所有构建全长cDNA文库的方法都是基于真核生物完整mRNA的一个共同特征——“帽子”结构,即 mRNA的 5′端存在的m7GpppNp-结构。多数cDNA文库构建过程大致为分离总RNA,纯化mRNA,反转录成cDNA,然后与两端带有限制性酶切位点的人工接头相连接,并将其插入到载体中,转染大肠杆菌,得到cDNA文库。近年来全球众多学者一直在有计划、大规模地进行一些重要模式生物的全长cDNA文库的构建及研究,如拟南芥、水稻、果蝇、小鼠及猪等[3],这些生物全长cDNA文库已构建完成,得到大量有重要价值的数据。本文主要介绍几种比较常用的全长cDNA文库的构建方法及其应用进展。
该法最早由Maruyama和Sugano[4]于1994年建立。它利用完整的mRNA分子具有5′端帽子结构,而部分降解的mRNA分子没有此结构的特点,采用寡核苷酸(oligonucleotide)替换mRNA的帽子结构,并标记mRNA的5′端。
首先利用细菌碱性磷酸酶(bacterial alkaline phosphatase,BAP)水解5′端无m7GpppNp-保护的部分,降解 5′磷酸基团,并防止截短的mRNA在后续反应中与寡核苷酸连接;然后用烟草酸焦磷酸酶(tobacco acid pyrophosphatase,TAP)除去mRNA 5′端的帽子结构,暴露磷酸基团;再用 T4RNA连接酶在mRNA的5′端连上一个寡核苷酸,作为引发第二链合成的引物结合位点;最后,经 RT-PCR扩增、酶切、连接,只有完整的mRNA才能合成cDNA,建成目的全长cDNA文库。不足之处在于其涉及多种酶促反应,各种酶的效率直接影响文库的最终质量,尤其是 T4RNA连接酶;mRNA经过多步酶促反应后,易发生降解,故RNA需要量大;PCR反应对模板量及长度有一定选择性,易影响难扩增基因的克隆,导致文库中克隆的代表性不强;反应所用的 TAP价格较贵,此法成本较高。有人对Oligo-capping法进行改进,以少量总 RNA(约100μg)替代mRNA作起始材料,寡核苷酸替换帽子结构后再分离mRNA进行cDNA合成,可避免mRNA在酶处理过程中被降解,构建的文库在建库效率、全长比例和代表性等方面都有所提高[5]。2004年Clepet等[6]用 T4DNA连接酶替代 T4RNA连接酶,在一定程度上提高了寡核苷酸mRNA的连接效率,提高了文库全长比例。同年Ota等[7]用此法完成了21 243条日本人cDNA文库的构建和测序,所构建文库中大约有85%的克隆为全长。Kim等[8]改良此法,提出RNA连接酶介导的cDNA末端快速扩增(RNA ligase-mediated rapid amplification of cDNA ends,RLM-RACE)。2006年 Sunderland等[9]用 RLMRACE确定拟南芥LIG1基因所有可能的转录起始位点。2009年 Tsuchihara等[10]将Oligo-capping法与大规模平行测序技术结合,提出以高通量方式收集转录起始位点(transcription start sites,TSS)信息和定量分析转录物表达水平的方法。改良后的Oligo-capping法被广泛用于实验研究。Sumio Sugano实验室利用此法不断完善人类基因转录起始位点数据库和全长cDNA文库,通过对选定人类和小鼠cDNA5′端的测序,获得3.3亿新标签[11-13]。
RNA反转录5′末端交换机制(switching mechanism at 5′end of RNA transcript,SMART)是在第一链合成时使用专利SMART IVTM寡核苷酸产生大量全长双链cDNA。此法是在PCR基础上利用SMARTScribeTMMMLV反转录酶的末端转移酶活性及限制性内切酶SfiⅠ的特性,快速构建全长cDNA文库。SMARTScribeTMMMLV RT是由小鼠白血病病毒(moloney murine leukemia virus,MMLV)反转录酶点突变而获得,无RNase H活性。当反转录到达mRNA的5′端时,RT能在相应的核酸3′端添加一段oligo(dC),对于非全长cDNA,由于反转录没有延伸到mRNA的5′端,RT不能在其不完整的3′端加上oligo(dC)。合成cDNA第二链时,对于截短的第一链cDNA,反转录酶没有识别到mRNA的5′端帽子结构,3′端携带的oligo(dG)第二链引物就不能与截短的第一链cDNA片段结合,最终得到的是全长双链cDNA。在实验流程中,cDNA引物的5′端引入了 SfiⅠA和 SfiⅠB识别位点,只需对目的cDNA进行SfiⅠ单酶切,就可实现目的基因的定向克隆。此方法只需用少量起始材料(最低0.025μg的poly A+RNA或0.05μg的总 RNA)经18~26次长距离DNA扩增(long distance PCR,LD-PCR)或0.5~2.0μg的poly A+RNA通过引物延伸法合成双链cDNA,对扩增后的双链cDNA进行分级分离,然后进行载体连接,转化构建全长文库。mRNA在合成cDNA前无酶促反应及化学处理,不会在处理过程中出现mRNA的降解和浪费。产生的单链cDNA富含mRNA完整的5′非翻译区(untranslated region,UTR),省去合成接头的连接、甲基化等步骤,更易获得全长克隆。
作为基于PCR的基因扩增技术,Wang等[14]将其用于扩增侵袭性肿瘤细胞的cDNA,并鉴定和检测基因表达特征;用此法构建的还有腐霉、小麦条锈病菌等真菌的全长cDNA文库[15-16];2006年Cheung等[17]构建了蒺藜苜蓿的标准化cDNA文库及cDNA质粒文库;2007年Du等[18]构建了发情前小尾寒羊卵巢的全长cDNA文库;2008年Vera等[19]用此法分别合成了格兰维尔贝母蝴蝶幼虫、蛹及成虫的cDNA;2009年Fedorov等[20]构建了冬眠的美洲黑熊的脑、肝、睾丸及骨骼肌的全长cDNA文库。将SMART和双链特异性核酸酶(duplex-specific nuclease,DSN)均一化技术结合是目前构建全长均一化cDNA文库的首选方法[21]。
该法于1996年由Carninci等[22]建立,并用此法构建了小鼠脑细胞全长cDNA文库,全长比例超过95%,且仅需10μg起始mRNA。此法建库原理是依据真核细胞mRNA的帽子结构上存在一个相同的二醇残基,此二醇结构经氧化后与生物素结合而被标记。生物素化的mRNA经反转录酶催化,进行第一链cDNA合成,接着经 RnaseⅠ酶切,去除所有非全长cDNA5′端及所有未被cDNA保护的mRNA的生物素标签,经链霉亲和素磁珠(免疫磁珠)吸附,弱碱降解,获得的单链全长cDNA在末端转移酶的催化下,5′端oligo(G)加尾,开始合成第二链,定向克隆获得全长cDNA文库。Carninci等[22]所在实验室不断对此法进行改进:(1)在全长cDNA合成时,用海藻糖和山梨糖醇热启动反转录,提高反转录酶热稳定性,减少反转录过程中的二级结构,提高全长cDNA的合成比例;(2)采用对甲基化敏感的限制性内切酶Ssth、BsaⅠ或BamHⅠ/Xhol替代 EcolⅠ/Xhol双酶切,提高文库的全长比例;(3)用核糖核酸单链连接法(single-strand linker ligation method,SSLLM)加尾,减少oligo(G)加尾对测序和蛋白质翻译的干扰,利于全长cDNA的有效转录和表达克隆。
2005年在Ng等[23]的研究中,采用此法获得 E14小鼠胚胎干细胞的全长cDNA。2006年Carninci等[24]将此法用于哺乳动物基因启动子的研究。2008年 Taji等[25]采用改良后的CAP-trapper法,用海藻糖热启动反转录,构建了盐芥在高盐度、严寒及酸性环境下的全长cDNA文库。2009年Sato等[26]采用此法构建全长cDNA文库,对水稻和拟南芥的基因同源性进行了比较分析。此外,用此法构建的还有毛果杨树[27]、大豆[28]和豌豆蚜虫[29]等的全长cDNA文库。
此法具有建库效率高、全长比例高的优点,但酶促反应多,mRNA暴露时间长,增加了mRNA降解的危险性,部分降解的5′端也会被生物素标记,尤其是技术要求高,流程长,需做同位素平行实验,操作复杂。
这是一种构建高质量cDNA文库简单而有效的方法。它利用T4 RNA连接酶将mRNA/cDNA双链复合体中第一链cDNA的3′端连接到载体DNA的平端,这样,全长cDNA就能以与锚定连接相同的方式在 5′端加上 G。Kato等[30]因cDNA在连接过程中加上载体作为“帽子”,故将这种方法命名为“Vector-capping”。根据 Ohtake等[31]的研究,当具有帽子结构的mRNA作为模板时,锚定连接产生的cDNA在5′端加上了dGMP,并且加上的核苷酸的碱基与帽子结构的碱基互补,这就意味着5′端出现的 G能保证cDNA的完整性。该法仅由3步组成:(1)利用反转录酶和载体引物合成第一链cDNA,所用载体是一端具有dT尾巴的线性载体;(2)用 T4RNA连接酶将第一链cDNA连接到载体引物的另一端;(3)利用Rnase H、E.coli DNA聚合酶Ⅰ及 E.coli DNA连接酶的活性,用cDNA替换mRNA。使用载体引物能达到定向插入的目的,有利于cDNA的测序及表达,这种载体引物能由具有dT加尾的3′端突出位点和移除一端dT尾巴的邻近位点的限制性酶切位点的质粒载体制备而来。
用该法构建高质量cDNA文库的关键因素是dT尾巴的长度和载体引物的纯度。未剪切及未加尾的载体会增加文库的背景干扰,必须尽可能除去。建库的关键步骤是第二步,利用T4RNA连接酶的活性环化cDNA-载体引物双链,虽然连接效率很低,但得到转化子的数量已能满足建库需要。该法在简易性、有效性、全长比例和cDNA质量等方面较传统方法有显著优势。
目前,许多实验室已采用此法构建多种生物组织的cDNA文库。Osada等[32]比较Vector-capping法和Oligo-capping法所建文库的冗余性发现:用Vector-capping法构建食蟹及弥猴肝细胞文库的冗余性为3.21,用Oligo-capping法构建食蟹及猕猴肝细胞文库的冗余性为5.19,明显高于Vactor-capping法(P<0.001)。Watanabe等[33]构建了多种顶复门原虫,如4种致病性疟原虫、刚第弓形虫、多房棘球绦虫及小隐孢子虫的全长cDNA文库。2008年Oshikawa等[34]构建了人类视网膜色素上皮细胞ARPE-19的全长cDNA文库,所建文库全长比例超过95%,大片段克隆长达11 199 bp。Aboge等[35]构建了野生型gibson巴贝虫的全长cDNA文库,筛选出gibson巴贝虫的二氢叶酸还原酶-胸苷酸合成酶(dihydrofolate reductasethymidylate synthase,DHFR-TS)的基因,证明DHFR-TS是治疗gibson巴贝虫病的抗叶酸类药物的作用靶位。此外,用此法构建的还有芜菁[36]和烟草BY-2对数生长期细胞[37]的全长cDNA文库。
全长cDNA文库较传统cDNA文库更有优势,其重要性决定了它是目前全长新基因克隆、基因鉴定和基因组功能研究的必要工具,是现代生物学研究不可或缺的重要手段。研究者可通过构建生物全长cDNA文库,获得完整的基因全序列信息,从中寻找特异性基因片段,利用核酸、抗体探针筛选文库,从而获得目的基因片段数据。随着分子生物学理论和技术的发展,全长cDNA文库的构建方法日臻完善。以上所介绍的4种方法目前应用已较为成熟,其中SMARTTM试剂盒作为产品推出,现已广泛用于多种生物的全长cDNA文库构建和基因研究。Vector-capping法优点明显,所建文库的全长比例是所有方法中最高的,克服了传统方法的众多局限和缺点,有望被广泛推广应用。研究者应根据所研究生物的生理、病理因素,基因研究目的及研究者所在实验室条件,选择适合的全长cDNA文库的构建方法,使各种建库方法在使用中能够充分发挥各自优点。
[1]许兰珍,何永睿,姜国金,等.cDNA文库构建及其在植物抗性研究中的应用[J].安徽农业科学,2007,35(3):660-662.
[2]谢卡斌,张建伟,向勇,等.10 828条籼稻全长cDNA的分离和注释[J].中国科学C辑,2005,35(1):6-12.
[3]Kim TH,Kim NS,Lim D,et al.Generation and analysis of large-scale expressed sequence tags(ESTs)from a fulllength enriched cDNA library of porcine backfat tissue[J].BMC Genomics,2006,7:36.
[4]Maruyama K,Sugano S.Oligo-capping:a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides[J].Gene,1994,138(1/2):171-174.
[5]Oh J H,Kim YS,Kim NS.An improved method for constructing a full-length enriched cDNA library using small amounts of total RNA as a starting material[J].Exp Mol Med,2003,35(6):586-590.
[6]Clepet C,Le Clainche I,Caboche M.Improved full-length cDNA production based on RNA tagging by T4 DNA ligase[J].Nucleic Acids Res,2004,32(1):6.
[7]Ota T,Suzuki Y,Nishikawa T,et al.Complete sequencing and characterization of 21,243 full-length human cDNAs[J].Nat Genet,2004,36(1):40-45.
[8]Kim TH,Barrera LO,Qu C,et al.Direct isolation and identification of promoters in the human genome[J].Genome Res,2005,15(6):830-839.
[9]Sunderland PA,West CE,Waterworth WM,et al.An evolutionarily conserved translation initiation mechanism regulates nuclear ormitochondrial targeting ofDNA ligase 1 in Arabidopsis thaliana[J].Plant J,2006,47(3):356-367.
[10]Tsuchihara K,Suzuki Y,Wakaguri H,et al.Massive transcriptional start site analysis of human genes in hypoxia cells[J].Nucleic Acids Res,2009,37(7):2249-2263.
[11]Yamashita R,Suzuki Y,Wakaguri H,et al.DBTSS:data base of human transcription start sites,progress report 2006[J].Nucleic Acids Res,2006,34(Database issue):D86-89.
[12]Wakaguri H,Yamashita R,Suzuki Y,et al.DBTSS:database of transcription start sites,progress report 2008[J].Nucleic Acids Res,2008,36(Database issue):D97-101.
[13]Yamashita R,Wakaguri H,Sugano S,et al.DBTSS provides a tissue specific dynamic view of Transcription Start Sites[J].Nucleic Acids Res,2010,38(Database issue):D98-104.
[14]Wang W,Goswami S,Lapidus K,et al.Identification and Testing of a Gene Expression Signature of Invasive Carcinoma Cells within Primary Mammary Tumors[J].Cancer Res,2004,64(23):8585-8594.
[15]Cheung F,WinJ,LangJM,et al.Analysis of the Pythium ultimum transcriptome using Sanger and Pyrosequencing approaches[J].BMC Genomics,2008,9:542.
[16]Ling P,Wang M,Chen X,et al.Construction and characterization of a full-length cDNA library for the wheat stripe rust pathogen(Puccinia striiformis f.sp.tritici)[J].BMC Genomics,2007,8:145.
[17]Cheung F,Haas BJ,Goldberg SM,et al.Sequencing Medicago truncatula expressed sequenced tags using 454 Life Sciences technology[J].BMC Genomics,2006,7:272.
[18]Du LX,Liu SF,Zhu J,et al.Construction of SMART cDNA library of sheep ovary and identification of candidate gene by homologous cloning[J].AGR SCI CHINA,2007,6(11):1390-1395.
[19]Vera JC,Wheat CW,Fescemyer HW,et al.Rapid transcriptome characterization for a nonmodel organism using 454 pyrosequencing[J].Mol Ecol,2008,17(7):1636-1647.
[20]Fedorov VB,Goropashnaya AV,Toien O,et al.Elevated expression of protein biosynthesis genes in liver and muscle of hibernating black bears(Ursus americanus)[J].Physiol Genomics,2009,37(2):108-118.
[21]Wall PK,Leebens-Mack J,Chanderbali AS,et al.Comparison of next generation sequencing technologies for transcriptome characterization[J].BMC Genomics,2009,10:347.
[22]Carninci P,Kvam C,Kitamura A,et al.High-efficiency full-length cDNA cloning by biotinylated CAP trapper[J].Genomics,1996,37(3):327-336.
[23]Ng P,Wei CL,Sung WK,et al.Gene identification signature(GIS)analysis for transcriptome characterization and genome annotation[J].Nat Methods,2005,2(2):105-111.
[24]Carninci P,Sandelin A,Lenhard B,et al.Genome-wide analysis of mammalian promoter architecture and evolution[J].Nat Genet,2006,38(6):626-635.
[25]Taji T,Sakurai T,Mochida K,et al.Large-scale collection and annotation of full-length enriched cDNAs from a model halophyte,Thellungiella halophila[J].BMC Plant Biol,2008,8:115.
[26]Sato K,Shin IT,Seki M,et al.Development of 5 006 fulllength cDNAs in barley:a tool for accessing cereal genomics resources[J].DNA Res,2009,16(2):81-89.
[27]Ralph SG,Chun HJ,Cooper D,et al.Analysis of 4 664 high-quality sequence-finished poplar full-length cDNA clones and their utility for the discovery of genes responding to insect feeding[J].BMC Genomics,2008,9:57.
[28]Umezawa T,Sakurai T,Totoki Y,et al.Sequencing and analysis of approximately 40 000 soybean cDNA clones from a full-length-enriched cDNA library[J].DNA Res,2008,15(6):333-346.
[29]Shigenobu S,Richards S,Cree AG,et al.A full-length cDNA resource for the pea aphid,Acyrthosiphon pisum[J].Insect Mol Biol,2010,19 Suppl 2:S23-31.
[30]Kato S,Ohtoko K,Ohtake H,et al.Vector-capping:a simple method for preparing a high-quality full-length cDNA library[J].DNA Res,2005,12(1):53-62.
[31]Ohtake H,Ohtoko K,Ishimaru Y,et al.Determination of the capped site sequence of mRNA based on the detection of cap-dependent nucleotide addition using an anchor ligation method[J].DNA Res,2004,11(4):305-309.
[32]Osada N,Hirata M,Tanuma R,et al.Collection of Macaca fascicularis cDNAs derived from bone marrow,kidney,liver,pancreas,spleen,and thymus[J].BMC Res Notes,2009,2:199.
[33]Watanabe J,Wakaguri H,Sasaki M,et al.Comparasite:a database for comparative study of transcriptomes of parasites defined by full-length cDNAs[J].Nucleic AcidsRes,2007,35(Database issue):D431-438.
[34]Oshikawa M,Sugai Y,Usami R,et al.Fine expression profiling of full-length transcripts using a size-unbiased cDNA library prepared with the vector-capping method[J].DNA Res,2008,15(3):123-136.
[35]Aboge GO,Jia H,Terkawi MA,et al.Cloning,expression,and characterization of Babesia gibsoni dihydrofolate reductase-thymidylate synthase:inhibitory effect of antifolates on its catalytic activity and parasite proliferation[J].Antimicrob Agents Chemother,2008,52(11):4072-4080.
[36]Kakita M,Murase K,Iwano M,et al.Two distinct forms of M-locus protein kinase localize to the plasma membrane and interact directly with S-locus receptor kinase to transduce self-incompatibility signaling in Brassica rapa[J].Plant Cell,2007,19(12):3961-3973.
[37]T oyooka K,G oto Y,Asatsuma S,et al.A mobile secretory vesicle cluster involved in mass transport from the golgi to the plant cell exterior[J].Plant Cell,2009,21(4):1212-1229.
10.3969/j.issn.1671-8348.2011.16.034
A
1671-8348(2011)16-1639-04
2010-11-18
2011-03-07)