冯淼,王璐,田敬东
1中国科学院天津工业生物技术研究所,天津 300308
2中国科学院系统微生物工程重点实验室,天津 300308
对基因组学和蛋白质组学的大规模研究带来了大量崭新的信息、知识和技术,不仅推动了人类对生命过程和生物体结构功能相互关系的全面认识,也跨越式地提升了人类按需合成生命的能力,使合成生物学等新兴学科应运而生。不管是探索生命本质,还是重构天然生物体系为人类服务,合成生物学的快速发展为应对人类社会发展所面临的资源、环境、人口健康等重大挑战提供了强有力的手段,成为引领生命科学和生物技术的重要前沿学科。
体外DNA合成技术是合成生物学最基础、最有力的工具,可以突破传统克隆技术的局限,实现从头合成、按需合成和生物大分子的定向改造,如天然基因的异源表达、疫苗减活蛋白类药物优化、人工合成细胞工厂乃至人造生命体等。合成生物学的快速发展对人工合成基因的需求日益增长,相关课题一直是近年来国内外研究和专利申请的热点[1]。近几年,DNA化学合成和基因组装技术取得了许多令人振奋的研究进展,这些新技术正在推动着基因合成技术向着高通量、高保真、自动化的方向发展。
目前,人工合成基因的主要方法是以短链寡核苷酸作为原料,经拼接组装得到长链DNA[2-6]。柱式合成是寡核苷酸的常规来源,以多孔玻璃(Controlled pore glass,CPG)或聚苯乙烯(Polystyrene,PS)作为固相载体,微升级体积的化学试剂和溶剂通过抽压流穿合成柱,经脱保护、偶联、封闭和氧化四步反应循环,使核苷酸单体不断加成到增长的寡核苷酸链上[7-8]。近几十年来,商品化的DNA合成仪普遍采用这种固相亚磷酰胺三酯法 (Phosphoramidite chemistry)生产寡核苷酸,但受副反应和各步化学反应效率的限制,为保证序列的完整性和产量,产物长度一般不超过200个碱基[9]。但是,随着生物学各领域对人工合成基因需求的日益高涨,寡核苷酸合成的高成本、DNA合成长度的限制及由高错误率造成的高昂的后续测序费用等成为制约大规模基因合成和基因组组装的主要瓶颈。
随着芯片在生物学领域应用的不断拓展,近年来,基于芯片的寡核苷酸合成与基因组装技术在合成质量、合成效率及自动化方面取得了许多突破性的新进展。芯片作为一种新型反应介质,具有集成、微缩和通量高的特点,使人们可以快速得到大量不同序列的寡核苷酸库,在产量、试剂消耗和成本上具有明显优势[4,10-12]。
但是,将芯片技术应用到基因合成中同样存在着许多挑战。首先,与柱式合成法相比,在芯片平面上合成的寡核苷酸错误率更高。其中一个诱因是脱保护试剂作用时间过长,导致出现“脱嘌呤”现象。针对这一问题,Agilent公司对试剂用量和反应条件进行了优化,高保真合成了最长为200个碱基的寡核苷酸[9]。另一个诱因则是“边缘效应”。芯片合成通常采用某种方法指导化学反应仅在硅芯片上的特定区域内进行,如Agilent公司采用喷墨打印的方法将皮升级的试剂喷射到芯片的特定区域内,LC Sciences和Affymetrix公司采用光活化的方法控制微流体系中的脱保护步骤,CombiMatrix公司则采用程控微电极阵列来控制某个点的氧化还原反应。在这些方法中,因液滴喷射错位、光束漂移或试剂隔离不良而产生的“边缘效应”会直接影响所合成序列的完整性。但这种不良效应也并非“无药可救”,最近的研究发现在基于喷墨打印技术的芯片合成方法中,使用硅薄膜修饰的塑料芯片可有效减少“边缘效应”的出现,使寡核苷酸合成错误率由1/200碱基降至1/600碱基,与柱式合成的寡核苷酸错误率相当[14]。
除了优化芯片本身以外,新一代测序技术(Next-generation sequencing,NGS)的出现也为芯片基因合成技术的优化提供了新的支持。NGS可以作为一种制备工具,在芯片上合成出来的寡核苷酸经NGS仪器分析,序列正确的寡核苷酸被快速筛选出来并得到保留,用于下游基因组装。经过这一步筛分,所得产物的错误率可降低约500倍 (图1b)[15]。芯片合成与NGS的结合实现了进一步的自动化,数百万条寡核苷酸序列可以一次性测序并分离完成,使我们具备了构建Mbp级DNA的潜力。尽管将这项技术转化为常规应用还需要进行很多优化,但是将DNA合成与NGS相结合的概念还是十分具有吸引力和应用潜力的。
除此以外,如何提高寡核苷酸组装的效率和准确性也是芯片基因合成技术面临的一个重要挑战。一块芯片一般可以生产几千到几十万条寡核苷酸,将如此大量的寡核苷酸组装成序列、长度各异的基因,并将其从芯片表面收集、提取出来,是一项十分具有挑战性的工作。Borovkov等应用寡核苷酸杂交-选择原理[10],对寡核苷酸序列和基因组装条件进行了精心设计,使错误的寡核苷酸不能参与组装反应,避免了费时费力且成本高昂的寡核苷酸纯化和扩增步骤。使用这种方法,由芯片合成的寡核苷酸,只要纯度高于95%,无需纯化即可直接用于基因组装[16]。另一种方法是选择性扩增芯片上的寡核苷酸。Kosuri等对250 000条引物进行了精心设计,使选定片段能够得到特异性扩增,用于后续组装 (图1c)。应用这种方法,Kosuri等成功完成了40条单链抗体基因的无错组装,由于含重复序列且GC含量高,这些基因在之前是难以合成的[17]。另外,寡核苷酸混合物溶液体积大、序列复杂度高也是导致基因组装困难和易出错的原因之一。针对这一诱因,本课题组提出一种优化方法,即通过铸压及硅薄膜修饰等物理方法将芯片表面划分为多个子池,在各子池中独立合成寡核苷酸库,并分别组装成一条基因片段 (图1d)。为进一步简化下游组装过程并降低成本,本课题组采用创新的组合酶体系,将寡核苷酸合成、扩增和基因组装步骤整合到同一块芯片的各个微池中,即实现了芯片的多功能化[18]。相对于常规方法,即通过化学裂解将寡核苷酸从芯片上释放下来并经纯化后于片下 (Off-chip)进行基因组装,我们采用等温切口和链置换扩增反应 (Isothermal nicking and a strand displacement amplification reaction,nSDA),在芯片上对寡核苷酸库进行边扩增边释放,随后,无需更换缓冲溶液,即可在同一微池中继续进行聚合酶拼接反应 (Polymerase cycling assembly,PCA)将寡核苷酸库组装成0.5~1 kb基因片段 (图 1d)。如需合成更长的片段 (如10 kb),可将1 kb小片段汇集到另一块多功能芯片上,继续合成多条长链DNA。
图1 以芯片合成的寡核苷酸为原料进行基因组装的相关方法。(a)芯片合成的寡核苷酸成本低、但错误率高、差异性大,需要经适当的筛分富集技术处理后组装成基因。(b)利用下一代测序技术鉴定无错序列。(c)对寡核苷酸混合物溶液进行选择性扩增。(d)对芯片表面进行物理分区,寡核苷酸在芯片上各反应微池中被扩增并组装成基因片段[13]Fig.1 Gene assembly strategies from microarray-derived oligonucleotides.(a)Oligonucleotides synthesized on a microarray are less expensive,but the high heterogeneity and error rate requires appropriate retrieval and segregation technologies to assembly them into gene constructs.(b)Next generation sequencing was used to identify error-free oligo sequences for gene assembly.(c)Selective amplification of oligonucleotides from the pool.(d)Physically dividing a microarray into isolated subarrays.Oligonucleotides are amplified and assembled into gene fragments on chip within each reaction well[13].
构建长度超过单一基因的长链DNA,需要面临另一些挑战。除了传统的限制性酶消化和连接方法以外,还可以通过基于BioBrickTM[19]或BglBrick的方法[20]对基因片段进行拼接。在这些方法中,各基因片段通过含有限制性酶切位点的标准化侧翼序列顺序连接成更长的片段。尽管科研人员一直在尝试对这种方法进行优化,但是仍无法实现无痕组装[21-22]。更重要的是,“抑制序列”的存在常常使限制性酶无法切割这些长链DNA。最近,有文献报道利用Ⅱ型限制性酶可在其识别的序列附近切断长链DNA,该发现使这一难题得到了初步的解决,但工作量十分繁重[23-26]。
限制性酶切-连接拼接法的替代方法主要包括几种重叠延伸PCR技术 (Overlapping extension PCR,OE-PCR),能够实现不依赖序列的无痕组装。在这类PCR反应中,同源末端将邻近的DNA分子连接在一起,并于下一个循环引发扩增。环形聚合酶延伸法 (Circular polymerase extension,CPEC)是一种简便的DNA片段组装方法,已成功用于高通量平行组装和组合库的构建,只需一步反应即可将末端重叠的多个片段和载体连接成完整的环状质粒,之后可直接转化入细胞[27-28]。除此之外,还有In-Fusion(Clontech®的商品化试剂盒)[29],尿嘧啶特异性切除试剂 (Uracil-specific excision reagent,USER)[30]及不依赖序列和连接反应的克隆 法 (Sequence-independent and ligationindependent cloning,SLIC)[31]。但是,这些方法更适用于质粒或小途径的构建,因为随着产物长度的增加,PCR反应效率下降,错误率升高。而Gibson等温组装法 (Gibson isothermal assembly)却是个例外,该法可以组装长达几百kb的基因组水平的片段[32]。应用类似的方法,直接利用柱合成的60-mer寡核苷酸成功构建出长达16.3 kb的线粒体基因组[33]。
不过,虽然上述体外基因组装方法具有操作简单等优点,但受限于聚合酶的合成能力,20 kb似乎已达到了体外方法所能组装的DNA序列长度的极限。对于更长的片段,采用酿酒酵母体内同源重组法进行拼接则更为有效。由于酿酒酵母对长片段的兼容性好且其DNA修复机制复杂、准确性高,该方法已被用于0.5~1 Mb细菌基因组的合成、交叠寡核苷酸的直接组装及各种遗传途径的构建[34-36]。
如上所述,各种基因合成与组装方法各有优劣,表1给出了常用方法的简要对比,可以根据合成产物的不同选择最适方案。
尽管已采取多种方法尽可能除去寡核苷酸合成产物中的错误,包括化学合成方法的优化[9],严格的杂交选择[10,16]及全面彻底的纯化,但是微量的错误依然会被带入到组装过程中,在下游基因片段中被累积。针对这个问题,目前主要根据错配结合或错配裂解原理,利用相关酶来减少这一阶段的合成错误,最近的一篇综述文章对基因合成中错误修复技术进行了详细地介绍[37]。
值得注意的是,最近发表的两项大规模芯片合成研究都采用了基于CEL的错配特异性内切酶作为可靠的质量控制方法来显著地降低错误率[17-18]。在这两个基因错误修复反应中,错配位点处被裂解或消化,余下的无错片段被经 PCR反应被重新组装成完整的基因。该修复过程可以重复进行,直至达到理想纯度 (图2)。据报道,经过两轮修复,合成基因的错误率可降低16倍以上,为 1/8 701 bp[38]。
图2 基于CEL错配特异性内切酶的合成基因错误修复反应原理图。该错误修复循环可重复进行。每个循环包括4个步骤:(a)基因片段经重新退火,使含错误碱基的错配位点暴露。(b)CEL核酸内切酶在错配位点3′端切断双链。(c)核酸外切酶或具校正功能的PCR聚合酶的3′->5′外切酶活性将突出的错配位点切去。(d)经交叠延伸PCR反应将所得片段重新组装和扩增Fig.2 Schematic diagram of error correction strategy using CEL mismatch-specific endonuclease.Multiple CEL error-correction cycles maybe integrated into a genesynthesis process.Each cycle consists of four steps:(a)Reannealing of assembled gene constructs to present erroneous bases as mismatches.(b)CEL nuclease cleavage onboth strands at the 3′side of the mismatches.(c)Exonuclease trimming of single-stranded mismatch overhangs by added exonuclease or the 3′->5′exonuclease activity ofthe proofreading PCR enzyme.(d)Reassembly and amplification of the processed fragments by overlap extension PCR.
生命科学快速发展使人们的研究思路和方法逐步从“分析”趋向于“综合”、从“局部”发展到对“整体”的系统分析,而生物技术的研发目标也从对个别生物分子的“改造”提升到对复杂生命体系的“合成与构建”这一更高层次。从基因电路、代谢途径到合成基因组乃至人造生命体构建,对合成基因的需求可谓无处不在[33,39-40]。
蛋白质表达的精确调控是合成生物学和生物技术领域的一项关键课题。大量的调控元件如启动子和核糖体结合位点等都已被用于调控蛋白质表达。但是,如果编码蛋白质的DNA序列本身在异源宿主中的表达不良,上述调控元件的优化效果就十分有限了,需要进行密码子优化来重新设计和合成基因。由于到目前为止,人们对密码子使用偏好的认识仍不完全,还做不到准确无误地预测某种宿主对某种蛋白质的充分表达潜力,也不能保证软件设计的序列经能够实现所需的蛋白表达水平。因此,常规的密码子优化方法常常给出错误的预言,难以获得最优结果,且反复实验又会导致成本升高、工作周期延长。这不仅严重阻碍着生物医药等以蛋白质为主要研究目标或产品的领域的发展,也成为制约人工合成生物体系的设计和构建的主要瓶颈之一。本课题组将高通量芯片基因合成技术与快速基因库组装技术 (环形聚合酶延伸法,CPEC)相结合,建立了一套高通量基因合成与筛选方法,无需全面了解密码子偏好规则,只需一轮合成和筛选即可以高可信度获得所需蛋白表达水平的合成基因序列[18]。该方法不仅为系统研究蛋白质翻译机理开辟了道路,也为大规模基因/基因组合成与筛选、生物元器件和人工细胞工厂的构建提供了有力工具。
基因合成在代谢工程中的应用是合成生物学中最有希望带来直接经济效益的研究领域,通过有目的改造现有的生物体,通过构建平行的代谢系统,与天然细胞代谢机器相互协同工作,研究人员可以根据实际应用设计细胞,如合成高值化学品或药物等[41-42]。Keasling等在酵母中构建了青蒿素合成途径,使这种药物的微生物生产成本降为从稀有青蒿植物中提取的1/10。
芯片基因合成方法保真度的提高使研究人员可以直接利用芯片合成的寡核苷酸库,结合多重自动基因组改造 (Multiplex-automated genome engineering,MAGE)与分级接合组装基因组改造技术 (Hierarchicalconjugativeassembly genome engineering,CAGE)可对基因组上的多个位点乃至整个基因组进行密码子优化,让编辑和进化同时进行成为了可能[43-44]。
在全基因组合成领域,基因合成技术最直接的应用目标是病毒基因组。病毒基因组较小,是疫苗研发的良好工程靶向。在代谢工程等领域进行密码子优化,通常是为了在异源宿主中得到更高的蛋白表达量,而疫苗研发则正好相反,需要通过全局密码子去优化来生产减毒的病毒。Coleman等开发了合成减毒病毒工程 (Synthetic attenuated virus engineering,SAVE),即打乱病毒基因组固有的密码子偏好,利用计算机对病毒基因组进行大规模重新设计[45]。最近经SAVE设计的减毒流感病毒已成功获得了有效疫苗[46]。随着基因合成技术的迅速发展,病毒全基因组的重新设计和合成必将带来巨大的经济效益。
在过去的40年里,DNA从头化学合成和基因组装技术发展迅速,合成与组装能力已从不足100 bp提高到106bp以上,在代谢工程、遗传网络设计和基因组合成方面具有广泛的应用。但是,现有的DNA合成技术仍受到通量低、错误率高等瓶颈的制约,在大基因组合成方面的应用尚不够成熟。通过各学科间的持续交叉协作,不断涌现的基因合成与组装的新方法、新技术必将推动复杂DNA库和基因组构建技术的持续发展,对科学研究和社会产生巨大的影响。
[1]Yu T,Bao X,Piao W,et al.Recent patents on oligonucleotide synthesis and gene synthesis.Recent Pat DNA Gene Seq,2012,6(1):10−21.
[2]Au LC,Yang FY,Yang WJ,et al.Gene synthesis by a LCR-based approach:high-level production of leptin-L54 using synthetic gene inEscherichia coli.Biochem Biophys Res Commun,1998,248(1):200−203.
[3]Ellis T,Adie T,Baldwin GS.DNA assembly for synthetic biology:from parts to pathways and beyond.Integr Biol(Camb),2011,3(2):109−118.
[4]Tian JD, Ma KS, Saaem I. Advancing high-throughput gene synthesis technology.Mol Biosyst,2009,5(7):714−722.
[5]Czar MJ,Anderson JC,Bader JS,et al.Gene synthesis demystified.Trends Biotechnol,2009,27(2):63−72.
[6]Hughes RA,Miklos AE,Ellington AD.Gene synthesis:methods and applications.Methods Enzymol,2011,498:277−309.
[7]Caruthers MH,Barone AD,Beaucage SL,et al.Chemical synthesis of deoxyoligonucleotides by the phosphoramidite method.Methods Enzymol,1987,154:287−313.
[8]Caruthers MH.Gene synthesis machines:DNA chemistry and its uses.Science,1985,230:281−285.
[9]LeProust EM,Peck BJ,Spirin K,et al.Synthesis of high-quality libraries of long (150mer)oligonucleotides by a novel depurination controlled process.Nucleic Acids Res,2010,38:2522−2540.
[10]Tian JD,Gong H,Sheng N,et al.Accurate multiplex gene synthesis from programmable DNA microchips.Nature,2004,432:1050−1054.
[11]Zhou X,Cai S,Hong A,et al.Microfluidic PicoArray synthesis of oligodeoxynucleotides and simultaneous assembling of multiple DNA sequences.Nucleic Acids Res,2004,32(18):5409−5417.
[12]Richmond KE,LiMH,Rodesch MJ,etal.Amplification and assembly of chip-eluted DNA(AACED):a method for high-throughput gene synthesis.Nucleic Acids Res, 2004, 32(17):5011−5018.
[13]Ma S,Tang N,Tian JD.DNA synthesis,assembly and applications in synthetic biology.Curr Opin Chem Biol,2012,16(3/4):260−267.
[14]Saaem I,Ma KS,Marchi AN,et al.In situ synthesis of DNA microarray on functionalized cyclic olefin copolymer substrate.ACS Appl Mater Interface,2010,2(2):491−497.
[15]Matzas M,Stahler PF,Kefer N,et al.High-fidelity gene synthesis by retrieval of sequence-verified DNA identified using high-throughput pyrosequencing.Nat Biotechnol, 2010, 28:1291−1294.
[16]Borovkov AY,Loskutov AV,Robida MD,et al.High-quality gene assembly directly from unpurified mixtures of microarray-synthesized oligonucleotides.Nucleic Acids Res,2010,38:e180.
[17]Kosuri S,Eroshenko N,Leproust EM,et al.Scalable gene synthesis by selective amplification of DNA pools from high-fidelity microchips.Nat Biotechnol,2010,28:1295−1299.
[18]Quan JY,Saaem I,Tang N,et al.Parallel on-chip gene synthesis and application to optimization of protein expression.NatBiotechnol,2011,29:449−452.
[19]Knight T.Idempotent vector design for standard assembly ofbiobricks[EB/OL].[2013-04-16].http://hdl.handle.net/1721.1/21168.
[20]Anderson JC,DueberJE,Leguia M,etal.BglBricks:a flexible standard for biological part assembly.J Biol Eng,2010,4:1−12.
[21]Leguia M,Brophy J,Densmore D,et al.Automated assembly of standard biological parts.Methods Enzymol,2011,498:363−397.
[22]Canton B,Labno A,Endy D.Refinement and standardization of synthetic biological parts and devices.Nat Biotechnol,2008,26:787−793.
[23]Che A.BioBricks++:simplifying assembly of standard DNA components[EB/OL].[2013-04-16].http://hdl.handle.net/1721.1721/39832.
[24]Engler C,Kandzia R,Marillonnet S.A one pot,one step, precision cloning method with high throughput capability.PLoS ONE,2008,3:e3647.
[25]Engler C,Gruetzner R,Kandzia R,et al.Golden gate shuffling:a one-pot DNA shuffling method based on type IIs restriction enzymes.PLoS ONE,2009,4:e5553.
[26]Blake WJ,Chapman BA,Zindal A,et al.Pairwise selection assembly for sequence-independent construction of long-length DNA.Nucleic Acids Res,2010,38:2594−2602.
[27]Quan JY,Tian JD.Circular polymerase extension cloning of complex gene libraries and pathways.PLoS ONE,2009,4:e6441.
[28]Quan JY,Tian JD.Circular polymerase extension cloning for high-throughput cloning of complex and combinatorial DNA libraries.Nat Protoc,2011,6:242−251.
[29]SleightSC,Bartley BA,LieviantJA,etal.In-fusion BioBrick assembly and re-engineering.Nucleic Acids Res,2010,38:2624−2636.
[30]Nour-Eldin HH,Geu-Flores F,Halkier BA.USER cloning and USER fusion:the idealcloning techniques for small and big laboratories.Methods Mol Biol,2010,643:185−200.
[31]LiMZ,Elledge SJ.Harnessing homologous recombinationin vitroto generate recombinant DNAviaSLIC.Nat Methods,2007,4:251−256.
[32]Gibson DG,Young L,Chuang RY,et al.Enzymatic assembly of DNA molecules up to several hundred kilobases.Nat Methods,2009,6:343−345.
[33]Gibson DG,Smith HO,Hutchison CA 3rd,et al.Chemical synthesis of the mouse mitochondrial genome.Nat Methods,2010,7:901−903.
[34]Gibson DG,Benders GA,Axelrod KC,et al.One-step assembly in yeast of 25 overlapping DNA fragments to form a complete synthetic Mycoplasma genitalium genome.Proc Natl Acad Sci USA,2008,105:20404−20409.
[35]Lartigue C,Vashee S,Algire MA,et al.Creating bacterial strains from genomes that have been cloned and engineered in yeast.Science,2009,325:1693−1696.
[36]Gibson DG.Synthesis of DNA fragments in yeast by one-step assembly of overlapping oligonucleotides.Nucleic Acids Res,2009,37:6984−6990.
[37]Ma SY,Saaem I,Tian JD.Error correction in gene synthesis technology.Trends Biotechnol,2012,30(3):147−154.
[38]Saaem I,Ma SY,Quan JY,et al.Error correction of microchip synthesized genes using Surveyor nuclease.Nucleic Acids Res,2012,40(3):e23.
[39]Gibson DG,Benders GA,Andrews-Pfannkoch C,et al.Complete chemical synthesis,assembly,and cloning ofaMycoplasmagenitaliumgenome.Science,2008,319(5867):1215−1220.
[40]Gibson DG,Glass JI,Lartigue C,et al.Creation of a bacterial cell controlled by a chemically synthesized genome.Science,2010,329:52−56.
[41]Jiang L,Althoff EA,Clemente FR,et al.De novo computational design of retro-aldol enzymes.Science,2008,319:1387−1391.
[42]Steen EJ,Kang Y,Bokinsky G,et al.Microbial production of fatty-acid-derived fuels and chemicals from plant biomass.Nature,2010,463:559−562.
[43]Wang HH,Isaacs FJ,Carr PA,et al.Programming cells by multiplex genome engineering and accelerated evolution.Nature,2009,460:894−898.
[44]Isaacs FJ,Carr PA,Wang HH,et al.Precise manipulation of chromosomesin vivoenables genome-wide codon replacement.Science,2011,333:348−353.
[45]Coleman JR,Papamichail D,Skiena S,et al.Virus attenuation by genome-scale changes in codon pair bias.Science,2008,320:1784−1787.
[46]Mueller S,Coleman JR,Papamichail D,et al.Live attenuated influenza virus vaccines by computer-aided rational design.Nat Biotechnol,2010,28:723−726.