信 欣,陈丽杰,薛 闯
(大连理工大学 生命科学与技术学院,辽宁 大连 116023)
1987年,Ishino等[1]在研究大肠埃希菌中负责碱性磷酸酶同功酶转化的iakkp基因及其侧翼区的染色体DNA片段的核苷酸序列时,在iap的3′末端侧翼区域发现不寻常现象:5个29 bp高度同源的核苷酸序列分别被32 bp的非同源片段所间隔,由于当时在原核生物的其他区域没有发现与这些序列同源的序列,这些序列的生物学意义无从得知,但该现象引起了学者们的广泛关注。1995年,Mojica等[2]经过研究发现,这种串联重复序列(TREPs)在细胞周期中发挥重要的作用,与复制子的分配及其功能都有密切关系。后来,在许多细菌及古生菌中发现了这种现象。2000年,Mojica等[3]经过基因组测序等检测,在不同的原核生物中发现了与上述相似的重复元件,它们的共同特点主要在于布局:被具有恒定长度的中间序列间隔开,故将其看作一个“家族”,并将该“家族成员”称为Short Regularly Spaced Repeats(SRSRs)。SRSRs通常长24~40 bp,含有高达11 bp的内部和末端反向重复序列,该部分保守区域被认为可能对其功能有重要意义。直到2002年,Jansen等[4]进一步确定这种重复序列仅存在于原核生物(细菌和古细菌)中,不存在于真核生物或病毒中,其家族特征是21~37 bp的直接重复,被相似大小的非重复序列间隔,为了明确表明这一特征以区分其他重复类型,将此类序列正式命名为CRISPR,即Clustered regularly interspaced short palindromic repeats(译为成簇规律间隔短回文重复序列),并鉴定出4种CRISPR相关(cas)基因,指出cas基因与CRISPR基因座具有功能关系,但该系统的具体功能仍处于探索和研究阶段。2005年,Bolotin等[5]发现CRISPR具有染色体以外来源的间隔物,因此指出CRISPR在细菌基因组中的表观稳定性和广泛存在可能是由于其对外来DNA侵袭的保护作用;Mojica等[6]则表明CRISPR与免疫靶向外源DNA有关;Pourcel等[7]则称CRISPR提供了一个新的强大的识别工具。后来,经过许多学者的大量研究,明确了CRISPR的功能:参与细菌对外来遗传物质及噬菌体抵御。因为在遭到入侵后,细菌会整合来自噬菌体等基因组序列作为新的间隔区,使细菌本身对其具有“免疫”性,特异性间隔区的去除和添加也关系着细胞的噬菌体抗性表型[8]。CRISPR发挥作用的方式类似于真核生物中的RNA干扰(RNAi),通过与靶mRNA的碱基互补配对来促进其降解或翻译终止[9]。2008年,Marraffini等[10]发现CRISPR-Cas系统可以在其天然细菌或古细菌环境以外发挥作用,也就是说,其功能不仅限于噬菌体防御,在保护遗传多样性方面具有更广泛的作用,这一成果也进一步为后期CRISPR-Cas9系统发展为新的基因编辑工具奠定了基础。随着CRISPR系统的结构、功能等特点日渐清楚,2013年该系统被华裔科学家Cong等和Mail等率先应用于人类和哺乳动物小鼠胚胎干细胞的基因编辑中,从此CRISPR-Cas9系统作为一种新的基因组定点编辑技术进入人们的视线且被广泛应用[11-12]。
CRISPR-Cas系统分为三个不同的功能阶段,即适应、表达和干扰[13-15]。在适应阶段,来自可移动遗传元件MGEs(mobile genetic elements)的短DNA序列作为间隔区被整合到CRISPR阵列中[8]。在表达阶段,CRISPR阵列转录为一个大的转录物pre-crRNA,被Cas酶识别并结合,并通过特异性Cas核酸酶或通过细胞核糖核酸酶III加工产生较小的成熟CRISPR RNAs(crRNAs)[16-17]。在干扰过程中,crRNAs引导Cas核酸酶靶向并切割入侵MGEs中的原体间隔序列[18],从而实现其防御功能(图1)。
图1 CRISPR-Cas系统Ⅱ型免疫过程机理Fig.1 The mechanism of the immune process in typeⅡof CRISPR-Cas system
CRISPR-Cas系统分为三种不同类型(I、II和III)。所有类型都包含2个通用基因:cas1和cas2[19]。Cas1是一种没有序列特异性的金属依赖型DNAse,可以参与将外源DNA(间隔区)整合到CRISPR中的过程[20-21],Cas2是金属依赖性核糖核酸内切酶,也参与间隔物整合阶段[22]。然而,三种类型的CRISPR-Cas系统在基因组中的组成基本上不同,并且分别由各自的特征基因表征。三种类型的特征基因分别是cas3(编码含有N端HD超家族核酸酶结构域的超家族2解旋酶),cas9(编码含有预测的类似RuvC和HNH核酸酶结构域的大蛋白质)和cas10 (编码含有与核酸聚合酶和核苷酸环化酶的掌域同源结构域的蛋白质)[23]。这三种类型中,CRISPR-Cas系统又可以根据包括特征基因的不同以及通用基因cas1的系统发育等因素进一步分类为亚型[19,23]。I型和III型系统具有一些共同特征:有专门的Cas核酸内切酶处理pre-crRNA,一旦成熟,每个crRNA参与组装成能够识别和切割与其互补的核酸的大型多Cas蛋白复合体。相比之下,II型系统通过不同的机制处理pre-crRNA,一个与pre-crRNA中重复序列互补的tracrRNA通过针对特定双链(ds)RNA的核糖核酸酶RNaseⅢ引发这一过程[24](图1)。由于结构简单,II型CRISPR-Cas系统在三者中最先发展为高效的基因编辑工具。Cas9具有2个酶切结构域:HNH结构域和RuvC结构域,分别负责靶向DNA序列的2条链的切割,当同时存在small guide CRISPR-RNA和trans-activating CRISPR-RNA(crRNA:tracrRNA)时是有切割活性的。crRNA分子的间隔区部分负责Cas9的特异性,因为其与靶向原体间隔物的一条链具有互补性。Cas9介导的切割需要原体间隔物3′端侧翼的短且保守的前间区序列邻近基序(即Protospacer adjacent motif,PAM)[25-26],该基序对于避免自身免疫是至关重要的:在宿主染色体上CRISPR阵列的间隔区侧翼PAM基序的缺失能够防止致死的自我靶向事件的发生[18]。
目前,CRISPR-Cas9技术作为一种基因组定点编辑的新方法,已经凭借其低成本、易操作、高效率等优势被广大学者青睐,在动物(如斑马鱼、小鼠、猴子等)、植物(如拟南芥、水稻等)、真菌(如酿酒酵母等)、细菌(如枯草芽胞杆菌、梭菌等)等生物体内均有广泛应用,可用于对功能基因进行筛选、调控转录水平和DNA成像等[27-28]。第一个用于细菌的CRISPR-Cas9基因组编辑工具可追溯到2013年,它基于来自化脓性链球菌(Streptococcuspyogenes)II-A型CRISPR-Cas系统(Spy-Cas9)的Cas9核酸内切酶[29-32]。大约在同一时间,SpyCas9也被广泛地用于真核生物的基因组编辑[12,29,31-32]。在细菌中,CRISPR-Cas9介导的基因组编辑工具基于2个组分的异源共表达:SpyCas9和crRNA:tracrRNA,目前,合理设计的嵌合single guide RNA(sgRNA)分子已经方便有效地替代了crRNA:tracrRNA[24],SpyCas9-crRNA:tracrRNA(或SpyCas9-sgRNA)复合物将DSDBs(double stranded DNA breaks)引入目标位点,在这些位点有突变的细胞会避免Cas9诱导的DSDBs并存活下来。而在真核生物中,非同源末端连接(NHEJ)修复机制可以以容易出错的方式修复DSDBs,在目标位点引入插入或缺失突变并避免细胞死亡。这是因为,与所有真核基因组都能编码NHEJ系统相反,并不是所有细菌的基因组都能编码负责其NHEJ机制的酶[33]。这解释了与真核生物相比,目前基于CRISPR-Cas9的基因编辑应用于原核生物中的实例占少数的原因。然而,原核染色体的DSDBs可以通过细胞同源重组(HR)系统与染色体/质粒的模板结合,或者由一个异源重组系统和线性单或双链DNA模板来修复[18,34],尽管如此,对细菌来说,DSDBs的修复仍然比较困难。2016年,Komor等[35]通过对Cas9蛋白RuvC和HNH两结构域进行单一或同时突变,得到了仅能切割一条链的Cas9n和仅能与靶序列结合但无切割活性dCas9。Cas9n形成的单链切割缓解了细菌修复DBSBs的压力,dCas9与靶DNA序列结合从而阻止其转录,形成的基因抑制成为一种新的表达调控方式[18]。目前,基于CRISPR-Cas系统的基因编辑技术已经在许多细菌内实现了单基因的删除与整合、多基因的删除、单核苷酸修饰等应用[28,36]。
CRISPR-Cas9系统在基因编辑中仍存在着一些问题,最突出的问题便是难以预测的脱靶效应(off-targets)。CRISPR-Cas9系统能够成为基因组编辑的多功能工具,部分原因是由于sgRNA对与之互补的DNA序列的高效靶向性,sgRNA中最关键的识别序列一般为20 nt,当其与DNA序列相匹配时,即使该DNA序列含有多余碱基(匹配时形成部分DNA凸起)或缺失碱基(部分RNA凸起)也有可能被识别为靶序列,此时sgRNA会介导Cas9核酸酶对靶标位点以外的区域进行编辑或调控,从而产生脱靶效应[37-38]。也就是说,sgRNA在通过碱基配对来识别目标序列时,能够“容忍”一定程度的不完全匹配,针对sgRNA的“错配容忍度”,一些学者进行了相应的研究。Jinek等[24]表示,在“种子序列”(紧邻PAM的8~10个核苷酸)内的点突变会消除Cas9核酸酶的裂解,但是该区域的确切长度是未知的,并且不清楚种子中任何核苷酸的突变是否都可以破坏sgRNA的靶向识别。Cong等[12]称,邻近PAM 5′端的11 bp片段内单碱基失配就会完全避免Cas9核酸酶对该位点的切割,而更远处的突变对其靶向活性无影响。Jiang等[30]报道只有紧邻PAM上游的12个核苷酸中的错配才能消除切割,其中远端7~12 bp可耐受大多数错配,近端位置的1~6 bp片段中,除了3 bp处只有两种错配会不同程度地影响切割外,任何核苷酸的不匹配都会影响切割活性。此外,sgRNA对靶位点的识别除了要与其20 nt按要求相匹配以外,PAM序列也是必不可少的。因为在sgRNA“寻找”目标序列时,会快速自动地略过不含PAM序列的区域,不会检测其是否符合配对标准,更不会被识别为靶位点[39]。并且,对于来自不同物种的Cas9可能会有不同的PAM序列[40]。由此可见,预防或减少脱靶效应的有效方法是通过选择更合适的PAM位点来确保sgRNA的特异性。
从目前现有的研究成果来看,为了减少脱靶效应,可以采取以下措施:①在设计sgRNA时,要尽量避免sgRNA 中20 nt与潜在的脱靶位点序列的碱基配对,尤其在靠近PAM序列的区域要有2个或2个以上碱基不配对,并且要避免二者有连续或间隔的4个碱基配对的原则来提高其特异性[41]。目前有一些网站和软件可以设计潜在脱靶位点较少或者检测已有的sgRNA是否存在较大脱靶风险,如Cas-OFFinder[42]、CHOPCHOP[43-44]、CRISPRdirect[45]、CRISPRscan[46]和CasOT[47]等。②采用双切口措施,即利用2个sgRNA介导2个Cas9n蛋白识别并分别切割2条单链从而形成DSDBs[48]。③利用FokⅠ核酸酶与dCas9融合形成的二聚体,同时在2条sgRNA的介导下与相互靠近的两处靶位点结合,此时FokⅠ会在两蛋白中间发挥切割作用[49-50]。④研究发现,噬菌体在进化中会针对细菌的CRISPR防御系统“采取一定的措施”,其编码的抗CRISPR蛋白(Acrs)可以通过不同策略抑制Cas9,例如AcrIIC1是一种广谱Cas9抑制剂,通过与几种分散的直系同源Cas9的保守HNH催化结构域直接结合来阻止其DNA切割;AcrIIC3抑制单个Cas9的活性,并诱导其形成二聚体,以防止其与靶DNA的结合[51];AcrIIA4则是仅与Cas9-sgRNA复合物结合,而不与Cas9蛋白单独结合[52]。并且,CRISPR-Cas9系统精准识别并编辑目标序列的过程中,大约1/2在编辑过程的短时间内(数小时)完成,而在此后,脱靶的识别与编辑逐渐增加,因此如果得知准确编辑的具体时间,并在此阶段结束后立即加入Acrs,理论上也可以有效地预防脱靶效应的产生。
虽然基于CRISPR-Cas系统的基因组定点编辑技术仍存在着脱靶效应、工具质粒不稳定、Cas9蛋白毒性作用等问题,但由于其成本低、操作容易、效率高,而且对于待编辑序列要求低等优点,该技术已经在动物、植物和微生物基因编辑上均有应用,尤其在哺乳动物和人类的多种疾病治疗、药物研究等方面的应用越来越成熟[53-55]。然而,目前该技术在细菌等微生物的基因编辑应用方面仍需要更深入的探索。
在许多食品、燃料、药物、工业原料等重要产品生产过程中,微生物发酵法具有环保、可持续、产量稳定及可控等优点,其中应用的工程菌株需要具有理想的生成代谢产物的能力,实现这一目标最根本的办法就是对菌株进行代谢通路的改造或调控。由于某些菌种具有基因组过大或过小、修复机制不健全等特点,导致使用传统的基因编辑方法很难实现高效率改造,发酵产物的产量也难有突破性提高,相比之下,CRISPR-Cas9技术使其有希望解决上述难题。并且,相信随着广大学者对CRISPR-Cas系统的逐步研究和优化,该技术有望实现对所有菌株基因组进行高效率定点编辑及对任何特定基因进行表达调控。