宋丽杰 王丽 王捷
摘要:CRISPR/Cas9系统是原核生物抵御病毒或质粒等外来遗传物质入侵的一种获得性免疫系统,主要由非特异性的Cas9核酸酶和起识别作用的crRNA所组成。相较于传统的基因组编辑技术,基于CRISPR/Cas9系统的基因组定点编辑技术具有快速、简单、高效等优点,并且几乎可以用于任何物种的基因编辑。尽管CRISPRJCas9系统的基因组特异性还有待进一步确认,但该系统在基因组编辑方面的简便性和有效性必将促进生物学的研究和人类疾病基因治疗方面的发展。
关键词:人工核酸内切酶:基因编辑:CRISPR/Cas9
中图分类号:Q789
文献标识码:A
文章编号:1007-7847(2015)03-0276-07
基因组定点编辑技术是研究基因功能的一种重要手段,同时也是许多基因相关疾病的潜在治疗方法。早期主要依赖于基因同源重组及体细胞核移植技术来完成对特定基因的改造,然而自然情况下基因重组效率极低,且细胞核移植技术费时费力[1,2],严重制约了基础研究和临床应用。因此,在不断寻求高效、简便的基因编辑方法过程中,人工核酸内切酶(engineered endonuclease.EEN)介导的基因定点编辑技术快速发展成为一种主流方法。
人工核酸内切酶进行基因编辑的第一步是在修饰位点诱导产生DNA双链断裂缺口(doublestrand breaks,DSB)。核酸酶诱导产生的DSBs可借助非同源末端连接(non homologous end-join-ing,NHEJ)机制或同源重组(homologous recombi-nation,HR)机制进行修复。NHEJ将断裂的双链末端直接连接起来,可有效地引起基因的插入/缺失突变,即inclel突变,从而使基因的功能遭到破坏。当引入模板DNA序列时,可通过同源重组修复(HR),插入或删除特定的基因序列。通过人工核酸内切酶介导的DSBs,基因突变的几率大于1010,有时甚至超过50%[3] ,因此,人工核酸内切酶被称为“DNA剪刀”。锌指核酸内切酶(zinc finger en-donuclease,ZFN)和类转录激活因子效应物核酸酶 (Lranscriplion activator-like effector nuclease,TALEN)分别作为第一代和第二代“DNA剪刀”,都是由DNA结合蛋白与核酸内切酶Fok I融合而成。但由于这两种人工核酸内切酶制备复杂,成本昂贵,难于开展大规模基因编辑的筛选,使其应用有所局限。近年来,细菌获得性免疫系统CRISPR (clustered regularly interspaced shortpalinclromic repeats)的应用使得基因组编辑技术进一步简化.CRISPR/Cas9作为第3代人工核酸内切酶迅速成为目前研究的热点,其独特性和灵活性在于该系统是通过RNA介导核酸酶与靶DNA序列结合的。与以DNA结合蛋白为基础的ZFN和TATJFJN相比,以RNA介导的CRISPR/Cas9系统原理更加简单,只需要遵循RNA与DNA之间的碱基互补配对原则。
本文重点介绍了CRISPR/Cas9的作用机理及其应用,最后就CRISPR/Cas9技术目前存在的问题及其应对策略进行了探讨。
1 CRISPR/Cas9的结构及作用机理
CRISPR广泛存在于细菌和古细菌的基因组中,是细菌和古细菌的一种适应性免疫系统,该系统可以介导外源DNA的降解,从而抵御病毒等外来入侵者[4,5]。1987年,日本学者首次在大肠杆菌中发现该间隔重复序列[6];2002年,Jansen等[7,8] 将其正式命名为CRISPR,基因编码的蛋白质统称为CRISPR附属蛋白(CRISPR-associa七ion pro-teins,Cas)。CRISPR/Cas系统具有Type I、TypeⅡ、TypeⅢ3种不同类型,其中研究最多、应用最广的是Ⅱ型CRISPR/Cas系统。产脓链球菌(Strepto-coccus pyogenes SF370)的Ⅱ型CRISPR基因座主要由三部分组成,包括Cas9核酸酶基因、不编码蛋白质的tracr RNA基因和CRISPR基因(图1),其中CRISPR基因由前导序列(leader sequence)、间隔序列( spacers)和重复序列(repeats)组成[9] 。CRISPR/Cas9系统介导的适应性免疫主要分为3个步骤。首先是新的间隔序列的获取:外来质粒或病毒DNA首次入侵时,Ⅱ型CRISPR系统将外来DNA整合入CRISPR重复序列之间形成一段新的间隔序列,并随着宿主DNA -起编码;其次是crRNA的表达、加工与成熟:CRISPR重复序列和间隔序列经转录加工为pre-crRNA,tracrRNAs与pre-crRNA的重复序列区域配对杂交,然后内源性的RNaseⅢ从每一个间隔序列的5'端裂解杂合的pre -crRNA -tracrRNAs,产生成熟的tracr-RNA-crRNAs,并与Cas9核酸酶结合[10] ;最后,当同样的外源DNA再次出现时,CRISPR-Cas复合体可与双链DNA的靶位点结合并切割双链。靶标的识别和DNA链的裂解既需要间隔序列和靶序列之间的互补,又需要靶DNA序列3'端存在PAM (Protospacer adjacent motif)序列[11],PAM序列的存在还避免了CRISPR基因本身被作为靶标识别,提供了一个识别“自己”和“异己”的机制。不同的Ⅱ型CRISPR系统有不同的PAM序列,基于产脓链球菌CRISPR系统的PAM序列为NGG,N指的是任意核苷酸[10] 。
Cas9实际上是一种核酸酶,它具有两个独立的核酸酶位点:一是HNH核酸酶位点,可以断裂与crRNA互补的那条链;另一个是类似于RuvC核酸酶位点,可以裂解另一条非互补链。研究[12,13]发现Cas9家族的所有成员都具有相同的结构核心,这个结构核心的特征为一种具有两个主叶(major lobe)-核酸酶结构域叶和a-螺旋叶的结构,其中核酸酶结构域叶是由HNH结构域、RuvC结构域以及与PAM序列相互作用的C末端结构域组成。这两个主叶含有保守性的裂缝,而这些裂缝在核酸结合中发挥功能。Cas9蛋白本身以非活性的状态存在,它的核酸酶活性被C末端结构域的方向所抑制,而且不能与DNA结合;但当其与crRNA-tracrRNA复合体结合时,这种蛋白的两个主叶之间就会构建出一条作为DNA结合界面发挥功能的通道,从而在结构上激活Cas9,使得它能够与靶DNA结合,PAM序列则将其核酸酶活性激活[12—14]。
2 CRISPR/Cas9系统的应用
目前,来自于产脓链球菌的Ⅱ型CRISPR系统已被改造为基因组定点编辑的工具。该系统具备两个最基本的成分:一个是起识别作用的cr-RNA-tracrRNA序列,另一个是起切割作用的Cas9核酸酶。在对哺乳动物细胞进行基因编辑时,需要对Cas9蛋白编码基因进行优化以及添加合适的核定位信号;此外,还需考虑是分别表达crRNA和tracrRNA还是嵌合成一条crRNA -tracrRNA,crRNA -tracrRNA又称向导RNA( gR-NA)c15]。
自2012年首次证明CRISPR/Cas9系统可以在体外切割不同的DNA[10]以来,该系统已经成功地应用于细菌、酵母、番茄、拟南芥、大米、小麦、高粱、鼠、兔子、青蛙、果蝇、蚕、线虫、斑马鱼及人类细胞等的基因编辑中[3]。与其他人工核酸酶相比.该RNA介导的基因编辑系统一个显著的优势就是可以同时在多个不同的DNA位点进行基因编辑。例如,Cas9和多个gRNAs的同时表达,可在DSBs间造成大片段的删除和插入[16,17];可在鼠细胞中同时诱导3个基因的突变[18];在斑马鱼体细胞中导致5个基因的同时突变等[19]。
Cas9除了可以用于基因的编辑外,还可以对基因的表达进行调控。当Cas9核酸酶的两个催化位点全部突变时,Cas9就变成了没有核酸酶活性的蛋白质(称为dCas9);研究表明,dCas9可以结合在基因的启动子上来抑制基因的表达[20,21]。当gRNA结合在启动子的上游时,无论其结合在DNA的哪条链上,dCas9都可以有效地抑制转录的发生;然而,当结合在转录起始位点的下游时,只有当gRNA结合在非模板链时,dCas9才能起抑制作用[20]。此外,dCas9还可以作为一个平台招募各种效应因子结合在特异的基因位点上。例如,在人类细胞[22-25]和小鼠细胞[2q中,结合转录激活子或者转录抑制子的dCas9可以对基因的表达起到调节作用(图2A)。并且,如果有2—10个gRNA介导多个转录因子结合在同一基因位点,可以进一步提高基因调节的效率,推测与转录因子之间的协同作用相关[22,23,26,27]。也有研究利用EGFP-dCas9融合物来识别包含重复序列的DNA位点,例如端粒[28](图2B),若DNA位点包含有重复序列,则会结合有多个EGFP蛋白,为研究染色体的动力学和结构提供了一种有力的手段,并且使Cas9系统的应用不仅局限于基因的表达范围。
这种简便高效的CRISPR/Cas9技术填补了哺乳动物细胞内基于基因完全敲除而进行的大规模基因功能性筛选方法的空白,可以针对细胞全部基因或某些基因构建gRNA文库,然后经过慢病毒载体转染进行大规模的筛选。已有研究团队针对人类的部分291个基因构建了包含有869种gRNA的文库,并且成功地鉴别出了对于炭疽和白喉毒素毒性事关重要的宿主基因[29]。也有研究报道针对人类或小鼠的全部基因组构建了包含有64 000~87 000条gRNA的文库,通过高通量的敲除技术对人类和小鼠细胞进行了基因的功能性筛选鉴定[30-32]。其技术路线大致相同,都是通过构建gRNA慢病毒表达载体来感染细胞,然后通过功能性筛选鉴定细胞,最后经过二代基因测序[33] 确定相关的基因。不同之处在于,有的团队[31]将gRNA和Cas9串联表达在同一个慢病毒表达载体上,通过感染将二者一次性转入细胞;而有的团队[30,32] 将二者分别克隆在不同的载体上,先获得稳定表达Cas9的细胞,然后再进行gRNA慢病毒的感染。尽管RNA干扰(RNA interference,RNAi)文库[34]也曾被广泛应用于功能缺失型基因筛选,但是与gRNA文库相比,RNA干扰只是下调某些基因的表达,常常造成不稳定的表型变化,并且文库构建繁琐,价格昂贵;而gRNA文库的构建和筛选都非常的简单,在基因的功能性筛选鉴定方面发挥了重要作用。
除此之外,CRISPR-Cas系统也可以用来快速地建立转基因细胞和动物模型。一些人类疾病例如糖尿病、心脏病、精神分裂症是与多个基因有关的,CRISPR多基因同时编辑的特点为这些疾病模型的建立提供了很好的方法[35,36]。利用传统方法建立动物疾病模型要花费1年多的时间,而使用CRISPR技术只需几周即可完成。而且,传统方法只能用于传统动物的建模,灵长类动物体内基因精确修饰一直是个难题,但最近一个研究小组在猴子体内利用CRISPR/Cas9系统实现了精确的基因修饰[37]为我们提供了一种研究人类疾病的新策略。
3 CRISPR/Cas9系统的脱靶效应及提高特异性的策略
脱靶效应几乎是所有基因定点编辑技术所面临的一个主要问题。在CRISPR/Cas9所介导的基因组定点编辑中,由于Cas9能够“容忍”gRNA与靶序列之间的错配,因此可能会导致脱靶效应,从而在非靶位点产生不需要的突变。为了评估CRISPR/Cas9系统的特异性,几个研究小组设计出与靶序列互补区域有1—4个核苷酸错配的gR-NA,然后再检测这些gRNA能否介导Cas9在报告基因[38] 或内源性基因中发挥基因编辑作用[16 39]。研究结果表明,当错配碱基比较靠近gRNA的5端时,gRNA仍能够介导Cas9的结合与切割,但当错配碱基比较靠近gRNA的3'端时,该系统就失去了基因编辑功能;提示靶基因3 '端的8~12个碱基对gRNA的识别起着关键作用。然而,仅根据错配碱基在靶序列的位置并不能准确判断单个或两个核苷酸错配所造成的影响,一些靠近3'端的错配也可能不会影响Cas9的活性[38]。另外,Cas9在不同的细胞类型中脱靶效应可能也不同,有研究小组[40,41]在人类多能干细胞中利用CRISPR进行基因编辑,然后利用全基因组测序法检测整个基因组,发现该系统,在多能干细胞中的特异性非常高,几乎没有脱靶效应。
尽管RNA介导Cas9核酸酶的特异性机制并不完全清楚,但是已有研究开始探索减少脱靶效应的方法,其中一个策略就是减少gRNA和Cas9在细胞中的表达量。研究发现gRNA和Cas9表达量减少之后,虽然脱靶效率明显降低,但靶位点的突变也出现了下降[38]。所以在实际应用时需要权衡脱靶效应和打靶效应之间的关系,确定一个最佳的gRNA和Cas9的表达量。
另一个提高该系统特异性的方法是使用成对的切口酶,在Cas9的RuvC或NHN核酸酶位点引入DlOA或H840A的突变[42] ,形成只切割靶DNA一条链的Cas9切口酶,并且这种酶在某些位点引起的HR基因修复的几率要大于NHEJc'5, 161。使用两个gRNAs和Cas9切口酶在靶位点的临近区域产生两个切口[27,43,44],可以有效地产生缺失突变,该种方法已经被许多研究应用。由于单个Cas9切口酶也可以在特定的基因位点产生插入缺失突变,因此在基因编辑时为使两个切口酶互相“依赖”于对方,即一个切口酶只有在与另一个切口酶靠得很近时才会有基因编辑的能力,可将一个形成二聚体时才有活性的核酸酶例如FokI融合到无核酸酶活性的dCas9上[45,46] 那么当两个dCas9-gRNA聚合在一起时就可以产生二聚体Fokl,并且可以对DNA双链进行切割,这样就实现了dCas9的协同性作用。研究表明只有当Fokl核酸酶连接在Cas9蛋白的N端时才会起切割作用,并且对成对靶位点的PAM序列的方向也有要求,即只有当2个PAM序列在成对的gRNA的外侧时才有活性(图2C)。也许正是反应条件的苛刻性才使得其特异性大大提高,其打靶效率与脱靶效率的比值是原始的CRISPR系统的140倍[45] 。
最近有研究小组发现脱靶效应可以仅仅通过缩短gRNA的长度来降低,缩短的区域是与互补序列的5'端对应的位置[47]。这些缩短了的gRNA是由17或18个核苷酸组成的(称为“tru -gR-NAs”);它们与全长的gRNA相比,不会造成靶位点的突变效率下降,但是脱靶效应明显降低,并且对gRNA与DNA之间1个或2个核苷酸之间的错配更加敏感。这种方法与成对的切口酶方法相比,不会遇到在一个细胞中表达多个gRNA的技术难题;tru-gRNA也可以与其他提高Cas9特异性的方法共同发挥作用,例如,tru-gRNA可以与成对切口酶共同使用来提高Cas9的特异性。
现有研究表明RNA介导的Cas9核酸酶的脱靶效应的发生几率是可变的,并且很难预测。对于任意一个给定的靶位点,目前很难预测有多少错配是能够“容忍”的,也没有完全明白为什么有些位点能够被切割,而有些则不能被切割。尽管有证据证明DNA甲基化并不会抑制Cas9的基因组编辑[39],但是染色体的结构似乎对脱靶效应起了一定的作用。为了更加全面深入地了解Cas9的脱靶效应,需要建立一套标准的评价细胞中Cas9特异性的方法。
4展望
RNA介导的CRISPR/Cas9系统以其简便性、高效性和经济性等优点而被广泛应用于生物医学研究领域。CRISPR/Cas9作为第3代人工核酸酶,突破了模式生物的限制,可以在更多的物种中进行高效的遗传操作,并且建立的gRNA文库可以高通量地对基因进行功能性筛选,使得反向遗传学可以在任何感兴趣的有机体或细胞中进行。此外,免费的软件使得设计gRNA的成本为零,可以方便灵活地设计合适的CRISPR/Cas9系统。现有研究表明,CRISPR/Cas9系统可以用于治疗一些与基因相关的疾病[48] ,但将其应用于临床之前仍有许多技术障碍需要克服。首先,Cas9编码系统在体内必须能够有效地转到靶细胞当中。然而,Cas9蛋白相对分子质量很大,常用的来自产脓链球菌的Cas9蛋白的氨基酸就多达1 368个[49] 。为使Cas9蛋白基因能够有效地插入病毒载体(例如腺病毒和逆转录病毒),可以通过删除与蛋白功能无关的基因来人工构建低相对分子质量的Cas9蛋白。除了基因转入方面的问题,CRISPR/Cas9用于基因治疗最大的障碍是Cas9的特异性。当用于大量细胞时,即使Cas9具有很高的特异性,也很难完全避免由于脱靶效应而带来的危害。此外,如何避免不利的免疫反应也很重要,一个有效的方法是Cas9的相关肽片段的人源化。最后,CRISPR/Cas9系统用于基因缺陷疾病的治疗也需要其他相关技术的支持,如安全有效、特异性强的体内载体的开发。
尽管CRISPR/Cas9系统在应用于临床之前还面临着很多困难,但它可将RNA、DNA和蛋白质聚集在一起的性质,以及其简便、高效和多个靶位点同时编辑的特点预示着其有望用于临床相关疾病的治疗,相信随着CRISPR/Cas9及其相关技术的不断发展,将会对人类遗传性疾病的治疗产生巨大的影响。