张爱霞,赵 宇,安 静,罗 影,陈志国
(1.首都医科大学宣武医院细胞治疗中心,北京 100053;2.北京脑重大疾病研究院神经损伤和修复所,北京 100053;3.嘉应学院生命科学学院,广东 梅州 514015)
成簇规律间隔短回文重复序列及其相关基因(clustered regularly interspaced short palindromic repeats/CRISPR-associated genes,CRISPR/Cas)系统是细菌或古细菌用来抵御外来噬菌体、质粒或其他移动元件侵染的获得性免疫防御体系[1-4]。CRISPR/Cas9属于CRISPR/Cas蛋白家族中的Ⅱ型,构成简单,主要有Cas9蛋白、特异性CRISPR RNA(crRNA)及反式激活 crRNA(transactivating crRNA,tracrRNA)组成[5]。目前使用的 CRISPR/Cas9基因组编辑系统是用人工设计的单链向导RNA(single guide RNA,sgRNA)对tracrRNA-crRNA复合物进行了替换,使该系统只包含sgRNA和Cas9核酸内切酶2个元件[6],使设计过程更加简便。经过人工改造后的CRISPR/Cas9系统因其操作简便、作用高效而广泛应用于基因治疗、作物育种、疾病模型构建及功能基因组研究等领域,成为最热门的基因组编辑工具[7-11]。在CRISPR/Cas9基因编辑系统中,sgRNA能与靶序列的碱基互补配对,Cas9蛋白作为核酸酶能切割双链DNA,靶序列3′端的前间区序列邻近基序(protospacer adja⁃cent motif,PAM)为Cas9的DNA识别位点,sgRNA与Cas9蛋白形成复合物后,通过sgRNA与靶序列的配对和Cas9蛋白对PAM的识别,该RNA-蛋白复合物精准地靶向特异的DNA位点,激活Cas9的核酸酶活性,切割靶DNA,产生双链断裂(double strand breaks,DSB)[12-13]。DSB的产生将激活细胞内部的DNA损伤修复机制,主要的修复机制有2种:同源重组(homology-directed repair,HDR)和非同源末端连接(non-homologous end joining,NHEJ),以NHEJ为主,这会造成基因组编辑位点的碱基产生插入/缺失突变[14-16]。通过引入外源基因片段作为修复模板[17]和抑制NHEJ[18-20]虽可以提高HDR的编辑效率,但在靶位点精确矫正点突变,HDR的效率仍然较低(0.1%~5%)[13,21]。除此之外,由于DSB的产生,不可避免地激活细胞内NHEJ修复机制,导致靶位点处出现非预期的碱基改变,而且该系统可能会产生脱靶效应,在非靶位点诱发DSB而产生插入/缺失突变[15,22]。如何能在不产生DSB的情况下进行精确的基因组编辑成为亟待解决的技术难题。
针对上述技术瓶颈,美国哈佛大学David LIU实验室于2016年4月和2017年10月在Nature杂志上分别首次报道了基于CRISPR/Cas9的胞嘧啶单碱基基因编辑技术[23]和新型腺嘌呤单碱基基因编辑技术[24],该技术首次实现了不依赖DNA双链断裂而能够将DNA 4种碱基A,T,G和C进行替换,开启了单碱基基因组编辑的新纪元。
胞嘧啶单碱基基因编辑技术能在一定的编辑窗口内实现碱基C到T的单碱基转换,也称之为单碱基编辑器(base editor,BE)。David LIU实验室共研发了4代BE系统,即BE1-BE4,其核心组成主要由sgRNA和Cas9蛋白和胞苷脱氨酶组成,其中Cas9蛋白和胞苷脱氨酶为融合蛋白。该系统中使用的胞苷脱氨酶有大鼠的APOBEC1、七鳃鳗来源的胞苷脱氨酶(petromyzon marinus cytidine deami⁃nase1,PmCDA1)以及人源的激活诱导性胞苷脱氨酶(activation induced cytidine deaminase,AID);使用的Cas9蛋白来自酿脓链球菌(Streptococcus pyogenesCas9,SpCas9)和金黄色葡萄球菌(Staph⁃ylococcus aureusCas9,SaCas9)。SaCas9的BE系统习惯称为SaBE,在单碱基基因编辑系统中Cas9蛋白使用的是Cas9突变体,即dCas9和Cas9n(D10A)。dCas9无核酸内切酶活性,进行DNA编辑时不切割靶DNA,不会产生DNA断裂,而Cas9n(D10A)是在dCas9的基础上,恢复了其在HNH结构域的催化碱基。因此,Cas9n(D10A)有单链DNA切口酶活性,在进行DNA编辑时会在1条DNA单链上切割而产生切口。由于Cas9n(D10A)和dCas9仍保持与sgRNA结合的能力,但均不会引起DSB,从而有效抑制了由NHEJ介导的插入/缺失突变的发生。BE进行基因编辑时,通过sgRNA与靶位点序列互补配对和Cas9蛋白对PAM的识别,融合蛋白结合并识别靶位点,胞苷脱氨酶能够将非互补链中编辑窗口内的碱基C脱氨基而转变为碱基U,而U可以在随后的复制过程中被DNA聚合酶识别为T,从而实现DNA中C→T(或者G→A)的转变。基于此而产生了第1代BE,即rAPO⁃BEC1-XTEN-dCas9。但EB1在细胞内的编辑效率很低,仅0.8%~7.7%,比细胞外编辑效率降低了80%~97.2%,原因是细胞内的DNA修复机制影响了碱基编辑的U∶G配对产物。在细胞中,尿嘧啶DNA糖基化酶(uracil DNA glycosylase,UDG)能催化U从DNA链上移除,并且启动碱基切除修复(base-excision repair,BER)。通常修复的结果是将U∶G碱基修复为C∶G碱基,从而使得编辑效率大幅下降,这是第1代BE存在的主要问题。为了抑制UDG的作用,在Cas9蛋白和胞苷脱氨酶融合蛋白后又融合了尿嘧啶DNA糖基化酶抑制因子(uracil DNA glycosylase inhibitor,UGI)。UGI是一种来自枯草芽孢杆菌噬菌体PBS2的含有83个氨基酸残基的蛋白质,可以抑制UDG活性,从而提高了BE的单碱基编辑效率。由此产生了BE2,即rAPO⁃BEC-XTEN-dCas9-UGI,BE2的编辑效率比BE1提高3倍,提高至20%。为了促进细胞内启动以编辑链为模板合成新DNA链的修复机制从而进一步提高编辑效率,研究者开发了第3代BE,即用Cas9n(D10A)替换了dCas9。Cas9n(D10A)可将包含G碱基的非编辑链(单链)切断,通过诱导DNA错配修复(mismatch repair,MMR),使BE3 rAPO⁃BEC-XTEN-Cas9n-UGI的编辑效率提高至约37%且脱靶效率显著下降,而且不同来源的胞嘧啶脱氨酶组成的BE3和使用SaCas9突变体的SaBE3同样具有较高的编辑效率。虽然第3代单碱基编辑系统的编辑效果得到很大改善,但编辑的产物纯度仍不尽人意,即C∶G碱基对不仅会被编辑成T∶A,同时也会被编辑成G∶C或者A∶T。这种情况在编辑窗口中只存在一个碱基C时更加明显,这主要是由于UDG和DNA无嘌呤或无嘧啶位点(apurinic or apyrimidinic site,AP)裂合酶的作用导致的。AP裂合酶是一种BER酶,可以将AP转变成单链DNA缺口。由于UDG催化U从DNA链上移除将会造成AP位点,被AP裂合酶识别从而断裂DNA,加之Cas9n(D10A)将包含G碱基的非编辑链(单链)切断,从而造成DSB,造成细胞的错误修复。为了进一步减少UDG对碱基U的接触,研究者将UGI增加到2个拷贝,即成为rAPOBEC-XTEN-Cas9n-UGI-UGI,称为第4代BE。BE4比BE3 rAPOBECXTEN-Cas9n-UGI的编辑效率提高约1.5倍,非T产物降低约52.2%,插入/缺失突变率降低约52.2%,显著提高了编辑产物的纯度和编辑效率。由于UDG和AP裂合酶的作用能产生DSB,在BE3和BE4的产物中也存在一定的插入/缺失突变。一种来自噬菌体Mu的蛋白质Gam可以结合在DSB位点的末端起到保护作用,所以研究者在BE3,SaBE3,BE4和SaBE4中融入Gam蛋白,均有效降低了插入/缺失突变的发生[23,25-27]。
除David LIU实验室之外,日本神户大学Akihiko Kondo实验室于2016年8月在Science杂志上也报道了胞嘧啶单碱基基因编辑技术[28]。该实验室将七鳃鳗的胞苷脱氨酶与SpCas9的突变体和UGI融合,开发了dCas9-PmCDA1-UGI和Cas9n-PmCDA1-UGI单碱基基因编辑系统。同年10月,上海交通大学常兴课题组[29]把核酸酶缺陷的Cas9蛋白和诱导抗体高频突变的人胞苷脱氨酶AID融合,开发了dCas9-AIDx单碱基编辑系统:在一种UDG抑制因子的辅助下,dCas9-AIDx可以诱导特定的碱基C向T转变,实现单碱基的精准编辑。随后报道的CRISPR-X也使用了dCas9和AID突变体,与常兴课题组的单碱基编辑系统有相似作用[30]。
胞嘧啶单碱基基因编辑技术能利用胞苷脱氨酶将C∶G碱基对转换成T∶A碱基对,如果将胞苷脱氨酶换成腺苷脱氨酶,理论上可以实现A∶T碱基对转换成G:C碱基对。但是,已发现的天然腺苷脱氨酶,比如大肠杆菌的TadA[31-32]、人ADAR2[33]、小鼠ADA[34]和人 ADAT2[35],仅作用于游离的腺嘌呤、腺苷、RNA中的腺苷或者错配的RNA∶DNA异聚体,不能催化DNA链上的碱基A脱氨基[36]。因此,人工创造出能催化DNA链上的A碱基脱氨基成为此技术的关键环节。
David LIU实验室率先实现了上述突破,他们选择与APOBEC酶同源的大肠杆菌TadA酶作为改造对象。该酶作用于tRNA单链反密码子环,无需小分子激活剂即能催化tRNA上的碱基A脱氨基。将该酶与dCas9融合构建了TadA-dCas9的随机突变(突变位点在TadA)质粒文库,将细菌中抗生素抗性基因的关键位点突变成A∶T从而使抗性失效,细菌在抗生素环境中无法存活。只有具备DNA碱基编辑能力的突变TadA-dCas9的存在,在sgRNA的引导下,将突变的A∶T修复成G∶C后才能使细菌重新获得抗性而存活。通过细菌对TadA酶的定向进化和蛋白质工程手段,经过7轮选择优化,David LIU实验室成功获得了将A∶T碱基对转换成G∶C碱基对的腺嘌呤单碱基编辑器(adenine base editor,ABE),其中ABE7.10的编辑效率达到(58±4.0)%[24]。
ABE系统能将编辑窗口内的A碱基脱氨基而转变为肌苷,肌苷被当成G进行读码与复制,从而实现编辑窗口内A到G的突变。ABE7.10的编辑窗口大概包含4~6个核苷酸,目标碱基A在原型间隔序列(protospacer)上第4~7碱基位置,PAM在第21~23碱基位置。将检测目标DNA位点由6个增加到17个,ABE7.10的编辑效率仍然达到(53±3.7)%,显著高于经典BE3对C∶G至 T∶A的编辑效率[1],具有更低的靶位点非A→G突变和插入/缺失突变的产生(≤0.1%),而且脱靶率也很低[24]。
中国科学院上海植物逆境生物学研究中心的朱健康研究团队[37]使用SaCas9与突变的TadA酶融合,开发了ABEP2,在某些位点的编辑效率可达61.3%,而且精确性也很高。
BE系统中胞苷脱氨酶rAPOBEC1的活性窗口有大概含5个核苷酸,目标碱基C在原型间隔序列上第4~8碱基的位置。常用的SpCas9的PAM NGG在第21~23碱基的位置,编辑窗口内的全部碱基C都有可能被编辑[23,27],这样就会导致活性窗口中非目标的碱基C也会发生替换作用。而且因为大多数位点在靶点碱基下游缺少PAM序列,PAM NGG序列的要求限制了单碱基基因编辑系统可以编辑的基因组位点。因此,缩小编辑窗口或扩大PAM识别序列类型成为亟待解决的问题。
鉴于上述问题,David LIU实验室通过多种尝试,发现对胞苷脱氨酶进行突变,可以缩小编辑窗口。他们针对rAPOBEC1的催化位点W90及结合位点R126和R132进行突变检测,发现W90Y,W90F,R126A,R126E和R132E突变均可缩小活性窗口。将这3个突变位点进行组合突变,筛选出了可以进一步缩小编辑窗口,提高编辑精准性的优化编辑器:YE1-BE3(W90Y+R132E),YE2-BE3(W90Y+R126E),EE-BE3(R126E+R132E)和YEE-BE3(W90Y+R126E+R132E)。前3个编辑器的编辑窗口约2个碱基,编辑效率与BE3相似。YEE-BE3在平均编辑效率只降低了96.6%的情况下,将编辑窗口精确到了1个碱基C,大大提高了编辑的精准性。在包含多个C碱基的BE3编辑窗口内,这些优化的编辑器具有编辑位置偏好性,一般是C5>C6>C7≈C4[38]。
目前,常用的SpCas9蛋白识别的PAM一般是NGG,SaCas9蛋白识别的PAM是NNGRRT,这在传统CRISPR/Cas9基因编辑系统的应用中也受到限制。为了扩大CRISPR/Cas9基因编辑系统的靶向范围,多个实验室对Cas9蛋白进行了突变筛选,得到了许多优化突变体[39-40]。为了扩大单碱基基因编辑系统可编辑的基因组位点,David LIU实验室将优化的Cas9突变体代替BE3和SaBE3中相应的Cas9蛋白,获得了优化的单碱基编辑器:VQRBE3,EQR-BE3,VRER-BE3 和SaKKH-BE3。他们识别的PAM分别是NGAN,NGAG,NGCG和NNNRRT,而且VQR-BE3和EQR-BE3的脱靶率更低[38]。
当然,上述对PAM识别的扩展对于庞大的基因组编辑来讲是远远不够的。2018年2月,David Liu实验室在Nature上发表了新的研究成果,极大地拓宽了基因编辑的应用范围[41-42]。该团队利用噬菌体辅助持续进化(phage-assisted continuous evolu⁃tion,PACE)的定向进化技术,基于SpCas9开发出了新型基因编辑工具酶——xCas9。其中的xCas9 3.7除了能够识别NGG PAM之外,对于NG,NNG,GAA,GAT及CAA这些PAM序列也能够识别。将xCas9 3.7替换BE3和ABE7.10中的SpCas9,构建 xCas9(3.7)-BE3 和 xCas9(3.7)-ABE单碱基编辑器。研究发现,在NGG PAM位点,xCas9(3.7)-BE3编辑效率为(37±10)%,而SpCas9-BE3的编辑效率为(28±5.2)%;在NGT,NGA和NGC PAM位点,xCas9(3.7)-BE3编辑效率分别为SpCas9-BE3的9.5,3.5和13倍;而在GAA 和GAT PAM位点,xCas9(3.7)-BE3编辑效率分别是SpCas9-BE3的50倍以上和100倍以上;xCas9(3.7)-ABE的编辑效率同样高于SpCas9-ABE,在NGG PAM位点,xCas9(3.7)-ABE编辑效率为(69±3.7)%,而SpCas9-ABE的编辑效率为(48±2.1)%;在GAT PAM位点,xCas9(3.7)-ABE编辑效率为(16±1.5)%,而SpCas9-ABE未检测到编辑(≤0.1%);在NGC和NGA PAM位点,xCas9(3.7)-ABE编辑效率分别为(21±2.5)%和(43±1.5)%,而SpCas9-ABE的编辑效率分别为(7.0±1.3)%和(22±1.2)%。xCas9 3.7脱靶率很低,xCas9 3.7的PAM序列识别灵活性、酶活性和保真性同时得到优化的机制尚不明确。
除了上述对单碱基基因编辑系统的优化,国内外的很多研究团队在其他方面也进行了积极的探索,提高了单碱基编辑系统的精确性[43-45]。
单碱基基因编辑技术自首次报道至今,已经在疾病治疗、动物疾病模型制作和药物筛选等方面得到了广泛的应用,取得了较好的编辑效果。
人类遗传疾病中,约2/3是由单碱基突变造成的。在人类单碱基突变相关的疾病中,由C∶G突变为T∶A导致的疾病占48%,由A∶T突变为G∶C导致的占疾病14%[24]。单碱基基因编辑技术为这些疾病的治疗提供了有力的支持。PCSK9是高胆固醇血症的重要靶点,PCSK9敲除可显著降低血液中低密度脂蛋白胆固醇水平[46]。Chadwick等[47]将可导致PCSK9基因无义突变的BE系统导入成年小鼠的肝中,结果发现,血液中PCSK9蛋白表达水平大幅下降(>50%),胆固醇水平降低约30%,而且未检测到脱靶。HBB-28(A>G)突变是中国及东南亚β-地中海贫血病患者的主要致病因素。中山大学黄军就课题组采集HBB-28(A>G)纯合体患者的血液细胞和皮肤成纤维细胞,通过核移植技术构建突变胚胎,将BE3和sgRNA注射到核移植胚胎中,胚胎的基因修正效率超过了23%,证实了单碱基基因编辑系统可以针对单碱基突变的人类胚胎基因组进行精确的修复,为点突变遗传性疾病的治疗具有重要的临床前研究意义[48]。
韩国首尔大学Jin-Soo Kim研究团队率先利用BE系统进行了动物疾病模型的制备,他们将BE3的mRNA或融合蛋白与靶向抗肌萎缩蛋白基因Dmd以及酪氨酸酶基因tyr的sgRNA,通过电转染或显微注射方式导入小鼠的受精卵[49]。结果发现,在靶向Dmd基因的F0代小鼠(9只)中,约50%发生无义突变,其中1只是纯合子突变小鼠,在靶向Tyr基因的F0代小鼠(7只)中,基因编辑效率达100%,其中3只是纯合子突变小鼠。利用BE3在非洲爪蟾的早期胚胎中对tyr基因进行单碱基基因编辑,编辑效率为20.5%,且无脱靶突变,这表明单碱基基因编辑技术是建立非洲爪蟾人类点突变疾病模型的有力工具[50]。在兔的疾病模型中,用BE3和ABE7.10系统在囊胚和F0代分别可以实现53%~88%和44%~100%的靶向突变效率,通过有效诱导无义突变和错义突变,单碱基基因编辑技术在兔子中可以准确模拟人类此类疾病发病过程[51]。
上海交通大学常兴课题组研发了dCas9-AIDx单碱基编辑系统,其靶向性AID介导的碱基突变发生(targeted AID-mediated mutagenesis,TAM)技术可以将细胞内的特定DNA序列多样化,从而进行高通量功能获得性单碱基突变筛选。这一方法可以有效且迅速地模拟肿瘤细胞体内耐药机制的异质性,从而进行肿瘤耐药突变的筛选。该课题组用dCas9-AIDx在慢性粒细胞白血病细胞中编辑BCR-ABL,有效鉴定了慢性髓细胞样白血病细胞中对伊马替尼(imatinib)抗性的已知突变和新突变[29]。斯坦福大学遗传学系和药理学系的研究者报道的CRISPR-X也使用了dCas9和AID突变体,以及携带MS2修饰sgRNA,可以同时靶向多个基因组位点。研究者利用CRISPR-X突变了癌症治疗药物硼波替单抗(替佐米,bortezomib)的靶点——PSMB5,结果从中鉴定了引发波替单抗耐药性的已知和全新的突变[30]。由于耐药金黄色葡萄球菌的出现,迫切需要新的治疗金黄色葡萄球菌感染的治疗手段,研究者利用Cas9n(D10A)和APOBEC1融合形成单碱基编辑系统pnCasSA-BEC,能够高效地使金黄色葡萄球菌发生点突变和基因失活,该系统的发展将极大地加速金黄色葡萄球菌药物靶点的研发[52]。
相对于传统的CRISPR/Cas9编辑技术,单碱基基因编辑技术对于基因组单碱基位点具有更高的编辑效率、更高的精确度和更低的脱靶率,由于不引入DSB,插入/缺失突变的发生率更低。因此,单碱基编辑技术成为生命科学领域全球研究的热点。然而,目前所使用的单碱基编辑工具还存在着一些不足。
人类单碱基突变相关的疾病中,还存在G∶C突变为C∶G(占11%),T∶A突变为A∶T(占7%),A∶T突变为C∶G(占6%)和C∶G突变为A∶T(占15%)的疾病[24],但目前的DNA单碱基基因编辑技术无法进行修正。因此,还需要进一步开发针对各种单碱基突变类型的单碱基编辑工具。
虽然有研究验证了单碱基基因编辑技术在全基因组水平上的准确性[53],但仍然存在安全风险。主要表现在:①靶位点会产生C到非T或A到非G的转换;②编辑窗口内非目标C或A碱基的编辑;③靶位点仍会产生极少量的插入/缺失突变;④脱靶效应虽然低,但仍然存在;⑤胞苷脱氨酶和优化的大肠杆菌TadA酶,都具有结合DNA进行脱氨基的作用,如果脱氨酶的表达量过高,可能会对基因组的稳定性产生不良影响。
虽然xCas9极大拓宽了基因编辑的应用范围,但也只能够直接靶向1/4人类基因组序列[41],而且David LIU实验室仅在基因组的几十个位点上进行了测试,现在还不能100%确定xCas9将比SpCas9更好,还需更多的实验验证。
单碱基基因编辑技术是将Cas9和胞苷脱氨酶或腺苷脱氨酶以及UGI等形成融合蛋白来行使作用,用得较多的是SpCas9,这使其序列组成比较长,如果用常用的基因治疗载体——腺相关病毒进行转染,则腺相关病毒的包装容量限制了该技术的应用。SaCas9的编码序列比SpCas9要小23%,这一大小差异使得SaCas9适于以病毒为载体的基因治疗[54]。但是,SaCas9的PAM特异性又限制了编辑范围,或许也可通过定向进化技术,像改造SpCas9那样来改造SaCas9的PAM特异性。如果不使用病毒载体,则需要积极探索其他途径,比如基于金纳米簇的纳米递送体系[55],以期开发出更加安全高效的方法。