刘振权, 董会娜, 丛丽娜, 张大伟*
1.大连工业大学 生物工程学院,辽宁 大连 116034; 2.中国科学院天津工业生物技术研究所,天津 300308
CRISPR系统作为一种自身免疫系统在古细菌和细菌等原核生物中普遍被报道,该系统可对外源入侵的核酸序列靶向切割使其断裂,从而起到保护机体免受入侵核酸序列干扰的作用[1]。Ⅱ型系统仅需一种Cas9效应蛋白即可发挥切割功能且具有较高活性。因此,CRISPR/Cas9作为基因编辑工具被广泛研究与利用[2, 3],作为编辑工具的II型CRISPR/Cas9主要由以下两个功能性原件组成,包括具有核酸酶活性的Cas9蛋白[4],具有靶向作用的sgRNA[5]。目前应用的CRISPR/Cas9系统主要来源于化脓链球菌[6]。Cas9的原间隔物相邻基序(PAM)区一般位于目标位点的3'末端,序列是5′-NGG-3′[6, 7]。
CRISPR/Cas9工具具有高效性、简便性、使用广泛性等特点[8]。通过改变sgRNA的序列,实现对不同位点的切割[9, 10]。在进行基因编辑工作中,CRISPR/Cas9会导致双链断裂(DSB)的产生,因此需要修复系统进行修复[11, 12]。目前常用的修复系统有两种,一种是容易出错的不精确修复系统即非同源性末端连接(non-homologous end joining, NHEJ)[13],另一种是不易引起错误的精确修复系统即同源性末端连接(homology-directed repair, HDR)[14, 15]。利用NHEJ修复系统对CRISPR/Cas9系统产生的DSB进行修复时,会在DSB附近的基因序列中随机引入非特异性的碱基缺失或者插入,从而导致非理性的编辑。利用CRISPR/Cas9与HDR系统构建的基因编辑工具,已经被成功地应用于众多菌株中,实现了基因的精确编辑,包括碱基序列的插入、删除以及单碱基的突变工作[16, 17]。但是该系统需要外源提供模板并且在一些编辑过程中可能留下筛选标记,同时由于HDR在一些生物中具有较低的效率,导致在一些生物中并不能发挥功能。在修复系统的效率不足以对CRISPR/Cas9引入的DSB进行修复时,CRISPR/Cas9的引入会导致生物死亡,导致无法现实编辑[18]。这也促进了CRISPR/dCas9系统的发展。
在CRISPR/Cas9系统中,通过突变切割结构域HNH(H840A)与RuvC(D10A),分别失活了对互补链与非互补链的切割功能,获得不具有切割功能,仅具有靶向作用的CRISPR/dCas9系统[19]。利用CRISPR/dCas9介导的碱基编辑器独立于宿主细胞自身的NHEJ和HDR系统,利用脱氨酶的催化活性实现碱基转化[20-22]。基于CRISPR/dCas9系统与胞嘧啶脱氨酶(PmCDA1)融合的胞嘧啶脱氨酶系统(CBE),已在大肠杆菌中被成功建立,实现了由胞嘧啶核苷酸(C)到胸腺嘧啶核苷酸(T)的突变,突变率高达61.7%~95.1%,并且引入该系统不会导致细菌的死亡[14]。研究者通过单独失活CRISPR/Cas9系统中一个切割结构域的功能,获得CRISPR/nCas9系统。利用该系统融合脱氨酶构建碱基编辑器,在一定程度上提高了编辑效率[3]。关于腺嘌呤碱基编辑器的报道较少,GAUDELLI N M等人最先在大肠杆菌中对腺嘌呤脱氨酶进行定向进化,与CRISPR/dCas9融合表达构建了能够实现腺嘌呤核苷酸(A)到鸟嘌呤核苷酸(G)突变的ABE编辑工具[23]。本文针将从原理、发展史、应用以及未来的优化方案对上述DNA碱基编辑器进行综述。
目前ABE和CBE是已经被开发的两种DNA碱基编辑器。碱基编辑器由CRISPR/dCas9系统和脱氨酶系统组成。通过对Cas9基因突变(H840A、D10A),得到不具有切割功能,但仍然保留靶向作用的CRISPR/dCas9系统[24]。构成碱基编辑器的脱氨酶主要有两种,一种是胞嘧啶脱氨酶,用于构建CBE工具,利用胞嘧啶脱氨酶的作用将胞嘧啶结构中的氨基转化为氧原子,同时失去临近氮原子上的氢原子,进而实现由C到尿嘧啶核苷酸(U)的变化。在DNA复制和修复过程中又将U转化为T,进而完成C到T的转换[24],另一种是腺嘌呤脱氨酶,用于构建ABE工具,利用腺嘌呤脱氨酶的作用将腺嘌呤核苷结构中的氨基转化为氧原子,同时失去临近氮原子上的氢原子,其将A转换为次黄嘌呤核苷酸(I),在DNA复制和修复过程中又将I转换为G,进而完成A到G的转换。在上述两种DNA碱基编辑器共同作用下可以实现四种碱基的转换,即C到T;A到G;T到C以及G到A[23]。图1 为DNA碱基编辑器的原理图。
图1 CBE和ABE原理图
胞嘧啶碱基编辑器最早被应用在真核生物中,在原核生物中的开发利用报道较少。经过对dCas9与脱氨酶以及相关功能原件不断的更新,目前已经开发到第四代碱基编辑器。其中第一代碱基编辑器由KOMOR A C等人[24]开发,研究者分别利用dCas9与小鼠来源的APOBEC1脱氨酶融合表达,实现了目标位点C到T的转换。CBE1的可编辑框范围是5 bp,编辑位点主要位于距离PAM远端的13~17 bp处(距离PAM近端定义为第一位)。在生物体内其效率为0.8%~7.7%,显然如此低的编辑效率,并不能满足实验需求。
为了提高编辑效率KOMOR A C等人继续深入研究,开发了第二代碱基编辑器CBE2[24]。CBE2是在CBE1的基础上融合表达了具有抑制DNA羰基化酶(Uracil N-glycosylase,UNG)活性的DNA羰基化酶抑制剂(Uracil Glycosylase Inhibitor,UGI),抑制了体内的修复系统提高了编辑效率。实验结果显示,CBE2在真核生物细胞中编辑效率仍然很低,但其在细菌中能够有好的效果。
接下来,研究人员利用nCas9(D10A)代替了CBE1中的dCas9构建了第三代胞嘧啶碱基编辑器CBE3。nCas9可以形成一条链的断裂,当靶向未被编辑的DNA单链时,nCas9复合物会造成未被编辑单链的断裂,此时有机体必需利用另一条被编辑的链作为模板进行DNA修复。这个过程使得两条链相应位置的碱基均发生了突变,以这两条发生编辑的单链为模板进行DNA复制,则子代DNA均是发生编辑的。理论上会很大程度提高编辑效率。但是必需考虑到当引入nCas9后,有可能引起一部分细胞的死亡。实验结果显示,CBE3编辑器提高了真核生物的编辑效率,效率可达37%,但是同时发现该工具的引入会引起一些不想要的插入突变(Indel)[24]。
NISHIDA K等人,利用nCas9与七鳃鳗来源的胞嘧啶脱氨酶PmCDA1融合表达,构建了类似于CBE3的另一种碱基编辑器并命名为Target-AID[25]。由于不同来源的脱氨酶,导致该工具在一些特点上与CBE3具有一定区别。首先,Target-AID的可编辑范围与CBE3有所不同,一般在PAM序列的远端15-19 bp处。其编辑效率几乎不受编辑位点临近碱基种类的影响。Target-AID与CBE3都有C转换为G的情况出现,但是与CBE3不同的是Target-AID工具将C突变为G是随机的,并不像CBE3那样与被编辑的C位置有关。
C突变为G并不是规律出现的,这种突变严重地影响碱基编辑工具的精准性。为了进一步提高碱基编辑器的精准性,KOMOR等人,通过对nCas9与脱氨酶之间linker以及nCas9与UGI之间linker长度的优化,同时过表达UGI,开发了第四代碱基编辑器CBE4。其与CBE3相比具有更高的编辑效率(是CBE3的编辑效率的1.5倍),以及更低的C到G的突变与Indel出现的频率(与CBE3相比降低23倍)[26]。为了降低Indel的出现对基因表达造成的影响,KOMOR等人,在CBE4的基础上,进一步表达了Gam蛋白,利用Gam蛋白对DNA缺口的保护作用进一步减少了Indel的出现频率。
KIM Y B等人,在CBE3的基础上对APOBEC1进行点突变,得到的突变体有效地缩小了编辑框的范围,由原来的5 bp减少到现在的1 bp~2 bp。在一定程度上提高了碱基编辑器的精准性,尤其是当编辑位置存在多个胞嘧啶的时候,会显著地提高编辑的精准性。PAM的种类很大程度地限制了碱基编辑器的使用范围。对于一些不具有合适PAM序列的位点,CBE3是无法发挥作用的。因此KIM Y B等人,对nCas9(D10A)进行突变,得到了可以识别不同PAM序列的突变体。对之前一些无法作用的位点实现了编辑,一定程度上提高了CBE工具应用的广泛性[27]。后续相关研究者针对于PAM进行了改进,用以增加CBE工具的可识别范围,通过突变等手段一定程度上拓宽了CBE的编辑范围[28-32]。
ABE编辑工具由GAUDELLI等开发,他们认为如果腺嘌呤核苷脱氨酶代替CBE中的胞嘧啶脱氨酶,极大可能开发出ABE编辑工具。因此YANG L等人,尝试目前已有的脱氨酶,但是均不能发挥作用[33]。对大肠杆菌来源的腺嘌呤脱氨酶TadA进行人工改造,获得可以发挥功能的腺嘌呤脱氨酶TadA*,利用nCas9的靶向作用,首次成功地构建了ABE编辑工具。逐步地对ABE编辑工具中的脱氨酶进行突变,提高了ABE编辑工具的编辑效率。研究者在此基础上对ABE进行了改进提高了编辑效率并增加了PAM可识别区域[34]。
GAUDELLI N M等人对ABE7.10进一步优化获得了ABE8,与ABE7.10相比具有更高的编辑效率,更低的脱靶率[35]。最近RALLAPALLI K L等人利用计算机分子动力学模拟实验揭示了在DNA编辑中TadA*的结构和功能。分析证实了该单一突变在赋予TadA*功能方面的重要性,并证明TadA*作为单体而非二聚体进行DNA碱基编辑[36]。ABE编辑工具与CBE编辑工具有所不同,CBE编辑工具中,脱氨酶在dCas9的下游融合表达。但ABE编辑工具脱氨酶位于dCas9下游表达时,ABE编辑工具无法发挥功能。当将dCas9基因在脱氨酶基因下游融合表达时,可以发挥A到G的编辑功能[23]。
CRISPR/Cas9系统具有高效性,简便性等特点,在真核生物与原核生物中得到广泛应用。但是该系统在一些微生物中会导致生物体死亡,无法发挥编辑作用[18]。利用不具有切割作用的CRISPR/dCas9与胞嘧啶脱氨酶共同作用,在不影响微生物生长的情况下,现实了基因的编辑工作[37]。BANNO S等人利用脱氨酶融合核酸酶缺陷的CRISPR/Cas9系统的CBE编辑工具首次在大肠杆菌中靶向地实现了C突变T的研究。并证明了该工具的可编辑范围是距离PAM序列远端的15 bp~19 bp,并且编辑范围受sgRNA长度的影响。通过添加尿嘧啶DNA糖基化酶抑制剂与降解标签(LVA标签)提高了该工具的编辑效率。并证明了该工具可以实现基因组的多位点编辑,同时实现了对大肠杆菌中六个不同的结构基因进行编辑[14]。
同年,WANG Y等人利用CRISPR/dCas9和胞嘧啶脱氨酶融合表达,在谷氨酸棒状杆菌中利用尿嘧啶磷酸核糖转移酶upp基因作为编辑靶点,证明了CBE编辑工具可以发挥编辑作用。在此基础上深入研究实现了多位点的编辑工作,并证明了单位点、双位点和三位点编辑效率分别高达100%、87.2%和23.3%[38]。同年,研究者证明了CBE编辑系统可实现铜绿假单胞菌,铜绿假单胞菌,恶臭假单胞菌和荧光假单胞菌等高效假单胞菌物种的基因失活和点突变[39]。
研究者选择大肠杆菌菌株XL1-Blue作为模型,通过将CAG/CAA(Gln)或CGA(Arg)密码子将转换为各自的TAG/TAA/TGA终止密码子,提前终止了翻译过程,实现了对四环素抗性基因tetA的失活。通过流式细胞仪和X-gal细胞化学分析,显示了99.93%被编辑过的大肠杆菌细胞失去荧光,表明BE3介导的大肠杆菌基因编辑效率几乎为100%。与Cas9相比BE3蛋白在靶向和切割基因组时具有非致命性。同时证明了CBE编辑工具在苜蓿芽孢杆菌中,可靶向实现编码氨基酸的密码子突变为终止密码子,从而废除了蛋白质功能[37]。使用设计的sgRNA将谷氨酸棒状杆菌的尿嘧啶磷酸核糖转移酶upp基因第484位的C转换为T生成终止密码子,并利用其突变体证明了失活该基因的编辑效率高达11.2%[38]。
肺炎克雷伯菌是一种有潜力的工业微生物,也是人类的主要病原体。研究者在肺炎克雷伯菌中利用CBE编辑工具,在不产生DSB,不需要修复模板的情况下,通过将四个密码子(CAA,CAG,CGA和TGG)转化为终止密码子而实现了基因失活。并证明了基因距离PAM的位置对于编辑效率的影响,距离PAM序列远端的12 bp~17 bp的TC基序的C转化为T的效率几乎为100%,而其他位置C的编辑效率则低。同时最靠近胞嘧啶上游的碱基种类对编辑效率也有影响。胞嘧啶上游是胸腺嘧啶T时编辑效率最高C而A次之,上游是G时编辑效率最低。TC的编辑效率高于CC和AC的编辑效率。GC的编辑效率最低[40]。
由于耐药性金黄色葡萄球菌的出现,迫切需要开发针对金黄色葡萄球菌感染的新型治疗手段。研究者设计了一个Cas9切口酶(Cas9D10A)和一个APOBEC1的融合体,利用CBE编辑工具实现高效的基因失活和金黄色葡萄球菌的点突变。利用该工具将agrA基因第7位的C,cntA基因第5位的C和esaD基因第6位的C成功以100%的效率突变为T,产生终止密码子从而提前终止了翻译过程。并证明该工具可编辑的范围是距离PAM序列远端的12 bp~16 bp。相邻碱基对编辑器的编辑效率有一定影响,体外活性实验效率由高至低遵循TC、CC、AC和GC的规律[41]。
ABE工具已经在人类和动植物中发挥作用,实现了由A/T到G/C的突变,但是相关研究较少,且效率没有CBE编辑工具高[42-44]。在微生物中报道的极少,目前仅GAUDELLI N M等人在大肠杆菌中对腺嘌呤脱氨酶进行定向进化和蛋白质工程产生了第七代ABE,首次证明了腺嘌呤碱基编辑器可以在微生物中发挥功能,将目标A/T碱基对有效地转化为G/C[23]。研究者在小鼠中建立ABE编辑工具时,为优化ABE编辑工具的编辑效率与可作用范围,分别利用金黄色葡萄球菌 (Staphylococcusaureus)、酿脓链球菌(Streptococcuspyogenes)来源的腺嘌呤脱氨酶进行实验比传统的ABE编辑工具效率更高,可作用范围更广,这也为在细菌中建立ABE编辑工具提供了希望[45]。
由于碱基编辑器的简便性,高效性,不需要额外的修复系统且不导致菌体死亡等特点已被广泛应用与真核与原核生物中,但是该工具仍有一些不足之处。譬如,在编辑过程中的脱靶率较高;可以编辑的范围会受到一定限制例如PAM的限制;在靶向位点临近处有相同碱基时,很难实现某一个碱基的突变。这些问题的解决仍然是碱基编辑器进一步优化的方向。在碱基编辑器中主要是CRISPR系统发挥靶向作用,所以在解决碱基编辑器脱靶率的问题上,可以参考CRISPR系统脱靶率问题的解决方法。可以利用生物信息学的方法,对sgRNA进行设计与筛选[46]。通过改变sgRNA的长度在一定程度上降低了脱靶率[47]。通过对dCas9蛋白的结构域进行突变获得具有识别不同PAM的dCas9蛋白[27, 47],可以在一些特异位点利用ABE工具实现C到A/T的转换[48]。同时,可以利用CRISPR/Cas12a与脱氨酶融合构建碱基编辑器[49,50]。从目前的报道中看,可编辑的范围只在靶向序列范围内,可以适当缩短靶向序列的长度,一定程度上缩小了可编辑的范围,进而实现了单个碱基的突变[47]。