张钰雯,俞晨霖,戴心忱,肖易倍,陆美玲*
(1中国药科大学生命科学与技术学院,南京211198;2中国药科大学药学院,南京211198)
CRISPR-Cas (clustered regularly interspaced short palindromic repeats and CRISPR associated)系统是一种在细菌和古细菌基因组中发现的适应性免疫系统,由RNA 介导来抵挡外源核酸的入侵。1987年,日本大阪大学在研究大肠埃希菌的碱性磷酸酶同工酶时发现其基因组中存在一些串联间隔重复序列[1],后续研究表明这段序列在细菌和古细菌的基因组中广泛存在,2002年被正式命名为CRISPR[2]。本文介绍了1 类中的Ⅰ型CRISPR-Cas系统近几年的研究成果和应用,主要是其基因簇组成和Cas蛋白的异同点,以及从结构的角度详细阐述Ⅰ型系统中效应复合物的组装模式以及特异性识别底物并招募Cas3 蛋白的R-loop 机制,分子作用方式与目前应用最广泛的CRISPR-Cas9 系统相比有很大不同。另外,对Ⅰ型CRISPR-Cas 系统在基因编辑领域的应用进行了总结。相比Cas9蛋白,Cas3 的长片段DNA 降解功能更有利于进行大范围的基因组功能研究,效应复合物的靶向性可用于融合调控蛋白来调节基因的表达,同时CRISPR 阵列的特性便于多基因同时编辑,具有填补当前基因编辑领域空白的潜力。
CRISPR-Cas 基因簇包含储存外源核酸序列信息的CRISPR 基因座以及编码不同功能蛋白的cas基因。CRISPR 基因座是一段由前导序列、重复序列和间隔序列组成的簇状规则间隔的短回文重复片段。前导序列是CRISPR 基因座的启动子,转录重复序列和间隔序列,但不翻译为蛋白;长度相近的间隔序列则是来源于噬菌体、质粒、转座酶基因或内源性的有害核酸片段等;重复序列区将不同的间隔序列隔开,转录后在内部通过碱基互补作用形成发卡结构。cas基因位于CRISPR 基因座附近,根据在系统中执行的功能不同来命名区分,可编码几十种结构和性质不同的Cas蛋白(表1)。
Table 1 Type and function of Cas proteins in type I CRISPR-Cas system
CRISPR-Cas 系统的适应性免疫过程分为3步:(1)第1 步是适应过程。外源核酸片段被Cas蛋白特异性识别,整合特定长度的序列到CRISPR基因座中[3],形成新的间隔序列;(2)第2 步为crRNA(CRISPR RNA)成熟阶段。在前导序列控制下,储存外源核酸信息的CRISPR 基因座转录成包含重复序列和间隔序列的长RNA 前体,并被相关Cas 蛋白加工成为一系列含有部分重复序列和完整间隔序列的成熟crRNA[4],crRNA 与效应Cas 蛋白结合形成效应复合物;(3)第3 步是干扰阶段。效应复合物靶向识别与crRNA 互补的核酸序列;此外,效应复合物接触底物时,依赖于识别靶标序列附近2 ~7 个碱基长度的PAM(protospacer adjacent motif)序列[5];满足两个结合条件之后,Cas 蛋白在特定位点进行切割或降解,破坏靶标序列。
根据效应复合物的组成形式不同,CRISPRCas 系统分成1 类和2 类两大部分:1 类又分为3 个类型(Ⅰ型、Ⅳ型和Ⅲ型)和16个亚型,该类别的共同特征是利用多Cas 蛋白效应物复合物实现干扰靶标核酸;2 类包括有Ⅱ型、Ⅴ型和Ⅵ型3 个类型,该系统只利用单一效应蛋白如Cas9 和Cas12 发挥活性。2020年,科学家对已经发现的Cas蛋白进行了系统整理[6],主要从适应阶段、成熟阶段、效应阶段以及信号转导4 个功能模块进行分类,其中1 类特征蛋白为Cas3 和Cas10,2 类的特征蛋白是Cas9和Cas12。Ⅰ型系统靶向的核酸类型为双链DNA,该系统包含有Cas1、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas10d 等主要蛋白(在不同的亚型中可能会有不同的命名)(表1)。Cas1、Cas2 和Cas4蛋白参与新的间隔序列整合过程[7];Cas3包含解旋酶活性和单链DNA 核酸酶活性[8],发挥切割和降解DNA 作用;其他蛋白则形成效应复合物,骨架部分一般由Cas7、Cas5 和Cas6 蛋白或其同源蛋白组成[9]。Cas7 蛋白的拷贝数为6 ~7 个,结合和支撑crRNA 并影响crRNA 与DNA 的结合形式;Cas5 相对分子质量较小,与底物核酸结合有关;Cas6 具有RNA 内切核酸酶活性,催化切割长RNA 前体为成熟的crRNA[10],但在I-C 亚型中,该功能由Cas5 执行;此外,复合物中的大亚基Cas10d、Cas8和Cse1,在底物DNA 结合过程中识别PAM 序列,具有直接与Cas3 蛋白相互作用的结构域,稳定Cas3 的空间位置。
Ⅰ型系统目前分为I-A 至F和I-U 7个亚型(图1)[11],每个类型有不同的cas基因组合特点,但均包含特征基因cas3[12]。在这些亚型之内,根据蛋白的差别又可以细分为多种子类型,例如通过Cas8b 蛋白家族的特点,细分为Hmari 亚型(Cas8b1)、Tneap 亚 型(Cas8b2)和Myxan 亚 型(Cas8b3)等[11]。相比于其他系统,I-C 亚型中成熟crRNA 的功能由Cas5 代替[13];I-A 亚型的特征在于Cas8 分裂成两个蛋白,分别编码大亚基和小亚基,同时Cas3 蛋白分裂成解旋酶Cas3′和核酸酶Cas3″。I-E 和I-F 亚型系统中不存在Cas4 蛋白,并且I-F 亚型中Cas3 与Cas2 融合表达[14],参与到前间隔序列的识别和整合过程。I-D 亚型具有几个独特特征,其大亚基是Ⅲ型特征蛋白Cas10的变体Cas10d,而Cas3 的核酸酶结构域和Cas10d 的氨基端融合,解旋酶结构域单独表达。最近的研究发现,I-B、I-C 和I-D 等亚型的大亚基基因C 端存在一个独立开放阅读框,编码的多拷贝小亚基蛋白参与形成效应复合物[15]。I-U 亚型中的U 代表无法准确定义属性,其蛋白的结构功能和相关机制目前没有清晰的解释。因此,CRISPR-Cas 系统可根据一个或几个特征基因的差异分成不同的亚型,且部分Cas蛋白功能在不同亚型中有所区别。
Figure 1 Representative strains and gene cluster information of type I CRISPR-Cas system subtypes.Grey rectangle represents repeat,and pink diamond means different spacers.Cas1 and Cas2 are conserved in all systems
Ⅰ型CRISPR-Cas系统的效应复合物结构具有一些共同特征,目前通过冷冻电镜或X 射线解析得到的结构有I-E、I-F、I-C 以及I-D 型,其中关于I-E 型和I-F 型系统的研究最为透彻。以大肠埃希菌的I-E 型为例,其效应复合物有5 种Cas 蛋白,包括11 个亚基(Cas76Cas51Cas61Cse11Cse22)和61 个碱基的成熟crRNA(图2-A),相对分子质量约为405 kD,外观上呈现出“海马体”形状[16],6 个Cas7蛋白形成“海马体”的背部结构,crRNA的间隔序列片段沿着Cas7 蛋白1 ~6 号亚基产生的连续正电荷凹槽定位,在第6、12 和18 等位置出现核苷酸纽结,扭结之间5 个核苷酸堆叠的片段为A 型螺旋,位于Cas7 外层的凹面上;而在扭结位点上的碱基改变方向,从Cas7 的2 ~6 号亚基伸出的5 个长β发夹结构穿过其中,从而阻止了crRNA 特定位点与靶DNA 的碱基配对(图2-B)。Cas6 结合重复序列部分形成的发卡结构,切割长RNA 前体使其成熟,并在切割后仍与发夹保持稳定结合,保护crRNA 免受进一步降解[17],然后与其他蛋白形成复合物,固定crRNA 的3′末端;Cas5 蛋白固定crRNA 的5′末端,Cse1为大亚基,和crRNA 5′端一侧作用,特异性识别和结合dsDNA 底物,并与招募的Cas3蛋白直接作用;Cse2相对分子质量比较小,参与结合和固定dsDNA底物的非靶标链。
不同系统中crRNA 的长度不同,在Ⅰ型系统中作为确定效应复合物大小的分子尺,即与一些Cas蛋白的拷贝数有关。在Zymomonas mobilis的I-F亚型系统中,研究者发现在制备体外复合物时,添加的crRNA 中间隔序列长度不同,溶液中单体ZmCsy3 会转变为不同的低聚状态[18];在I-E 系统中,Cas7 蛋白相对间隔序列的周期为6 个碱基,Cse2 为12 个碱基,当间隔序列长度与野生型相差6 个碱基的偶数倍时,复合物稳定且均一,但相差奇数倍时,复合物的稳定性会大大降低[19]。这些现象充分说明了crRNA 的长度是影响复合物分子骨架大小以及其他亚基招募的关键因素。因此可以通过设计间隔序列的长度,改变骨架蛋白的拷贝数[20],从而调节效应复合物的活性,这一特性为定制靶向特定目标DNA的效应复合物开辟了可能性。
在复合物的结构中,各亚型一般都包括骨架蛋白、大亚基和小亚基。由于进化或生存环境的影响,一些蛋白的结构有差异,同时效应复合物的扭曲角度也会有所不同(图2-A、2-C、2-D)。在I-C亚型中,Cas5d 蛋白能够识别重复序列中的发夹结构,将长RNA 前体切割为成熟crRNA,代替了其他系统中Cas6 的功能,同时又与crRNA 的5′端结合起到固定作用[13]。在I-Fv 亚型中,效应复合物仅由3 种蛋白(Cas7fv-Cas5fv-Cas6fv)组成(图2-C),Cas5fv 起到识别底物DNA 中的PAM 序列的作用[21]。在I-B、I-C和I-D系统中,大亚基基因C端翻译产生小亚基蛋白Cas11结合在骨架蛋白一侧,在电镜结构以及生化研究中发现能够结合底物DNA的非靶标链[22],如果没有该亚基,效应复合物将无法 稳 定 结 合 底 物DNA[15]。Sulfolobus islandicusLAL14/1 的I-D 亚型则同时具有Ⅰ型和Ⅲ型的特征,其Cas3 蛋白分解为解旋酶Cas3′和核酸酶Cas3″,其中核酸酶结构域在Cas10d 的氨基端端融合表达,因此Cas10d具有切割底物dsDNA的活性;此外,该系统的骨架蛋白Csc2 能够催化特定长度ssDNA 为产物的切割反应[23],此功能类似于Ⅲ型系统中骨架蛋白切割前间隔序列转录产物的特性,说明I-D系统是Ⅰ型和Ⅲ型的进化中间体。
效应复合物识别底物dsDNA 时,需要满足两个基本条件:一是识别前间隔序列附近的PAM 序列,二是DNA 序列与crRNA 产生特定长度的互补配对区域。PAM 序列位于前间隔序列非靶标链中(不与crRNA 互补的链),Ⅱ型系统一般在前间隔序列的3′端[24],而Ⅰ型系统位于上游5′端。寻找靶标序列时,效应复合物中的大亚基识别PAM 序列,crRNA 接触到DNA 底物,依靠碱基之间作用力的强弱使得DNA 发生解旋,其中靶标链与crRNA产生局部区域的互补配对[25],通常称之为种子序列。研究发现,产生干扰效应时该序列至少需要18 个碱基左右的长度[26]。种子序列完成匹配后,非靶标链向外弯曲,形成R-loop 结构,其中DNA 弯曲的程度与碱基配对解开的DNA 长度之间存在一定关系[9,27]。
实验表明,效应复合物必须与靶标DNA 形成完整的R-loop结构,才能招募Cas3蛋白[28],这一特性可以防止Cas3 过早地结合到DNA 上,引起非特异性切割。Cas3 顺利被招募后与效应复合物中的大亚基结合(图2-E),同时非靶标链的单链部分进入Cas3 蛋白核酸酶结构域,在Mg2+等金属离子的催化下,Cas3 的3′→5′方向单链核酸酶切割活性会在PAM 下游十几个碱基左右的位点切割非靶标链,形成单链上的缺口(图2-F)。产生缺口的DNA链可能会穿过Cas3 的解旋酶结构域,从而启动后续的DNA 解链以及降解。这一过程中,Cas3 如何对dsDNA 进行持续降解的具体结构以及分子机制尚未研究清楚。体内编辑实验结果显示,长片段缺失主要发生在PAM 上游5′端,与Cas3 蛋白的切割活性方向一致;同时,下游也会产生小片段缺失,这与细胞内同源重组的机制有关,因为编辑后的序列与设定的修复模板一致[29-30];也有少部分研究人员认为下游缺失是由于Cas3蛋白在切割位点进行了双向降解[31],可能与后续单链DNA 的空间位置转变有关。关于Cas3蛋白切割方向的定论仍需进一步的实验证明。
从结构上来看,Ⅰ型CRISPR-Cas 系统的效应复合物由多种蛋白组成,分工明确,遵循着严格的分子组装方式,每种亚型都有各自的特点;在寻找靶标DNA 并干扰时,有着严谨的识别机制,与Ⅱ型系统如CRISPR-Cas9 的过程相比,要求更加严格,这可能是Ⅰ型CRISPR-Cas系统在自然界存在更为广泛的原因之一。
Figure 2 Cascade complex assembly of type I CRISPR-Cas system subtypes and protein-nucleic acid interactionA: CRISPR RNA-guided surveillance complex binding to dsDNA in Thermobifida fusca (PDB: 5U07); B: The base at the 6th position of spacer is blocked by the residues (sky blue) and does not bind to DNA; C: Cascade consists of only three proteins (Cas7fv-Cas5fv-Cas6fv) in the I-Fv system(PDB: 5O7H); D: Type I-F Cascade complex from Pseudomonas aeruginosa (PDB: 6NE0); E: Cas3 binds to the large subunit in Cascade,and the nuclease domain is close to the non-target DNA (PDB: 6C66); F:Detail of Cas3 and DNA in the E.Grey: Cas7 (backbone); Green: Cas6; Purple: Cse2; Dark blue: Cse1 or Cas8; Orange: Cas5; Light blue: Cas3.Red chain: crRNA; Yellow chain: target DNA; Violet purple chain: non-target DNA.Ball in F:metal ions in Cas3
CRISPR-Cas9 系统是研究者最早发现并且其分子机制研究透彻的系统之一,已经成为基础和应用生物学研究中普遍选择的基因编辑工具[32-33],然而简单易操作也会附带一些问题,例如Cas9 产生基因敲除后,仍然存在能编码蛋白的假信使RNA,翻译产生具有一定活性的蛋白影响编辑效率[34-35],Cas9 和Cas12 进行大片段缺失的能力也相对有限,而Ⅰ型系统或可以填补这一空白,开发成为效果更佳的基因编辑工具。目前的研究主要从细胞水平出发,在原核或真核细胞中观察基因编辑的效率和靶向性。
Cas3 切割靶向DNA 之后,核酸酶活性对DNA进行持续降解,对比Cas9的单碱基突变,这一特性为基因编辑领域提供了新思路。Thermobifida fuscaI-E 型的效应复合物可以在人类细胞中产生一系列大的基因组缺失,通过电转效应复合物和Cas3蛋白,在单个CRISPR 靶向位点的上游引起长片段DNA 损伤(几百碱基到100 kb)而引起基因沉默,效率最高可达60%,显示了它们在大范围基因组操作中的潜力[36]。鉴于纯化蛋白复合物的过程容易限制重新编程和优化系统的能力,研究人员开发了基于转染质粒的效应复合物和Cas3蛋白在人类细胞中异源表达方式,便于靶向不同的位置,且编辑 范围 可 达 到200 kb[37]。 此外,Pseudomonas aeruginosa的I-C 系统在该细菌内应用时,单靶点的编辑效率94% ~100%,可敲除7 ~424 kb长度的片段;同时,作者将Cas3的大片段敲除功能应用于基因组最小化研究中(图3-A),通过对迭代筛选的存活细胞进行测序,成功敲除了非必需基因总长达849 kb,占整个基因组大小的13.6%[31]。从最小化基因组角度出发,删除非必需基因有利于我们解析生命在底层上的架构,促进人工生命设计和合成的发展,同时也可用于研究非编码DNA 的功能。这一应用也说明了在选择靶向位点时,要考虑到大片段敲除的随机性对细胞生长必需基因的影响,否则将影响细胞本身的存活。
基因敲除后,DNA 的修复方式之一是细胞内的同源重组机制,当人为给予修复模板时,该系统可以在基因组中的指定位点插入指定片段。一般方法是在表达CRISPR 阵列的质粒上携带一段非靶向的待插入片段,同时在两侧加上基因组插入位点两侧的同源序列,这段特定片段即被插入到基因组中(图3-B)。例如,在引入靶基因的点突变或连续点突变片段后,野生型的基因被靶向降解而突变体存活,通过筛选即可以得到一系列基因组水平上的突变菌株[29]。实验中发现,对某些碱基位点的编辑效率比较低,这可能是因为突变这些位点后序列仍可被有效靶向。从结构上看,DNA结合crRNA时,第6、12、18等位点的碱基出现翻转而不与crRNA 相互作用,因此在这些位点的突变不会影响特异性识别,从而产生编辑逃逸。此外,基于CRISPR 的基因编辑策略可以对染色体基因进行原位标记,通过设计同源重组的位点和插入片段序列,在目标基因的起始密码子ATG 后插入24 个碱基的flag 基因片段的效率接近100%[30],便于在生理条件下进行基因表达研究。需要注意的是,对于多倍体生物而言,每个细胞的染色体数目为多个,导致自身基因组之间发生高频率的同源重组,在一定程度上产生对CRISPR 系统的耐受,理论上可以尝试更换蛋白表达启动子,增强CRISPR系统的瞬时表达等方法来控制。
除了对单个基因进行编辑,CRISPR 阵列的序列特点使得多基因同时编辑变得非常容易。Ⅰ型系统中,只需要在表达crRNA 质粒中增加几十个碱基,设计多个间隔序列即可(图3-C),I-B[30]、IC[31]和I-F[38]等系统都验证了这一应用。此外,根据Cas3 的核酸酶活性方向,在需要删除的片段两端分别设计crRNA,向中间降解后或可产生特定范围的敲除,降低单向降解的随机性。目前靶向多基因的实验大都在原核细胞中进行,可能是由于电转质粒后再表达蛋白对真核细胞的毒性较大[36],因此需要电转不同的核糖核蛋白复合物来实现,这一手段有一定技术难度,或许将成为下一阶段的研究目标。
CRISPR-Cas 系统精准的靶向性使其可以作为体内引导工具。效应复合物在PAM 序列和crRNA的引导下,能够将融合表达的蛋白带到调控位点,从而激活基因(CRISPRa)或沉默基因(CRISPRi)的表达,且该融合一般不会影响效应复合物本身的组装(图3-D)。研究人员在HEK293T 细胞中转染相关质粒,将菌株效应复合物的骨架蛋白Cas7 融合转录激活因子VPR(VP64-p65-Rta)[38],通过效应复合物的靶向作用带领VPR 到达指定位点,调控外源蛋白GFP 或内源蛋白HBB 的表达。同样可将效应复合物的蛋白融合一些核酸内切酶或DNA 甲基化酶等从而发挥特定的效应[39],例如,融合依赖二聚化的非特异性FokI 核酸酶结构域可实现对靶标基因的高效率特异性编辑[37]。由于骨架蛋白拷贝数与间隔序列的长度成正相关,研究发现按比例延长间隔序列的长度能在一定范围增加骨架蛋白的拷贝数,由此增强对特定靶标位置上基因转录的沉默调控[40],这可能与crRNA-DNA 之间互补的长度增加以及效应复合物发挥的空间位阻效应有关,提示可以调整间隔序列的长度来改变效应复合物的活性,以满足不同的调控需求。同时,效应复合物的多亚基特性,也为融合多个调控因子发挥作用提供了极大的可能性。
CRISPR-Cas系统存在于约90% 的古细菌以及40% 的细菌基因组中,为了应对复杂的生存环境,很多细菌同时具有多个CRISPR-Cas 系统,这广泛性揭示了CRISPR-Cas系统作用机制的高效和精确性。通过优化改造Ⅰ型系统的效应复合物,可以实现精准地插入、敲除或替换目的基因。例如通过改变Cas 蛋白的某些氨基酸序列改变效应复合物的最佳活性温度,从而更适合在人类细胞中应用;同时,效应复合物的含量在一定范围内与编辑效率呈现正相关。融合表达调控基因时,延长间隔序列的长度可以增加骨架蛋白的拷贝数,从而增强调控作用,一定程度上提高编辑效率;此外由于重复序列具有同源重组效应,可能丢失中间的间隔序列而降低效率,这一问题可以通过改变引起重组反应的部分碱基来解决。选择靶标序列时,crRNA 与前间隔序列之间的核苷酸错配影响CRISPR复合物干扰的效率,相对于鸟嘌呤,胞嘧啶突变更容易被耐受[41],有研究认为前间隔序列中适度的高鸟嘌呤-胞嘧啶(GC)含量会提高编辑效率,但过高的GC含量(>62.5%)也会降低CRISPR干扰效应[42]。
Figure 3 Gene editing applications of type I CRISPR-Cas systemA: Cas3 deletes large fragments of non-essential genes and minimizes the genome; B: Insert a gene into the target fragment through homologous recombination; C: Design different spacers in one CRISPR array to target different genes and edit two genes at the same time; D: Regulatory protein is fused with Cascade,and reaches the transcriptional regulatory region through the targeting effect of Cascade,controlling gene expression or silence
对于Cas3 而言,其长基因片段缺失功能将有助于对非编码区基因的探究,有望开发成为大规模检测基因组功能的工具,对遗传学研究具有深远的意义。此外,CRISPR 激活(CRISPRa)和CRISPR 抑制(CRISPRi)的应用范围广泛,无论在实验方案设计或实验操作中,融合不同调控蛋白过程的可操控性较强,Ⅰ型CRISPR-Cas 系统的效应复合物在基因编辑的各个方面都具有很大的应用价值。未来应用中,在动物模型搭建、基因组功能研究、基因检测以及基因编辑为原理的疾病治疗、药物递送等领域,Ⅰ型CRISPR-Cas 系统的特点和功能为人们提供更多的方法和思路。