李文,曹俊国,曹满园,李丹丽,许保增
(中国农业科学院特产研究所特种经济动物分子生物学重点实验室,长春 130112)
基因编辑是一种对生物体基因组特定位点进行精确修饰的技术,通过对基因片段的敲除、敲入及替换,实现对生物体某一特性或性状的改变。最早的基因编辑技术出现在1986年,Thomas 等[1]通过基因打靶成功将抗药基因导入新霉素抗药缺陷细胞,使细胞重新恢复抗药性,其主要是利用了基因的同源重组原理。随后,基因编辑技术不断发展完善,先后出现了人工锌指核酸酶(Zinc finger nucleases,ZFN)技术、类转录激活因子效应物核酸酶(Transcription activator-like effector nucleases,TALENs)技术,与传统基因编辑技术相比,新型技术具有更高的效率和打靶准确率,在生物基础研究、基因治疗、遗传改造等领域展现了巨大的潜力。2013年,Zhang 等[2]开发了利用规律性重复短回文序列簇(Clustered regularly interspaced short palindromic repeats/Cas endonuclease,CRISPR/Cas)系统对基因靶向编辑的新技术,大幅度提高了基因编辑的效率和可靠性,且相比前两种技术,其操作更加简便、成本较低。CRISPR/Cas 成为第3 代新型基因编辑技术,适用于包括生物技术、医药及临床在内的多种生物领域,掀起了国内、外基因编辑的热潮。
ZFN、TALEN 及CRISPR 技术都可以认为是一种用来纠正和编辑遗传缺陷的基因剪刀,三者在工具或方法上有差异,但原理基本是相同的。通过诱导双链DNA 断裂(DNA double strand breaks,DSBs),激活DNA 的自我修复机制,包括非同源末端连接修复(Non-homologous end-joining ,NHEJ)或同源重组修复(Homology-directed repair,HDR)两条途径。NHEJ是一种低保真度的修复过程,在DSBs 修复重连的过程中易发生碱基的随机插入或丢失,导致移码突变使基因失活, 实现目的基因敲除。若存在一个外源性供体基因序列,NHEJ 也会将其连入DSBs 位点,从而实现定点的基因敲入。而HDR 过程相对具有较高的保真度,在一个带有同源臂的重组供体存在的情况下,供体中的外源目的基因会通过同源重组过程完整的整合到靶位点,不会出现随机的碱基插入或丢失。如果在一个基因两侧同时产生DSB,在一个同源供体存在的情况下,可以进行原基因的替换。
锌指核酸酶由特异识别DNA 的锌指蛋白(Zinc finger protein,ZFP)和FokⅠ核酸内切酶的剪切结构域两部分构成,是一种人工合成的融合蛋白。锌指结构(ZF)是ZFP的基本结构单位,存在于大多数蛋白质中的一种蛋白基序,1983年首次在非洲爪蟾的转录因子TFⅢA 中被发现[3]。ZF 在不同的物种间具有差异性,至今已发现了十几种不同结构,主要表现在锌指数目和相邻锌指间连接长度的不同。锌指核酸酶的N 端是多个Cys2-His2 锌指蛋白组成,每个蛋白可以识别DNA 双螺旋大沟的3bp 片段,同时早期有研究发现,带有3 个ZFP 的结构域能识别出9-18bp 的DNA 序列[3]。因此,可以构造不同的ZFP 结构域来特异识别DNA片段,目前,构造方法主要有直接构造法、模块组装法、文库筛选Wolfe 库、CoDA 法等。其中,应用较多的一种是模块组装法,即通过锌指模块(能识别连续3 个碱基的锌指作为1 个“模块”)预选库进行大量组合,能够识别多达64 种核苷酸三联体[4]。另一种寡聚体库工程法产生的ZFNs 对靶基因有更高的亲和性和特异性,但此方法目前未能设计出针对任意序列的核酸酶。将人工设计产生的ZFP 与非特异性FokⅠ剪切结构域结合形成具有活性的二聚体,即可对目标基因进行特异剪切。
ZFN 作为第一项被广泛使用的基因剪切工具,在小鼠、大鼠、玉米、斑马鱼及人类细胞中的技术建立已经较为成熟。2002年,Bibikova 等[5]利用ZFN 成功敲除果蝇X染色体上的Yellow基因,并且此变异能够稳定遗传到下一代,证明了ZFN可应用于动物的转基因研究。2010年,Watanabe 等[6]用ZFN 将猪原代成纤维细胞中稳定表达的增强型绿色荧光蛋白成功敲除,经检测分析,ZFN 诱导的突变包括在其切割位点的碱基插入或敲除、替换,为转基因猪的模型建立提供了一个方向。尽管ZFN 已在各领域广泛应用,但仍存在一些问题:1)ZFN 设计成本大、耗时长,并且目前不能设计针对任意靶基因序列相应的ZFN;2)ZFN 切割后的细胞易产生毒性,且脱靶效应较高;3)目前尚无法实现人工锌指核酸酶的大规模生产和高效筛选。
与ZFN 类似,TALEN 是由特异识别结合DNA 的Tale 蛋白和FokI 核酸内切酶融合组成。Tale 蛋白是一类从植物病原菌黄单胞菌属分离出的效应蛋白。2009年,Moscou[7]发现了Tale 蛋白特异识别并结合DNA 的作用机制。2011年,Cermak[8]首次将改造的Tale蛋白与FokI核酸内切酶构建了TALEN技术,并证实其能定向修饰基因组,此后有大量实验证明,此技术在人类细胞、小鼠、大鼠、斑马鱼等不同物种均适用[9-11]。Tale 蛋白结构包括N 端转运信号、C 端核定位信号和转录激活结构域,中间是一段高度保守的串联重复区。串联重复区一般由1.5~33.5 个基本单元组成,每个基本单元包含33~35 个氨基酸残基,其中第12 位和第13 位残基存在差异,其他位氨基酸残基相同。因此,第12 位和第13 位残基又称为重复可变双残基(Repeat variable di-residue,RVD),决定了Tale 蛋白与DNA 碱基的特异识别。另外,有研究认为,第12 位残基主要起稳定RVD 环的作用,而第13 位氨基酸残基才真正具有特异识别碱基的功能[12]。RVD 与碱基的识别具有稳定的一一对应关系:NI(Asn 和Ile)识别A 碱基、HD(His 和Asp)识别C 碱基、NG(Asn 和Gly)识别T碱基、NN(Asn)识别G/A 碱基及NS(Asn 和Ser)可任意识别4 种碱基[13]。每个基本单元可识别一个核苷酸,并可以任意顺序组合。因此,在识别靶序列的特异性上,TALEN 比ZFN 更具有明显优势。
随着对TALEN 的深入探索,对靶位点的选择变得更加灵活,使其在基因修饰中应用日益广泛。寻找一种便捷、成本低且效果好的TALE 蛋白合成方式成为TALEN 建立的一个关键点。目前,人工构建TALE方法主要有:1)Gateway 组装法,最早的构建方法[14],缺点是成本高且成功率低;2)Golden Gate 组装法,其主要特点是利用BsaI、BsmBI 等限制性核酸内切酶产生多个不同的黏性末端,再用连接酶拼接成所预想的Tale 重复单元,实现多个模块的高效连接[15]。此外,还有限制性酶切连接法、单元组装法等。
CRISPR 普遍存在于90%古细菌和40%细菌中,最早是1987年日本学者在Escherichia coli 染色体上发现的[16],但在当时其蕴含的生物学意义并没有被人所察觉。直到2005年,有报道称CRISPR 能够通过入侵的噬菌体DNA获得一段新的DNA序列,且与细菌的天然免疫防御有关[17]。2012年,研究发现,CRISPR/Cas9 实际上是一种由RNA 引导的核酸内切酶[18],能够靶向切割再次入侵的外来基因组,用来引导的RNA 被称为向导RNA(guideRNA,gRNA,又被称为crRNA)。2013年,CRISPR/Cas9 技术正式用于DNA 编辑修饰中,与前两种技术相比,该技术的构建成本大大降低、操作更加便捷、编辑效率也更高效,其不断地研究发现及应用为生物学领域的发展带来巨大变革。
CRISPR 系统根据CAS 蛋白的不同分为3 种,其中Ⅰ型和Ⅲ型依靠多个效应蛋白共同发挥作用;Ⅱ型仅需单一效应蛋白,如Cas9、Cpf1、C2c1、C2c2 蛋白等。因此,建立以单个效应蛋白为基础的CRISPR 平台成为首选。不局限于基因组编辑,近年来,一种新型核酸C2c2(现被称为Cas13a)被发现[19],DNA和RNA都可编辑,现已应用于病毒细菌检测、癌症早期诊断及遗传疾病治疗等多方面,其应用价值非常具有潜力。
CRISPR基因座主要由一段前导区(Leader)、多个高度保守的重复序列(Repeats)和高度可变的间隔序列(Spacers)交叉排列组成[20]。crRNA 便是由Spacer转录得来。CRISPR 基因座前是一段Cas 基因,用来合成相关蛋白。Cas 基因前有一段被称为促crRNAs成熟的转录活化RNA(Trans-activating crRNA,tracrRNA)的区域,作用是与crRNA 结合构成RNA 双链体tracerRNA:crRNA,引导Cas9 蛋白对靶序列进行切割。
天然Ⅱ型CRISPR/CAS 防御机理主要分为3 个阶段。第1 阶段,整合外来噬菌体或质粒的一小段基因片段构成新的间隔序列;第2 阶段,由spacer区域转录的前体crRNA,在Cas 蛋白和核酸酶的作用下形成成熟的crRNA,成熟的crRNA 与tracerRNA 和Cas9合成复合体;第3 阶段,单链引导RNA(sgRNA)识别入侵的DNA 片段与之结合,指导核糖核蛋白复合体对其进行切割。其中在第3 阶段,Cas9 蛋白通过与原间隔区序列邻近基序(Protospacer adjacent motif,PAM)和sgRNA 共同作用,识别PAM 位点,对PAM临近序列进行解旋,紧接着Cas9 蛋白发生构象重排具有切割活性,对2 条单链DNA 切割。
CRISPR/Cas9 系统主要由特异引导gRNA 和内切酶Cas9 2 部分构成。其基本工作原理是根据目标序列设计出gRNA,5'端序列与靶基因互补以及3'端序列能与Cas9 结合,从而定位PAM 前3~5 个碱基距离的任一序列进行敲除、插入及突变等修饰。对于gRNA的设计可以通过在线网站(Optimized CRISPR Design.com 等)进行。该系统能否顺利发挥作用的关键之一就是避免脱靶问题,这是gRNA 设计中的重要一点,目前脱靶效应的解决仍处在初期阶段,但一些准则及设计算法已被提出,利用生物学信息工具尽可能选择出特异性最强的目的序列,如一些脱靶效应评估软件等。
对于转运CRISPR/Cas9 进入细胞,目前主要有3种方式:1)利用质粒载体,将带有Cas9 基因片段和gRNA 基因片段的质粒转入细胞体内,在细胞内通过转录翻译表达Cas9 蛋白,其不足之处在于其过程可能需要较长的时间,且存在脱靶问题,易引起机体自身免疫反应[21,22];2)转运Cas9mRNA 和人工合成的gRNA,此方法相较于质粒转染脱靶率低、生物毒性低[23],但此方法的稳定性最差;3)将带有定位信号(NLS)的纯化Cas9 蛋白以活性形式导入细胞,例如,使用iTOP(Induced transduction by osmocytosis and pro-panebetaine)运载系统可有效的将蛋白质与其他化合物导入细胞内,有研究表明iTOP 运载Cas9/gRNA复合体进入人体胚胎干细胞,其基因编辑效率达到26%[24]。目前,质粒转运是最常使用也较为稳定的一种方式,但随着蛋白质和核酸运载体的发展,或许能为CRISPR/Cas9 的转载提供更为安全有效的思路。
基因编辑的目的之一是为了实现基因治疗,尝试从基因水平上对遗传疾病的发生进行调控,因此,基础动物模型的构建是关键的一步。自CRISPR/Cas9 技术应用以来,被广泛用于生物模型的建立。2013年,3个实验室成功实现了对小鼠细胞的单基因、双基因及多基因的敲除[25-27]。同年,Hwang 等[28]利用CRISPR系统成功在斑马鱼胚胎中进行基因的定点修饰,为脊索动物的研究提供了合适的模式生物。Friedland 等[29]用显微注射将携带gRNA/cas9 的质粒转入秀丽线虫胚胎中,实现了个体水平的基因敲除。2014年,中国科研人员首次利用CRISPR/Cas9 对食蟹猴进行精确基因编辑,获得了一批定向突变的基因工程猴[30],由于灵长类动物与人类同源性较高,这一研究为之后人类疾病的研究提供了很好的研究模型。
培育携带遗传缺陷的小鼠品系是研究癌症相关突变作用的一种方法,然而常规培育癌突变小鼠耗时耗力。2014年,Zhang等[31]找到了一种替代方法,用CRISPR 系统将致癌突变基因导入成年小鼠肝脏中,建立携带癌基因的小鼠模型,大大降低了研究成本,为癌症的多方面研究提供了便利。在癌症小鼠模型中,对体内功能性变异进行高通量检测,用sgRNA 进行标记,绘制小鼠体内肿瘤抑制因子的临时功能癌症基因组图谱[32],揭示了在免疫功能小鼠中多种突变导致的肝癌发生,而以往的研究只针对一些经典的致癌基因,缺乏对癌症发生过程中其他基因作用的全面评估。
此外,Pcsk9 基因的缺失能够降低心脏病的发病率[33],因此,有学者用眼球注射的方法将靶向作用Pcsk9 基因的gRNA/Cas9 载体转入小鼠体内,结果表明,小鼠肝脏细胞中50%的Pcsk9 产生突变,其表达量也下降了90%[34]。尽管尚未验证在人体内敲除Pcsk9是否会出现副作用,但是这是科学家首次尝试用CRISPR/Cas9 系统敲除基因进行基因治疗,证明了其可行性。此外,酪氨酸血症、高血氨症、杜氏肌营养不良(DMD)、视网膜营养不良等疾病的治疗研究中,都尝试了在小鼠模型中进行基因敲除治疗。
目前,大量关于CRISPR/Cas9 的基因治疗试验已有报道,揭示了技术上存在的问题:DNA传递效率不理想、HDR 效率较低、脱靶效应等。但尽管如此,CRISPR/Cas9系统的高效性仍使其在基因治疗中展现了巨大潜力,理论上基因组中每8 个碱基就能找到一个编辑位点(PAM 序列),基本可以实现任意序列位置的修饰,且操作简单。
随着基因编辑技术的不断发展进步,各领域的应用也有了更大的空间。除了在基因组编辑方面的应用外,Mazhar Adli[35]教授利用CRISPR/Cas9 技术首次实现了实时观测活细胞内基因运动,让人们能够以三维的视角观测基因在细胞内的运动路径及位置。这种全新的视角指明了一种从未有过的方式,通过观察基因的三维定位来探究基因是如何工作及基因之间的相互作用。
目睹众多生物的基因组的快速发展是令人兴奋的,在这个过程中,CRISPR/Cas9 系统已经成为许多实验室的首选工具,成为一种多用途的基因组编辑工具。自从报道利用CRISPR-Cas 进行基因组编辑以来,基因组学及生物医学等在过去5年中取得了相当大的进展和突破。这些技术为建立研究、诊断和治疗工具提供了一个基础,具有前所未有的简单性、精确性和多功能性。这些工具将加深我们对疾病机制的理解,并扩大我们对生物基因网络的认识。消除许多无法治愈的疾病,如癌症、先天性遗传疾病等,在可预见的未来都是有希望实现的。尽管目前这些技术尚处在初级阶段,但随着科研人员的不断探索发现,这些新技术将带来真正的价值和效益。