李雪柔
(南京市第二十九中学 江苏南京 210036)
基因组定点编辑技术一直是研究者致力于开发的重要技术,对于遗传育种、定向增强经济作物的经济价值、治疗遗传病等等具有重要的意义。但是早期的技术依赖于同源重组,效率很低、特异性差,使得其应用受到很大的限制。人工核酸酶的出现极大地提高了基因组编辑的效率,人工核酸酶经历了两代技术分别是锌指核酸酶和转录激活效应物样核酸酶,其靶向DNA的特异性是由蛋白质与DNA碱基的特异性结合实现的。但是在应用人工核酸酶时,需要根据DNA靶位点的序列构建可以编码产生能与靶位点特异性结合的锌指蛋白或者转录激活效应物的DNA结构,由于这两个蛋白氨基酸数量多且重复性高,给其编码序列的构建带来了很大的难度。CRISPR/Cas9技术的出现,彻底改变了研究者实现基因组编辑的方式,凭借其最为突出的易于构建的优势迅速成为应用最为广泛的基因组编辑工具并建立了高通量功能性筛选的方法学。本文综述了基因组编辑的原理,三种基因组编辑工具,高通量功能性基因组学方法和在癌症相关基因的功能性筛选方面的应用。
基因组编辑技术即在基因组水平上对DNA分子的序列进行定位与修改,从而达到定向调控基因表达包括基因上调和下调、改变遗传密码、完全破坏基因的表达等目标。因此,基因组编辑的工具通常由两个部分组成,即定向模块和功能性模块。定向模块是指在基因组中定位于目标编辑的DNA序列的模块,而功能性模块则是指在靶位点定位后发挥基因组编辑的元件。基因组编辑发生的原理是特异性地在基因组位点引入DNA双链断裂,从而引发细胞内DNA损伤修复机制包括同源重组和非同源末端接合,基于此完成包括基因打靶、基因修复、目的基因定点插入等基因组编辑的目的。综上,基因组编辑工具包含与基因组特异位点的DNA序列相结合的元件和在目标序列引入DNA双链断裂的功能性元件[1]。
目前,基因组编辑技术经历了三代系统,分别是锌指核酸酶ZFN、转录激活效应物样核酸酶TALEN和CRISPR/Cas9系统。ZFN和TALEN是依靠蛋白质与DNA特异性结合来实现靶位点定位的,目前两个蛋白的功能结构域已经实现模块化,两个蛋白的相似之处在于与DNA碱基的特异性结合的区域具有高度的重复性。而在基因组特定位点引入双链断裂依靠的是非特异性的核酸酶FokI。之后发展起来的CRISPR/Cas9系统通过一段短RNA将Cas9蛋白导向靶位点实现定点DNA双链断裂,系统的构建更加容易。
第一代基因组编辑技术ZFN也叫作锌指蛋白核酸酶,由锌指蛋白与具备切割DNA双链的核酸酶融合而成。锌指蛋白是可以与DNA碱基特异性结合的蛋白,最初发现于蛙类动物的细胞中,锌指蛋白的重复单元可以与DNA碱基特异性结合,每一个锌指蛋白可以特异性地识别三联体碱基。由于三联体碱基有64种不同的组合,因此,根据不同的DNA靶序列,需要对于不同的DNA碱基三联体都有比较高效和特异的锌指蛋白重复单元。这正是锌指核酸酶目前应用的一个很大的局限性,即ZFN应用的位点普适性。
锌指蛋白一般由3~4个锌指结构重复单元串联而成,因此,可以特异性地识别9~12个DNA碱基。目前最为常用的锌指结构是Cys2His2锌指,是由大约30个氨基酸包裹着一个锌原子组成,目前研究者通常根据DNA靶位点把相应的锌指结构串联起来从而识别9个或者12个碱基。与锌指蛋白融合的可以切割DNA双链的核酸酶是FokI,为了减少FokI的非特异性切割,研究者利用其二聚体才能发挥作用的特点,将FokI单体与锌指蛋白串联。因此,锌指蛋白核酸酶需要成对工作,在靶位点附近针对DNA链设计两条ZFN,两条锌指蛋白之间应为FokI留有合适的间隔区域,通常5~7个碱基为宜,合理的间隔区域对于ZFN二聚体的工作至关重要。通过研究者长期的努力,识别大多数碱基三联体的锌指蛋白相关数据已经形成了公共数据库。针对每一条DNA靶序列,研究者通常可以根据与密码子对应的关系对编码锌指结构的DNA进行模块化组装,再导入到目标生物。目前,在从低等到高等的很多生物包括斑马鱼、果蝇、小鼠、高等哺乳动物以及植物中,ZFN技术已被广泛的应用,对于疾病的基因治疗有重要的潜在意义[1]。
第二代人工核酸酶技术为TALEN,即转录激活样效应物核酸酶,由转录激活效应物和FokI融合而成。因此,与ZFN相同的是,TALEN也是成对工作的,只是两对TALE之间的间隔要求更大,通常是10~15碱基。TALE首次被发现于一种植物致病细菌黄单胞杆菌中被发现,该蛋白正是这种细菌导致被感染植物发病的原因。黄单胞杆菌感染植物后,细菌中的TALE蛋白会被释放进入植物的细胞中,TALE蛋白会特异性地识别一些植物免疫相关基因的DNA序列,并凭借TALE蛋白C端的转录激活因子上调相应基因的表达,导致被感染植物出现一系列的异常。研究者发现了TALE蛋白的功能和作用机制后,逐步揭示了TALE蛋白与DNA特异性结合的机理。因此,与锌指蛋白相同的是TALE也是依靠蛋白质和DNA碱基特异性结合的,不同的是TALE蛋白与DNA的特异性结合是一对一的模式,即一个重复单元与一个DNA碱基特异性结合的。对于A、T、C和G四个碱基都有高效特异性识别的重复单元,因此根据DNA靶位点的序列将相应的重复单元串联起来,就可以编码获得与靶位点识别的TALE蛋白[2]。
与ZFN相比,TALEN的DNA识别域更长,甚至可以达到40个核苷酸序列,因此它不易脱靶。同时,ZFN和TALEN面临操作困难的限制性,即都需向细胞内导入蛋白质,但是蛋白质转入细胞的方法操作难度非常大,需要向细胞导入可以表达体积庞大且重复性高的DNA,经转录和翻译后表达产生可以与靶位点特异性结合的蛋白质。因此,实验周期长,成本高,且实验室需要有一定的基础才可以使用一些已经发表的方法,极大地限制了两种人工核酸酶在高通量方面的应用。
CRISPR/Cas9系统是近年来涌现出来的的基因组编辑工具,该系统通过一段小RNA分子可以把Cas9蛋白导向DNA靶位点,并依靠Cas9的核酸内切酶活性在靶位点引入双链断口,从而启动细胞内的DNA损伤修复机制完成靶基因的编辑。CRISPR/Cas系统在1987年被大阪大学的研究人员在细菌中的碱性磷酸酶基因附近区域被首次发现,功能是细菌中的免疫作用,来抵御病毒和外源DNA的入侵。在以后的研究中,根据其特点被命名为CRISPR系统,即成簇的规律间隔的短回文重复序列。
CRISPR/Cas系统由CRISPR序列元件和Cas家族基因组成,CRISPR序列元件由高度保守的重复序列与间隔序列排列组成,而附近的Cas基因编码具有核酸酶活性的蛋白质,可以在定位后对DNA靶序列进行特异性的切割。细菌中的CRISPR系统有三个类型,不同类型的RNA加工过程和发挥核心作用的蛋白质不同,其中II型系统最为简单,发挥核心作用的蛋白质是Cas9一个蛋白[3]。
2013年初的两篇《科学》文章利用II型系统即CRISPR/Cas9系统在人源细胞系中实现了高效的多重基因组编辑,他们通过基因工程科学的方法优化了细菌的II类CRISPR系统,并比较了其与TALEN方法在基因组编辑方面的效率,发现其效率更高更稳定。与之前的人工核酸酶相比,其另外一个明显的优势就是易于构建,只需要根据DNA靶位点序列设计一段长约20个碱基的DNA序列,并克隆进入U6启动子转录表达的载体里面就可以实现对靶基因的编辑。随后,研究者们继续开发CRISPR/Cas9系统,分别实现了靶基因的上调、下调、片段插入等等。该系统在应用时,位点的设计有一个要求,就是PAM序列:NGG(N代表A、T、C、G)。同时,在人类基因组中,平均每8bp就存在NGG序列,所以可以近似的认为靶位点序列的设计不受任何的限制[4,5]。
自从CRISPR/Cas9系统在高等真核生物细胞实现基因组编辑,就凭借其高效和易于构建的优势迅速发展成为应用最为广泛的基因组编辑工具,并被研究者通过慢病毒介导,与深度测序技术结合建立了高通量功能性筛选方法学。所谓高通量功能性筛选,就是通过基因组水平的筛选实验鉴定与研究兴趣相关的基因,实现基因与功能之间的对应关系,对于研究具有重要生物学功能的基因、重大疾病的特异性标记物和潜在的治疗靶点具有重要的意义。
在进行基因功能性筛选时,研究者通常会设计一个sgRNA文库,针对全基因组水平的每一个基因都设计高效和特异性的sgRNA靶向基因的编码区域,以此利用细胞内产生DNA双链断裂后的非同源末端接合的修复方式,产生移码突变而发生基因敲除。当把sgRNA文库通过慢病毒侵染的方式导入细胞后,就得到了一个细胞文库,文库中每个基因都有一定数量的被敲除细胞,在给文库细胞以筛选压力后,就会富集得到被敲除的基因是与筛选压力功能相关的文库细胞,最后通过深度测序分析被富集细胞的sgRNA种类和数量,即建立基因与功能之间的联系。当基于基因敲除的筛选方法被建立之后,研究者又开发了基于CRISPR/Cas9系统的基因上调、基因下调和基因组大片段删除的针对蛋白质编码基因和非编码调控元件的高通量功能性筛选方法[6,7]。
癌症是困扰人类健康和影响寿命的重大疾病,发生的机制是基因突变。癌症之所以难以治疗,是因为其病因的复杂性和不同患者之间的异质性。随着癌症生物学家对于肿瘤细胞的不断研究和探索,逐渐总结出了肿瘤细胞的十大特征分别是:具有无限的增殖信号;拒绝细胞死亡,不断更新;拥有抑制因子(抑制因子的作用:具有可以回避增殖信号的抑制作用);拥有活化的增殖和迁移能力,即肿瘤细胞具备干细胞能力,可以随体液到其他组织增殖分化;具有永生能力,不断增殖;可以利用表皮生长因子,诱导新的血管生成,让肿瘤细胞可以持续获得增殖所需营养物质;免疫逃逸,抑制T细胞的免疫作用并抑制T细胞分化;可以促进抗炎症体生成;肿瘤细胞的增殖伴随着大量的突变,基因组极其不稳定;可以反向调控细胞的能量和代谢,从而获得细胞增殖的能量。对于肿瘤细胞不断深入的理解,帮助研究者有针对性地开发全新的治疗思路,有针对性地抑制肿瘤细胞。在肿瘤细胞的特征中,细胞增殖和迁移是癌症发展的两个重要因素[8]。
由CRISPR系统介导的高通量功能性筛选技术通过靶向基因的sgRNA和Cas9蛋白结合,通过混合型文库的筛选寻找到发挥特定功能的基因。因此,我们可以利用高通量功能性筛选技术筛选出影响肿瘤细胞增殖和迁移的基因,这会给癌症全新靶点的研究带来新的思路。对于肿瘤细胞增殖相关的基因,通过慢病毒侵染在肿瘤细胞系建立sgRNA细胞文库后,将细胞文库培养20代以上,提取出sgRNA的整合区域进行二代测序,就可以发现丰度出现变化的sgRNA。被正向富集的sgRNA则表示对应基因被敲除后有利于肿瘤细胞的增殖,因此其靶向基因为抑癌基因;被负向富集的sgRNA则表示对应基因被敲除后不利于肿瘤细胞的增殖,因此其靶向基因为促癌基因。对于影响肿瘤细胞迁移的基因,则可以通过细胞迁移检测报告系统分离出迁移能力变快和变慢的细胞,进一步推理出其靶基因对于细胞迁移的作用。这些基因的获得,为肿瘤的治疗研究提供了全新的靶点和策略。
基因组编辑技术是近年来最具影响力的方法学之一,基因组编辑工具包含可以模块化的靶向区域和功能性区域,经历了人工核酸酶(包括ZFN和TALEN)以及CRISPR/Cas9系统三代技术,极大地改变了研究者进行生命科学基础研究的方法思路,为基础医学的研究提供了全新的技术手段。把基于CRISPR/Cas9系统的功能性基因组学方法应用于肿瘤细胞相关功能的研究之中,一定是未来重要的研究方向,能够为肿瘤的治疗提供更多的靶点。