汪亮,徐澍
(中国药科大学基础医学与临床药学学院,江苏 南京 210009)
“人类基因组计划”的完成,为阐明基因组功能以及在遗传变异和生物表型之间建立因果联系提供了可能,而高效、简便和精准的基因编辑系统是将这一可能付诸实现的重要工具。许多以此为目标的基因编辑系统被开发和应用,从2012年开始大规模应用的成簇规律间隔短回文重复系统(clustered regularly interspaced short palindromic repeats-CRISPR associated nuclease 9,CRISPR-Cas)[1]到 以 前 的 转录激活样效应因子核酸酶系统(Transcription activator-like effector nuclease,TALEN)[2]和锌指核糖核酸酶系统(Tincfinger nuclease,ZFN)[3]等。这类基因编辑工具可以在DNA链上产生双链断裂(DSB),从而在编码基因中诱导插入缺失(indels),使之移码突变,继而解析阐明特定基因和调控元件的功能。但这种“切割”技术存在两大问题,首先,“切割”是不可逆转的,无法应用于与致死性突变相关的基因;另外,DSB的形成可能导致未知的细胞毒性。
相比于基因编辑,调控基因表达不会像“分子剪刀”一样切割基因组DNA。因此,不会造成DNA双链断裂,可避免在特定基因上产生某种永久突变从而对宿主产生不利的影响[4]。由于基因的选择性表达出现在生物体生命进程中的各个阶段,所以人为的控制基因表达的激活或抑制会影响细胞正常功能甚至相关的生命进程。因此,使精准地调控靶标基因使之能够适时、适量、适度地表达,对疾病的发生发展进程、致病基因功能的研究以及基因治疗方面有显著的作用。已有研究表明,细菌中发现的天然DNA结合结构域(DBDs),如TetR、LacI和LexA等也常作为招募效应分子的结构域用来调控基因的表达[5]。如今,CRISPR/dCas9系统、人工构建的TALEs(Transcriptional activator-like effectors)、人工构建的ZFs(Zinc fingers)、miRNA和siRNA等非编码小RNA等可以通过相应不同地机制调控靶标基因的表达[6-8]。下面将介绍几种调控基因表达技术的研究进展。
RNA干扰(RNA interference,RNAi)是一种存在于真核生物中相对保守且广泛存在的转录后的调节机制,通过特异性降解靶标mRNA从而实现靶标基因沉默。其形成过程及作用机制如图1。
如图1所示,当siRNA与Argonaute(Ago)蛋白和多种酶结合形成RNA诱导沉默复合物(RNA-inducing silencing complex,RISC)后,其中的解旋酶利用ATP供能解开siRNA双链,释放的反义链通过碱基互补配对识别并结合靶标Mrna,再利用核酸内切酶切割mRNA,随后被降解的mRNA被宿主细胞中的RNA酶降解,从而实现靶标基因沉默[9]。除了介导mRNA的切割外,siRNA还可以在RNA依赖的RNA聚合酶的作用下,以靶标mRNA为模板作为合成dsRNA的引物,合成新的dsRNA。dsRNA再一次被Dicer切割产生更多的siRNA,接着再经以上循环作用于靶标mRNA。如此往复,不断级联放大了RNAi的效果[10]。
图1 形成过程及作用机制图
目前,RNAi已被广泛用于基因组中的筛选,其结果可通过Project Achilles[11]和GenomeRNAi[12]等数据资源中获取。金海玲等通过促进真菌寄生虫对dsRNA和siRNA的吸收,开发出用于产生新RNA杀菌剂的新型系统,称为环境RNAi[13]。另外,patisiran,全球第一个RNAi生物技术药物,已经被用于治疗成人患者的遗传性ATTR淀粉样变性第1阶段或第2阶段多发性神经病(一种退行性神经疾病)[14]。
microRNA(miRNA)是一类由自身基因组编码的长约20-24nt的单链非编码小RNA分子,通过靶向mRNA充当转录后调控因子实现对靶标基因的调节[15],在许多生物学过程中具有重要的作用,包括发育,分化,细胞增殖,代谢和炎症以及人类疾病等[16]。在细胞核内,大部分miRNA在RNA聚合酶II(很少部分由RNA聚合酶III)的作用下转录出不同长度的初级产物pri-miRNA。随后,pri-miRNA被核酸内切酶Drosha和辅助因子DGCR8剪切成约70个碱基的miRNA前体pre-miRNA。pre-miRNA在转运蛋白Exportin 5的帮助下,从细胞核内运输到细胞胞质中。在核酸内切酶Dicer及其辅助因子的作用下pre-miRNA被剪切加工成miRNA:miRNA*配对分子[17]。接着,miRNA:miRNA*配对分子与Ago等多种蛋白结合形成RISC(过程类似于siRNA)。随后,miRNA:miRNA*配对分子中稳定性较强的miRNA*被快速降解,稳定性较弱的miRNA形成成熟的miRNA进而引导RISC进行靶标基因的识别[18]。miRNA通过序列完全或不完全的互补配对,结合靶标mRNA的3’UTR,导致靶标mRNA被切割或翻译抑制,从而下调相应蛋白的表达。
自20世纪90年代以来,在临床前研究和临床试验中,两种基于miRNA的治疗工具已显示出希望,分别是miRNAmimetics和antimiRs[14]。越来越多的miRNA已经用于治疗各种疾病,包括代谢综合征,自身免疫性疾病和癌症等[14]。Miravisen作为第一个针对miRNA的药物,目前已经进入治疗丙型肝炎病毒的II期实验[14]。
锌指蛋白(Zinc finger protein,ZFP)普遍存在于真核生物基因组中,人类基因组中有近1%的序列编码含有锌指结构的蛋白[19]。ZFP作为对基因调控起重要作用的转录因子,通过折叠形成“手指”样结构,特异性地识别靶标结构,在生物体多种生命过程中发挥重要作用。由于ZFP的DBDs中含有与靶标DNA双螺旋结构互补的独特结构,其“指型”结构与DNA双螺旋的大沟吻合,通过α螺旋结构与DNA碱基发生特异性接触介导其特异性识别并结合靶标基因。ZF与DNA结合必须三个条件:(1)ZFP的α螺旋位于DNA双螺旋的大沟内;(2)ZFP携带正电荷的区域接近磷酸骨架;(3)锌指(Zincfinger,ZF)间的接头结构相对固定(ZF为构成ZFP的基本单元)[20]。ZFP作为基因表达调控工具的关键点是可以通过人工设计改变锌指结构,以特异性识别特定的靶标序列。对于不同的靶标位点,需要创建不同的ZFP,通过将ZFP与不同功能的结构域融合,可以构建出不同用途的人工合成的DBDs,从而实现对基因组的定点修饰或调控[21]。
已有研究表明,以ZF为核心构建了一种可调控的合成生物学系统,用于调节真核生物的转录[8]。目前,仍有很多靶标序列不知道哪种ZFP能与之高效结合,研究人员已开发出多种方案用于ZFP的构建和筛选。如模块组装(Modular assembly,MA)方案、双锌指模块组装方案、寡聚文库构建(ligomerized pool engineering,OPEN)方案和上下文依赖组装 (context-dependent assembly,CoDA)方案[21]。或者,也可以通过商业购买工程锌指,如Sangamo生物科学公司和Sigma-Aldrich 公司合作开发的锌指结构合成平台CompoZr。
转录激活样效应因子(Transcription activator like effectors,TALEs)是由黄单胞菌分泌的影响宿主植物防御反应相关基因表达的效应蛋白,TALEs能够特异性识别并结合宿主植物中靶标基因的启动子序列,发挥类似于真核生物转录因子的作用干预宿主植物靶标基因的转录,以便于黄单胞菌在宿主中繁殖[22]。随后,研究人员便将其作为基因表达调控工具进行深入研究。由不同数量的重复单元构成的DBDs形成了TALEs的特殊结构从而实现了对靶标基因的特异性识别与结合。一般情况下,TALEs的每个重复单元由34个序列高度保守的氨基酸组成。但第12和13位的两个氨基酸序列可变,构成了重复单元可变区(RVDs)。一个重复单元上的一个RVD特异性识别一个碱基对[22]。所以理论上说,研究人员可以利用这一特征设计出与任意靶标结合的TALEs。同样,TALEs也可以通过人工设计改变RVDs结构,以特异性识别特定的靶标序列。TALEs与具有激活或抑制功能的结构域融合,就能够让相对应的靶标基因激活或抑制。
目前,David Bikard等借助天然的AvBs3设计出TALEs的中央重复结构域,靶向靶标基因的启动子序列,最后成功激活了植物基因的表达[7]。张锋等利用融合VP64激活结构域的TALEs成功激活了了SOX2和KLF4的表达[23]。另外,Jeffrey C Miller和René Geissler的研究团队使用了融合VP64激活结构域的不同的TALEs激活了人类细胞中相关基因的表达[24,25]。虽然TALEs理论上可以靶向识别任何序列,但其合成与装配往往也具有一定的难度和限制。相应地,研究人员开发了多种用于人工构建高效TALEs的方案,主要包括:(1)Golden Gate(GG)克隆法;(2)连续克隆组装法;(3)利用基因固相合成的高通量技术法;(4)长粘末端的LIC(ligation‐independent clonging)组装方法等[26]。
CRISPR/Cas9系统起源于细菌和古细菌中,为抵抗病毒、噬菌体等的入侵而形成的一种遗传适应性免疫防御系统,可以有效地切割细胞内的外源DNA[27]。该系统特异性识别并结合靶标不是利用蛋白与靶标基因间的相互作用而是利用RNA与靶标间的碱基互补配对引导Cas核酸内切酶对靶标序列进行双链切割[1]。该系统由CRISPR RNA复合体和Cas9核酸内切酶组成。自然状态下,前者由crRNA(CRISPR-derived RNA,crRNA)和 反 式 激 活 RNA(Trans-activating RNA,tracrRNA)组成,目前,研究人员已经将其简化为一条导向RNA(single guide RNA,sgRNA)[28]。通过对该系统的升级改造,CRISPR/Cas9系统已不仅限于作为基因编辑工具,还是一种重要的基因调控工具。研究人员发现将Cas9蛋白切割活性域RuvC1第10位天冬氨酸突变为丙氨酸(D10A)和HNH第840位组氨酸突变为丙氨酸(H840A)后,将失去核酸内切酶活性,成为不能切割DNA但可以在sgRNA的引导下与特异靶标序列结合的dCas9(catalytically dead Cas9,dCas9)[6]。此外,将dCas9蛋白与转录调控因子融合后,dCas9可以将这些调控因子引导到启动子区域、调控区域或编码区域,对靶标基因进行精确定点调控而不造成DNA损伤,可用于研究转录因子或辅助转录因子对特定基因的影响[27,29]。
将dCas蛋白与转录激活结构域融合构成了转录激活工具CRISPRa(CRISPR activation)。在原核生物中,David Bikard等在大肠杆菌中发现将RNA聚合酶ω亚基与dCas9融合可以使报告基因激活约3倍[6]。Lingjun Yu等在溶杆菌中发现ω亚基与dCas9融合显著激活了5个基因共表达[30]。在真核细胞中,Luke A Gilbert等发现,VP64激活结构域与dCas9融合除了激活报告基因外还可以激活被沉默的内源基因或者上调已激活基因的表达[31]。随后,研究人员开发出了SunTag、VP64-p65-Rta(VPR)和 SAM 等系统[31-33],扩大了该系统的应用。
不仅能用于转录激活,还可以用于转录抑制。将dCas蛋白与转录抑制结构域融合构成了转录抑制工具CRISPRi(CRISPR interference)。 研 究 表 明,CRISPRi系 统可以通过干扰转录的起始和延伸来高效地抑制靶标基因转录[6]。亓磊等发现在大肠杆菌中单独的dCas9就能通过sgRNA引导识别并结合特定的靶标基因,有效地抑制基因的表达[34]。虽然该系统在细菌,酵母和其他原核细胞中能够显著抑制基因的表达,但在哺乳动物细胞中的基因表达抑制效率较差。为了提高转录抑制能力,亓磊和张锋等研究团队将抑制结构域KRAB与dCas9融合。这种增强的CRISPRi系统依靠KRAB募集不同的组蛋白修饰因子,通过形成异染色质的方式抑制基因表达[31,35]。CRISPRi特异地抑制靶标基因转录并且可以调控转录水平的能力得到了广泛的应用。如全基因组内基因筛选、敲低特定基因转录以研究基因功能、通过分析代谢途径利用CRISPRi调控必需基因转录水平提高代谢物产量或减少副产物的分泌等[36-39]。
由于非编码小RNA以RNA为靶标且在细胞质中发挥作用,因此其沉默作用不受细胞倍性,染色质构象和基因座可及性的影响。相对于其他技术,非编码小RNA不需要递送外源蛋白以及其他调控蛋白,简化了基因工程,所以对于特定的细胞模型可能特别有利[40]。但由于大量位置靶标,这可能会导致非编码小RNA的脱靶效应较高,往往限制其应用,尤其是当目的基因为中等或低水平表达的必需基因时[41]。并且基于非编码小RNA的疗法仍处于开发的早期阶段,大多数处于临床前研究中,很少进入临床试验。
尽管人工合成的DBDs能够达到CRISPR系统类似的水平,但往往需要通过复杂的克隆去实现激活或抑制基因的功能。相比于其他技术,人工合成的DBDs与靶标的特异性结合依赖蛋白质与DNA间的相互作用,因此易受表观遗传状态的影响。目前也无法实现对任意一段序列设计出相应理想的DBDs[42]。
CRISPR/dCas9系统相对于其他基因表达调控技术,具有设计简单,效率高、适应性广等优点,从而应用更为广泛。如Prashant Mali将荧光蛋白与CRISPR/dCas9系统融合用于基因定位,研究基因组的动力学特征和三维结构[34]Silvana Konermann和Piyush K Jain将光遗传工具与CRISPR/dCas9系统融合,实现通过光诱导抑制基因表达[35,43]。但CRISPR/dCas9仍然存在一些局限性,如脱靶,较难递送等问题。Mazhar Adli等发现染色质的结构和动力学特征可以影响dCas9与靶标基因的结合,这可能会改变其影响基因表达的能力[44]。另外,一些与不同细胞类型特异性表观遗传修饰相关的基因和跨细胞周期阶段差异调节的相关基因,CRISPR/dCas9的效果可能会有所不同。因此在这种情况下,针对特定细胞类型的文库可能更加精确[45]。随着生物技术以及大数据的发展,越来越多的基因及其功能将被发现,癌症等尚未克服疾病的发生发展机制将被更加清楚地认识,医疗人员进而能从源头上制定解决方案,做到真正的对症下药。越来越多的顽疾也将被攻克。最后,希望有更多更好的基因调控工具被研发出来造福与人类。