刘倩,李金根,张晨阳,3,李芳雅,田朝光,3
(1 中国科学院天津工业生物技术研究所,系统微生物工程重点实验室,天津 300308;2 国家合成生物技术创新中心,天津 300308;3 中国科学院大学,北京 100049)
丝状真菌(filamentous fungi)作为一类重要的真核微生物,在自然界中分布广泛,在生物技术领域和基础生物学研究中扮演着重要的角色[1-3]。例如,粗糙脉孢菌(Neurospora crassa)和构巢曲霉(Aspergillus nidulans)等被作为模式真菌用于研究遗传、发育和细胞生物学基础问题。球孢白僵菌(Beauveria bassiana)、稻瘟病菌(Magnaporthe oryzae)、玉米黑粉菌(Ustilago maydis)和烟曲霉(Aspergillus fumigatus)等,分别是昆虫、植物和人类的致病型真菌,深入研究其致病机理对解决真菌病害问题意义重大。里氏木霉(Trichoderma reesei)、 黑 曲 霉(Aspergillus niger)、 米 曲 霉(Aspergillus oryzae)、青霉菌(Penicillium)和嗜热毁丝霉(Myceliophthora thermophila)等工业丝状真菌因其代谢多样性、蛋白分泌效率高、翻译后修饰能力强等特点,被广泛用作生产有机酸、工业酶制剂、抗生素等大宗发酵产品的“细胞工厂”[3-5]。
近年来,大量不同种属的丝状真菌基因组测序工作已经完成。目前,科研工作者可以从JGI和FungiDB 等数据库中获取超过1000 种丝状真菌基因组序列和相关注释信息,丝状真菌研究和利用进入“后基因组时代”,以基因组水平遗传改造为核心的真菌合成生物学也已成为当代生物技术中具有新兴活力的研究方向之一[6-7]。尽管丝状真菌后基因组时代已经开启,但丝状真菌具有多细胞的结构特点,与酵母等这类单细胞的真菌相比较,其生长发育相对复杂,分子遗传操作较为困难,因此丝状真菌合成生物学的研究尚处在方兴未艾的起步阶段。
基因组编辑(genome editing)是基于位点特异性的核酸酶对基因组双链DNA 进行切割,从而激活特定位点的插入、删除或者替换的技术。目前应用最广泛的核酸酶主要有三种,包括锌指核酸酶技术(zinc-finger nucleases,ZFNs)、转录激活因子类似的核酸酶(transcription activator-like effector nuclease proteins,TALENs)以及成簇的规律间隔的短回文重复序列(clustered regularly interspaced short palindromic repeats,CRISPR),如图1 所示。其中CRISPR/Cas9 系统是目前使用最为广泛的技术[8-12]。基因组编辑技术作为关键的反向遗传学研究方法,是功能基因组研究与遗传改造重要的手段,显著促进了合成生物学研究的迅猛发展,在真菌遗传育种方面具有重要应用前景,是当前真菌合成生物学的研究热点[13-14]。本文将对基因组编辑技术的类型和作用机理进行简要综述,重点介绍工业丝状真菌(industrial filamentous fungi)中CRISPR系统介导的基因组编辑技术的研发进展和发展趋势,以期为工业丝状真菌研究提供参考。
基因组编辑是指基因组中靶标DNA 序列上进行的核苷酸的删除、片段替换和插入、定点突变和碱基易位等,从而实现基因的定点编辑。早期的基因组编辑技术主要是利用同源重组(homologous recombination,HR)原理进行基因打靶,即在外源DNA 序列两侧添加同源臂,从而实现外源序列的精确整合[15-16]。但在真核生物中,同源重组发生频率非常低,外源DNA 序列更容易随机整合到基因组上其他位点,造成脱靶效应,这主要是因为它们存在着占有主导地位的Ku70/Ku80 蛋白介导的非同源末端连接的修复机制,即NHEJ(non-homologous ending-joining),并且两端的同源臂序列和插入片段的长度也对整合有很大的影响,从而限制了该技术的应用[17-18]。虽然NHEJ 介导随机整合的策略不需要经过同源重组且效率较高,但却远不能满足精确编辑基因组的要求。
相关的研究发现[19],在基因组上特定的DNA位点发生双链断裂(double-strand breaks,DSBs)以后,其发生同源重组效率将会极大提升,这一发现给基因组编辑研究带来了新的突破。因此,近年来研究学者陆续研发了人工特异性核酸内切酶 技 术[8-15],包 括ZFNs 技 术、TALENs 技 术 和CRISPR/Cas9 技术,从而能够在基因组特异性的DNA 位点上进行双链断裂(图1)。这些核酸内切酶介导的基因组编辑均是利用DSBs 后细胞的修复机制进行操作的,双链断裂后会诱导细胞体内两种修复途径(NHEJ 或HR)对断裂的双链DNA 进行编辑修复[图1(a)],来实现对基因组上特异性位点的精确编辑。
ZFNs 作为第一代基因编辑技术,是两部分结构融合而成,一部分是由锌指蛋白的核苷酸结合域(ZFA),另一部分是核酸内切酶(Fok I)的切割结构域[20]。ZFA 的核苷酸结合域是由3~6 个Cys2-His2 锌指结构串联而成的,每个锌指结构能够特异识别DNA 单链上3 个连续的碱基,并结合到识别的DNA 上,由多个锌指单元串联形成的ZFA 则可识别更长的靶序列,能增加DNA 的识别特异性。FokⅠ是来源于海床黄杆菌(Flavobacterium okeanokoites)的一种限制性核酸内切酶,连接到ZFA 的C 端,Fok Ⅰ只在二聚体的形式下才能发挥剪切活性,因此需要在靶标位点的两端设计正反向排列且间隔5~7 bp 的成对ZFNs, 从而实现目的基因位点产生DSB[图1(b)]。但ZFNs 设计复杂成本较高,构建周期长,工作量较大,且序列的上下文依赖效应会降低编辑效率,限制了该技术的发展。
随后在2011年,研究人员开发了第二代基因组编辑技术TALENs,它是将改造后能够靶向特异DNA序列的TALE蛋白和非特异性的Fok Ⅰ的切割结构域融合而得到的人工核酸酶[21]。与ZFNs 不同的是,TALENs用于识别特异性目标序列是来自黄单胞菌的TALE 蛋白,经过人工改造后能够靶向任意DNA序列。TALE蛋白是由N端转运信号、转录激活结构域、DNA特异性识别结合结构域和C端核定位信号肽组成。TALENs技术的特异性位点核心识别结构域由一系列重复串联序列组成,这些串联序列高度保守,每个重复结构由33~35 个氨基酸组成,该重复结构的核苷酸特异性识别位点是通过第12、13 位氨基酸的重复可变双氨基酸残基(repeat variable diresidues,RVD)确定的,也就是“两个氨基酸与一个核苷酸相对应”。与ZFNs 相似,TALENs的TALE单体特异性识别DNA序列并结合在双链上,两个单体融合的Fok Ⅰ二聚体对目的DNA序列进行切割产生DSBs[图1(c)],两个相邻TALEN 靶序列间隔一般为15 bp 左右。由于TALENs的设计性更强和构建简便的优势,TALENs比ZFNs在基因编辑和转录调控中有着更为广阔的应用潜力,在多个物种中被成功应用[21-22]。2011 年,人工核酸酶介导的基因组编辑被Nature选入最受关注的技术成果,并在2012 年,以TALEN 为代表的核酸酶被Science列入年度十大科学进展。
图1 三种核酸酶介导的基因组编辑模式示意图Fig.1 Genome editing using sequence-specific double-stranded breaks by the programmable nucleases including ZFNs,TALENs and CRISPR
2015 年3 月,日本明治大学Shigeru Kuwata 教授团队率先在植物病源真菌-稻瘟病菌(M.oryzae)中研发并构建了Platinum-Fungal TALENs(PtFg TALENs)技术体系,该研究是最早在丝状真菌中进行核酸酶介导的基因组编辑技术的报道[23]。该团队将PtFg TALEN 表达元件和donor DNA 通过转生质体法转化进入稻瘟病菌细胞中,成功对靶标基因SDH 和SRS2 开展了基因敲除,其敲除效率高达100%。该研究表明,TALENs 系统能够在丝状真菌中进行高效的基因组编辑。
2013年,第三代基因组编辑系统CRISPR/Cas9系统开始出现并迅速崛起[8-9]。与之前的ZFNs 及TALENs 技术相比,CRISPR/Cas9 系统具有显著优点,设计简单和改造方便,向导RNA(single guideRNA,sgRNA)非常容易获得而且成本很低,其识别序列仅需要一个紧随PAM 的20bp 的序列[图1(d)],可以利用体外转录和体内表达等方式进行操作,能同时作用于多个靶点实现多基因同时打靶。因此,CRISPR/Cas9系统自出现以后就受到广泛的关注和应用[10-16],是本文接下来重点综述内容。
CRISPR-Cas 系统是细菌或者古细菌等原核生物在长期进化中形成的用来抵抗入侵病毒或外源DNA 的 适 应 性 免 疫 机 制[24],2002 年 将 其 称 为CRISPR,它是由高度保守的短重复序列(repeats)与长度相似的间隔序列(spacers)构成,位点附近是其相关的效应蛋白(CRISPR-associated Cas effector proteins)。CRISPR 序列位点和Cas 蛋白共同组成CRISPR-Cas 系统,其作为一种获得性免疫系统,通过编码Cas 蛋白及RNA 共同对抗噬菌体和质粒等外来DNA的入侵[25]。
典型的CRISPR/Cas 由3 部分组成[26-29]:①前导序列(leader sequence),是转录CRISPR 序列表达的启动子,它通常在CRISPR 位点的最前面;②重复序列,其序列长度仅为几十个核苷酸,具有调控和加工的作用,其部分碱基能够形成互补对称,因此加工成熟的crRNA(CRISPR targeting RNA)能够成茎环;③间隔序列,其在两个repeats 之间,repeats 和spacers 串联组成不同长度的重复序列,间隔序列与重复序列一同转录,并加工形成crRNA,部分CRISPR/Cas 系统还需要反式激活CRISPR RNA(tracrRNA)的参与,这些crRNA 和Cas 蛋白共同组成免疫防御CRISPR 系统。该免疫防御过程的作用机制[28-31]为3 个阶段,在外来DNA入侵起始阶段,细菌将外源DNA中的原型间隔序列(protospacer)整合到两个重复序列中间,在CRISPR 系统的作用下转录形成precrRNA,进而被剪切加工形成成熟的crRNA,然后crRNA 与多个Cas蛋白复合体结合,可以识别入侵的外源DNA 的间隔前体附近的序列,进行碱基配对,进而切割外源DNA分子,如图2所示。
CRISPR-Cas 系统有两大类(Class Ⅰ和Class Ⅱ)和6种类型[Type Ⅰ~Ⅵ],进而又可分为多个亚型(Subtype)[32-34]。Class I 系统在干扰靶基因时需要多个Cas 蛋白形成复合体协同工作,包括Type Ⅰ、Type Ⅲ和Type Ⅳ型;而Class Ⅱ仅需一个Cas 蛋白就能够干扰靶基因,包括Type Ⅱ、Type V 和TypeⅥ类型,这类系统较为简单,研究也更加透彻,经过人工改造构建成一种高效的基因组编辑工具。目前应用最为广泛的CRISPR/Cas9 系统为Class Ⅱ的Type Ⅱ型系统, 而新兴的CRISPR-Cas12a(Cpf1)/Cas12b 和CRISPR-Cas14 系统属 于Class Ⅱ的Type V型,能对RNA进行编辑的CRISPR/Cas13系统属于新发现的Class Ⅱ的Type Ⅵ型。
图2 CRISPR-Cas系统的作用机制示意图Fig.2 Mechanism of the CRISPR-Cas adaptive immune system
目前Class Ⅱ的Type Ⅱ型中CRISPR-Cas9 系统是被改造得最为成功的核酸酶,研究表明仅Cas9单一蛋白就能发挥切割的功能[34]。Cas9 蛋白共有2 个核酸酶结构域RuvC 和HNH,这一发现为CRISPR-Cas9核酸酶技术的研发奠定了基础。引导Cas9 的RNA 由两部分组成,一部分是靶向目标系列的crRNA,另一部分是tracrRNA。crRNA 与tracrRNA 结合后再与Cas9 蛋白形成复合体,对原型间隔序列邻近基序(protospacer adjacent motif,PAM)(5'-NGG-3')区域附近的位点进行双链断裂,进而激活细胞的修复机制。2012 年,Jinek等[35]将crRNA与tracrRNA结构进行重新设计,形成了一个简便的引导RNA(single guide RNA),从此sgRNA 的操作使用都更为简易。2013 年,Church 实验室、张锋实验室报道了在动物细胞中CRISPR-Cas9新一代核酸酶技术的研发和建立,其编辑效率不低于ZFNs 和TALENs,有的甚至高于TALENs[36-37]。随后,CRISPR/Cas9 系统进入快速的黄金发展时期,目前已经在相当多的物种(包括人类及其他动物、植物和微生物)中成功得到了高效的研发和应用[8-16]。
尽管CRISPR-Cas9 系统已经发展成为目前广泛应用的第三代基因组编辑工具,但仍存在一些弊端和技术上的挑战,例如该系统存在编辑位点受限、脱靶情况较多、在某些细胞中有毒性、PAM 序列的限制等缺陷,因此优化CRISPR-Cas9系统与建立新的CRISPR 基因组编辑系统一直是研究热点。Cas12a(之前被称为Cpf1)与Cas9 都是第2 类CRISPR 系统,但是Cas12a 蛋白是Ⅴ型,仅一个Cas12a 核酸酶就能造成双链断裂,其引导RNA 元件和切割方式与Cas9 完全不同[32-34]。与Cas9 相比,首先CRISPR-Cas12a 系统在pre-crRNA的加工上,没有tracrRNA,且crRNA 更短,Cas12a系统不需要RNase而是由其本身的RNase结构域就能完成整个crRNA 的加工过程;其次,Cas12a仅有RuvC核酸内切酶结构域,不含有HNH结构域;第三,Cas12a在靶标DNA 的PAM 序列下游18~23 bp处对DNA双链进行切割,形成的是黏性末端,且Cas12a 特异识别富含T 的PAM 序列(5'-TTTV-3'),扩充了CRISPR/Cas 系统及其衍生技术体系的基因组编辑范围[38]。CRISPR-Cas12a目前主要应用为多位点基因编辑和大片段的删除,利用Cas12a 系统则可以在一个质粒上仅用一个启动子串联多个crRNA,并在Cas12a 的作用下加工出单独的多个成熟crRNA,极大简化了引导RNA的构建,并缩减了多个crRNA片段合成的长度[39]。近5 年来,Cas12a 核酸酶已被研究学者广泛关注,并在许多物种中构建了高效的CRISPR-Cas12a 基因组编辑体系,Cas12a 与Cas9 系统交替使用,相互补充,丰富了基因组编辑技术中特异性位点选择的灵活性[38-43]。
CRISPR-Cas9技术在人类细胞和动植物细胞改造研究火热的同时,研究者对细菌、酵母和丝状真菌等进行基因编辑也取得了相应的成功[44]。2015 年,CRISPR-Cas9 系统介导的真菌基因组编辑技术开始出现,该技术在丝状真菌分子生物学和遗传改造方面潜力巨大,一些重要的模式丝状真菌CRISPR/Cas9 系统陆续被成功开发和报道[45-50],包括构巢曲霉和粗糙脉孢菌等模式菌株,里氏木霉、黑曲霉、米曲霉、产黄青霉和嗜热毁丝霉等工业真菌,以及以稻瘟病菌和烟曲霉等病原真菌,自此丝状真菌进入基因组编辑新时代。
3.1.1 粗糙脉孢菌
粗糙脉孢菌(N.crassa)作为遗传学研究模式生物已有近百年的历史,在细胞融合、生物钟周期以及表观遗传学研究等领域有着深入的研究。粗糙脉孢菌是第一个被测序的丝状真菌,其全基因组序列于2003 年被公开报道,随后开展了全基因组范围基因敲除突变体库的构建。早期的粗糙脉孢菌基因敲除是利用潮霉素抗性基因(hph)将Ku70/Ku80 的同源基因(mus-51/mus-52)敲除后,再通过同源重组实现的,对于单基因的敲除是有效的,但是对多基因的敲除仍然很难操作。随着第三代基因组编辑技术的发展,研究人员开始尝试在粗糙脉孢菌中进行新型基因编辑系统的开发,2015年,Matsu-ura等[51]利用CRISPR/Cas9系统在粗糙脉孢菌中成功编辑基因组,这是较早报道的丝状真菌CRISPR/Cas9 基因组编辑技术的研究之一。Matsu-ura 等用来源于构巢曲霉的trpC 基因(AN0648)启动子和终止子来表达Cas9-NLS 基因,同时利用酿酒酵母SNR52启动子转录sgRNA,将Cas9、sgRNA 表达载体和供体DNA 同时电击共转化进入宿主细胞,对基因组上的csr-1 和clr-2 位点进行基因的定点插入。研究结果表明, Cas9 和gRNA 载体的浓度增加,转化效率提升。荧光强度和PCR 结果显示成功将csr-1 位点进行luciferase 基因的替换,同时clr-2 的启动子替换为β-tubulin 持续性表达的启动子,从而构建了clr-2 基因过表达菌株,极大提高了clr-2 自身表达水平和关键的纤维素酶基因cbh-1、gh5-1 和gh6-2 的转录水平。这一研究表明,CRISPR/Cas9介导基因编辑技术能够在模式丝状真菌——粗糙脉孢菌中成功实现,这为后续开展其他丝状真菌CRISPR-Cas9 系统的研究提供了一定的参考。
3.1.2 构巢曲霉
构巢曲霉(A.nidulans)是丝状真菌研究中常用的曲霉属模式物种,广泛用于真核微生物细胞生物学等基础研究。2015 年,丹麦技术大学Uffe Hasbro Mortensen教授团队[52]首次在曲霉属的6个物种中建立了通用的CRISPR/Cas9 基因组编辑体系,这些物种包括构巢曲霉(A. nidulans)、黑曲霉(A. niger)、棘孢曲霉(A. aculeatus)、巴西曲霉(A.brasiliensis)、炭黑曲霉菌(A.carbonarius)和泡盛曲霉(A.luchuensis)。该团队首先基于黑曲霉密码子偏好性优化了SpCas9 的核苷酸序列,并使用构巢曲霉tef1 基因的启动子和终止子来表达SpCas9-SV40NLS;他们在sgRNA 两侧添加了能被核酸酶切割的5′-HH 和3′-HDV 序列,构成的融合表达元件被构巢曲霉gpdA 启动子和trpC 终止子来转录表达,并通过核酸酶切割获得sgRNA,该通用的曲霉CRISPR 系统包含Cas9 蛋白、引导sgRNA 和标记基因,且这些元件被装载在一个自我复制的AMA1质粒上,筛选标记可以选择4种不同的抗性标记,从而通用于亲缘关系相近的丝状真菌。该系统被报道在这6个曲霉物种都可以实现基因编辑的作用,其中在构巢曲霉中yA 基因的编辑效率可以高达到90%。2018 年,Mortensen 团队[53]改造并设计出更加强大的曲霉CRISPR-Cas9基因组编辑体系(TAPE)。他们使用NHEJ 修复缺陷的菌株作为CRISPR-Cas9 转化的受体菌株,并将寡核苷酸作为修复模板实现了3种曲霉(构巢曲霉、黑曲霉和米曲霉)的高效编辑,通过加入含有终止子点突变的单链DNA 修复模板,可以在靶标位点进行原位点突变,且效率接近100%。同时,他们还使用来源于烟曲霉的U6 启动子构建了tRNA 介导的3 个sgRNA 串联表达体系,简化了多个sgRNA 构建的步骤,缩短了时间。利用这一体系,该团队对三个靶标基因argB、pyrG 和nkuA 开展编辑,成功在一个转化子中引入两个原位点突变和一个插入突变。
3.2.1 黑曲霉
黑曲霉(A. niger)作为一类重要的工业丝状真菌,广泛用于糖化酶和柠檬酸等大宗发酵产品的生产。除了上述的Mortensen 团队陆续开发的曲霉CRISPR-Cas9 基因组编辑技术[52-53]以外,国内外其他研究团队也陆续构建和优化了黑曲霉CRISPR-Cas9 编辑系统。2018 年,中国科学院天津工业生物技术研究所郑平研究员团队[54]利用黑曲霉自身的PanU6 启动子、外源的PhU6 和PyU6启动子转录sgRNA,结果表明这3 个U6 启动子均能够发挥作用,并通过40 bp 同源臂的模板DNA实现了albA 基因的编辑,敲除效率达到79%,缩短了供体DNA 的构建时间。随后,该团队[55]又构建了一种基于5S rRNA 高效的黑曲霉CRISPR/Cas9 编辑技术体系。在真核生物中,5S rRNA 是通过RNA 聚合酶Ⅲ转录出来的一类小的rRNA,5S rRNA 只需要进行简单的加工或者根本不需要进行加工。5S rRNA 在生物体中高度保守,并且在细胞中含量很高。5S rRNA 具有易于鉴定和高转录水平等优点,这启发了该团队尝试使用内源性5S rRNA 来转录sgRNA 的表达。结果表明,基于5S rRNA 转录sgRNA 表达的策略能够显著提高黑曲霉CRISPR/Cas9 系统的编辑效率。该系统对靶标基因编辑效率高达100%,同时建立了黑曲霉高效基因组编辑工具包,以40 bp 的短同源臂模板就可以实现单位点、多位点的基因敲入以及长至48 kb 的大片段DNA 敲除等基因组精准编辑。基于5S rRNA 的sgRNA 表达策略有效解决了黑曲霉sgRNA 转录问题,为其他丝状真菌CRISPR/Cas9编辑系统的构建提供了一种新思路。2019 年华南理工大学的潘力教授团队[56]基于标记基因可回收利用的技术再次对黑曲霉CRISPR-Cas9 编辑系统进行了改造,构建了CRISPR-HDR(CRISPR/Cas9 homologous direct repair)技术系统。该系统利用5-FOA 反筛的技术将携带标记基因pyrG 和Cas9 表达元件的自主复制质粒进行回收去除,并通过共转化donor-DNA,成功实现对基因组中0kb、2kb、10kb 和50kb 大片段的删除;并将葡萄糖氧化酶基因(goxC)整合到amyR 和glaA 位点中,实现了goxC 多拷贝的过表达敲入。随后,潘力团队利用构建的CRISPR-HDR 技术体系将来源于嗜热毁丝霉的酸性海藻糖水解酶基因(MthT)成功整合到两个amyR 位点进行双拷贝的过表达[57],并将纯化所得的重组海藻糖酶MthT 作为添加剂在酿酒酵母乙醇发酵过程中使用,结果表明在高糖的环境下,乙醇的转化率显著提高。与此同时,该团队还建立了黑曲霉胞嘧啶碱基编辑系统(CRISPR/Cas9-rAPOBEC1)[58],该系统成功将尿嘧啶营养缺陷型基因pyrG 和色素基因fwnA进行定点突变,其突变的效率为47.36%~100%;并对非表型的基因prtT 也成功实现了C 到T 的单碱基编辑,结果表明其编辑效率仍然高达60%,该系统编辑的窗口范围是C2~C9 这8 个碱基,该系统的建立为黑曲霉的基因编辑系统提供了另一种高效、新型的技术工具。本文作者所在团队也对黑曲霉基因组编辑技术进行了研究,利用从黑曲霉基因组挖掘的全新内源的RNA 聚合酶Ⅲ型U6 启动子(Anp)来构建sgRNA 表达载体,将密码子优化的NLS-Cas9-NLS 基因分别放置于持续性强启动子Ptef1、PgpdA和诱导型启动子PglaA下进行高效表达。将Cas9 表达框和Anp-target-sgRNA 表达框共转化进入黑曲霉CBS113.46 菌株原生质体细胞后,通过NHEJ 机制对pyrG 位点进行了不精确修复,进而得到pyrG 突变株;在添加了donorpyrG 共转化后,通过同源重组获得了pyrG 突变株,其同源重组效率高达97.2%,随后对moc 基因和laeA 基因开展了编辑,并获得moc 和laeA单、双突变的黑曲霉突变株,从而成功构建了黑曲霉工业菌种基因组编辑系统[59]。
2019 年,Mortensen 团 队 基 于AMA1 自 主 复制质粒,构建了含有Ptef1-LbCpf1-TtrpC、U3p-tRNAsgRNA-tRNA-U3t 和筛选标记pryG 的Cpf1-CRISPR-tRNA 表达系统,该系统成功对构巢曲霉中yA 基因和黑曲霉中albA 基因开展了编辑,分别以NHEJ 和HR 两种修复方式获得了突变菌株,并且通过仅含有60 bp 同源臂的供体DNA,成功将红色荧光蛋白(mRFP)整合到yA 或albA 位点[60]。该研究表明,新兴的CRISPR-Cas12a(Cpf1)系统能够在丝状真菌中高效进行基因组编辑。
3.2.2 米曲霉
米曲霉(A. oryzae)作为丝状真菌中重要的工业菌种之一,具有高效的蛋白分泌表达能力,被认证为GRAS 安全生产菌株,广泛应用于食品酿造行业和工业酶制剂行业。2016 年,日本东京大学Maruyama 团队在米曲霉中进行了CRISPR/Cas9 编辑系统的构建[61]。在该系统中,利用amyB 强启动子和终止子来转录表达密码子优化的Cas9 基因,Cas9 的过表达并不影响米曲霉菌株的正常生长,sgRNA 被置于来自于米曲霉自身的U6p 启动子和U6 终止子之间进行转录表达,并且将Cas9 和sgRNA 两个表达元件构建在一个质粒中,成功对wA、pyrG 和yA 这3 个靶基因进行了编辑,利用NHEJ 修复方式,在靶标位点产生1 bp 的插入或者1~21 bp 的删除突变,编辑效率为10%~100%。2019 年,Maruyama 团队基于携带抗性标记ptrA 的AMA1 自主复制质粒的可循环使用,对米曲霉的CRISPR/Cas9 编辑系统进行了优化和升级[62],分别在野生型和工业菌株中显著提高了目标基因的编辑效率。该系统通过NHEJ 修复方式将wA、pyrG 和yA 这3 个靶基因的编辑效率提高到55.6%~100%,实现了wA 和niaD 双基因的同时敲除,编辑效率为68.1%;通过HR 修复方式,添加不引入标记基因的环状donor-DNA 质粒,对wA 和niaD 双基因进行了同时敲除,敲除效率为61.9%;该团队还进行了无筛选标记的外源基因敲入实验,结果表明,该体系成功将绿色荧光蛋白EGFP 基因整合到wA 基因位点,同时将mDsRed 基因整合到niaD 位点,敲入效率为84.6%,实现了基因的定点插入。改造升级后的CRISPR/Cas9 系统将能更加有效地促进米曲霉在工业上代谢工程改造。
3.2.3 里氏木霉
2015 年,中国科学院上海生命科学研究院周志华研究员团队率先在工业纤维素酶生产真菌里氏木霉(T. reesei)中开展了CRISPR/Cas9 系统的研发[63],这是工业丝状真菌中CRISPR-Cas9 技术最早的报道。他们成功将密码子优化的Cas9 基因分别放置于持续性强启动子Ppdc和诱导型cbh1 启动子下进行组成型和诱导型表达,利用体外转录sgRNA,成功对野生型菌株Qm6a 和工业菌株Rut-C30 中的靶标基因ura5 进行编辑,获得NHEJ 修复的突变菌株。同时,基于同源重组,他们研究了donor DNA的同源臂长度对靶标基因敲除效率的影响,结果表明donor DNA 的同源臂仅为0.2 kb就能成功进行基因敲除,同源重组效率高达93%。随后,他们通过优化gRNA和donor DNA分子摩尔配比,成功对目标基因lae1、vib1 和clr2 进行单基因敲除、双基因和三基因的同时敲除,获得三基因突变菌株。这是首次在丝状真菌中利用CRISPR/Cas9 技术对多个基因同时进行编辑的报道,表明CRISPR/Cas9系统能显著提高工业真菌的遗传编辑效率,促进工业菌株的功能基因和代谢工程改造的研究。2019 年,中国农业科学院苏小运团队对里氏木霉CRISPR/Cas9 系统进行进一步研究[64],他们在体外组装Cas9/gRNA 核糖核蛋白复合体(ribonucleoproteins,RNPs),并将核糖核蛋白复合体和携带pyr4 抗性标记的载体直接转化受体菌株,成功对靶基因cbh-1 进行敲除,表明体外转录的Cas9/gRNA 复合体能够对里氏木霉基因组序列进行切割编辑。2020 年,华东理工大学魏东芝团队基于嗜热毁丝霉U6 snRNA 的基因序列在里氏木霉基因组中进行生物信息学比对,查找出2 个U6 基因(TrU6-1和TrU6-2),并用这2个U6基因的启动子转录sgRNA 的表达,均能成功对靶标基因ura5进行NHEJ修复的编辑,表明里氏木霉体内转录的sgRNA 也能够成功介导Cas9蛋白对双链DNA 进行切割[65]。近期,周志华研究员团队再次升级了里氏木霉的CRISPR/Cas9 技术系统[66]。他们通过添加Triton X-100、延长原生质体与RNPs 的孵育时间来优化RNPs 技术,提高了RNPs 的转化效率,显著增加了里氏木霉和蛹虫草(Cordyceps militaris)的基因编辑效率,其中单基因Trura5 和Cmura5的编辑效率高达100%。通过使用优化后的RNP 技术,他们仅用20 bp 的同源臂就实现了Trlae1 的基因敲除,同源重组效率增加到56.52%。该团队通过加入添加肌醇或苯菌灵来抑制有丝分裂和细胞分裂,进一步优化了RNPs 技术,显著提高了里氏木霉和米曲霉进行单核原生质体转化的效率,从而提高了获得纯合转化子的效率,进而消除了转化后期的多轮单孢分离过程。优化的RNPs 技术将有助于在丝状真菌中建立更有效的不依赖转基因的基因组编辑技术,从而广泛应用于食品和医药行业。
3.2.4 产黄青霉
产黄青霉(P. chrysogenum)是青霉素的主要工业生产菌种,作为一种重要的工业丝状真菌,可产生许多重要的次级代谢产物。因此,产黄青霉CRISPR/Cas9 编辑系统的构建对提升青霉素以及其他次级代谢物的生产有重要意义。2016 年,荷兰格罗宁根大学Nygård 教授团队在产黄青霉中构建了3 种不同方式的CRISPR/Cas9 基因编辑系统[67],包 括:含 有Cas9 和sgRNA 表 达 元 件 的AMA1 自主复制质粒;在细胞内表达Cas9 蛋白后,通过转化体外合成的sgRNA;同时在体外转录合成sgRNA 和Cas9 蛋白,并将Cas9 蛋白与sgRNA 装配成核糖体核蛋白复合体(RNPs),以核糖体核蛋白复合体的形式通过原生质体转化进入细胞中。AMA1 自主复制的质粒会在无抗性压力时丢失,因此该方法能在编辑完成后对Cas9 元件进行去除,实现无标记基因操作,同时结果表明供体DNA 同源臂长度仅60 bp 就能进行基因缺失编辑。随后,该团队详细介绍了Cas9 蛋白与sgRNA 组装的RNPs 转化产黄青霉原生质体的操作方法[68],该报道为更多丝状真菌实现无痕基因组编辑提供了参考。
3.2.5 嗜热毁丝霉
嗜热毁丝霉(M. thermophila)是一种能够快速降解纤维素的嗜热丝状真菌,能够分泌大量的纤维素水解酶,其酶系的种类和数量相当丰富。嗜热毁丝霉具有高温发酵的优势,其所产酶系在高温下有高活力和高稳定性的优点[69]。随着2011 年嗜热毁丝霉基因组测序的完成和发布[70],极大促进了国内外学者对其的研究和开发,其中多个酶的开发已经取得了显著进展[71]。但在2015 年之前,嗜热毁丝霉本身的遗传改造研究非常少。
2015 年,深圳大学刘刚教授团队在嗜热毁丝霉中发展了过表达[72]和RNA 干扰技术[73],成功过表达了转录因子Mtxyr1,将靶标基因Mtcre1 进行了沉默,从而提高了纤维素酶和半纤维素酶的产量。与此同时,本文作者所在团队对嗜热毁丝霉的转化系统进行优化[74],利用农杆菌介导的转化技术,结合GFP 荧光辅助筛选,能有效对目标基因实施基因过表达和敲除操作,这为后续开展嗜热毁丝霉基因组编辑技术奠定了坚实的基础。2017 年,本文作者团队成功构建了CRISPR/Cas9介导的嗜热真菌基因组编辑系统[75],成功对两种嗜热真菌-嗜热毁丝霉和异宗毁丝霉(M.heterothallica)的基因组进行了编辑。该系统包括组成型启动子Ptef1调控Cas9 的表达元件和嗜热毁丝霉U6p 启动子转录sgRNA 的表达元件,通过将Cas9 表达框、sgRNA 表达框和同源供体共转化导入到宿主细胞中,获得了稳定的遗传性状的基因编辑突变株。毁丝霉的基因组编辑时间缩短到3 d,其基因的同源重组效率显著提高,单基因缺失的同源重组效率高达100%,而且可以同时编辑多个基因位点,其中双基因同时编辑的同源重组效率为61%~69%,3 个靶基因同时被敲除的HR效率约为30%,4 个靶基因同时被缺失的HR 效率仍然约为21%。以纤维素酶分泌途径重要靶点为例,利用该体系对嗜热真菌基因组成功开展了理性重构,并获得一系列蛋白分泌显著提高的工程菌。随后,柏林工业大学Vera Meyer 教授团队构建了基于RNPs 和质粒体系的嗜热毁丝霉CRISPRFnCpf1/AsCpf1/SpCas9 编辑系统[76],并在Ku80 的缺失菌株中进行遗传操作,比较这3 种编辑体系的效率,结果表明FnCpf1 系统获得了四基因(alp1、pks4.2、snc1 和ptf1)突 变 株,AsCpf1/SpCas9 系统获得了三基因突变株,90 bp 单链寡核苷酸作为供体DNA 实现双基因的编辑。该团队还将转化体积按比例缩小至微量模式,该模式能对菌株进行有效的编辑,有助于将来构建嗜热毁丝霉高通量筛选平台。与此同时,2019 年笔者团队成功升级了嗜热真菌CRISPR-Cas 基因组编辑系统[77],构建了crRNA 串联表达介导的嗜热毁丝霉CRISPR-AsCas12a 基因组编辑系统,该系统能够高效、简易实现基因组多基因的编辑,拓展了嗜热真菌CRISPR-Cas 基因组编辑系统,使其不再局限于Cas9。基于Cas12a 和Cas9 系统,团队建立了标记基因可循环利用的基因组编辑系统(CRISPR-Cas-assisted marker recycling technology),将其命名为Camr 技术,该系统成功解决了目前丝状真菌多基因(多于10 个)的编辑困难,以及基因组被编辑后的工程菌由于缺乏合适的抗性基因无法进行多次编辑的问题,可以对丝状真菌基因组进行快速、高效、多轮的可循环操作编辑。利用该体系以嗜热毁丝霉纤维素酶分泌途径中9 个关键调控基因为靶点,通过交替使用2 个标记基因进行三轮操作,共编辑了11 个位点,人工重构了工业丝状真菌纤维素酶合成分泌途径,并获得了纤维素酶产量显著提高的9M 突变体菌株。该研究对其他真菌的基因组编辑和代谢工程改造有一定参考意义。
3.2.6 棉阿舒囊霉
棉阿舒囊霉(Ashbya gossypii)是一种天然具有生产核黄素能力的工业丝状真菌,有望被发展成为一类新型的细胞工厂底盘,用于生产叶酸、生物脂质、核苷和重组蛋白等。2019年,西班牙萨拉曼卡大学José Luis Revuelta教授团队构建了棉阿舒囊霉CRISPR-Cas9 基因组编辑系统[78]。该系统使用菌株自身的SNR52启动子转录sgRNA,并将Cas9、sgRNA和donor-DNA这3个元件放置于同一个质粒系统中,同时结合loxP技术将标记基因和CRISPRCas9系统进行去除,实现无痕操作。利用该系统高效实现了目标基因ade2 的敲除失活、定点插入和突变,以及目标基因FMP27 的点突变。随后,2020 年该团队基于LbCpf1 核酸酶构建了棉阿舒囊霉CRISPR/Cpf1 多基因编辑技术[79],该体系通过crRNA 和donor DNA 分别串联表达(crRNA Array和dDNA Array)成功对5 个营养缺陷型基因(his3,ade2,trp1,leu2 和ura3)进行了同时敲除编辑,并获得了三基因和四基因的突变菌株。这两种CRISPR/Cas 编辑技术的成功构建将极大地促进该菌在工业生产中的代谢改造研究。
综上,这些适用于不同的工业丝状真菌的各种CRISPR 技术系统已经相继研发并建立。CRISPRCas 系统组成元件的高效表达是进行基因组高效编辑的关键。如表1 所示,这些构建的CRISPR 系统大部分是利用菌株自身的启动子在体内表达Cas蛋白(Cas9 或者Cas12a),并且使用强启动子来表达经过密码子优化的Cas蛋白。同时,增强引导RNA(sgRNA 或者crRNA)在体内的表达水平也是关键因素,大部分的系统都是利用菌株自身或者源于其他真菌的RNA聚合酶III型启动子来转录sgRNA或者crRNA,例如U6p、U3p、5S rRNA 和tRNA 等,优点是提高引导RNA 的表达效率,缺点是需要在菌株中鉴定到高效的Ⅲ型启动子。另一种方式是在体外表达Cas9 蛋白和sgRNA,通过直接购买商业化的Cas9 蛋白,并采用商业试剂盒体外合成sgRNA,以RNPs 的方式直接转化进入宿主菌株,这种方式的最大优点是操作简单,不用查找和确定合适的Ⅲ型启动子,也不需要构建Cas9 和sgRNA的表达载体,具有一定的通用性,缺点是增加了实验成本,需要不断地购买Cas蛋白和体外合成试剂盒,并需要考虑以RNPs方式导入细胞的转化效率。对于多基因的同时敲除,Cas12a 系统比Cas9 系统操作简便,且编辑效率相当。另外,对于一些菌株,如果过表达Cas9 会对其细胞产生毒性,则可以考虑使用Cas12a 系统或者采用体外表达的方式进行基因组编辑。因此,科研工作者可以根据研究的物种和具体的实验选择最适合的方法表达Cas和引导RNA。
3.3.1 稻瘟病菌
2015年,日本明治大学Shigeru Kuwata教授团队[80]采用共转化载体Cas9 表达框和sgRNA 表达元件的策略成功在稻瘟病菌(M. oryzae)进行CRISPR-Cas9系统的构建。该团队同时使用稻瘟病菌自身的启动子U6p 和构巢曲霉的启动子PtrpC分别转录表达sgRNA,对其编辑效率进行比较评价,成功对基因组中的SDH 和SRS2 基因进行敲除。2018 年,英国埃克塞特大学Nicholas J.Talbot 教授团队构建了CRISPR-Cas9 RNPs 介导的稻瘟病菌基因组编辑技术体系[81],在不添加模板DNA 时,以NHEJ 的修复方式对靶标基因alb1 进行编辑,并且不引入标记基因,建立了CRISPR-Cas9-RNP 介导的无标记基因编辑系统;以HR 修复方式时,仅用80 bp 单链核苷酸为模板与RNPs 共转化就实现了碱基的替换,或者80 bp 双链DNA 与RNPs 共转化就能高效进行双基因同时编辑,并基于带有的苯菌灵抗性的突变菌株(E198A) 对乙霉威(diethofencarb)的敏感性,设计了反筛体系,成功去除了标记基因,从而构建了CRISPR-Cas9-RNP 介导的无标记基因的编辑系统。2019 年,Shigeru Kuwata 团队又基于单交叉介导的同源重组修复,改造升级了稻瘟病菌CRISPR-Cas9 基因编辑系统,仅使用100 bp 同源臂就实现了碱基的替换和GFP基因的敲入[82]。
表1 工业丝状真菌中CRISPR/Cas系统的技术应用Tab.1 Applycations of CRISPR-Cas systems in industrial filamentous fungi
3.3.2 烟曲霉
2015 年,美国达特茅斯学院Jay C. Dunlap 教授团队[83]对烟曲霉(A. fumigatus)成功开展了CRISPR/Cas9系统的研发,该研究发现持续性表达Cas9 基因不会影响烟曲霉的正常生长和致病性,该系统使用酿酒酵母SNR52 启动子调控sgRNA 的转录表达,对靶标基因pksP 的编辑效率为53%。随后,南京师范大学陆玲教授团队[84]对烟曲霉成功开展了高效的CRISPR/Cas9 基因组编辑系统的研发,该系统利用烟曲霉自身的U6p 启动子来转录表达 sgRNA, 通过微同源修复机制(microhomology-mediated end joining,MMEJ)显著减少了同源臂序列的长度,简化了donor DNA的构建过程,缩短了时间,极大提高了烟曲霉CRISPR-Cas9系统在靶标位点的编辑效率。在标记基因hph 两侧加入仅28 bp 的同源序列就能高效实现基因cnaA 的敲除,敲除效率高达97%。在基因敲入方面,仅通过35 bp 的同源序列就能将外源GFP 定点插入到cnaA 位点,基因编辑效率接近100%。2017年,德国Axel A.Brakhage教授团队通过使用Mortensen 构建的II 型RNA 聚合酶转录HHsgRNA-HDV复合体获得sgRNA,Cas9基因的表达由多西环素依赖性系统(Tet-ON)诱导调控,显著提高了CRISPR/Cas9 系统在烟曲霉的编辑效率,同时也鉴定出合成代谢产物trypacidin 的关键基因tynC,这也是在丝状真菌中将次级代谢产物与基因遗传表型来源联系起来的重要研究[85]。
3.3.3 玉米黑粉菌
2016 年,德国马普学会陆生微生物研究所Regine Kahmann教授团队对另一种植物病原真菌玉米黑粉菌(U.maydis)成功开展CRISPR/Cas9 系统的构建[86],使用玉米黑粉菌自身U6 启动子转录sgRNA 的表达,密码子优化的Cas9 基因N 端和C 端都添加核定位信号(NLS)并置于持续性强启动子Potef下进行表达,将Cas9和sgRNA 两个表达元件一起装载在自我复制的质粒pMS7 上,并且过表达Cas9 不会对玉米黑粉菌的细胞产生毒性,该体系通过NHEJ 修复方式成功对两个靶基因bE1 和bW2实现了编辑,编辑效率高达70%~100%。
3.3.4 球孢白僵菌
中国科学院上海生命科学研究院王四宝研究员团队成功对昆虫病原真菌球孢白僵菌(B.bassiana)开展了CRISPR/Cas9 系统的研发[87]。该系统利用强启动子PgpdA转录表达密码子优化的Cas9-NLS 蛋白,使用体外转录sgRNA 的方式,通过芽生孢子转化体系将其共转化进入球孢白僵菌细胞中,成功对基因ura5进行NHEJ修复编辑;并通过同源重组修复机制,再次利用内源ura5 作为标记基因,对egfp、Bbmp1 和Bbrgs1 成功进行了单、双和三基因的同时敲除编辑。
2015 年之前,CRISPR-Cas9 系统尚未应用于真菌,研究者一直使用经典的基因工程手段来研究丝状真菌体系,尽管传统手段编辑丝状真菌基因可以达到多种研究目的,但仅限于一些模式真菌,其效率较低,编辑位点较少,且花费大量的时间和劳动力。CRISPR-Cas 系统作为新一代基因组编辑技术,自出现以来,经过多种巧妙的改造,在多个物种中的基因编辑能力被相继证实,得到迅速而广泛的应用,为生命科学和医学研究带来前所未有的革新。自2015 年起,CRISPR-Cas9 系统被国内外研究学者陆续在丝状真菌体系中进行研发和应用,在短短几年内飞速发展,在不同的丝状真菌中各种高效的、CRISPR-Cas 体系已经被陆续建立起来[45-50]。近三年来,一些大型真菌的CRISPR-Cas9编辑系统也开始发展并建立,例如灵芝[88]、灰 盖 鬼 伞[89]、蛹 虫 草[58,90]和 竹 黄 菌[91]等。CRISPR 基因组编辑技术能对真菌基因组特定基因位点进行精准、高效的改造,在真菌细胞工厂构建和优化改造中展示了强大的功能,对真菌功能基因组研究和合成生物学的发展起着非常重要的作用。
在丝状真菌的研究中,虽然研究学者们基于CRISPR-Cas9 系统已经研究并构建了一些有效的基因编辑技术工具,但是CRISPR 系统在丝状真菌细胞工厂的应用方面还处于初级阶段。目前该领域的研究重点主要是在不同丝状真菌物种中建立CRISPR/Cas9 技术体系,并提高其编辑效率等方面。到目前为止,尚未有通过CRISPR/Cas9 基因组编辑技术构建的工业菌种得到产业化应用。在工业生产应用中,基因组编辑技术一方面具有广阔的前景,另一方面仍面临着一些挑战。例如,CRISPR 技术存在的脱靶现象、CRISPR 系统对非靶标位点产生的非特异编辑,这是否会导致不可控的基因组变异,从而影响工业菌株的稳定性;另外,持续表达的Cas9 蛋白是否会对工业菌株产生毒性,从而影响菌株的长期发酵性能。
随着CRISPR 技术的发展,相信CRISPR-Cas9系统在诸多方面可以进一步优化改进,包括降低脱靶效应、解除Cas蛋白的PAM序列的限制性、提升精确定点编辑的效率等。例如近期研究表明可以通过人工改造Cas9 蛋白(xCas9、SpCas9-non-G PAMs等)[92-95]或者是寻找并鉴定更多的Cas同源蛋白(Cas12b、Cas14 等)[96-98],使 其 识 别 更 多 的PAM 位点。与此同时,基于dCas9 或者nCas9 的CRISPR 相关衍生技术在工业真菌中有待开发,例如CRISPRa 和CRISPRi 介导的基因表达调控技术[99-103]在丝状真菌中尚未报道,多功能CRISPR介导的组合调控技术还没有在丝状真菌中研发和建立。未来建立不局限于某个真菌物种的通用编辑技术体系,以及将CRISPR 系统与高通量技术相结合进行高通量编辑改造等都值得期待。除前文提到的在黑曲霉中建立了胞嘧啶碱基编辑器(cytosine base editor,CBE)以外,在其他的丝状真菌中还没有构建起来,并且腺嘌呤碱基编辑器(adenine base editor,ABE)也尚未在丝状真菌中研发报道。随着CRISPR 基因组编辑及相关技术的创新发展,我们相信CRISPR 系统将在真菌基因功能研究、代谢途径重构、精确表达调控、蛋白定向进化以及高性能底盘构建等方面得到快速发展和技术革新,从而促进真菌合成生物学的快速发展。
符号说明
ABE——腺嘌呤碱基编辑器(adenine base editor)
AMA1— 自我复制的质粒元件(autonomously replicating plasmid replicator)
CBE——胞嘧啶碱基编辑器(cytosine base editor)
CRISPR— 成簇的规律间隔的短回文重复序列(clustered regularly interspaced short palindromic repeats)
DSBs——双链断裂(double-strand breaks)
HDR— 同源重组修复(homologous direct repair)
HDV— 丁型肝炎病毒(hepatitis delta virus)
HH— 锤头(hammerhead)
HR— 同源重组(homologous recombination)
MMEJ— 微同源修复模式(microhomology-mediated end joining)
NHEJ——非同源末端连接的修复机制(non-homologous ending-joining)
NLS——核定位信号(nuclear localization signals)
PAM— 原型间隔序列邻近基序(protospacer adjacent motif)
RNPs——核糖核蛋白复合体(ribonucleoproteins)
sgRNA— 向导RNA(single guide RNA)
TALENs— 转录激活因子类似的核酸酶(transcription activator-like effector nuclease proteins)
ZFNs——锌指核酸酶技术(zinc-finger nucleases)