谌苗苗 姜晓旭 钟 亮 焦 阳 徐 亮
(辽宁省蚕业科学研究所,辽宁凤城 118100)
柞蚕(Antheraeapernyi)属鳞翅目大蚕蛾科昆虫,起源于中国,在我国有着2000多年的放养历史,“柞林青叶壮蚕魄,山茧素绸平世穷”是中国柞蚕业内容与功能的形象写照[1]。柞蚕业是我国的一项传统特色农业产业,随着柞蚕全基因组测序的完成,我国柞蚕基础性研究也进入了一个新的发展阶段,其关键性研究工作是对海量基因组序列信息的分析以及重要功能基因的解析,并且将遗传信息和柞蚕表型或性状相关联,从而为今后的种质资源遗传改良奠定理论基础。
在分子生物学研究中,虽然可通过经典遗传学方法构建遗传群体,利用定位克隆法获得功能基因的信息[2],但柞蚕存在生长周期长,且需在野外放养,管理困难等问题,难以满足相关研究的开展条件。目前,研究基因功能主要涉及两种方法:一是通过基因转导、转基因、RNA干扰、过表达等方法使目的基因在细胞或个体中产生基因表达水平的量变,观察细胞或个体的反应及变化来研究目的基因的功能[3];二是通过基因编辑方法将目的基因在基因组中敲入、敲除或者是使其完全丧失功能,造成基因表达产物有无的质变,观察细胞或个体的反应及表型变化,以鉴定目的基因的功能[4]。近年来发展起来的基于核酸内切酶的基因靶向编辑技术,已成为基因功能研究的主流,并逐渐在生命科学基础理论研究、人类疾病预防与治疗以及经济物种遗传改良等领域突显其重要作用[5]。
基因编辑也称基因组编辑或基因组工程,是指对基因组特定目标基因进行删除、替换、插入等定向改造,获得预期的生物体基因组序列发生遗传性改变的技术。最早应用的基因组编辑技术是基于DNA双链断口(double strands breaks, DSBs)同源重组(homologous recombination, HR)的基因打靶。该技术需采用胚胎干细胞(embryonic stem cell, ES cell)进行同源重组打靶,仅局限于有可嵌合遗传ES细胞的动物,且基因组中会残留外源性基因。其后发展了3种基于人工核酸内切酶(engineered endonuclease, EEN)的新型基因组靶向编辑技术,可依靠非同源末端连接(non-homologous end joining, NHEJ)或HR等DSB修复机制实现对基因组靶位点的定点改造。该类技术通过受精卵注射可直接得到突变个体,在物种间具有更好的通用性,同时避免了外源基因残留的问题,已被广泛应用于后基因组时代的拟南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、小鼠(Musmusculus)、黑腹果蝇(Drosophilamelanogaster)、家蚕(Bombyxmori)等多种模式生物[6,7]。
第一代EEN基因靶向编辑技术——ZFN是由特异性识别DNA序列的锌指蛋白(zinc finger protein, ZFP)结构域和非特异性切割DNA双链的核酸酶FokⅠ结构域组成[8,9]。锌指结构域最初在非洲爪蟾(Xenopuslaevis)中发现,一般由串联3~6个Cys2-His2 型ZFP组成,每个ZFP可特异性识别一个三联体的DNA碱基组合[10]。一对ZFN以相对方向分别结合DNA双链,当两个Fok I结构域在间隔合适长度(通常5~7 bp)的序列时,实现二聚化产生内切酶活性切断DNA双链,然后主要借助NHE J等细胞内源性DSB修复机制,实现目标基因定点编辑[11]。但是,至今尚未完全掌握ZFP同任意DNA靶序列之间的对应关系,对一般研究者而言,获得有效的ZFN仍是一个高成本的技术难题,因此也限制了该技术的广泛应用。
第二代EEN基因编辑技术——TALEN与ZFNs类似,也是由识别特异性DNA序列的类转录激活因子效应物(transcription activator-like effector, TALE)蛋白结构域和FokⅠ结构域两部分组成[12-15]。TALE最初是在黄单胞杆菌(XanthomonasCampestris)中被发现,是由33~35个氨基酸组成,其第12和13位为重复可变双残基 (repeat variable diresidue, RVD),用于特异性识别并结合单个DNA碱基,其余氨基酸则高度保守[16]。TALE结构域主要由3部分组成,C端为含有核定位信号的转录激活结构域,中段为与DNA特异性结合结构域,N端为转运信号结构域。其中,DNA特异性结合结构域一般由1~33个TALE重复串联而成,末尾加入长度20个氨基酸的0.5个TALE。与ZFN不同,TALE与核苷酸1对1识别并结合的机制相对简单,已明确4种不同碱基A、T、C和G对应的RVD分别为NI(Asn Ile)、NG(Asn Gly)、HD(His Asp)和 NN(Asn Asn)[7,17]。一对TALEN的识别序列也需要间隔适当的间距(13~30 bp)以保证FokⅠ的切割活性,一般将FokⅠ连接在TALE结构域的C端可获得更高的切割活性[18]。与ZFN相比,TALEN更便于设计,研究成本较低,已广泛应用于多种模式生物。
第三代EEN基因编辑技术——CRISPR/Cas9是由Cas9蛋白和单导向RNA(single-guide RNA, sgRNA)组成,与ZFN、TALEN的原理不同,是基于碱基互补原则的靶标序列互补RNA与靶标序列DNA间的特异性结合[19,20]。CRISPR是在细菌和古细菌中发现的获得性免疫系统[21],CRISPR/Cas系统可分为I—III三大类型[22],其中源自化脓性链球菌(Streptococcuspyogenes)的Ⅱ型CRISPR/Cas9系统应用最为广泛。包含DNA靶位点的引导序列与CRISPR转录产物被加工为CRISPR RNA(crRNA),与trans-activating CRISPR RNA(tracrRNA)以部分区段碱基互补连接合成sgRNA,再与Cas9蛋白形成复合体,由crRNA中的特异性序列引至紧挨前体间隔序列毗邻基序(protospacer adjacent motif, PAM)的DNA靶位点,由引导序列(一般为20 bp)与靶位点DNA碱基互补结合并启动Cas9核酸酶切割DNA双链,由Cas9蛋白的HNH核酸酶结构域剪切互补链,而RuvC结构域剪切非互补链[23],之后依靠NHEJ等修复途径来实现基因编辑。较之ZFN和TALEN这种蛋白质与DNA之间的互作,CRISPR/Cas9的原理更加简单、稳定,sgRNA的设计更简易,并且可通过一次打靶完成多基因的编辑。该技术问世以来,因其载体构建简单,脱靶率低,效率高,适用性广泛等优点,已逐渐成为基因组编辑的主流技术。
20世纪初,法国、日本及中国等学者先后利用家蚕验证了孟德尔遗传定律,发现母性遗传、连锁遗传及伴性遗传规律,且在家蚕生理遗传、形态遗传研究领域取得不俗的成就,奠定了家蚕研究在遗传学领域的先驱性[24]。直至近现代分子生物学时期,以基因工程和重组技术为主的众多现代生物技术的迅猛发展,推动果蝇、小鼠、线虫、斑马鱼等发展为生物学研究的模式动物,而家蚕因其自身的局限性,尤其是同源重组率低、稳定性差等因素,基础研究发展相对滞后,逐渐失去的分子生物学领域的领先地位[25]。
2010年Fujii等[26,27]通过转基因回补实验证明家蚕基因组Z染色体上的BmBLOS2基因的缺失或敲除突变是od家蚕幼虫呈现“油蚕”表型的根本原因。同年,Takasu等[28]利用ZFN首次实现对家蚕内源基因的靶向编辑,在G1代获得敲除BmBLOS2基因的纯合突变家蚕个体。虽然该研究编辑效率不高(仅0.28%),但对家蚕基因组靶向编辑研究的发展起到了里程碑式的作用,其后TALEN和CRISPR/Cas9技术在家蚕中的首次应用,均采用突变体表型明显、易于筛选的BmBLOS2基因作为靶标基因[29]。此后的一些家蚕ZFN基因编辑研究均显示ZFN在家蚕中的编辑效率低,设计高活性、高特异性的ZFN比较困难。2013年Wang等[30]和Takasu等[31]利用Golden Gate组装体系建立了一套适用于家蚕的TALE组装方法和基于胚胎的效率检测体系。同年Wang等[32]通过显微注射体外合成编码Cas9蛋白的mRNA和sgRNA,实现家蚕基因组编辑。2014年Liu等[33]构建了基于质粒DNA显微注射的Cas9载体系统。自此,家蚕的TALEN和CRISPR/Cas9技术经逐步完善,在后基因组时代极大地推动了家蚕基因功能解析及家蚕素材创新研究的发展。其中,CRISPR/Cas9技术因具有原理清楚、设计方便、载体构建简单、效率高等优点,已成为家蚕基因组编辑的主流技术。
目前,家蚕基因组靶向编辑技术已被广泛应用于家蚕的未知内源基因功能分析与鉴定[34]、丝腺生物反应器开发[35,36]、茧丝合成与分泌机制[37]、性别调控[38]、抗性育种[39]等研究领域。其实现基因组操作的主要类型包括:家蚕内源基因的定点突变、基因组结构变异、外源基因在家蚕基因组定点整合与敲除等。
2.2.1 家蚕内源基因定点突变
该操作是利用基因组靶向编辑技术在靶位点造成缺失或插入等基因突变,以介导靶位点内源基因的敲除,是目前生物内源编码基因功能研究最常规、最主要手段之一[40],主要集中于家蚕内源基因基因功能验证、基因功能分析、定向改造突变体三个方面。
基因功能验证是以利用定位克隆在自然突变体中鉴定到的相关基因为靶基因,在野生型中利用基因编辑技术对靶基因进行定点敲除,然后通过敲除后野生型与自然突变体表型变化对比分析来验证定位克隆的准确性。如利用CRISPR/Cas9系统对细胞色素沉淀相关转录因子基因(apt-like)、鸟苷酸环化酶基因(BmGC-I)[41]、血红素过氧化物酶编码基因(Bm-cardinal)及棕榈酰转移酶ZDHHC18类似蛋白编码基因(BmAPP)等进行功能验证。
基因功能分析是以已鉴定功能基因的同源基因或通过信息分析获得的未知内源基因为靶基因,利用基因组靶向编辑技术建立该靶基因定点敲除突变体,然后通过检验敲除后突变个体表型、性状等变化来分析靶基因的功能。如利用CRISPR/Cas9系统对蜕皮激素氧化酶基因(BmEO)[42],家蚕翅发育关键调控基因BmWnt-1及miR-2家族靶基因Bmawd和Bmfng,家蚕气味共受体基因(BmOrco)和家蚕保幼激素酯酶基因(BmJHE)[43]等进行功能分析。
定向改造突变体是以已明确功能的内源基因为靶基因,利用基因组靶向编辑技术获得敲除靶基因并具有特定表型差异的突变体。如利用TALEN技术敲除家蚕BmdsxF基因建立的外生殖器和蚕卵发育异常的雌特异性不育家蚕系[38],并在此基础上利用CRISPR/Cas9进一步证实BmPSI和BmMasc基因的突变影响Bmdsx的剪切,导致雌性生殖器官出现在雄性外生殖器中[44];通过TALEN技术敲除BmFib-H基因,创制可作为理想的生物反应器的不分泌内源Fib-H蛋白的“丝胶茧”突变体[35,36];通过CRISPR/Cas9敲除家蚕胚胎发育关键基因BmWnt1获得蚕卵不孵化且体节发育和色素沉积异常突变体[45]等。
2.2.2 基因组结构变异
该操作是利用基因组靶向编辑技术同时对2个或2个以上的靶位点进行定点突变,在基因组内实现长度大于1 kb的DNA片段的缺失、易位、重复、插入、倒位以及DNA拷贝数变异(copy number variations, CNVs)[40]。利用TALEN技术实现的家蚕基因组结构变异研究显示,在胚胎中同时注射2对TALEN的mRNA时,可介导长达8.9 Mb的染色体片段的删除、翻转和重复[46],并获得BmBLOS2基因序列区域约800 bp DNA片段缺失的人工突变体家蚕[47]。利用CRISPR/Cas9实现了家蚕BmBLOS2基因区域长度约3.5 kb DNA大片段的高效删除,成功得到可稳定遗传的油蚕突变体[48]。利用CRISPR/Cas9质粒载体系统在家蚕细胞中实现了BmBLOS2基因区域长达3.2 kb DNA大片段的删除和倒位等GSVs操作[33]。
2.2.3 外源基因的基因组定点整合
该操作是利用基因组靶向编辑技术在基因组特定位点造成双链断口,利用NHEJ或HR等DSB修复机制将外源基因定点敲入。利用ZFN介导产生DBS后,基于HR途径实现了外源GFP基因在家蚕基因组的定点整合,但效率仅为0.0085%,暗示家蚕DSB修复主要通过NHEJ途径实现[49]。此后利用以Bmku70基因为靶标的sgRNA表达载体与Cas9的表达载体共转染BmN4细胞,采用T7核酸内切酶(T7EI)检测基因型的结果显示CRISPR/Cas9系统可有效介导高达30.3%的靶基因编辑[50]。利用TALEN介导实现了携带同源臂序列的由组成型hr5-ie1启动子组合调控的DsRed2基因在家蚕BmBLOS2基因靶位点的定点整合[51]。根据基于微同源重组介导末端连接(microhomology mediated end joining, MMEJ)的修复途径,利用TALEN和CRISPR/Cas9建立了结合目标染色体精确整合(precise integration into target chromosome, PITCh)系统的外源基因整合策略(TAL-PITCh, CRIS-PITCh),并实现了外源基因在家蚕BmBLOS2基因编码区的定点整合[52]。
2.2.4 外源基因的点突变敲除
近年来CRISPR/Cas9系统也被用于进行外源基因的点突变敲除。Dong等[53]在BmN-SWU1细胞中构建了一种持续性或病毒诱导性定点敲除的CRISPR/Cas9编辑系统,可在病毒感染后被迅速激活,切割家蚕核型多角体病毒(BmNPV)复制早期必需基因ie-1,从而有效抑制病毒增殖,显著地提高BmN-SWU1细胞抗BmNPV增殖的能力。Chen等[39]利用家蚕piggyBac转座系统与CRISPR/Cas9系统成功建立了可持续性敲除BmNPV基因组ie-1基因和me53基因的转基因家蚕,添毒实验结果表明转基因家蚕具有显著的抗BmNPV能力。
2014年由辽宁省蚕业科学研究所等6家柞蚕科研单位组成的柞蚕基因组研究联合攻关项目组与深圳华大基因科技服务有限公司合作,利用第二代高通量测序技术完成了柞蚕基因组de novo测序工作。2020年《Molecular Ecology Resources》杂志报道了利用第三代高通量测序技术完成柞蚕染色体基因组的组装[54]。柞蚕基因组研究成果的公开发表,标志着柞蚕研究后基因组时代的开启,为进一步解析柞蚕重要基因功能,明确关键基因的代谢通路等创造了条件。CRISPR/Cas9基因编辑技术问世以来,因其载体构建简单快速、易操作、省时省力、周期短,且适用于绝大多数物种的特点,迅速推动了生物基因编辑研究的发展,已经在黑腹果蝇(Drosophilamelanogaster)、埃及伊蚊(Aedesaegypti)、斜纹夜蛾(Spodopteralitura)、赤拟谷盗(Triboliumcastaneum)、棉铃虫(Helicoverpaarmigera)、家蚕等昆虫的基础研究中得到广泛应用。家蚕作为鳞翅目模式昆虫与模式生物,利用CRISPR/Cas9系统开展基因编辑已经取得显著成果,柞蚕与家蚕相比存在着特性差异(柞蚕基因组重复序列异常丰富[54]、密码子偏好差异等)与局限性(卵壳更厚、以蛹滞育、需野外放养等),这些势必会增加柞蚕基因组靶向编辑工作的难度,但相信CRISPR/Cas9系统一定能够在柞蚕功能基因组研究中发挥重大作用。
尽管CRISPR/Cas9系统已广泛应用于许多物种的基因组编辑研究,但由于物种间差异及特异性,该系统在不同物种间介导内源基因定点敲除的效率差别较大。将Cas9蛋白mRNA及sgRNA导入发育早期的家蚕胚胎,获得的内源靶基因定点敲除效率较低。为提高Cas9蛋白的瞬时表达效率与含量,目前有效的策略是采取密码子优化型Cas9蛋白编码基因[50],强启动活性、组成型或生殖腺等组织特异型启动子组合驱动或持续驱动Cas9蛋白编码基因表达[38,44,55],以及构建基于质粒DNA的包含U6启动子的Cas9载体系统等方法提高敲除效率。
基因组编辑的脱靶效应是指EEN蛋白或sgRNA与非靶标DNA序列发生错配,并引入非预期基因突变的现象。造成脱靶效应的因素较为复杂,目前主要采取以下两方面改善措施。首先,根据物种特性、靶位点序列特征等选择适合的基因组编辑工具,并通过CRISPR Design和CRISPRdirect等在线软件设计sgRNA、改变切口酶策略、采用新型Cas9蛋白、采用突变体Cas蛋白与FokⅠ形成的融合蛋白、采用细胞穿透肽来介导Cas9蛋白与sgRNA进入宿主细胞等方法进行优化设计。其次,就是建立简单、快速有效的脱靶效应检测方法。目前家蚕中主要应用的仍是克隆检测,此外基于高通量测序的ChIP-seq技术、GUIDE-seq技术、整合酶缺陷的慢病毒载体(IDLV)检测法和Digenome-seq技术等都能够检测全基因组范围的脱靶效应[40]。
近几年公布了2种具有高效基因编辑能力的新型CRISPR基因编辑系统:CRISPR/Cpf1与CRISPR/Cas12b。它们与Cas9同属于Ⅱ类CRISPR系统,但在蛋白大小与结构、PAM识别位点、靶向过程、靶标序列剪切结果、位点特异性、脱靶率等方面有所差异,很好地弥补了CRISPR/ Cas9系统的局限性[56],同样适合应用于家蚕基因组编辑研究。可以预见,柞蚕基因组靶向编辑技术的应用将有效促进柞蚕业基础科研水平的提高,推动柞蚕品种的遗传改良,提升柞蚕产品开发等综合利用潜力,巩固我国柞蚕产业在世界上的领先地位。