李树磊,徐妙云,郑红艳,王磊
中国农业科学院生物技术研究所,北京100081
传统育种中利用的遗传变异主要来自于自然突变、物理或化学诱变,存在变异发生率低、周期长、位点不可控等缺点。成簇规律间隔短回文重复序列(clustered regularly interspaced short palindromic repeats/CRISPR-associated proteins,CRISPR/Cas)系统作为第三代基因编辑技术,由单链引导RNA(single-guide RNA,sgRNA)与切割靶序列的Cas内切核酸酶组成,其主要依赖sgRNA引导核酸内切酶在目标基因组位置产生双链断裂(double-strand break,DSB)[1],而DSB可通过非同源末端连接(non-homologous end joining,NHEJ)或同源重组(homology recombination,HR)2种方式进行修复,修复过程中会引起靶标位置核苷酸序列的缺失、插入或替换,从而实现基因编辑。
为满足不同的编辑目的,研究人员以CRISPR/Cas系统为基础,通过融合表达Cas9突变蛋白、胞嘧啶脱氨酶或人工进化的腺嘌呤脱氨酶,开发出能够对靶位点进行精准单碱基编辑的系统。该系统在不引起DNA双链断裂的情况下,实现胞嘧啶(cytosine,C)转化胸腺嘧啶(thymine,T)/鸟嘌呤(guanine,G)转化腺嘌呤(adenine,A)的替换,且通过不断改进可明显提高单碱基编辑效率,减少插入、删除(insertion and deletion,indel)和非预期突变[2−3]。该系统已成功在小麦(Triticum aesti⁃vum)[4]、水稻(Oryza sativa)[5]、棉花(Gossypium)[6]、玉米(Zea mays)[7]等物种上实现安全高效的单碱基替换编辑。但目前该系统仅利用nCas9蛋白突变体(Cas9 nicknase,nCas9)或dCas9蛋白突变体(deactivated Cas9,dCas9)作为效应蛋白,所识别的PAM序列为鸟嘌呤/胞嘧啶富集区。因此,利用现有的碱基编辑系统无法在腺嘌呤胸腺嘧啶富集区域进行高效的编辑操作。
Cpf1(CRISPR from prevotella and francisella 1)也被称为Cas12a,其与Cas9同属于Class2蛋白家族,虽然特征相似但仍存在差异:①Cas9需要CRISPR衍生的RNA(CRISPR derived RNA,crRNA)与反式激活RNA(trans-activating RNA,tracrRNA)靶向DNA,而Cpf1仅需crRNA作为向导,且Cpf1具有加工crRNA的能力[8];②Cas9及其直系同源蛋白在靶位点3′端识别富含G的PAM(5′-NGG-3′),而Cpf1以及其直系同源蛋白在靶位点的5′端识别富含T的PAM[5′-(T)TTN-3′];③Cpf1仅具有保守的RuvC核酸酶结构域,而Cas9具有HNH结构域与RuvC结构域[9];④Cpf1在目标DNA中产生交错的末端断裂[10],而Cas9介导的双链断裂切口为平末端[11];⑤CRISPR/Cpf1系统的脱靶效率低于CRISPR/Cas9系统[12−13]。其中来自弗朗西斯菌属的Francisella novicida的FnCpf1最早用于研究Cpf1蛋白的作用机理,其识别的PAM位点为5′-TTN-3′,在哺乳动物中编辑效率低于来自毛螺科菌(Lachnospiraceae bacterium)的LbCpf1与来自氨基酸球菌属(Acidaminococcussp.)的AsCpf1[10],但在植物中的应用鲜有报道。
为拓展单碱基编辑的识别范围以及FnCpf1的应用,本研究对比LbCpf1与AsCpf1的突变体氨基酸序列确定突变位点,以单子叶植物为参考进行密码子优化创制dFnCpf1突变体,构建基于CRISPR/dFnCpf1的新型单碱基编辑器(pB-dFnCpf1-CBE)。通过玉米原生质体转化手段导入植物细胞内部,并检测其编辑效率,以期为单碱基编辑技术在植物中的应用提供一定参考。
1.1.1 植物材料玉米自交系B73由本研究所提供,参考基因组序列来自Zm-B73-REFERENCEGRAMENE-4.0数据库。
1.1.2 菌株与载体Top10大肠杆菌感受态(Escherichia coli)、PB-nCas9-PBE载体由中国科学院高彩霞研究员实验室馈赠(Addgene plasmid #98160)[7];pRTL2-GFP载体为本实验室保存;pUC57-dFnCpf1及pUC57-OsU6-crRNA-polyT载体由深圳华大基因股份有限公司合成。
1.1.3 实验试剂离析酶(R-10)、纤维素酶(RS,YAKULT,Japan);AflⅡ、MluⅠ、HindⅢ和BglⅡ(NEB,America);无缝克隆试剂盒One Step Cloning Kit、高保真DNA聚合酶2×Phanta Max Master Mix(诺唯赞,中国);氯化钙(CaCl2)、氯化镁(MgCl2)、氯化钠(NaCl)、MES、甘露醇、牛血清蛋白(bovine serum albumin,BSA)、氯化钾(KCl)、氢氧化钾(KOH)和PEG4000(Sigma-aldrich,America);T4连接酶(Promega,美国);无内毒素质粒小提中量试剂盒[天根生化(北京)科技有限公司];胶回收试剂盒Gel Extraction Kit(Omega,美国);平末端克隆载体试剂盒pEASY®-Blunt Cloning Kit(北京全式金生物技术有限公司);Sanger测序(北京擎科生物科技有限公司);引物或片段合成(深圳华大基因股份有限公司)。
1.1.4 实验仪器全自动荧光倒置显微镜(EVOS FL Auto,美国赛默飞世尔科技公司);台式低温离心机(Biofuge Stratos,美国赛默飞世尔科技公司);PCR扩增仪(K960,上海楚柏实验室设备有限公司);电泳仪(BG-power300,北京永恒生物器材公司)。
1.2.1 dFnCpf1-CBE-BT2载体构建以PB-nCas9-PBE载体为骨架,利用限制性内切酶AflⅡ和MluⅠ切除nCas9,以pUC57-dFnCpf1载体为模板PCR扩增已合成的dFnCpf1序列,回收酶切载体以及PCR产物,通过同源重组酶连入线性化的PB-nCas9-PBE载体,构建dFnCpf1-PBE载体,并用HindⅢ酶切掉其OsU3-sgRNA-scaffold表达框。选择OsU6启动子,mature-crRNA序列,合成OsU6-crRNA-polyT表达框并放入pUC57-simple载体,设计包含BT2基因靶序列及同源臂的引物,以OsU6-crRNA-polyT载体为模板进行扩增,通过同源重组酶连入经限制性内切酶HindⅢ线性化的dFnCpf1-PBE载体,构建为Ubi-rAPOBEC1-dFncpf1-OsU6-crRNA-bt2载体,并命名为dFnCpf1-CBE-BT2。特异性引物详见表1。
PCR体系(50 μL):2×Phanta Master Mix 25 μL,模板1 μL,正、反向引物(10 μmol·L−1)各2 μL,Nuclease-free H2O 20 μL。反应程序:95℃预变性5 min;95℃变性15 s,60℃退火15 s,72℃延伸(dFnCpf1 4 min;OsU6-crRNA表达框20 s),扩增35个循环;72℃终延伸5 min。
酶切体系(50 μL):限制性内切酶2 μL,模板5 μg,CutSmart Buffer 5 μL,Nuclease-free H2O补至体系为50 μL。37℃孵育2.5 h至酶解完全。
1.2.2 玉米原生质体制备及转化准备30株避光土培13 d的玉米黄花苗,取第二叶中间较嫩部分并切至1~2 mm丝状。将其浸泡于20 mL酶解液(1%纤维素酶R-10,0.2 %离析酶R-10,0.4 mol·L−1D-甘露醇,20 mmol·L−1KCl,20 mmol·L−1MES,10 mmol·L−1CaCl2,0.1% BSA)中,黑暗中室温震荡(40 r·min−1)酶解4~6 h。使用350目尼龙膜过滤酶解产物并置于50 mL离心管,4℃,100 g·min−1离心3 min后弃上清。使用预冷W5 Buffer[2 mmol·L−1MES(pH 5.7),154 mmol·L−1NaCl,125 mmol·L−1CaCl2,5 mmol·L−1KCl]重悬沉淀,洗涤沉淀1次。离心后弃上清,再次加入W5溶液,冰上静置30 min。弃上清,加入适量MMG buffer[4 mmol·L−1MES(pH 5.7),0.4 mmol·L−1D-甘露醇,15 mmol·L−1MgCl2]使原生质体浓度达到2×107个·mL−1。
将100 μg目的载体与5 μg对照载体加入1 mL原生质体MMG悬浮液中,混匀后冰置10 min。加入1 mL预制PEG-Ca2+溶液(40% PEG-4000,200 mmol·L−1D-甘露醇,100 mmol·L−1CaCl2)混匀,室温避光放置15 min。加入2倍体积W5 buffer,清洗2次后加入20 mL W5 Buffer。最后将原生质体培养液置入细胞培养皿(1% BSA孵育0.5 h),避光28℃培养12~16 h。
1.2.3 靶基因编辑结果初筛在470 nm激发光、
525 nm发射光条件下,使用全自动荧光倒置显微镜,观察原生质体中绿色荧光信号的表达情况,初步判定转化效率。采用CTAB法提取转化原生质体基因组DNA,使用2×Phanta Max Master Mix高保真DNA聚合酶,通过两种改良的聚合酶链式反应-限制性核酸内切酶(polymerase chain reaction/restriction endonuclease,PCR/RE)方法对编辑位点进行检测:①扩增靶位点序列后,使用BglⅡ内切酶酶切扩增产物,判断编辑情况;②BglⅡ内切酶酶切基因组DNA富集已编辑序列。以酶切产物为模板,巢式PCR特异扩增目的序列并进行Sanger测序检测编辑情况。其中巢式PCR反应体系及反应程序、基因组DNA酶切体系均与1.2.1中一致,第二轮扩增的反应体系中模板为1 μL第一轮PCR产物。
经上述步骤①或步骤②检测,发现编辑现象后,以②中巢式PCR产物为模板进行TA克隆检测。按照pEASY®-Blunt Cloning Kit(北京全式金生物)实验步骤转化载体至大肠杆菌感受态细胞中。挑选20个白色单克隆,进行Sanger测序,分析编辑情况。
1.2.4 靶基因编辑结果二代测序检测经过初步鉴定后,以原生质体基因组DNA为模板,巢式PCR特异扩增靶位点序列,巢式PCR反应体系及反应程序与1.2.3中一致。将扩增产物送深圳华大基因股份有限公司构建测序文库,文库质控合格后由该公司BGI基于自主平台DNBSEQTM测序技术进行文库测序,并采用Soapnuke软件过滤数据,去除接头污染和低质量reads。将高质量clean data根据以下标准使用Python语言进行数据可视化分析:①reads数超过1 000且质量≥5;②相同变化的reads超过1 000条则判定为一种突变类型;③位点编辑效率=(编辑位点reads数/总reads数)×100%;④基因插入缺失频率=(该片段发生indel的reads数/该片段样品中找到完整编辑区域的reads数)×100%。
1.2.5 脱靶效率分析根据已设计靶位点序列,使 用CRISPR RGEN Tools网站(http://www.rgenome.net/cas-designer/)进行脱靶位点预测,设置Mismatch number为5,并选择打分较高的3个靶位点。根据筛选结果从Zm-B73-REFERENCEGRAMENE-4.0数据库查询基因序列,设计特异引物并以原生质体瞬时转化基因组DNA为模板扩增,Sanger测序鉴定编辑情况,其中PCR反应体系及反应程序与1.2.1中一致。
表1 引物名称及序列Table 1 Primers name and sequence
FnCpf1、LbCpf1与AsCpf1为来自不同菌株的Cpf1效应蛋白,根据文献[14]创建dFnCpf1蛋白突变体,获 得AsCpf1、dAsCpf1、LbCpf1、dLbCpf1及FnCpf1氨基酸序列,通过序列比对确定dFnCpf1的突变位点,即D917A、E1006A、D1227A(图1)。根据单子叶植物基因组密码子特点,对其进行优化,创制可在玉米中外源表达的dFnCpf1序列,并放入pUC57中间载体。
为获得靶位点信息,通过CRISPR RGEN Tools网站(http://www.rgenome.net/cas-designer/)进行靶位点分析,在BT2基因序列的第二外显子区域上挑选打分相对较高、且富含C·G碱基的序列作为CRISPR的靶点。如图2所示,以相关文献[7]中PB-nCas9-PBE为载体骨架,替换nCas9序列为dFnCpf1序 列,替换OsU3-sgRNA-scaffold表 达 框为OsU6-crRNA表达框(图2A),并连入靶序列,最终得到靶向玉米内源基因BT2的胞嘧啶单碱基编辑双元载体,命名为dFnCpf1-CBE-BT2(图2B)。
图2 靶位点表达元件以及dFnCpf1-CBE-BT2载体结构Fig.2 Target site expression elements and dFnCpf1-CBE-BT2 vector structure
为初步鉴定dFnCpf1-CBE-BT2载体的编辑能力,将dFnCpf1-CBE-BT2载体转化至玉米叶片原生质体中,转染14 h后收集原生质体,提取基因组DNA,并通过PCR/RE手段对编辑情况进行初步鉴定。使用限制性内切酶BglⅡ消解未发生编辑的靶位点序列,对已编辑的片段进行富集,然后对基因组DNA的靶位点区域进行特异PCR扩增并将其连接至pEASY®-Blunt Cloning Vector,将重组子转化至大肠杆菌感受态细胞中进行蓝白斑筛选。随机挑选20个阳性单克隆并测序,结果发现靶位点序列存在3种不同突变类型,主要发生于靶位点5′端8~12 bp的编辑框内,其中单菌落碱基变化类型5个为G→T,5个为C→A,2个为C→A与G→T,剩余8个未发生编辑(图3),说明该载体对靶位点具有一定编辑能力。
图3 蓝白斑筛选鉴定结果Fig.3 The results of blue-white screening
为进一步分析编辑类型及编辑效率,使用靶序列特异PCR扩增产物进行建库测序,共拼接出6 903 954条质量合格的reads,其中6 469 637条reads定位于靶序列。超过1 000条reads发生相同变化,则被判定为1种突变类型,以此标准将数据分类汇总后制成热图(图4A),其中占比最多的突变类型为胞嘧啶碱基颠换为腺嘌呤碱基(C→A),共151 594条reads,位于靶位点5′端第11个碱基。根据位点编辑效率=(编辑位点reads数/总reads数)×100%,显示该位点的编辑效率为2.5%。为分析dFnCpf1介导单碱基编辑系统的编辑偏好位点,将各碱基的变化情况及对应编辑效率汇总(图4B),发现除了C→A外,位点编辑效率相对较高的为G→T(0.9%)、G→C(0.3%)以及C→G(0.2%),分别发生于靶位点5′端第8、23、24个碱基。本研究中所用单碱基编辑载体主要作用为产生胞嘧啶到胸腺嘧啶的改变,因此对靶序列中胞嘧啶变化的种类进行了统计(图4C)。结果发现靶位点5′末端出现胞嘧啶转换为胸腺嘧啶(C→T),位点的编辑效率为0.1%(图4B),位于靶序列5′端第11个碱基也出现C→T现象,但该点发生变化的reads数仅为1 073个,位点编辑效率<0.02%,说明dFnCpf1-CBE-BT2单碱基编辑载体尽管对胞嘧啶具有一定的编辑作用,但编辑效率较低。
图4 扩增片段二代测序分析结果Fig.4 Second-generation sequencing analysis results of amplified fragments
为分析dFnCpf1-CBE-BT2编辑载体是否存在脱靶情况,根据靶位点序列,通过CRISPR RGEN Tools进行脱靶预测,错配碱基上限设置为5个碱基,选择3个排名靠前的靶序列(表2),分别命名为R2-OT-A、R2-OT-B、R2-OT-C。根据脱靶序列设计特异引物并PCR扩增pH-dFnCpf1-CBE-R2转化原生质体基因组DNA,Sanger测序结果显示未发现碱基突变(图5),说明dFnCpf1-CBE-BT2编辑载体不存在脱靶情况。
很多优异的农艺性状改良均源于少量碱基或单个碱基的突变[15−16],而作物中常规碱基突变的修复手段主要依靠CRISPR/Cas介导的HDR修复[17−18],但其设计复杂且重组效率较低。以CRISPR/Cas系统为基础衍生出来的单碱基编辑技术解决了这一问题,该技术在不切断DNA双链的情况下可实现单核苷酸的定向突变,且该技术不破坏基因组或产生大量的indel变异[19]。目前单碱基编辑系统多以Cas9作为效应蛋白行使功能,其仅能识别富含鸟嘌呤/胞嘧啶的靶序列。Cpf1与Cas9同属于Class2蛋白家族,识别位点为富含腺嘌呤/胸腺嘧啶富集区。Li等[14]利用dAsCpf1与dLbCpf1突变蛋白构建胞嘧啶单碱基编辑器(cytosine base editors,CBE),在哺乳动物细胞中实现了高效单碱基编辑。本研究采用识别PAM位点为“TTN”的FnCpf1突变蛋白及胞嘧啶脱氨酶构建单碱基编辑器,可在玉米原生质体中实现单碱基编辑,但主要编辑类型为C→A,预期变化类型C→T的位点编辑效率仅为0.1%。胞嘧啶单碱基编辑器的功能是将靶位点编辑窗口中的胞嘧啶脱氨转化为尿嘧啶,而尿嘧啶与胸腺嘧啶的碱基配对方法一致,因此在DNA修复和复制的过程中,产生C•G到T•A的碱基转变[2]。有研究表明,细胞内部的尿嘧啶糖基化酶(uracil-DNA glycosylase,UNG)会切除U变成无嘌呤无嘧啶状态(apurinic/apyrimidinic,AP),随后被未知修复机制修复产生A[20]。本研究中非预期突变出现的原因可能是因为dFnCpf1蛋白融合表达后影响了UGI的正常功能,使其无法抑制UNG的活性,但该推测需要进一步试验验证。
表2 R2脱靶位点预测Table 2 R2 off-target site prediction
图5 脱靶位点测序结果比对Fig.5 Sequencing results comparison of off-target sites
相较于AsCpf1与LbCpf1,FnCpf1在哺乳动物[9]与植物[21-22]中敲除能力较弱,与以往研究相符,本研究中dFnCpf1介导的单碱基编辑系统编辑效率也较低,这可能与FnCpf1蛋白特性相关。此外,有研究表明,AsCpf1与LbCpf1的编辑窗口主要为靶序列5′端8~13个碱基,该区间发生编辑的效率为10%~30%[14],在本研究中,主要突变类型C→A(效率为2.5%)发生在靶位点5′端第11个碱基,与前人报道的编辑窗口相符,其余突变类型均发生于该窗口外。因FnCpf1在植物中的应用报道较少,仅在烟草[23]、水稻[24]与玉米[21]中验证FnCpf1对植物内源基因的敲除能力,因此,对于dFnCpf1在植物中的编辑能力及编辑特性还需进一步研究。
本研究仅选择BT2基因作为靶基因,而不同的sgRNA会影响编辑结果,且本研究仅使用原生质体作为受体进行转化。因此,为探究dFnCpf1介导的CBE系统在植物中的编辑能力以及编辑效率,在后续研究中还需要选择多种作物的多个基因作为靶基因设计靶序列,通过稳定转化方式创制基因编辑材料并进行突变位点检测。
综上所述,本研究构建了基于dFnCpf1的新型胞嘧啶碱基编辑系统,可为后续单碱基编辑在作物上的研究提供思路,具有一定的理论和应用价值。