BE-dot:为单碱基编辑设计sgRNA及预测脱靶图谱的工具*

2023-02-26 07:52王泽鲁梁俊波王晓月
生物化学与生物物理进展 2023年2期
关键词:碱基图谱基因组

王泽鲁 梁俊波 王晓月

(中国医学科学院基础医学研究所,北京协和医学院基础学院,生物化学与分子生物学系,北京 100005)

基因组编辑工具,尤其是基于CRISPR系统的单碱基编辑器自推出以来就显示了广阔的临床应用前景[1]。单碱基编辑器(base editors,BEs)能高效地对指定位点的单个核苷酸变异(SNV)进行精准修复,为治疗遗传性疾病提供了良好方案[2-3]。主流的BEs 由催化活性受损的Cas9 酶连接脱氨酶构成,在单向导RNA(single guide RNA,sgRNA)的指导下,定位到预先设计的基因组位置发挥作用[4]。根据实现的单碱基替换类型,BEs可分为腺嘌呤碱基编辑器(ABEs)和胞嘧啶碱基编辑器(CBEs)。ABEs 能实现A 到G 的直接转换,CBEs能将C 转换为T[3,5]。综合ABEs 和CBEs,它们能实现对所有转换类型SNVs的修复。在人类致病性遗传变异中,点突变占比58%,点突变类型为“转换”的SNVs 占61%。BE 校正SNVs 除了在DNA水平精准修复,还可以在蛋白质水平进行修复。利用密码子的简并性,蛋白质水平的校正增加了可选用的BEs范围,也增加了在已有的BEs种类下可实现校正的SNVs范围[6]。

近年来,多种ABEs 和CBEs 被开发出来。2020年,研究者又开发出可介导CG碱基颠换的单碱基编辑工具CGBEs,在编辑效率和产物纯度得到极大提高后,CGBEs 在未来研究中的应用极具潜力[7]。以上多种BEs在识别的原间隔序列邻近基序(protospacer adjacent motif,PAM)序列、具有编辑活性的序列范围等属性上有所差异[6,8-9]。对目标点突变进行编辑时,需要结合点突变的类型及其背景序列特点,选择合适的BEs 和sgRNA[10]。因此,借助计算工具来设计sgRNA 十分必要。不同于Cas9在编辑位点产生双链DNA断裂(DSBs),BEs 不会引入DSBs,从而被认为是更安全的基因组编辑工具[2]。在应用于临床之前,十分有必要对BEs的特异性进行详尽的评估。

目前,虽然有较多工具可以实现BEs 的sgRNA设计,如BE-designer[5]、BE-FF[6]、beditor[11],但缺少工具将下游的脱靶(off-target,OT)图谱分析及脱靶产物注释纳入[12-13]。已有预测CRISPR 系统脱靶的工具,如Cas-OFFinder[14]、CFD[15]、uCRISPR[16];最新开发出的预测BEs 脱靶编辑效率工具BEdeepoff 包含了两个独立工具——ABEdeepoff 和CBEdeepoff。它们分别基于ABEmax 和BE4max 在成对的sgRNA-脱靶DNA 高通量文库上的编辑效率构建得到[17]。以上预测脱靶工具可以对脱靶位点以及脱靶位点处的编辑活性进行预测,然而不同工具在预测结果上具有差异[18-19],综合使用多个脱靶预测工具可以为脱靶评估提供更全面的参考。

基于此,本文提出了综合性工具BE-dot,BEdot 实现了设计sgRNA,综合多个工具预测脱靶图谱以及对脱靶产物进行功能注释的完整过程。借鉴已有工具BE-FF 对SNVs 的同义校正,BE-dot 在设计sgRNA 时不仅提供了在DNA 水平上对SNVs 的精确校正方案,还提供了在蛋白质水平校正突变的方案,使得非转换类型的SNVs 也有可能被BEs 校正。在临床应用中除了必要考虑的单碱基编辑系统的脱靶效应,BEs在靶向位点的编辑效率也是评估编辑方案优劣的重要方面,尤其是针对某一SNV有多个可选用的BE-sgRNA方案时。因此,BE-dot添加了BE-Hive[20]作为预测候选sgRNA 编辑效率的工具,以对用户提供更全面的参考信息。另外,BE-dot允许用户使用自定义的BEs,能更灵活、更具有实用性地设计sgRNA。软件的下载地址为:https://github.com/wendyw630/BE-dot。

1 方 法

1.1 sgRNA的设计

本研究面向的基因组为人类基因组GRCh38,BE-dot的总工作流程见图1。针对用户需要编辑的SNV,用户调用BE-dot 来设计sgRNA 可通过输入方式一——rsID,或输入方式二——SNV及其上下游各50 nt 序列。若用户提供的为rsID,BE-dot 调用python Bio 程序包的Entrez.efetch 模块,以URL格式访问NCBI的Entrez 数据库,检索其子数据库“SNP”。将检索到的序列保存到本地目录下,然后使用Bio 程序包的SeqIO模块去解析它,可以得到rsID在“SNP_ID”、“CLINICAL_SIGNIFICANCE”、“GENE_ID”、“CHRPOS”、“FXN_CLASS”、“DOCSUM”等方面的信息,进一步解析“DOCSUM”中以HGVS[21]表达式记录的cDNA 水平的突变信息,可以得到SNV 的突变类型。若用户接受在蛋白质水平上的校正,以方式二输入时还需提供SNV 所在密码子阅读框的位置(1或2或3)。

通过判断SNV 类型,选择适用的BEs 类型为ABEs 或CBEs 或CGBEs。对于突变为T→C或A→G,选用CBEs;突变为G→A 或C→T,选用ABEs;突变为G→C 或C→G,选用CGBEs。确定BEs 类型后,BE-dot 对于该类型内的所有BEs 筛选。将SNV 在某BE 的编辑窗口的各个位置滑动,若SNV 在编辑窗口内的该位置时能满足PAM 要求,并同时满足编辑窗口内仅有SNV 突变碱基这一个BE 能编辑的碱基类型,则该BE 及相应位置的sgRNA 可对该SNV 进行精确修复;若编辑窗口内BE可编辑的不只有SNV突变后的碱基,则可能发生旁编辑(bystander editing),如果对SNV 的编辑连同旁编辑可以修复SNV 对蛋白质的影响,则该BE及相应位置的sgRNA记为 “同义修复”。

1.2 脱靶图谱的预测

BE-dot 提供预测脱靶图谱的工具有Cas-OFFinder、CALITAS、CFD-score、uCRISPR、BEdeepoff(表1)。其中可用于预测脱靶位点的工具有Cas-OFFinder 和CALITAS;可用于预测BEs在脱靶位点处编辑活性的工具有CFD-score、uCRISPR、BEdeepoff,它们不做脱靶位点的预测,都是基于Cas-OFFinder 的搜索结果进行编辑活性预测。

Cas-OFFinder 在更新的3.0 及更高版本中增加了对DNA 凸起、RNA 凸起的考虑,即认为存在sgRNA 与DNA 配对中两者碱基数不相等的脱靶。在本研究中,BE-dot 设置的默认参数是:存在DNA 凸起或者RNA 凸起的最大值为1,sgRNADNA 错配数最大值为3。CALITAS 设置的默认参数中DNA凸起和RNA凸起总数最大为2,sgRNADNA错配数为3。

Fig.1 The overall workflow of BE-dot

Table 1 List of 5 OT prediction tools contained in BE-dot

CFD得分可以拆解为独立sgRNA-DNA匹配情况的得分和PAM序列得分,其中PAM序列得分规则是基于观测CRISPR/Cas9 结合相同sgRNA、不同PAM序列时的切割活性得到的,其PAM序列的偏好性在PAM序列不是NGG的单碱基编辑系统中很难适用。BE-dot 舍弃了CFD 得分中对PAM 序列打分的部分,保留了其对sgRNA-DNA匹配情况的打分。

BEdeepoff 是基于成对的sgRNA-脱靶DNA 高通量试验,分别检测ABEmax和BE4max单碱基编辑器在脱靶DNA 上的编辑效率,构建得到预测模型ABEdeepoff、CBEdeepoff。在设计的sgRNA-脱靶DNA 文库中,考虑了含有碱基插入、缺失的情况,因此BEdeepoff 可对含有DNA 或RNA 凸起的OT位点做脱靶活性的预测。由于CFD和uCRISPR只针对无DNA 或RNA 凸起的OT 位点做脱靶活性的预测,因此Cas-OFFinder 找到的OT 位点中与sgRNA 等长度匹配的OT 作为CFD 和uCRISPR 的输入。

用户运行BE-dot 的脱靶预测模块时,可参考操作说明(图2)输入相应的参数。其中,OTprediction 模块对部分参数提供了默认值,它们是mismatch_number(默认值取3)、DNAbulge(默认值取1)、RNAbulge,(默认值取1)。

Fig.2 Screen shot of command lines of BE-dot OT prediction

1.3 使用ANNOVAR对脱靶编辑产物进行功能注释

对于潜在的脱靶位点,可能存在sgRNA 与这段DNA配对,使得BE在此编辑产生试验设计之外的点突变。BE-dot的OTannotation模块实现了将某个OT位点上所有的编辑结果进行穷举,并将各种点突变组合自动转换为ANNOVAR[23]的输入文件格式。

该模块需要用户提供BE 名称,BE-dot 将结合BE 的碱基转换类型和编辑窗口,遍历脱靶序列上可能的编辑位点,列举所有可能的脱靶编辑组合情况。

2 结 果

2.1 设计sgRNA的应用举例

rs80357410是人类17号染色体的第43 124 027位碱基发生了T到C的错义突变,ClinVar数据库中的注释显示其位于BRCA1基因,多项研究表明该SNV与乳腺癌和卵巢癌相关[24-25]。对此,使用BEdot 的sgRNA 设计功能选择可校正此点突变的BEs和sgRNA。

运行如下命令:python BE-dot.py designsgRNA_opt1 --jobID job001 --upSeq GCGTTGAAGAAGTACAAAATGTCATTAATGCTATGCAG AAAATCTTAGAG--downSeq GTCCCATCTGGTAAGTCAGCACAAGAGTGTATTAATTTGGGATTCC TATG --mut C --wt T --codon_frame 1 --outputPath/path/,因为该SNV在dbSNP数据库中有相关记录,所以可运行命令:python BE-dot.py designsgRNA_opt2 --rsID rs80357410 --outputPath/path/

sgRNA的设计结果见表2,BE-dot提供的碱基编辑器中能对该SNV精确修复的有Target-AID-NG、xBE3、SpRY-PmCDA1、SpRY-BE4max。此外,能在蛋白质水平修复的碱基编辑器有BE-PLUS、evoCDA1-BE4max。尽管它们的编辑窗口内除了目标编辑的C,编辑位点的上游7 nt处还存在一个C,但该C 位于的密码子为ATC,与非目标编辑产物ATT同样翻译为异亮氨酸。由于BE-Hive中目前包含的BEs类型有限,在本次校正中能进行编辑效率预测的只有CP-CBEmax-variants,其预测值(Z-score)为-0.19,略低于平均水平。

Table 2 BE-dot’s sgRNA design scheme for correcting rs803574101)

BE-dot 纳入了CGBEs,可以实现对突变类型为C→G和G→C的SNV的纠正,使得以往不能直接利用ABEs、CBEs 进行编辑的SNV 有了可能的编辑方案。统计ClinVar数据库中被记录为“致病性”和“可能具有致病性”的SNV 记录共43 925 条,其中C:G 突变为T:A 的SNV 占比最大,有20 918个;A:T 突变为G:C 的SNV 占比15%,有6 410个;C:G→G:C占11%,有3 704个(图3a)。利用BE-dot 对以上3 种突变类型的SNV 设计编辑方案,综合精确修复和同义修复的设计结果,可以对 15 724个具有和可能具有致病性的C:G→T:A突变进行纠正,A:T→G:C 可编辑的有5 272 个,C:G→G:C可编辑的有1 306个(图3b)。

2.2 预测BE的脱靶图谱可以指导BEs和sgRNA的选择

Fig.3 Pathogenic SNV type and BEs editable SNV ratio

脱靶图谱是评估BEs的重要方面,具有高度特异性的BEs 才有可能发展到临床应用。对于rs80357410 设计的8 个可选用的BEs,结合各自对应的sgRNA进行脱靶数量的预测,得出的OT数量的预测结果见图4a。预测结果中,Cas-OFFinder预测的脱靶数量显著多于CALITAS预测数量(配对t检验,P=0.004 534)。相较于PAM 序列为NG 和NRN的BE类型,PAM序列为NGG的BE-PLUS和evoCDA1-BE4max 在全基因组范围内预测的脱靶位点数量最少,特异性最高。在编辑效率等方面可以满足要求的情况下,应优先选择BE-PLUS 或evoCDA1-BE4max。

BE-PLUS 在脱靶位点处的编辑活性预测由CFD、uCRISPR、BEdeepoff 给出(表3)。表3 保留了BEdeepoff 预测脱靶编辑效率大于0.2 的记录。由于CFD 和uCRISPR 只能对sgRNA 和DNA 长度一致的匹配做出活性预测,因此表中列出的脱靶序列来自Cas-OFFinder 和CALITAS 预测结果中的无DNA 或RNA 凸起的部分。两个软件在这4 个脱靶位点处的预测得分排名是基本一致的,其中脱靶活性最高的位点位于17 号染色体43 124 016~ 43 124 038位,与sgRNA序列比对时仅5'端第12位碱基存在错配。综合以上分析,需要特别注意 BE-PLUS 对应的gRNA 在17 号染色体43 124 016~43 124 038位的脱靶。

Fig.4 OT quantity and BE-PLUS system’s OT site distribution

Table 3 BE-PLUS cleavage efficiency on OT sites corresponding to different prediction tools

2.3 对脱靶编辑产物进行功能注释的应用举例

对选定的BE 和sgRNA 进行脱靶图谱的分析后,还可以利用BE-dot 对高风险的脱靶位点进行编辑产物的分析。结合rs80357410示例中找到的表3 所示的4 个具有最高脱靶编辑活性的位点,将Cas-OFFinder 运行结果中这4 个位点的相应记录提取出来,作为输入文件4ots_BE_PLUS.txt,运行命令python BE-dot.py OTannotation -BE BE-PLUS -i 4ots_BE_PLUS.txt -o/path/,即可得到所有的脱靶SNV 组合情况,共得到7 条突变记录(表4)。调用ANNOVAR 文件做功能注释后得到发生在外显子区的脱靶SNV 有1 个,属于BRCA1基因位于17号染色体的第43 124 035位,是同义突变;发生在内含子和基因间区的SNV共有6个。

综合以上分析,BE-PLUS 对应的gRNA 尽管在基因组上有个别高脱靶活性位点,但其脱靶编辑并不会对基因组或转录产物、翻译产物产生有害的影响。

Table 4 The list of all possible editing products on BE-PLUS 4 OT hot sites

3 讨 论

随着单碱基编辑技术的广泛应用,对某一点突变位点设计特异性强的sgRNA已经成为普遍需求。对此,已有多个sgRNA 设计工具问世,如BEdesigner、BE-FF、beditor。已有的可用于预测BE脱靶效应的工具也经历了由经典基于比对的Cas-OFFinder 增加到基于假设、基于机器学习、基于能量等多种类型的工具[14,18,26-27]。尽管相关的工具数量较多,目前仍没有工具对sgRNA 设计、脱靶效应评估及下游的功能注释等完整过程进行整合,没有对BEs脱靶提供功能相同的多种工具的综合评价。

基于此,本文开发了BE-dot,实现了仅需用户提供SNV,即可完成sgRNA 设计、脱靶效应预测和脱靶产物功能注释的完整流程。为用户提供在DNA 水平和蛋白质水平修复某一SNV 时所有可选用的BEs 以及可设计的sgRNA。BE-dot 利用多个脱靶预测工具预测脱靶图谱,更容易确定脱靶热点,避免了使用单一工具的偏差。此外,BE-dot可以自动列举脱靶位点处所有可能的编辑产物,并转换为ANNOVAR 变异注释所要求的格式,使得用户能方便快速地获得脱靶编辑产生的功能影响。

根据现有的研究结果[2,28],关于诱导产生BEs脱靶的因素尚无明确的结论。BE-dot 考虑的脱靶类型主要是由sgRNA 序列相似性引起的脱靶。另外,当前版本的BE-dot 的功能仅面向基因组GRCh38,将来会包含多种基因组,扩大其应用的范围。

4 结 论

本研究建立了一个对SNVs设计单碱基编辑方案并对编辑方案的脱靶图谱进行全面评估的综合分析工具——BE-dot(https://github.com/wendyw630/BE-dot)。BE-dot 在设计单碱基编辑方案中包含了27 种CBEs 和12 种ABEs。BE-dot 不仅提供了在DNA 水平上的精确修复方案,还提供了在蛋白质水平上的同义修复方案,旨在利用已有的BEs对尽可能多的SNVs提供编辑方案。同时,它调用第三方工具BE-Hive对编辑方案的靶标编辑效率进行预测。在评估编辑方案的脱靶效应时,BE-dot 纳入了多个脱靶预测工具,便于确定脱靶热点。此外,为了方便用户查看脱靶编辑对基因功能的影响,BE-dot 能程序化地列举所有可能的脱靶编辑产物并分析了脱靶产物所位于的基因组区域以及对基因功能的影响。使用BE-dot 的sgRNA 设计功能时,用户需要提供SNV 的rsID 或包含SNV 在内共计101 nt 的DNA 序列及SNV 所处的氨基酸密码子阅读框。提供BE-sgRNA编辑方案以及目标编辑的基因组文件即可进行脱靶位点的预测。

与其他软件相比,BE-dot 首次实现了设计SNV 修复方案、脱靶评估以及脱靶功能影响的完整过程。对编辑方案从靶标编辑效率以及脱靶效应等方面进行了全面的评估。旨在为生物医学试验引入或修复SNVs设计编辑方案并对方案提供全面的评估和参考。

猜你喜欢
碱基图谱基因组
牛参考基因组中发现被忽视基因
绘一张成长图谱
应用思维进阶构建模型 例谈培养学生创造性思维
血清HBV前基因组RNA的研究进展
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
紫花白及基因组DNA提取方法的比较
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱