基于模板转换的微量RNA测序建库方案探索

2018-04-10 08:39陆泓雨刘波秦超勇张彦
生物技术通讯 2018年6期
关键词:建库文库条形码

陆泓雨,刘波,秦超勇,张彦

1.北京市第十二中学,北京100071;2.军事科学院 军事医学研究院 生物工程研究所,北京100071

RNA 处于生命科学中心法则的中央:遗传信息储存在DNA 中,DNA 经过转录产生RNA,其中的mRNA 再经过翻译成为发挥具体功能的蛋白质。在这个过程中,RNA 承前启后,是遗传信息传递的中枢。目前,许多研究表明,不同种类的RNA 对于基因的编码和表达调控具有十分重要的意义,因此系统研究生理或病理状态下RNA 的序列和丰度,对于理解相关基因的作用非常重要。近年来发展起来的RNA 测序(RNA-seq)技术[1-2]不仅可以测定RNA 序列,同时也能对RNA丰度进行分析,因此在生命科学的多个领域应用前景十分广泛,已经成为研究基因表达调控的关键技术。目前常用的RNA 测序技术多种多样,但由于不能对RNA 直接测序,必须通过一系列生化反应转变成线性双链DNA 并辅以测序接头才能建立测序文库用于测序,因而成本昂贵,且对RNA 总量和浓度的要求高,不利于一般研究人员进行RNA 测序研究。本研究的目的是建立简便、低门槛的RNA 测序建库方法,从而使RNA 测序更为实用,为开展相关研究提供技术支持。

1 材料和方法

1.1 材料

人胚肾HEK293 细胞来自ATCC 细胞库;模板转换寡核苷酸(template switching oligo,TS-oli⁃go)、RT 引物及PCR 引物(表1)由生工生物工程(上海)股份有限公司合成;RNA 提取试剂TRIzol、RNA片段化酶RNase Ⅲ、Maxima H Minus Re⁃verse Transcriptase 和Superscript Ⅱ购自Thermo Fisher 公司;反转录酶SMARTscribe 购自Clontech公司;KAPA HiFi HotStart ReadyMix 购自KAPA公司;MagicPure RNA Beads 购自Transgen Biotech公司;Proflex型PCR仪、Ion Proton 型测序仪购自Thermo Fisher 公司。

图1 基于模板转换反转录的RNA 测序建库原理

表1 本研究所用到寡核苷酸引物

1.2 总体设计

本研究的建库方案非常简便,涉及的实验步骤仅有2 步(图1),关键实验参数包括反转录酶、反转录反应温度、TS-oligo 的选择,以及是否进行cDNA 纯化,因此本研究的重点就是对这些参数进行优化,并根据文库DNA 长度和浓度结果确立理想的RNA-seq 建库技术。

1.3 RNA样品制备

为了测试对于微量RNA(总量10 ng)的建库能力,首先制备HEK293 细胞的RNA,再用RNaseⅢ制备片段后经MagicPure RNA Beads 纯化,定量取10 ng RNA 用于建库测试。

1.4 反转录酶的选择

本研究的核心就是利用反转录酶的模板转换活性,实现一步实验即完成从RNA 到双链DNA的转变。因此,模板转换活性的强弱是决定实验成败的重要因素。选择3 种常用的、被报道具有模板转换活性的商品反转录酶,比较其对于微量RNA 的反转录和模板置换合成第二链的能力。以10 ng 片段化RNA 为起点,反转录反应结束后取1 μL 进行PCR,除反转录酶和各自配套的酶反应缓冲液以外,其他所有条件都完全一致,最终以反转录后PCR 产物的多少来判断模板置换的能力。

1.5 TS-oligo的选择

由于反转录酶合成DNA 到末端后都会随机加上数个碱基,因此每次反转录结束后在3′端都增加额外数个碱基,启动下一轮模板转换时就会造成TS-oligo 串联的现象(图2)。要想改善这一现象,就需要在实验设计中将TS-oligo 的5′端进行封闭。

本研究采用两种方案,即生物素化修饰(采用表1 中的Biotin-TS-oligo)和无碱基间壁修饰(采用表1 中的AP-TS-oligo)。这2 种修饰都可以使得反转录酶不能以最后一个碱基为模板合成DNA,从而避免到达末端后增加额外的碱基。本研究通过比较这2 种TS-oligo 对建库效率的影响,筛选适宜的TS-oligo。

1.6 反转录温度的选择

在同时利用反转录酶的反转录活性和模板置换活性制备双链cDNA 文库时,通常情况下提高反转录的温度有助于打开RNA 的二级结构,利于反转录酶延伸至cDNA 末端。但是过高的温度不利于TS-oligo 和cDNA 末端3 个连续的配对,从而会降低模板置换的效率。在酶的最适温度附近选择42℃、45℃及50℃分别进行反转录和第二链合成反应。

1.7 cDNA纯化的优化

在反转录过程中,反转录引物和TS-oligo 也可以互相配对形成2 个寡核苷酸的二聚体,所以产物中往往会存在二聚体杂质,而cDNA 纯化有可能减少二聚体的形成。由于这种二聚体的大小显著低于真正RNA 反转录的产物,因此可以通过片段长度测定进行条件筛选。将反转录产物分为2 组,每组5 μL,其中一组不经过纯化,直接取1 μL 进行PCR,另一组用1.0×AMPure Beads 纯化后用5 μL 去离子水洗脱再取1 μL 进行PCR。

1.8 高通量测序及分析

利用高通量测序分析验证数据重复性以及分子条形码对基因表达丰度的校正。RNA-seq 测序文库制备完成后,交由北京诺禾致源公司进行文库质检和测序。对于不含分子条形码的文库,直接用STAR 比对软件使用默认参数进行比对,对片段的技术规则是片段读数;对于包含条形码的文库,则先去除条形码再进行比对,对每一个片段的技术规则是条形码数量。

图2 模板转换产生TS-oligo 串联现象的机制

图3 不同的酶对建库效率的影响

2 结果

2.1 反转录酶的选择

反转录酶选择实验结果见图3。所有经过测试的酶都具有模板置换活性,Clontech 公司的SMARTscribe 的活性最高,因此选择该酶进行后续实验。

2.2 TS-oligo的选择

生物素化修饰(Biotin-TS)和无碱基间壁修饰(AP-TS)2 种建库方案所获得的PCR 产物电泳结果见图4,2 种情况下所获得cDNA 库的组成和浓度相似,表明2 种修饰方案都可以实现较好的扩增。最终需要通过高通量测序结果进一步验证。

2.3 反转录温度的选择

选择42℃、45℃及50℃分别进行反转录和第二链合成反应,并通过核酸电泳检测不同反应温度下的扩增效率,结果显示50℃的扩增效率相对较好(图5)。

2.4 cDNA纯化的优化

为了探究cDNA 纯化是否能够提高建库效率,本研究设置了经cDNA 纯化组和未经cDNA 纯化组,结果表明cDNA 经过纯化后PCR 产物中二聚体显著减少(图6)。

2.5 测序结果初步分析

2.5.1 数据重复性 对测序结果进行比对和基因计数后,分别对2 种方案的基因表达量进行重复性分析,结果显示2 种方案的重复性都非常高,相关性系数达到0.95 以上(图7)。

2.5.2 分子条形码对基因表达丰度的校正 图8显示的是2 个snoRNA 基因的表达情况。再比较使用(AP-TS 组)和不使用(Biotin-TS 组)分子条形码的测序数据,发现使用条形码校正后的基因读数更加均一(图8 左红色);而且SNORD6 基因的表达量低于SNORA32(图8 左上),而未校正的测序数据则不能判断这2 个基因的表达差异(图8 左下)。进一步通过经典的荧光定量PCR 实验验证所选择的2 个snoRNA 基因的表达差异,显示SNORD6 的表达量低于SNORA32(图8 右)。可见,2 种TS-oligo 的建库测序分析效果存在差异,而使用携带分子条形码的TS-oligo 可以使一些基因表达量得到有效校正,更加真实地反映基因表达水平。

图4 不同修饰的TS-oligo 建库效率相当

图5 不同反转录温度对建库效率的影响

图6 cDNA 纯化显著提高建库效率

图7 2 种建库方案生物学重复的相关性

3 讨论

MMLV 转录酶具有多种活性:以RNA 为模板的DNA 聚合酶活性(即反转录活性);在cDNA 合成的3′端增加数个非模板依赖的核苷酸活性(末端转移酶活性);在TS-oligo 存在的情况下,能以合成的cDNA 第一链为模板继续合成cDNA 第二链(模板转换活性)。2001年最早报道了利用这些活性进行cDNA 末端快速扩增(rapid amplifica⁃tion of cDNA ends,RACE)的研究[3],之后Clontech公司进一步利用这一技术发展出目前市场上较为成熟的RNA 测序技术[4-5],但该公司的试剂盒成本昂贵。本研究通过自主设计寡核苷酸并优化参数,建立了基于模板转换和分子条形码的微量样本RNA-seq 一步法建库流程,简化了操作,缩短了建库时间,降低了建库成本。此外,虽然本研究是按照Thermo Fisher 的Iontorrent 平台设计测序接头,但由于反转录引物和TS-oligo 都是自行设计,故理论上该方法可以适配任何测序平台以进行RNA 测序分析,包括Illumina 测序平台和PacBio 三代测序平台等,从而突破商业化试剂盒对测序平台的选择限制。

图8 分子条形码对基因表达量进行校正

本研究所确立的实验参数包括反转录酶、反转录反应温度、TS-oligo 的选择,以及是否进行cDNA 纯化。研究发现目前市场上相关反转录酶产品在模板置换活性方面存在差异,其中Clon⁃tech 公司生产的SMARTscribe 活性最高。在反转录反应温度选择上,一方面要保证反转录酶在高效的温度下工作,另一方面须同时考虑核酸的动力学特点。在本研究选择的测试温度下,50℃时效果较好,可能因为二级结构能更充分地打开,帮助反转录酶延伸到末端,从而启动模板转换。反转录过程中难以避免RT 引物和TS-oligo 形成二聚体,而这种二聚体对于微量样品文库制备有严重的干扰作用,本研究发现通过纯化cDNA 来去除二聚体产物能够显著提高建库效率。

当前主流的RNA-seq 分析基因表达量主要考察测序读数(即一个基因或转录本被测定多少次)[6],然而由于建库中用到PCR 扩增,容易引起扩增效率偏好,最终产物片段的多少和初始样品中基因片段的多少不能成正比[7]。分子条形码是在TS-oligo 上引入一段随机核苷酸,每个RNA 分子只可能与一个TS-oligo 对应,因此最终测序得到每个基因对应的条形码数量就可以推算基因的表达量。这种方法理论上会大大降低PCR 偏好性对基因表达量估计的干扰。本研究在模板置换引物上加入分子条形码设计后,改变了单纯用测序读数来判定基因表达量的做法,而采用分子条形码的数量来判别基因表达量。初步分析结果显示,这样的判定方法计算的基因覆盖更加均匀,且表达量估计更加准确,这在微量RNA-seq中具有重要意义。首先,这种判读方法更加准确,可进一步增加数据的可信度;其次,对于极微量的样品,如血液中来自肿瘤外泌体的RNA 或单细胞样品来说,需要扩增较多循环数,而仅仅通过测序读数判读基因表达量可能会引入较大误差。加入分子条形码使得表达量估计偏差减小的同时,还可以适度提高文库扩增循环数,从而降低文库制备的门槛,提高RNA 分析的成功率。

本研究针对10 ng RNA 样品,探索出基于模板转换、分子条形码和cDNA 纯化的RNA-seq 建库技术,有望在肿瘤外泌体研究、单细胞测序等极微量核酸研究领域得到应用。该法与目前主流的建库方案相比,成本低、耗时短、通用性强,建库分析的成功率高,具有明显优势。

猜你喜欢
建库文库条形码
创意条形码
专家文库
优秀传统文化启蒙文库
关于推荐《当代诗坛百家文库》入选诗家的启事
从条形码到二维码
从条形码到二维码
“数字温县”建设项目通过验收
专家文库
面向建库与制图一体化的规则研究
条形码大变身