尚艳姣 周小军 袁 征 邱业峰
(军事科学院军事医学研究院实验动物中心,北京 100071)
在生物医学研究中,实验动物作为不可缺少的实验材料,在疾病机制研究、药物筛选和毒理实验中发挥着重要作用。近交系小鼠具有同基因性、长期遗传稳定性、均一性、背景资料和数据较为完善等特点,成为现代生物医学研究中应用最广泛的实验动物之一。然而,小鼠的体质量直接影响实验结果的准确性和可靠性。遗传质量的监测对于确保小鼠品系纯度和均一性至关重要,有助于保持已建立的品系特征。目前,小鼠遗传质量控制标准为GB/T 14927.1—2008《实验动物近交系小鼠、大鼠生化标记检测法》和GB/T 14927.2—2008《实验动物近交系小鼠、大鼠免疫标记检测法》,标准中重点推荐的是生化标记检测法,但生化标记法和免疫标记法检测精确度和灵敏度都比较低,且不能有效地检测出各个亚系之间的遗传差异。单核苷酸多态性(single nucleotide polymorphism,SNP)是基因组中最常见的遗传变异类型,SNP遗传检测是目前近交系小鼠遗传检测中研究较多的遗传标记,检测准确性较高,可实现自动化的大规模检测。SNP检测是在DNA水平进行的检测,依赖于完整的基因组信息注释。本文主要概述了小鼠基因组的发展,并就SNP检测技术在近交系小鼠遗传质量监测中的研究现状以及应用进行阐述。
2002年小鼠基因组测序联盟(MGSC)报告了C57BL/6J小鼠基因组测序草案,小鼠基因组的大小约为2.5 Gb,比人类基因组约小14%[1]。随着测序技术的发展,纠正了许多漏洞。小鼠基因组大约有38%的重复序列,27 000个基因和假基因。小鼠的基因组和人类的基因组序列非常相似,几乎人类所有基因都可以在小鼠身上找到同源基因。2017年9月,基因组参考联盟(Genome Reference Consortium,GRC)提交了GRCm38.p6版本,该版本基因组大小约为3.2 Gb,组装水平为染色体水平,由885个contigs组装成336个scaffolds。根据这些序列,已经构建了21条染色体。Ensembl数据库现收录的小鼠SNP有8 400万个,结构变异有791 000个。
近交系小鼠C57BL/6(B6)是生物医学研究中最常见和最具特征的实验品系,2002年,MGSC以C57BL/6J为目标,进行了小鼠全基因组测序,并首次绘制了小鼠的序列草图(MGSCv3),其测序质量较高,碱基错误率小于0.1‰。然而,由于测序方案(全基因组鸟枪法)的局限性及高重复区域等基因组的组成问题[2],组装的基因组存在较多缺口。2005年,MGSC发布的NCBI build 34版本的组装长度为2.6 Gb,其中约1.9 Gb(73%)碱基的测序错误率小于0.01‰,完成了4条染色体(chr 2、4、11和X)完整组装[3]。2009年,利用两个细菌人工克隆(BAC)库的Sanger测序数据,C57BL/6基因组草图被更新为一个完整的、基于克隆的组装[4]。自2010年以来,GRC一直积极维护小鼠参考基因组,从2012年的GRCm38开始,先后发布了6个补丁,但GRCm38在染色体序列中仍然存在523个缺口,以及局部序列错误组装等问题。2019年,Jackson实验室利用高覆盖率、长读、短读和光学作图技术相结合的方法,对C57BL/6J“Eve”进行了从头基因组组装,经过“Eve”的测序,填补了23个缺口,发现了40个结构变异[5],更能代表目前使用的C57BL/6J小鼠的基因组。
小鼠基因组序列草案的发布,引发了科学家对小鼠近交系之间序列变异的全基因组研究。实验室中常见的近交系是近一个世纪前遗传研究机构的祖先衍生而来的。来自这个原始群体品系的近亲繁殖产生了许多近交系,每一个品系都有相当多的变异和不同的表型特征,寻找近交系之间的序列变异对于研究近交系的遗传分化和疾病表型都具有巨大的实用价值。由于SNP数量庞大,高通量的基因分型能降低成本,很多实验动物公司都已采用SNP遗传标记进行遗传检测[6-7],这也促进了小鼠品系间SNP信息的研究。有研究[8]通过比较10个常见的实验小鼠品系,发现小鼠基因组2/3的区域存在低密度的SNP(0.5个/10 Kb),而高密度SNP(40个/10 Kb)则覆盖了其余的1/3区域。有研究[9]对4个野生型和11个常见近交系小鼠的基因组进行了重测序,在12个常见近交系中存在339万个SNP,其中绝大多数是首次发现。并且通过测序方法的比对研究,SNP的发现率为43%,作者估计常见近交系中总共有800万个SNP。
有研究通过测序鉴定了277个C57BL/6NJ特异性的SNP,并筛选了100个有用的SNP,可分析11个C57BL/6N衍生的亚系间的遗传差异[10],有助于准确监测C57BL/6N衍生背景的小鼠品系。有研究分析了17个小鼠品系的DNA序列,共发现5 670万个SNP位点,但不同品系之间的SNP数量差异很大,C57BL/6NJ中只有几千个SNP位点,而SPRET/EiJ品系的却有3 540万[11]。SNP数量主要与小鼠品系与参考基因组C57BL/6J的遗传距离有关。
对13个免疫反应、白血病、年龄相关性听力损失和类风湿性关节炎的模型相关的近交系进行了深度测序,并对品系内部和品系间的分子变异进行了分类[12]。与C57BL/6J参考基因组(GRCm38)相比,鉴定出约2 740万个特异的SNP和500万个小的插入缺失(indels)。在实验室近交系小鼠基因组中发现的变异量已增加到7 100万个SNP和1 200万个indels。用变异功能预测软件注释变异的功能,发现大多数SNP存在于基因间(50.57%)和内含子(18.08%)区域。此外,在蛋白质编码基因的上游和下游(分别为3.93%和4.05%),以及3′(0.20%~0.24%)和5′(0.02%~0.04%)非翻译区内也有大量变异。虽然大多数SNP位于非编码区,但也有大量变异位于蛋白质编码区。编码区内的SNP,如剪接变体和非同义SNP等都会影响基因的功能。SNP与遗传易感性相关,研究品系特异性的SNP也可以揭示疾病易感性的遗传基础。如rs49995481是个终止突变,在BUB/BnJ、MOLF/EiJ和ST/bJ品系中会使预测的蛋白质变短,导致早期严重视网膜病变。
有研究[19]从常染色体和X染色体筛选了1 638个SNP,利用这些SNP标记重建了102个近交系和野生衍生近交系之间的系统发育关系,在不同品系广泛分布的古老SNP可有助于系统发育树的构建,并且作者发现在小鼠近亲繁殖过程中存在残余杂合度。
有研究[13]报告了16个广泛使用的实验室小鼠品系的全基因组草图,揭示了12个常见近交系的特异性单体型变异。在目前的小鼠参考基因组中鉴定并描述了2 567个具有序列多样性的区域。这些区域富含与病原体防御和免疫有关的基因,并具有转座因子的富集和近期转座事件的特征。在这些基因座上通常可以观察到小鼠品系特有的SNP和基因的组合,可明显反映不同品系的表型。此外,通过研究C57BL/6J和C57BL/6NJ中的杂合子SNP,发现绝大多数SNP与参考基因组中的缺口、组装有问题的区域或者残余杂合度有关[13]。由此可见,参考基因组的组装完整度直接影响SNP注释信息的准确性,从而影响遗传标记的特异性。
SNP适于快速、高通量、自动化分析检测,自SNP被用于小鼠遗传检测以来,研究者对检测SNP的方法进行了不断的探索,国内外存在的常见检测技术有质谱、多重PCR靶向二代测序、基因芯片、高温连接酶检测技术等。
基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)方法是根据核酸分子被电离后在真空管中的飞行时间来确定其相对分子质量大小,从而可检测出SNP位点信息。该技术可在同一反应体系内对多个SNP位点进行多重检测与分析,从而提高检测的通量、效率与正确率。
多重PCR靶向二代测序技术是利用Illumina高通量测序技术对靶向SNP位点的PCR产物进行测序,从而实现对SNP的分型。该技术具有通量大、测序深度高、特异性强和分辨率高的优点[6]。
基因芯片是带有DNA微阵列(micorarray)涂层的特殊玻璃片,在数平方厘米面积上可杂交数千或数万个核酸探针,用芯片进行基因分型是监测实验室种群遗传质量的重要方法,也是目前最具有应用前景的检测技术。
高温连接酶检测反应(LDR)是一种高通量、灵敏度高、低成本、易操作的SNP检测方法。其原理是当高温连接酶检测到模板DNA与两条探针DNA的接头完全互补时,连接反应完成,如果存在碱基错配,则连接反应不能进行。该特异性连接反应可反复循环,进而达到线性扩增的效果,从而对SNP进行分型。
目前研究的几种检测SNP的方法,各有优缺点,基因芯片或多重PCR靶向二代测序对于大量SNP检测具有优势,LDR技术适合检测少量SNP,质谱技术则适用于检测中等数量的SNP。基因芯片需要定制或者受制于芯片厂家的位点组合,其他方法则需要设计引物,且验证引物的扩增特异性。在应用时可根据需求,选择合适的检测方法。
SNP用于近交系小鼠遗传质量检测研究后,国内外很多学者对SNP检测的有效性进行了评估,也致力于筛选出一套适用性和精确度比较高的SNP组合。
选择位于19条常染色体和X染色体上的SNP标记[18],筛选位点的标准有2个,即至少在5个品系中具有多态性、至少在2个品系中可检测到小频率的等位基因。为了尽量覆盖小鼠基因组,对于SNP缺乏的区域,这些标准被适当放宽。所取的235个SNP位点的多态信息含量(PIC,代表多态性)在0.043~0.5,即使亲缘关系较近的品系,也具有显著差异数量的SNP,如129T2/SvEmsJ和129X1/SvJ,C57BL/6J和C57BL/10J,以及CBA/J和CBA/CaJ,SNP差异数分别为11、12和29,作者推测这些差异的SNP可能代表不同的单体型。作者进而从中选取了PIC在0.32~0.5,具有高度多态性的28个位点,对常用的48种近交系和近300种遗传修饰小鼠品系进行了基因分型,表明该位点组合可实现快速、可靠、经济高效的遗传质量检测。有实验[19]筛选的含有1 638个标记的位点组合,平均PIC为0.39,多态性较高,在17个常用近交系和5个野生衍生品系间,两两进行位点差异比较,平均差异位点数为616个。该位点组合不但可以检测遗传质量,还可重述品系的进化史。
选取分布在19条常染色体和2条性染色体上的45个SNP位点,将其分成4组,每组10~12个位点,对国内10个常见近交系(C57BL/6、FVB、C3H/He、BALB/c、DBA/2、DBA/1、AKR、CBA、SJL/J、NOD)进行了分析。10个品系间两两进行位点差异比较:在4组SNP组合中,平均差异个数为5~9个,前3组(11~12个SNP位点)均可以鉴别常见近交系小鼠[20]。
对这10个常见近交系进行了分析,为了避免连锁的可能性和提高分辨率,筛选了在19条染色体和X染色体上分布相对均匀,且品系间差异比较大的112个SNP位点,每条染色体所含SNP最少为3个,最多为8个。品系间两两比较,最大SNP差异数为73个,最小差异数为3个,差异位点平均数为53个,表明所选SNP位点对常见近交系小鼠品系分辨率较高[6]。
从国内外文献中挑选了分布于小鼠全部染色体上的95个SNP位点,其中50个SNP 位于基因内,较大范围覆盖了小鼠基因组,采用质谱技术对29个品系共36个不同群体来源的近交系小鼠进行了遗传检测[14]。被检品系为国内最广泛应用的近交系小鼠品系和部分基因修饰近交系小鼠,大部分位点为纯合位点,品系内位点单态率最高为98.95%,在群体间 95个位点都呈现了多态性,群体两两比较显示,最大差异位点数为58个,最小差异位点数只有1个,主要分布于同一品系不同群体来源的动物间及基因修饰动物和背景动物间。
亚系水平的遗传检测也至关重要,有研究[16]采用Illumina含有1 449个SNP的小鼠中等密度连锁比对芯片检测了10个C57BL/6亚系的基因型差异,这些亚系包括C57BL/6JArc、Jackson实验室的C57BL/6J,Crl的C57BL/6J、C57BL 6/JRccHsd、C57BL/6JOlaHsd、C57BL/6JBomTac、B6(Cg)-Tyrc-2j/J、C57BL/6NCrl、C57BL/6NHsd和C57BL/6NTac。结果发现:12个SNP有助于区分所选的C57BL/6亚系。但遗憾的是该芯片所含位点不能有效区分C57BL/6N亚系,结果将有助于对不同C57BL/6近交系产生的不同转基因和敲除小鼠选取合适的位点来进行遗传监测。
开发第三代小鼠通用基因分型芯片GigaMUGA,包括141 090个SNP探针和2 006个拷贝数变异探针。GigaMUGA的大部分位点可用于杂交和多样性远缘繁殖群体的遗传定位,以及实验室近交系小鼠的亚系水平鉴定。该芯片在500个实验室近交系、重组近交系、远缘种和野生小鼠中得到了验证[17]。
SNP是基因组中最普遍的遗传变异,具有遗传稳定性强、数量多、分布广等特点。SNP通常是双等位基因,容易检测分析,被广泛应用于群体遗传学(如生物的起源、进化及迁移等方面)、疾病相关基因定位研究中,并在疾病的早期诊断、药物基因组学和生物医学研究中发挥重要的作用。
SNP检测技术,相较于生化法和免疫学法,能够鉴别那些是亲缘关系较近的品系,甚至可达到亚系水平。由于不需要处死动物,可直接指导种群繁殖,保证种群内的基因纯度。SNP检测法可实现高通量、低成本、高精度及自动化检测,且检测数据再现性强。SNP检测与分析技术众多,在原理上差别很大,适用范围也不尽相同,可实现灵活检测[21-23]。SNP标记不但可以用于近交系小鼠遗传质量监测,还有助于了解品系进化[19]、识别遗传污染源[24]、区分来自于不同近交系、杂交或野生小鼠的细胞系[25]。
然而在运用SNP标记检测小鼠遗传质量时,还存在几个问题。首先,个别SNP位点基因型与数据库登记信息不符。可能是由于各地的小鼠生存条件不同而发生了突变,也有可能是参考基因组注释不准确,影响参考基因组SNP注释的因素,包括局部序列错误组装、缺失和非基因序列、测序错误和基因组中的缺口等。Jackson实验室对91个小鼠品系(包括C57BL/6J)的外显子分析发现,很大一部分变异与参考基因组未报道的错误组装、缺口或者是同源基因拷贝数有关[26]。其次,不同的研究利用SNP标记检测近交系小鼠品系时,所选SNP位点及其数量差别较大,品系间的SNP差异数相差较大,缺少品系特异性位点以及合适的位点组合。Jackson实验室利用实验室小鼠的独特历史起源,结合高质量的全基因组序列,研究了29种常见近交系小鼠的特异突变的根本原因。作者认为小鼠品系特异性突变可能是由环境差异、繁殖时亲代年龄的品系变异或品系间分离的遗传因素引起的[27]。此外,数据库中也缺少部分品系的SNP位点信息,群体内存在残余杂合度等问题,给应用SNP进行遗传检测增加了难度。
因此,未来需要生物学家、遗传学家及生物信息学家运用系统生物学、遗传学、生物信息学以及先进的计算系统,联合挖掘和分析不同品系小鼠的基因组和功能基因组数据,构建完整、准确的品系特异性SNP标记数据库,形成标准化的近交系小鼠遗传检测的SNP位点组合。对于亲缘关系较近的品系,可构建单体型图谱,通过检测单体型,对小鼠品系进行遗传分析,也可以结合微卫星等其他的检测方法,互相补充,以提高小鼠遗传质量检测的准确性。