王惠君, 孙 妍, 王文泉, 范庆君, 王仕明, 谢诗宏
(1.海南农垦南繁种业有限公司,海南三亚 572000; 2.海南热带海洋学院,海南三亚 572022; 3.中国热带农业科学院热带生物技术研究所,海南海口 571101)
目前,对海洋生物遗传育种工作[1]的研究刚刚起步,其研究的深度远落后于陆地生物[2]的研究。虽然近20年来海水养殖业发展较为迅速,但其种类的选择仅仅停留在少数几种经济型海洋生物上[3-4],养殖方法也处于野生或半野生的状态,这严重制约了海洋生物养殖业的发展。快速有效地挖掘海洋生物资源的潜力,对经济型海洋生物优势种的选育工作意义重大,研究内容具体包括合适生长周期的选育种、生长快肉质好的选育种、抗逆性强的选育种、药用型生物的选育种等。
遗传和变异作为生物的重要特征,决定着海洋生物的进化。遗传标记是研究海洋生物遗传和变异的基本手段和方法。作为能稳定遗传、表达海洋生物变异性的这类可以被检测形状或物质的遗传标记,前后主要经历了形态学标记、细胞学标记、生化标记、DNA分子标记等4个发展阶段。作为理想的标记有如下特性:标记遍布整个基因组并在整个基因组中的分布要均匀,多态性较高,共显性遗传,受外界环境影响较小,检测简单、快速、重复性好、成本低廉等。在具体的试验过程中现有遗传标记技术要想达到理想状态仍须改进。DNA分子标记技术与形态学标记、细胞学标记、生化标记相比具有多态性较高、标记数量多、不受发育阶段和环境条件的影响等优点,被广泛应用在DNA指纹图谱的构建、生物遗传多样性分析、亲缘关系鉴定、生物进化、基因定位、基因克隆、基因组遗传图谱的构建、标记辅助选择等方面。笔者依据对海洋生物基因组信息量掌握的多少,分别主要介绍分子标记的原理、优缺点及应用范围,以期为海洋生物遗传育种的相关研究工作提供有价值的参考。
在海洋生物基因组未知的情况下,应用标记技术对基因组进行探索,从难易程度和效率上综合考虑选择如下:扩增子长度多态性(amplicon length polymorphism,简称ALP)、内部简单重复序列(inter simple sequence repeats,简称ISSR)、相关序列扩增多态性(sequence-related amplified polymorphism,简称SRAP)、扩增片段长度多态性(amplified fragment length polymorphism,简称AFLP)、多样性芯片技术( diversity arrays technology,简称DArT)。
ALP是以随机引物PCR技术扩增为基础的一类标记合称,它主要包括的分子标记有DNA扩增指纹印记(DNA amplified figerpriting,简称DAF)、随机引物PCR扩增(arbitrarily primed polymerase chain reaction,简称AP-PCR)、随机扩增多态性DNA标记(random amplified polymorphic DNA,简称RAPD)。其中,AP-PCR技术[5]和RAPD技术[6]是由Welsh等于1990年提出的,DAF是一种改进的RAPD分析技术。三者都是利用PCR技术为基础来检测DNA多态性的方法。基本原理:DAF使用的是高浓度短引物(5~8 bp)、RAPD使用随机短引物(8~10 bp)、AP-PCR使用的引物长度范围为 10~50 bp,通过PCR扩增反应得到非定点扩增DNA片段,只要基因组在扩增区域内DNA片段上发生碱基突变、缺失或插入就有可能导致该区域结合位点的分布发生改变,扩增出的DNA片段大小和数量随即会发生变化。利用凝胶电泳分析该DNA片段,然后用银染法进行显色读带,将使扩增产物呈现不同或相同的多态性DNA片段。该技术的优点是技术简单且成本低、DNA用量少、对基因组检测速度快、具有通用性。该技术的缺点是不能鉴别纯合子和杂合子、稳定性和重复性较差。其中,DAF技术使用高浓度的短引物进行PCR扩增,扩增出的DNA片段在凝胶上分离后通过银染染色形成的谱带过于复杂。由于ALP技术简单、容易操作、可高效探索未知基因组多态性检测等特性,使该技术得到广泛应用。在海洋生物研究中,RAPD技术可以应用在种质鉴定、遗传多样性分析、功能基因的探索等领域[7-8],RAPD技术与构建DNA混合近等基因池分离分析方法(bulked segregant analysis,简称BSA)相结合更有利于基因定位、遗传图谱的饱和分析等研究。AP-PCR和DAF技术则分别用于基因组指纹分析、遗传图谱的构建。ALP技术主要应用在大黄鱼、马氏珠母贝、翡翠贻贝、栉孔扇贝、青蛤、文蛤、泥蚶等海洋生物物种上。
内部简单重复序列又称为锚定简单重复序列(anchored simple sequence reapeats,简称ASSR),该标记是依据真核生物中SSR的分布较为普遍,且进化速度较快的特性,检测出基因组中较多的多态性位点。ISSR标记利用常出现的SSR本身作为锚定引物(在SSR序列的3′端或5′端加入2~4个随机碱基),再配1个随机引物进行组合之后进行扩增,因具有无须克隆和测序的特性。该技术的优点为DNA用量较少、成本低、技术门槛不高、稳定性和重复性较好,多态性表现为中等。该技术的缺点为有些物种的ISSR标记可能较少,不能推广到所有物种。该技术可以应用在对海洋生物的生物遗传多样性分析[9-12]等研究中。
SRAP又称为基于序列扩增多态性(sequence based amplified polymorphism,简称SBAP),由美国加州大学Li等提出,其原理是依据基因外显子中鸟嘌呤(G)、胞嘧啶(C)含量丰富而内含子、启动子中腺嘌呤(A)、胸腺嘧啶(T)含量丰富的特点设计2套不同的引物进行扩增[13]。在基因组中主要检测对象为开放读码框(open reading frame,简称ORF)区域。该技术的优点为成本低、技术简单、试验稳定、多态性中等。该技术的缺点为该标记的设计在对着丝粒和端粒附近基因组区域属于盲区,且并非对所有生物具有通用性,仍须针对不同的生物进行开发。该技术已经应用在对物种质资源多态性评价[14]、遗传图谱的构建以及基因定位等方面。
AFLP又被称为选择性限制片段扩增(selective restrictive fragment amplification,简称SRFA),是由荷兰科学家Zabeau等发现一种分析基因组DNA多态性的方法[15]。它以PCR技术为基础,结合扩增片段的多态性(restriction fragment length polymorphism,简称RFLP)和RAPD 2种技术的优点。首先用1对限制性内切酶把基因组DNA进行双酶切,接着对酶切片段的两端用连接酶增加上带有特定碱基序列的“接头”,然后用选择性引物对酶切片段进行PCR特异扩增,通过聚丙烯酰胺测序胶进行电泳,将特异的DNA扩增产物片段分离开,然后用荧光法、放射性法、银染法等进行检测,最后用生物分析软件对DNA谱带进行分析。该技术发展较快,同时有些学者在研究过程中根据试验的内容进行了改进。在原有双酶切法基础上增加了单限制性内切酶选择扩增片段技术和三限制性内切酶选择扩增性扩增片段技术,借助以上2种方法对AFLP技术进行了完善。该技术的优点集RFLP和RAPD技术的优点于一身,具有高通用性、高多态性、高稳定性、高分辨率、高效性等特点。该技术的缺点为所需样品DNA质量高、试验成本较高、步骤复杂且操作要求严格等。AFLP技术应用到海洋生物的种类包括鮸鱼、金鲷、大黄鱼、石斑鱼、斑马鱼、舌齿鲈、紫菜、翅藻等,该技术被广泛应用在生物遗传多样性分析基因的表达与调控研究[16-19]、遗传连锁图谱的构建和种质鉴定等研究领域。
2001年,Jaccoud等在酶切连接技术、芯片杂交技术等基础上研发了一项辨别不同基因组之间多态性的方法,即多样性芯片技术[20]。该方法对不同样本的基因组DNA等量混合并进行限制性内切酶消化后,及时将酶切片段与接头连接,随后用与接头对应的特异性引物对该基因组进行PCR扩增,得到该基因组的代表性片段。将该片段用不同的荧光进行标记后作为探针再与芯片进行杂交。利用扫描仪检测杂交信号的有无或强弱来确定待检测样本的遗传差别,这些差别的标记就是DArT标记。该技术的优点为试验重复性好、信息稳定可靠、高通量信息可实现自动化分析、可用于没有序列信息的任何海洋类物种、新的标记发现和标记评价都是在同一芯片上同时进行的、不易受发育阶段时空表达的影响。该技术的缺点为试验成本较高、不适合普通实验室、标记为显性、不能区分纯/杂合型。该技术可以应用于遗传分类及进化的分析[21]、遗传多样性分析、遗传连锁图谱的构建、辅助育种[22]等研究领域。
在已知较少海洋生物基因组信息的情况下,用标记技术方法对基因组进行探索,从难易程度和效率上综合考虑选择排序如下:(1)以重复序列为基础的分子标记技术,包含简单序列重复(simple sequence repeat,简称SSR)、数目串联重复多态性(variable number of tandem repeat,简称VNTR)、单引物扩增反应(single primer amplification reaction,简称SPAR)、小卫星区域DNA直接扩增(directed amplification of minisatellite region,简称DAMD)等;(2)序列特征化扩增区域(sequence characterized amplified region,简称SCAR);(3)靶位区域扩增多态性(target region amplified polymorphism,简称TRAP);(4)以mRNA为基础的分子标记技术,包含表达序列标签(expressed seque tags,简称ESTs)、逆转录PCR(reverse transcription PCR,简称RT-PCR)、差异显示逆转录PCR(different display reverse transcript PCR,简称DDRT-PCR)、特征性差异分析(representive difference analysis,简称RAD);(5)序列标签位点(sequence tagged site,简称STS);(6)线粒体DNA(mitochondrial DNA,简称mtDNA)标记;(7)扩增的片段多态性(restriction fragment length polymorphism,简称RFLP);(8)染色体原位杂交(chromosome in situ hybridization,简称CISH)。
该系列的分子标记技术包括SSR、VNTR、SPAR、DAMD等。其主要依据为在真核生物普遍存在的遍布整个基因组的排列为2~5 bp或10~1 000 bp不等的重复序列,称之为卫星。2~5 bp较短串联重复序列称之为微卫星,其中(CA)n重复序列较为普遍。SSR[又称微卫星DNA(microsatellite DNA)]和VNTR[又称小卫星DNA(mini satellite DNA)]的引物是依据重复序列两翼特异保守序列进行设计的,扩增出片段的多态性即为卫星的多态性。SPAR技术又称为微卫星引物聚合酶链式反应(microsatellite-primed PCR,简称MP-PCR),与RAPD相类似,常用1个引物,在SPAR分子标记技术中不同的是所用引物不是随机的而是在SSR标记基础上开发设计的,扩增出的片段是SSR之间的DNA序列。DAMD标记技术直接以小卫星的核心序列为引物对基因组进行多态性扩增。该类标记的优点为试验技术成熟且易操作、检测稳定且快速、信息量较大、分辨率较高、多态性中、为显性标记。但也存在缺点,前期研发的成本高,每个物种须要针对性开发引物因而不具有通用性。在科学研究中通常以SSR标记作为首选。该类标记已成为种群研究和生物进化领域首选的分子标记之一,广泛应用于种群生物遗传多样性分析[23]、遗传连锁图谱构建、生物杂交育种分析和系统发生等领域。
SCAR技术是在综合了RAPD和SSR优点的基础上发展起来的。为了提高RAPD标记的稳定性,对基因组DNA分析之后再对目标RAPD片段进行克隆分析,在该片段末端采取类似SSR引物两翼序列进行测序,设计特定引物,最后再对基因组DNA进行PCR特异性扩增,这样使得该片段与原RAPD片段相比稳定性和专一性更强。该标记的优点为稳定性好、为共显性遗传;该标的记缺点是操作相对复杂、须要测序、成本比ISSR和SRAP标记略高。该标记可应用于基因定位和作图[24]等研究领域。
该系列的分子标记技术主要包括EST、RT-PCR、DDRT-PCR、cDNA-AFLP、cDNA-RFLP等。该类分子标记都是在构建cDNA文库基础上进行研究的,其中表达序列标签(expressed seque tags,简称EST)是从cDNA文库中随机挑选克隆,然后对该序列进行测序从而获得长度为300~500 bp的短cDNA序列,以此为基础开发出来的引物标记技术称之为EST标记,EST标记分别与SSR、AFLP、RFLP、核苷酸多态性(single nucleotide polymorphism,简称SNP)等相结合开发出EST-SSR[25-26]、EST-AFLP、EST-RFLP、EST-SNP[27]等标记方法。RT-PCR、DDRT-PCR、cDNA-AFLP、cDNA-RFLP等标记主要是研究mRNA基因差异表达的多态性分析。该类技术的优点为除了cDNA-AFLP和cDNA-RFLP 2类技术外其他技术都相对简单、操作方便,该类技术广泛应用于基因组学研究的各个领域。该技术的缺点为EST测序方法存在误差、匹配的应用软件存在局限性、揭示的基因信息不全、cDNA文库的质量要求异常严格、检测到低丰度表达的基因较为困难、中丰度和高丰度表达的基因EST存在冗余性。
TRAP技术是由Hu等开发的,其原理是以EST信息库和生物信息工具信息等数据库为基础,用目标候选基因区域的DNA片段分析其该区域的多态性[28]。该技术采用2条约 18 bp 的引物,一条是依据EST数据库设计的固定引物,另一条是针对外显子和内含子的特点设计的随机引物。该技术通过对靶位区域进行PCR特异性扩增,围绕目标候选基因序列产生多态性标记。该标记的优点为高通量、高效率、易操作。该标记的缺点为必须以EST和生物信息大数据库为基础,不能遍布整个基因组,只能针对特定的基因区域发现多态性。
序列标签位点是通过一段特定引物序列所界定的一类能够在生物基因组中作为“路标”使用的DNA标记的统称。该标记必须满足2个条件:序列已知、位置明确。该标记的优点是可用于界定基因组的特异位点;该标记的缺点是可利用的数量太少。该标记作为遗传图谱与物理图谱整合的共同位标,随着模式生物全基因组的测序开发,会发现更多的STS标记。除此以外还有基因组概览序列标记(genome survey sequences,简称GSS),主要来源于基因组序列。STS和GSS标记是以mRNA为基础的一类分子标记的重要补充。
线粒体DNA在细胞基因组中具有相对独立性。基因组DNA可以通过母性遗传,它不仅结构简单而且具有较高的专一性。大量生物的线粒体全基因组已被测序,发现其碱基序列和组成较为保守,利用其保守的特性开发出通用性较强的PCR反应引物作为线粒体DNA标记。该标记的优点为简单快速;该标记的缺点为作为一种核外遗传物质的mtDNA反映出的遗传信息较为片面。近年来,mtDNA技术主要应用于进化遗传学领域,该技术已成为研究真核生物发育生物学、分子遗传学、分子系统进化[29]的一类重要模式体系。用该技术可检测自然界的杂交渐渗现象,如海洋生物中的北美太阳鱼等,还可用于追踪特异物种的生活史,如追踪大西洋鲑等。
RFLP技术是用限制性内切酶对基因组DNA进行酶切,根据其所产生的DNA分子片段的大小反映基因组DNA由于碱基的替换、缺失、重复、插入等导致限制性酶切位点改变的现象。该技术需要探针DNA标记技术和Southern杂交技术。该技术的优点为具有广泛适用性、全基因组检测、等位基因为共显性;该技术的缺点为要求DNA的质量较高、多态性偏低、试验操作繁琐且因涉及放射性同位素的使用而不便、技术难度大且周期长、成本偏高。目前该技术已被应用于基因突变分析、基因定位及诊断、亲缘关系鉴定[30]、物种进化及分类关系研究等方面,尤其在组建高密度遗传图谱[31]方面具有重要的实用价值。
CISH是在Southern杂交的基础上利用特异性核苷酸片段为探针与细胞基因组染色体DNA片段进行杂交后直接在染色体上显示特异DNA的方法。染色体原位杂交的优点为精准、直观;缺点为涉及到同位素标记或荧光标记等技术,试验非常复杂。该技术主要应用于物理图谱的构建。
在掌握海洋生物基因组较多背景信息的情况下,对分子标记技术方法存在2类选择:一类是对海洋生物具体某等位基因多态性分析时所选的分子标记技术;另一类是对海洋生物基因组信息的多态性进行高通量分析时所选的分子标记技术。
该类标记技术主要有单链构象多态(single- strand conformation poly-morphism,简称SSCP)和酶切扩增多态性序列(cleaved amplified polymorphism sequences,简称CAPS)技术。2种技术的共同之处都是首先利用特定引物定点PCR扩增基因组DNA中的特异序列片段。不同之处是SSCP把扩增出的特异序列片段进行变形处理,即双链分开形成2条单链,然后通过非变性聚丙烯酞胺凝胶电泳对片段进行分离,最后染色并依据谱带位置变化来判断特异片段中是否存在突变;而CAPS技术是把扩增出的特异序列片段使用1种限制性内切酶及时进行酶切,然后通过非变性聚丙烯酞胺凝胶电泳对酶切片段进行分离,最后染色并依据谱带进行RFLP分析。二者共同的优点是操作简单、结果可靠;其共同的缺点是只能针对基因组的某一特异序列片段进行分析。其中SSCP技术与杂交双链分析(heterocluplex analysis,简称Het)法结合可进一步提高检出率。该技术主要应用于遗传性疾病以及癌症突变位点的检测。而CAPS技术是PCR技术和RFLP技术相结合的一种检测方法。CAPS技术揭示的是基因组特异性片段的限制性长度变异信息,是共显性分子标记,可以保持RFLP分析的精确度,可以分析基因组某一特异序列片段的多态性[32]。由于可供选的限制性内切酶较多,因此该方法检测到多态性的机会也较大。这2项技术是检验SNP变异位点最简便的方法。
该类标记技术是以mRNA转录本为基础的分子标记技术,其中以基因表达系列分析(serial analysis of gene expression,简称SAGE)作为代表;另一类是以开发核苷酸多态性的一类高通量分析技术,包括代表性寡核苷酸芯片分析(representational oligonu-cleotide microarray analysis,简称ROMA)、限制性内切酶位点标签(restriction-site associated DNA,简称RAD)。
3.2.1 基因表达系列分析 1995年,美国学者Velculescu等提出了SAGE分子标记技术[33],该技术主要应用于基因表达模式的分析。其原理是从一个转录本内分离得到10~14 bp的短标签,将多个短标签连接并集中到一个克隆里面进行测序,以连续的数据形式进行软件运算处理,借助该模式可以对较多的mRNA转录本进行高通量运算分析。该标记的优点为与EST、DDRT-PCR、RAD等技术相比具有更强的灵敏性,较容易检测到低丰度表达的基因,可以在不须要知道基因组信息的情况下检测出所有基因的表达情况[34];该标记的缺点为所得到的低丰度基因表达标签很难与网络上现有Genbank等基因库中的基因序列相互匹配。在该技术的基础上又发展出了Long SAGE、3′ Long SAGE、5′ Long SAGE等技术,其与SAGE相比提高了基因标签的特异性,增强了标签的匹配率。2004年Trinklein等在 SAGE 基础上又研发出使用配对末端双标签进行基因识别特征分析(gene-identification signature analysis using paired-end ditags,简称GIS-PET)技术[35],该技术不仅可获得完整全长基因的5′ 端和3′端标签,还可以通过PCR扩增技术得到基因全序列。该技术应用于染色体基因注释的同时还可以应用于构建基因启动子图谱。该技术的优点为可定量、全面地对基因表达模式进行分析、具有较高的标签特异性、可以扩增新基因全长序列。该技术的缺点为通量上有缺陷,只能适合于对小规模样品基因差异表达谱的分析,其通量远比不上其他高通量上分析的分子标记,如微阵列技术等。
3.2.2 核苷酸多态性 1996年美国学者Lander等第1次提出了SNP标记[36],即第3代的DNA遗传标记。SNP是指同一特异性位点的不同等位基因之间的差异,其原理是由于单碱基颠倒、转换、缺失、插入机制导致在DNA序列上单个核苷酸的变异产生的DNA序列多态性。目前SNP标记已被广泛应用于遗传性疾病的检测[37-38]、特定功能基因或片段的分型[39-40]、种群生物学特征、基因作图以及数量性状定位[41-42]等研究领域。SNP的广泛应用是建立在高通量检测技术基础之上的。
3.2.2.1 代表性寡核苷酸芯片分析 2003年,Dahl等在代表性差异分析方法(representative differential analysis,简称RDA)的基础上研发出一种芯片分析技术,该技术借助反向杂交技术,将经过荧光标记的待测样品与固定在玻片上的 10~70 bp寡核苷酸片断进行杂交,通过激光共聚焦荧光检测系统检测杂交信号技术,对样品序列信息进行分析[43]。该技术主要用于检测基因拷贝倍数的变化以及基因差异表达分析等方面。
3.2.2.2 限制性内切酶位点标签 RAD是由Miller等在2007 年开发的一类高通量分子标记,其是将酶切连接技术、PCR技术和短片段海量平行测序技术相偶联的一种高效率的分子标记技术[44]。该技术选择不同的限制性内切酶得到不同数量的RAD标记。该技术的优点为作为简化全基因组的代表在酶切位点附近进行测序可发现较多的SNP标记,快速、高效、成本较高。主要用于遗传作图[45-46]和定位突变分析[47-49]等领域。后来由美国康奈尔大学发展为通过测序基因分型(genotyping bysequencing,简称GBS),使其具备了低成本高通量的特征,该技术研究的前提是所研究的物种已经完成基因组测序。该技术的优点是可以同时对大量的样本进行测序,大大降低了测序成本;缺点是只适合于已有基因组草图的基因组重测序。2014年中国热带农业科学院热带生物技术研究所的夏志强等在RAD技术的基础上研发出了改进重测序技术[50](amplified fragment SNP and methylation,简称AFSM),即首先根据基因组的大小进行设计选择标签,通常在50~100个范围内,待测基因组DNA样品进行混合并用双限制性内切酶进行酶切,并将酶切产物及时与选择标签接头连接,然后进行PCR扩增反应来构建混合池;最后进行高通量测序并进行全基因组关联分析(genome wide association study,简称GWAS)。GWAS通常是建立在基因组测序基础上,需要有足够覆盖基因组的分子标记以及能对大量分子标记同时检测的高通量技术。基因组学的迅速发展为种质评价和分子育种提供了新的契机,GWAS成为发掘优异基因资源和基因组辅助选择育种的重要工具。
分子标记技术的快速发展对生物遗传学研究领域的拓展起到了非常重要的作用。分子标记技术被广泛应用于性状标记、遗传多样性分析、基因定位和克隆、构建遗传图谱、亲缘关系鉴定、物种进化及分类关系等方面。随着低成本、高通量以及高精度基因组DNA 测序新技术的发展,分子标记技术将会展现更为广阔的应用前景。人类对海洋生物领域的研究远远落后于常规作物的研究,因此本文重点介绍了分子标记技术的选择方法,希望能够对海洋生物种质资源调查研究、海洋生物重要经济性状基因的分子标记筛选技术、海洋生物分子辅助育种技术、海水养殖品种的遗传改良技术及新品种选育研究等方面提供参考。