利用重测序技术开发高粱多态性SSR分子标记

2019-11-21 11:09王平王春语张丽霞丛玲朱振兴陆晓春
生物技术通报 2019年11期
关键词:多态拷贝碱基

王平 王春语 张丽霞 丛玲 朱振兴 陆晓春

(1辽宁省农业科学院 高粱研究所,沈阳 110161;2沈阳农业大学农学院,沈阳 110161)

高粱是世界上重要的粮食作物,是五大作物之一,在人类发展史上扮演了重要角色[1]。随着分子生物学以及生物信息学的发展,越来越多的重要基因被克隆出来,使得分子育种技术迅速发展。分子育种技术以及基因图位克隆的深入发展,都离不开分子标记的开发。分子标记技术发展至今,已经经历过几代分子标记的历程,从AFLP,SSR标记发展到今天的SNP标记[2-4]。尽管SNP标记在很多地方已经利用起来,但是SNP标记利用需要用到一些特殊仪器设备,这些设备价格不菲,如利用KASP系统,仪器昂贵[5];或是利用酶切方法开发CAPS标记或是dCAPS标记,酶切的方法成本高,分辨率低,酶切不完全等问题,经常会对实验造成一些困扰[6]。虽然还有其他检测SNP的方法,但总体操作相对复杂,核心问题是SNP标记仅有两种多态型,以上这些因素都限制了SNP的应用。而SSR标记即短序列重复微卫星标记,因其开发价格低廉,使用门槛很低,多态性好而且稳定等原因在现阶段的实践中有很大的运用空间[3]。测序技术的飞跃发展,使得高通量测序成本日益降低,在科研中发挥越来越重要的作用[7-8]。利用高通量测序技术在很多物种中进行了SSR分子标记的开发和应用,大多使用转录组测序的数据,如在芝麻、豌豆、苏丹草及马尾松等作物中都用到RNA-Seq数据开发SSR标记[9-12]。因转录组测序通量、基因时空表达以及仅限基因区域序列等因素影响造成开发的SSR标记产量小,质量不高。尽管美国高粱品种BTX623在2009年就完成了基因组测序[13],也预测了很多SSR标记[14-15],但越来越多的研究表明很多参考基因组仅能代表一部分生态型的多样性,这也是泛基因组学研究兴起的重要原因[16-17]。来源于美国种质的BTX623仅能代表部分生态型品种的序列,而且在国内高粱育种中使用的很多资源与BTX623有较大的差异,造成SSR标记的开发在基因组一些区域的多态性标记开发效率低下,极大限制了高粱SSR分子标记的应用。

为了有效开发多态性SSR标记,本研究利用26个包括不育系和恢复系的材料,然后进行重测序。测序完成后,利用生物信息分析工具开发SSR标记,进行一系列分析后最终开发了两万多个SSR标记,并部分验证了SSR 标记的多态性,这些标记的成功开发,为将来基因定位、克隆、分子育种等实践提供了重要的分子标记信息。

1 材料与方法

1.1 材料

重测序实验材料:高粱生产骨干亲本:12份恢复系和14份不育系(表1)。所有实验材料于5月上旬在沈阳实验基地种植,行长4 m,株距15 cm。

表112份恢复系和14份不育系样品信息

1.2 方法

1.2.1 分子标记开发过程 生物信息学分析流程如下:对12份恢复系和14份不育系高粱材料进行了10×重测序,然后从两个途径同时进行数据分析。利用高通量测序数据中分析变异信息的软件GATK(Genome Analysis ToolKit)算法分析全基因组indel差异,另一方面利用BTX623参考基因组和简单重复序列鉴定软件MISA(MIcroSAtellite identification tool)分析全基因组SSR位点信息,然后综合比较得到全基因组SSR差异位点信息,而后进行单拷贝基因的分析,综合SSR差异位点分析,依据SSR标记重复单元碱基数进行分析,然后依据两端保守序列进行引物的设计开发。引物设计利用Primer 3软件,遵循引物设计原则设计正反向扩增引物,引物的GC含量在50%-60%之间,长度在18-23 bp左右,退火温度设在57-63℃之间,以58℃为最佳。设计时避免3'末端碱基为A,以及潜在二级结构的产生。将挑选要进行合成的引物,送往苏州金唯智公司合成(https://www.genewiz.com.cn)。

1.2.2 DNA提取 实验材料开始抽穗时剪取叶片1-2 cm到2 mL离心管中,然后加入 600 μL TPS(100 mmol/L Tris-HCl(pH 8.0),10 mmol/L EDTA(pH8.0),1 mol/L KC,高压湿热灭菌后使用)提取液;放入一个不锈钢珠(直径约5 mm),在组织磨样机(Tissuelyser Ⅱ,QIAGEN,德国)上研磨,频率设定为20/s,研磨 1-2 min;利用强力磁铁取出钢珠,将离心管放入 65℃水浴中保温 30 min;12 000r/min 离心 5 min,小心吸出上清液转移至新的 1.5 mL 离心管,加入等体积的异丙醇,轻轻颠倒混匀,clss= r/min 离心10 min,弃上清。加入 1 mL 70%乙醇洗涤沉淀,12000 r/min 离心 5 min,弃上清,留沉淀,打开管盖,待沉淀完全干燥后加入 50 μL包含0.2 mg/mL Rnase A(生工生物工程有限公司,上海,中国)的灭菌水或是1×TE buffer溶解沉淀。提取的高粱叶片基因组DNA在0.8%-1.0%琼脂糖电泳检测合格后保存于-20℃冰箱备用。

1.2.3 SSR电泳分析 PCR及聚丙烯酰胺凝胶电泳:高粱基因组 DNA 1 μL,F/R-primer(10 μmol/L)0.2μL,2×Taq PCR Master Mix 5 μL(北京艾德莱生物),ddH2O 3.8 μL总体积10 μL;反应在PCR仪上(T100 Thermal cycler,BIO-RAD,美国)进行扩增,PCR扩增程序如下:95℃预变性3 min;94℃ 30 s、X℃30 s、72℃ 25 s,34个循环,最后72℃ 延伸5 min;其中退火温度X随引物设计适度调整。PCR产物取2-2.5 μL用6%非变性聚丙烯酰胺凝胶电泳1.5-2.0 h左右(根据差异大小来决定电泳时间)。电泳结束后,关闭电源,从电泳槽中将胶板取下,用铲子将两板分开,缓慢将胶取下,并记录胶的顺序编号,经银染、显色、水洗等程序获得扩增条带,然后在灯箱板上进行胶片的拍摄(EOS 5D,Canon,日本)。

2 结果

2.126份重测序材料多态性SSR标记筛选

利用高粱中26份具有代表性的不育系和恢复系材料,进行重测序序列分析。重测序完成后,进行SSR标记的筛选,为考虑将来SSR分子标记检测的便利性,本研究制定了比较严格的筛选标准。SSR筛选标准如下所示:(1)两碱基单元重复SSR标记的重复次数需≥6次重复,即这个SSR标记长度必须在12 bp以上;三碱基重复序列SSR重复次数≥5次;四碱基重复序列SSR的重复次数≥4次;五碱基重复序列SSR的重复次数≥3;六碱基重复序列SSR的重复次数≥3次。(2)在所有26个高粱品种中要有多态性,至少是两种。经过了本研究的标准筛选,共得到24441个多态性SSR,以2或是3个基序重复的SSR为主,两碱基重复SSR标记11051个;三碱基重复6082个;四碱基重复2600个;五碱基重复2449个;六碱基重复2259个(图1-A)。对筛选到的SSR标记在26个品种间进行基因型比较,基因型多态类型在2-7种之间,最多能达到7种多态型,大部分的标记仅有两种,然后多态性数目呈断崖式下降,以2种多态性的为主,高达68%;其次是3种多态型的占21%;而其它几种多态型就相对较少分布,7种多态型的标记仅有77个(图1-B)。

图1 不同重复单元碱基数的SSR 标记的数量(A)及其在26个品种间的不同多态型标记数量(B)

2.2 单拷贝基因处多态性SSR分子标记的筛选

在分子育种实践中,功能性标记起到至关重要的作用。功能性标记,主要是位于基因位置上的标记,而一般这样的基因,几乎都是单拷贝基因。所以本研究的策略是筛选在单拷贝基因位置的SSR标记。本研究筛选首先是进行单拷贝基因的鉴定,然后分析这些单拷贝基因(包含该基因上下游)序列中所包含的SSR序列,筛选位于单拷贝基因(含上下游2 k)内的多态性SSR标记。相对所有的SSR标记数量,位于基因区标记的SSR数量,仅为总量的1/4左右,总计筛选到6733个标记。2-3个基序重复的SSR标记,仅有2000左右,而4-6重复的SSR标记,约700-800个(图2-A)。大部分的单拷贝基因上SSR标记在26个品种仅有2种基因型,占了总SSR的69%;其次为3种基因型占总数的20%,4-7种基因型的SSR标记比较少,7种基因型的SSR标记仅为28个(图2-B)。

图2 单拷贝基因处不同重复单元碱基数的SSR标记数量(A)和26个品种间不同多态型标记数量(B)

2.3 单拷贝基因处多态性SSR分子标记在基因上位置分析

通过分析这些SSR标记在基因上的位置,6733个SSR标记中,位于编码区的仅有820个,UTR区1276个,内含子725个,大多在上下游区域共3932个。如在2个基序重复的SSR中,占有63%,而分布在编码区多为3碱基或6碱基重复(图3-A)。这些SSR标记在26个品种间的基因型数,可以看出在基因上下游区域的SSR标记居多,位于基因编码区的最少,约占所有在编码区附近的12%。大多数SSR在26个高粱品种有两种基因型,依次递减到7种多态型(图3-B)。

2.4 SSR标记有效性评价

为了检测开发SSR标记的有效性,本研究在位于编码区约800个SSR标记引物中,在每条染色体上挑选了5对相对均一覆盖整条染色体的SSR标记,在10条染色体上进行了引物的挑选、合成,共计50对引物,引物相关信息如表2所示。为了检验引物的实用性,利用了参考基因组高粱材料BTX623和杂交种辽糯3号,因为本研究在育种实践中很多时候利用的是杂交种材料。在50对引物中,两个材料中仅有一对引物未扩增出产物(Chr6-3两个亲本间无扩增),引物成功率高达98%,另有两对引物仅能在一个材料中进行扩增;另一个材料显示无扩增产物(Chr2-3,Chr2-5都是在BTX623中无扩增,在辽糯3中能正常扩增),最终显示有18对引物在这两个亲本间存在多态性。

为进一步检验该批引物的质量,本研究同时挑选了引物Chr1-1,分析其在74份核心种质资源中的多态性丰富程度。该引物在BTX623中扩增的产物的大小,应该是266 bp,扩增产物中较浓的条带,大小基本符合预期,该条带即是目标条带。条带大小比对分析表明,该标记在74份核心种质资源中至少有8种多态型,标记Chr1-1具有比较高的分辨能力(图4)。

图3 位于单拷贝基因上不同重复单元碱基数的SSR标记位于基因不同位置的数量(A)及其在26个品种间的多态型数目(B)

3 讨论

SSR分子标记因其价廉物美,仪器设备要求不高、多态性好、实践中可操作性强等特点,一直是分子标记领域的热门开发方向[3,18-19]。近年来,由于高通量测序技术的发展,成本日益降级,利用高通量测序开发分子标记,越来越高效和便捷。在很多研究中利用转录组数据开发SSR标记,由于转录组数据本身的缺陷,如测序主要是基因转录区段,

很多基因具有时空表达,于是会漏掉很多基因组序列信息,造成开发多态性SSR标记效率并不高[9-12]。

表2 分布于10条染色体上的50对SSR引物信息

图4 引物Chr1-1在74份高粱微核心种质资源中多态性分析

在高粱作物中尽管BTX623的基因组序列在2009 年已经完成[13],Yonemaru 等[15]利用该基因组序列开发多态性SSR标记,共获得5599个非冗余SSR标记,其中(AT/TA)n占所有SSR的26.1%,其次是(AG/TC)n 占20.5%、(AC/TG)n占13.7%和(CG/GC)n占11.8%。其中5012个SSR标记染色体位置是通过e-PCR技术与34008个基因座的预测位置进行比较来确定的。在通过片段分析验证的970个标记中,67.8%(970个标记中的658个)的标记成功地在高粱品系BTx623中扩增,在11个高粱品系和一个苏丹草品系的组合中,所有SSR基因座的平均多态性率为45.1%(658个标记中的297个)。BTX623来源于美国,其基因组序列仅能代表部分生态型品种的序列,国内高粱育种中使用的很多资源与BTX623有较大的差异,且遗传范围狭窄,造成SSR标记的开发在基因组一些区域的多态性标记开发效率低下,极大限制了高粱SSR分子标记在国内高粱育种上的应用。

为了能开发多态性高的SSR标记,本研究利用实验室先前进行了26份不育系和恢复系材料重测序,利用这26份材料的重测序数据进行SSR标记的开发,有效提高了多态性标记开发的力度和效率。本研究设计开发的50对SSR引物在两个亲本BTX623和杂交种辽糯3中进行扩增,有49对成功扩增出条带,其中有两对引物仅在辽糯3号中能够扩增,表明很有可能某些基因组区域在BTX623中是缺失的,仅存在国内某些高粱材料中。50对引物在这两个品种中有多态性的SSR标记为36%,并挑选了SSR标记Chr1-1在74份微核心种质资源中进行分析,初步分析该标记在这些种质资源中有8种多态型之多,表明从开发的SSR标记中容易筛选出多态性好的标记。

本研究开发的SSR分子标记是以26份材料中必须至少有两种多态型作为筛选标准。在这些入选的SSR标记中,大部分入选的SSR标记都是以2个碱基基序为重复单元的分子标记,3个以上碱基重复的达到6082,26个品种中多态性超过2种的有24441,分布在单拷贝基因上SSR标记占总标记数1/4,分布单拷贝基因编码区的标记占落在单拷贝基因上的12%。这些标记类型和特点为高粱基因定位、克隆以及分子育种等分子标记的开发提供了可靠的参考数据。

4 结论

利用14个不育系和12个恢复系作为重测序材料,开发了在26份材料中至少含有2种多态型的SSR标记24441个单拷贝基因处的多态性SSR 6733个。随机挑选均匀覆盖10条染色体的单拷贝基因处SSR标记50对,利用辽宁高粱杂交种辽糯3号进行测试,其中49对能扩增出产物,成功率高达98%,利用高粱杂交种辽糯3号、BTX623和74份微核心种质资源测试表明,50对SSR标记在2个品种中有18对表现出多态性,挑选了一对引物在74份微核心种质中可见8种多态型。本研究表明利用不育系和恢复系材料进行重测序能有效开发多态性高的SSR标记。

猜你喜欢
多态拷贝碱基
应用思维进阶构建模型 例谈培养学生创造性思维
参差多态而功不唐捐
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
唐氏综合征是因为“拷贝”走样了
文化拷贝应该如何“拷”
《C++面向对象程序设计》中引用类型的教学实践
人多巴胺D2基因启动子区—350A/G多态位点荧光素酶表达载体的构建与鉴定及活性检测
烟碱型乙酰胆碱受体基因多态与早发性精神分裂症的关联研究