基于黄地老虎转录组测序的SSR 和SNP 特征分析

2022-03-28 13:37王思威王潇楠刘艳萍孙海滨
广东农业科学 2022年2期
关键词:核苷酸多态性位点

常 虹,高 燕,王思威,王潇楠,刘艳萍,孙海滨

(广东省农业科学院植物保护研究所/广东省植物保护新技术重点实验室,广东 广州 510640)

【研究意义】黄地老虎(Agrotis segetumDenis and Schiffermüller)是一种重要的世界性农业害虫,隶属于鳞翅目(Lepidoptera)夜蛾科(Noctuidae),广泛分布于亚洲、欧洲和非洲等地。黄地老虎主要为害棉花、马铃薯、玉米和十字花科蔬菜等作物,可对我国农业和经济造成较大损失[1-2]。同时,它也是一种重要的迁飞害虫,已有研究表明其在我国进行季节性迁飞[3-4]。迁飞可促进种群间的基因交流,极大降低不同地理种群间遗传分化的程度。对黄地老虎种群遗传结构进行研究,有助于探讨不同地理种群间的遗传分化关系,揭示其迁飞路径及起源,进而为明确该虫的种群发生动态及成灾机制提供科学依据。【前人研究进展】微卫星又称简单重复序列(simple sequence repeats,SSR),是一类由1~6 个核苷酸简单串联重复组合而形成的核苷酸序列,一般由中心的重复序列和两端的保守序列构成。微卫星具有共显性遗传、多态性信息含量高、具有很高的突变速率及稳定性高、实验重复性好等优点,被广泛应用于种群遗传结构及遗传分化等种群遗传学的研究[5-8]。单核苷酸多态性(single nucleotide polymorphism,SNP)主要是指在基因组水平上由单个核苷酸变异引起的DNA 序列多态性,具有分布广泛、数量丰富、遗传稳定性高、较高DNA 降解耐受性等特点,被用于群体遗传分析及品种鉴定等研究[9-12]。传统的SSR 和SNP分子标记的开发需要构建基因组文库进行克隆测序,检测过程繁琐且费时费力。随着高通量测序技术的快速发展,转录组测序技术为非模式生物SSR 和SNP 位点的挖掘提供了一种高效、快速、经济的途径。因此,基于转录组数据筛选SSR 和SNP 位点被广泛应用于动植物的研究中[13-16]。黎东海等[13]基于齿缘刺猎蝽Sclomina erinacea转录组数据筛选出的SSR 位点设计出54 对SSR引物,对其9 个不同地理种群进行验证,有16 对引物能较好扩增出目的片段。桑迪等[14]基于意大利蝗Calliptamus italicus转录组数据设计出6对可用于扩增10 个不同地理种群目的片段的SSR引物。目前,有关黄地老虎的研究,主要集中在人工饲养、生物学特性、预测预报和防治技术等方面[17-19],而对其种群遗传结构方面的研究甚少。Wu 等[20]仅对黄地老虎线粒体基因组进行简单分析,并未利用线粒体基因对其系统发育和遗传结构进行研究。【本研究切入点】对害虫种群遗传结构进行研究,不仅能够分析出害虫在我国现有地理分布格局的形成机制,而且能够了解该虫在不同地理种群间的遗传分化与基因流,结合该虫在我国的迁飞与气象资料,还能够推测该虫在我国的迁飞规律及各发生危害区间的虫源关系。黄地老虎作为一种重要的迁飞性农业害虫,缺少对其种群遗传结构方面的研究,明确黄地老虎SSR和SNP 位点信息可为研究该虫种群遗传结构提供数据支撑。【拟解决的关键问题】本研究通过对黄地老虎转录组进行分析,对其SSR 和SNP 位点的组成和特征进行研究,初步建立黄地老虎的分子标记,为今后研究黄地老虎的种群遗传结构奠定基础。

1 材料与方法

1.1 供试虫源及RNA 提取

黄地老虎成虫采自山东省烟台市蓬莱区北隍城乡长岛试验基地(站)(38°23.20´N,120°54.50´E)。选取鳞片完整且活力充沛的个体放在1.5 mL的离心管内,迅速置于液氮中致死,将样品存放于-80 ℃超低温冰箱内直至使用。

在已灭菌的研钵中加入液氮预冷,将黄地老虎样品倒入预冷的研钵中,迅速研磨直至研磨成粉末状,期间不断补充液氮。将约80 mg 粉末状样品转移至1.5 mL的离心管内,加入1 mL TransZol Up(北京全式金公司)溶液后,采用RNA 提取试剂盒(TransZol Up Plus RNA Kit,北京全式金公司)提取总RNA。对总RNA 质量采用1%琼脂糖凝胶电泳进行检测;Nanodrop 分光光度计(IMPLEN,CA,USA)对总RNA 浓度和纯度进行检测;利用Agilent 2 100(Agilent Technologies,CA,USA)检测RNA的完整性。

1.2 转录组测序及序列拼接

将检测质量合格的总RNA,委托深圳市恒创基因科技有限公司用Illumina HiSeq 2500 进行测序,共3 个生物学重复,测序深度为10 Gb。对测序获得的原始数据进行过滤,去除包含接头的序列及低质量序列,使用Trinity 软件对去重复的clean reads 进行De novo 组装,获得Unigene 序列。

1.3 SSR 和SNP 信息分析

对测序获得的黄地老虎转录组数据,使用MicroSAtellite(MISA)软件对Unigene 进行检测,得到SSR 位点信息[21]。此外,利用GATK 软件对黄地老虎SNP 信息进行分析[22]。

2 结果与分析

2.1 转录组数据分析

黄地老虎转录组经Illumina 测序后,共得到74 067 260 条原始数据;数据过滤后,得到73 724 516 条clean reads,其中,Q20 为93.52%,Q30 为85.81%,表明测序质量较好。组装后共得到66 469 条Unigene 序列,序列长度主要分布于200~2 000 bp 之间,占总序列的89.88%,平均长度868 bp。随着Unigene 序列长度的逐渐增加,所含序列数量呈阶梯式下降(图1),该结果同生物的序列长度分布规律相一致,说明该转录组组装质量较好。

图1 Unigene 序列长度分布Fig.1 Unigene Distribution of length in Unigene distribution

2.2 SSR 位点分析

对获得的66 469 条Unigene 序列利用MISA软件进行搜索,共得到SSR 位点4 438 个。分布于4 048 条Unigene 序列上,占总序列的6.09%;其中包含多个微卫星位点的序列有345 条,复合型SSR 有125 条。

对SSR 位点的核苷酸重复类型进行分类,共得到6 种重复类型,各重复类型间所包含的SSR 位点的数目相差较大;其中,重复类型最多的是单核苷酸重复(2 429 个),占总位点的54.73%;六核苷酸重复类型的位点数最少,占比0.95%(表1)。黄地老虎SSR 总长度为67 966 bp,其中单核苷酸重复序列总长度最长,为37 215 bp,平均每1 552 bp 出现1 个单核苷酸重复,其平均长度为15.32 bp;六核苷酸重复SSR 位点总长度最短,为1 056 bp,其平均长度为25.14 bp。6 种重复类型序列总长度为67 966 bp,平均每850 bp 出现1 个重复序列,其平均长度为15.31 bp(表1)。

表1 SSR 位点重复类型数量与分布Table 1 Number and distribution of SSR loci repeats

黄地老虎转录组SSR 位点信息中共发现82种重复基元,其中单核苷酸重复基元种类最少,为2 种;六核苷酸重复基元种类最多,为25 种。A/T 为单核苷酸重复基元中的优势基元,共有SSR 位点2 356 个,分别占单核苷酸重复基元和总SSR 位点的96.99%和53.09%。二核苷酸重复基元中的优势基元为AC/GT 和CG/CG;三核苷酸重复基元中的优势基元是ATC/ATG 和CCG/CGG;四核苷酸重复基元中的优势基元是AAAT/ATTT 和AAAG/CTTT;五核苷酸重复基元中的优势基元是AAATC/ATTTG 和AATAG/ATTCT;六核苷酸重复基元中的优势基元是CCCGCG/CGCGGG(表2)。

表2 优势基元SSR 位点数量与分布Table 2 Number and distribution of SSR loci with dominant motifs

黄地老虎转录组中SSR 基元重复次数在不同基元类型间存在较大差异,包含4~24 次重复;且重复次数随着基元核苷酸数的增加而呈下降趋势。单核苷酸重复基元的重复次数类型最多,共有13 种重复单元长度,为12~24,其中12 次重复所占比例最高,占单核苷酸SSR 位点的32.24%。六核苷酸重复基元形成3 种重复单元长度,其中4 次重复所占比例最高,占六核苷酸SSR 位点的88.10%(表3)。

表3 不同基元SSR 重复次数分布Table 3 Distribution of SSR repeats of different motifs

对黄地老虎转录组SSR 位点序列长度进行分析,SSR 位点序列长度分布在12~127 bp 之间。SSR 位点序列长度在12~19 bp的SSR 位点有3 493 个,其中,SSR 长度为12 bp的位点数量最多,占总位点的25.39%;长度为15 bp的SSR 位点数量次之,占总位点的22.49%。SSR 位点序列长度大于等于20 bp的SSR 位点有820 个,占总位点的19.01%(图2)。

图2 SSR 位点序列长度分布Fig.2 Distribution of length in SSR loci sequences

2.3 SNP 位点分析

黄地老虎转录组Unigene 序列共包含SNP 位点371 148 个,包括237 619 个转换类型和133 529 个颠换类型;转换类型(64.02%)显著大于颠换类型(35.98%)。C/T 在所有变异类型中所占比率最高,占总量的18.61%;G/A 位居其次(18.28%),且这两种变异均属于转换类型。在颠换类型中,A/T 所占比例最高,占总量的6.93%;G/C 所占比例最低,占总量的3.29%(图3)。

图3 SNP 变异类型统计结果Fig.3 Statistical results of variation types of SNP

3 讨论

本研究基于黄地老虎转录组测序结果,对其SSR 及SNP 位点信息进行分析。黄地老虎转录组数据共获得66 469 条Unigene 序列,共搜索到SNP 位点371 148 个,平均每155 bp 出现一个SNP 位点。黄地老虎转录组数据中SNP 变异的转换位点有237 619 个,颠换位点有133 529 个,说明其SNP 变异类型以转换类型为主,该结果与东方蝼蛄Gryllotalpa orientialis[23]、椰心叶甲啮小蜂Tetrastichus brontispae[24]的研究结果一致。本研究中转换位点是颠换位点的1.78 倍,小于理论值(转换/颠换=1 ∶2),说明碱基的突变可能不是随机的,应该与进化过程中的选择机制相关[25]。在转换类型中,C/T 所占的比率最高,可能是由于甲基化的C 进行脱氨后就可以变成T 有关[26]。

黄地老虎转录组数据库中共搜索到SSR 位点4 438 个,分布于4 048 条Unigene 序列上,发生频率为6.09%,比已报道的部分昆虫如扶桑绵粉蚧Phenacoccus solenopsis(5.79%)[27]、桔小实蝇Bactrocera dorsalis(4.23%)[28]、麦红吸浆虫Sitodiplosis mosellana(3.49%)[29]的发生频率高;而比东方黏虫Mythimna separate(9.85%)[30]、荔枝蒂蛀虫Conopomorpha sinensis(15.25%)[31]、意大利蝗(17.58%)[14]和沙棘木蠹蛾Eogystia hippophaecolus(35.14%)[32]等昆虫的发生频率低,不同昆虫间SSR 发生频率差异较大,造成该结果的原因可能与物种自身进化有关,也可能同用于建库的总RNA 质量、测序深度以及数据分析时参数设置有关[15]。

黄地老虎转录组中的SSR 包括6 种重复类型,其中单碱基重复是含量最高的重复类型,该结果与东方黏虫[30]、荔枝蒂蛀虫[31]、椰心叶甲啮小蜂[24]、梨小食心虫Grapholitha molesta[16]等的研究结果相一致。其次,三碱基重复的含量也较高,在桔小实蝇[28]、二点委夜蛾Athetis lepigone[33]、黏虫Mythimna separata[34]等昆虫中,三碱基重复是含量最高的重复类型,导致三碱基重复含量较高的原因可能在于其较其他重复类型更加稳定,每3 个核苷酸翻译1 个氨基酸,为保证蛋白质结构与功能不产生变化,使得其极少产生移码突变[35]。

前人研究表明,由于C 易于甲基化突变成T,推测在动植物体内GC/CG的含量会很低,有些甚至不含该重复基元[36-37]。然而,本研究中CG/CG 含量是除AC/GT 外含量最高的二碱基重复,该结果同一些鳞翅目昆虫如二点委夜蛾[33]、东方黏虫[30]和细梢小卷蛾Rhyacionia leptotubula[38]的研究结果相一致,可能是由于鳞翅目昆虫自身的进化导致其含量较高,需要进一步研究。

SSR 多态性是判断序列能否作为分子标记的重要依据,而SSR 序列长度是影响SSR 多态性的主要因素,且序列长度与多态性成正比[36,39]。研究结果表明,SSR 多态性极低的序列其长度小于12 bp,SSR 多态性中等的序列其长度在12~20 bp 之间,而SSR 多态性较高的序列其长度大于等于20 bp[39]。本研究中,黄地老虎SSR 位点序列长度在12~19 bp的SSR 位点有3 493 个,属于SSR 中度多态性位点;大于等于20 bp的SSR 位点有820 个,属于SSR 高度多态性位点。总体来说,黄地老虎具有相对较高的遗传多态性。

4 结论

本研究基于黄地老虎转录组数据库,对黄地老虎SSR 和SNP 位点信息进行分析,结果显示该虫转录组中包含SNP 位点371 148 个和SSR 位点4 438 个;SNP 以转换类型(64.02%)为主;SSR位点共存在6 种重复类型,以5 次重复(21.67%)为主,其序列长度为12~127 bp,包含3 493 个中等多态性位点和820 个高度多态性位点。研究结果表明该虫SNP 和SSR 位点数较多,SSR 重复类型丰富,且序列长度较长,具有较高的遗传多态性,可为研究黄地老虎遗传多样性提供充分的遗传信息,用于黄地老虎种群遗传分化的研究。

猜你喜欢
核苷酸多态性位点
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
多环境下玉米保绿相关性状遗传位点的挖掘
长吻单核苷酸多态性标记与生长性状关联分析*
APOE基因多态性与老年动脉粥样硬化性脑梗死严重程度及预后相关性分析
相信科学!DNA追凶是如何实现的?
慢性乙型肝炎抗病毒治疗进展
吃味精会对身体有害吗
一种改进的多聚腺苷酸化位点提取方法
反相高效液相色谱—串联质谱法测定母乳及奶粉中核苷和核苷酸的含量
分子标记技术的产生与引物设计