甜菜基因组SSR标记特征分析

2019-10-23 10:06董玉飞刘乃新吴玉梅
中国甜菜糖业 2019年3期
关键词:基序甜菜核苷酸

刘 蕊,董玉飞,刘乃新,吴玉梅

(1.黑龙江大学农作物研究院,哈尔滨 150080; 2.东北林业大学园林学院,哈尔滨 150080;3.青海大学 农牧学院/青海省农林科学院 土壤肥料研究所,西宁 810016;4.黑龙江大学生命学院,哈尔滨 150080)

1 引 言

甜菜(Beta vulgaris L.)是温带地区重要的蔗糖作物,约占全球制糖产量的25%[1-2]。它也是生物燃料[3], 天然色素,食用植物和动物饲料的重要来源。近年来,作为观赏植物的甜菜在园林配置中得到越来越多的应用。它属于石竹目苋科,石竹目由11510种植物组成,包括仙人掌、冰植物、其他耐旱物种[4]。到目前为止,除了甜菜以外,没有其他的石竹目植物被测序。它是一个具有18条染色体的二倍体物种,估计基因组大小为714-758 MB[4-5]。

目前,我国每年通过鉴定/认证6~10个甜菜品种,生产用甜菜品种多为国外杂交品种。品种登记是基于独特性、一致性和稳定性(DUS)的研究[6]。传统的基于表型特征的甜菜品种鉴别方法存在诸多局限性。例如,需要调查的性状太多;评价周期太长,许多表型性状容易受到环境因素的影响;由于遗传基础狭窄,品种在外观上非常相似[7-8]。因此,通过对形态特征的目视检查来评估不同的甜菜品种并不容易[6]。目前通过分子标记方法是确定不同的甜菜品种的最佳方式。

植物分子标记技术在植物学研究中得到了广泛的应用[9]。微卫星,或简单序列重复(SSRs),是在原核生物和真核生物基因组中普遍存在的1-6个核苷酸的短而重复的DNA序列[10-12]。 SSR标记广泛用于基因连锁图谱的构建[13-15],评价基因多样性[16-17], 标记辅助育种[18-19],群体基因分析[19-21], 及进化研究[22]。 它具有许多优势,如共显性、丰富和随机分布在基因组内、可生产和高度多态性[23-24]。此外,随着高通量测序技术的发展,越来越多的基因组序列已经发表,我们只需要在包含这些序列信息的数据库中检索SSR两侧的保守核苷酸序列,然后根据这些保守序列设计引物[25]。该方法具有操作简单、经济、可操作性强、覆盖率高等特点,已成为SSR引物研制的主要途径[26]。

本研究分析了甜菜基因组中SSR基因的分布,开发了SSR引物,为甜菜本身或相关物种的遗传分析提供了有价值的标记。

2 材料和方法

2.1 基因组SSR位点的搜索

甜菜参考基因组序列以fasta格式从NCBI数据库(http://www.ncbi.nlm.nih.gov)下载。利用Perl语言环境下的misa软件(http://pgrc.ipk-gatersleben.de/misa/)搜索全基因组ssr位点。搜索参数设置如下:所搜索的二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重复次数分别为6、5、5、5和5次。两个SSR序列之间的最小间隔值为100 bp。

2.2 电子PCR引物设计

电子聚合酶链反应(E-PCR)是通过计算来搜索基因组序列中的SSR位点,每一个位点都由一对引物序列和预期的PCR产物大小决定[27]。采用电子PCR软件(https://www.ncbi.nlm.nih.gov/tools/epcr/)设计甜菜基因组中模拟的PCR引物,并采用Perl脚本统计产品编号。

2.3 基因功能注释

使用Agrigo(http://bioinfo.cau.edu.cn/agrigo/)执行包含SSR位点的GO(基因本体)注释,遵循系统默认设置。

3 结果

3.1 甜菜SSR基因座的丰度和相对丰度

从整个基因组水平上分析,甜菜基因组中共计174218个SSR 位点,其中二核苷酸至六核苷酸重复基序的丰度即重复基序的数量分别为35496个(占 SSR 位点总数的20.37%)、55396个(31.80%)、3482 个(2.00%)、58043个(33.32%)和 21801个(12.51%),SSR 位点相对丰度即SSR位点平均发生率为 463个/Mb,二核苷酸至六核苷酸重复基序的相对丰度分别为94.26,147.10,9.25,154.13,57.89。逐条染色体分析可知,二核苷酸至六核苷酸重复基序在染色体水上丰度的平均值分别为 3944.00,6155.11,386.89,6449.22,2422.33,最大、最小者分别为 6号(29180)和 3号染色体(13468);二核苷酸至六核苷酸重复基序的在染色体水平上的相对丰度平均值分别为94.26,147.11,9.25,154.14,57.90,SSR 位点相对丰度最大及最小者分别为3号(506.74)和 2号染色(395.61)。二核苷酸至六核苷酸重复基序丰度最大者均为6号染色体,具体数值依次为6733,9045,604,9217,3581;三核苷酸、五核苷酸、六核苷酸重读丰度基序最小者均为3号染色体,数量分别为552、4078、4925、1551个,二核苷酸重复丰度基序最小为二号染色体425个,四核苷酸丰度基序最小为三号和四号染色体,均为277个。

表1 甜菜基因组SSR的类型,数量及分布频率Tabl.1 Type, number, distribution frequency and abundance of SSR in Sugar beet

SSR丰度/相对丰度(每Mb总重复数)。

3.2 甜菜SSR类型和频率特征

从SSR的基序来看,甜菜基因组共包含1,596种重复基元。二至六核苷酸重复分别有8,30,89和290种。每种基序的分布并不平均。二核苷中(TA/TA)n和(AT/AT)n占的比率最高,分别占二核苷酸类型基序总数的40.59% 和33.65%。三核苷酸中,(AAT/ATT)n,(TAA/TTA)n和(ATA/TAT)n为最多,分别占了 22.51% , 18.01%和16.50%。 四核苷酸基序分布则较为均匀,分布做多的为(ATAA/TTAT)n和(AAAT/ATTT)n,分别占了7.94%和6.91%(图1)。

图1 全基因组中top15 SSR motif的数目Fig.1 Number of the top15 SSR motif within whole genome

3.3 SSR引物的电子PCR(e-pcr)

本研究从NCBI收集到322对已知引物(https://www.ncbi.nlm.nih.gov/probe),在染色体密度为1.2对/MB,且在染色体上分布并不均匀(图3)。为了增加SSR引物在染色体上密度,我们针对新预测的SSR位点开发27,649对引物。并通过电子PCR检验引物的准确性。电子PCR结果显示,多数引物(n=18,271)可以在甜菜基因组特异性扩增。甜菜基因组中能够产生0、1、2、3和大于3个产物的SSR引物数目分别为0 (0.0%)、18271 (66.1%)、2387 (8.6%)、1033(3.7%)和5958(21.6%)对。平均每对SSR引物能够产生18个电子PCR产物,这是由于SSR所在区域为高度重复序列。另外,有24027(86.9%)对引物产生了不多于10个的扩增产物(图2)。

图2 不同规模的e-PCR产物的平均数量Fig.2 Average number of in e-PCR products based on different scales

SSR引物中利用价值较高的是那些在基因组中的位置已知且产物特异的引物。甜菜基因组上设计出的27649对引物中,挑选出特异性引物18271对引物定位在甜菜基因组上,平均每Mb序列有48.52对引物。9条染色体中Chr3上引物的密度最高,为55.76对每Mb,其次是Chr4和Chr2,分别为每Mb序列50.78对和49.09对;密度最低的是Chr9上,为45.83对引物每Mb(表2,图3),与NCBI数据库登入的SSR引物相比较,本研究将甜菜SSR分子标记在染色体的密度提高了37倍。

红色:下载自NCBI引物;绿色:本研究新开发的引物图3 引物在9条染色体上的分布Fig.3 Distribution of primer across nine chromosome

染色体编号Chromosome No.染色体长度(Mb)Chromosome length (Mb)标记数量Marker number标记密度Marker densityChr134.941,67247.85Chr240.391,98349.09Chr326.581,48255.76Chr433.021,67750.78Chr552.462,51747.98Chr660.962,96648.65Chr744.152,05546.54Chr838.801,84447.53Chr945.272,07545.83

3.4 基因SSR的鉴定和注释

为了阐明开发的SSR标记所在基因的潜在功能。我们将SSR motif位置与蛋白质编码基因的位置进行了比较。发现有5,169(28.29%)引物位于蛋白质编码基因内,对应5,137个蛋白质编码。通过对这些基因进行GO (Gene Ontology)功能注释分析,我们发现这些基因主要涉及了cellular process ,metabolic process以及response to stimulus,表明所开发的标记可能与功能基因位点连锁。

图4 含SSR蛋白编码基因的功能注释Fig.4 Functional annotation of protein-coding genes containing SSR

4 讨论

4.1 甜菜全基因组SSR的分布

甜菜中相邻两个SSR位点的平均距离为2.21 kb,即463 SSR/Mb。在以前的研究中,拟南芥相邻SSR位点之间的平均距离为1.4 kb[28],水稻是 3.6 kb[29], 在木荷中为1.54 kb[30]。这种差异可能是由于SSR搜索标准、数据库大小和物种[31]、以及含有微卫星的基因的表达丰度[32]。不同物种之间SSR主要重复类型有所差异,很多植物的SSR主要以二核苷酸、三核苷酸重复单元类型为主[33]。本研究发现,甜菜基因组SSR重复基元类型主要以五核苷酸为主,占全部 SSR的 33.32%,其次是三核苷酸,占全部SSR的31.80%。甜菜基因组中存在大量长重复基序,表明其在生物进化与分类地位中处于相对较低的进化水平[34-35]。

本研究发现二核苷酸对四核苷酸碱基有一定的偏好。甜菜基因组中的二核苷酸重复基序大部分是TA/TA重复基序(40.59%),这与前人的研究相似[36-37]。相反,由于保持热力学稳定性的必要性,CG重复次数显著减少[38]。相反CG的含量很少,可能是由于较少的GC是维持热力学稳定必须的因素。三核苷酸重复基序(AAT/ATT)n,(TAA/TTA)n和(ATA/TAT)n为最多,分别占了 22.51% , 18.01%和16.50%。从以上分析得知,二核苷酸和三核苷酸重复基序均富含A和T,这与 Tóth 等对多种真核生物基因组 SSR 位点的研究结果相一致,可能是由于甲基化的 C 残基转变为 T 所致[39]。另一个原因是破坏a/t碱基对之间氢键的能量低于G/C碱基对之间的氢键,并且A/T比G/C波动更容易[40]。

4.2 甜菜全基因组SSR多态性潜力分析

迄今为止,甜菜中可用的分子标记物很少。本研究共鉴定出174218个SSR位点,频率高,类型丰富。在新设计的27,649对引物中,18271对(66.08%)可特异性扩增。所制备的每一个SSR引物的平均电子PCR产物为18个,表明甜菜基因组中存在大量的SSR,具有较高的PCR效率、多态性和较好的实用性。在下一步中,我们应该鉴定出扩增产物稳定、条带清晰、多态性高的SSR引物,这些引物对于丰富甜菜品种、加快遗传资源利用、建立甜菜种质评价和改良体系、重要性状的基因挖掘和遗传多样性分析具有重要价值。

4.3 SSR与生物过程的关系

基因本体(GO)旨在定义已知基因在分子、细胞和有机体水平上的功能[41]。Go数据库包括三个相对独立的本体,分别描述cellular component, molecular function 和biological process[42-43]。本研究中,含SSR的蛋白质编码基因参与了甜菜的细胞过程、代谢过程、生物调控、对刺激的反应和生物进程的调控等生物学过程。本研究为进一步研究甜菜生长发育过程中表达的重要基因以及甜菜基因的克隆和功能分析提供了标志性依据。

猜你喜欢
基序甜菜核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
带TRS基序突变的新型冠状病毒威胁更大
NaV1.5钠通道C末端IQ基序的重组质粒构建及蛋白制备
芥蓝Aux/IAA家族基因生物信息学与表达分析
辣椒甜菜,各有所爱
当食物成为艺术创作的燃料
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
甜菜咋喂猪
Acknowledgment to reviewers—November 2018 to September 2019