基于RNA-seq 数据的栽培种花生SSR 位点鉴定和标记开发

2020-02-28 01:48徐志军赵胜徐磊胡小文安东升刘洋
中国农业科学 2020年4期
关键词:基序核苷酸引物

徐志军,赵胜,徐磊,胡小文,安东升,刘洋

(1 中国热带农业科学院湛江实验站/广东省旱作节水农业工程技术研发中心,广东湛江 524013;;2 中国农业科学院农业基因组研究所,广东深圳 518120)

0 引言

【研究意义】栽培种花生(Arachis hypogaea)是中国主要的油料与经济作物之一,在保证中国食用油和植物蛋白供给、促进农民增收方面具有重要作用。伴随花生基因组学和分子生物学的发展,大量基于分子标记的花生品种鉴定[1-2]、种质资源遗传多样性[3-5]、重要性状的QTL 定位[6-9]、基因挖掘和育种研究[10-14]得以开展。然而,由于花生遗传基础狭窄,SSR 标记多态性较低,基因组较大(约2.7 GB),且结构复杂,现有的SSR 标记,特别是用于高密度遗传图谱构建和重要功能基因挖掘的标记还较为缺乏,限制了花生重要功能基因的解析和应用。【前人研究进展】近年来,SSR 标记因其分布广泛、共显性、多态性好、分辨率高、重复性好等优点而被广泛应用于花生遗传研究和育种实践中。利用基因组文库(如BAC 文库)[15-24]、表达序列标签(expressed sequence tags,EST)文库[25-32]、转录组数据[33-35]、全基因组数据[9,36-37]和近缘物种(如大豆)[38]中的SSR 序列进行花生SSR 标记的开发,并应用于花生的研究。任小平等[2]利用筛选到的60 对核心SSR 标记构建了100 份花生品种的指纹图谱;张照华等[39]在高油酸育种中利用62 对SSR标记对10 个BC4F2特定基因型株系进行遗传背景评估,筛选出与亲本中花16 最优的近等基因系材料。除此之外,利用基于SSR 标记的遗传连锁图谱和关联图谱,鉴定出与栽培种花重要农艺性状紧密连锁的QTL,如株高等株型相关性状[6,40-42]、荚果和种子相关性状[7-8,43-44]、抗旱[45]、叶斑病等抗病性[46-47]。在水稻、大豆、玉米等作物上的研究还表明,功能基因中的特异性SSR 标记(或紧密连锁标记)还可以用于分析基因的等位变异和功能变异[48-50]。【本研究切入点】目前,尽管一批栽培种花生重要性状相关QTL 被鉴定出来,但是进入育种应用的还较少,最主要的原因是构建的遗传图谱标记密度还不够高,鉴定的QTL 的遗传距离还较大,标记与基因间的连锁还不够紧密,在实际运用中基因丢失的风险较高。因此,有必要利用现有资源开发更多SSR 标记,对这些重要功能基因进行精细定位和图位克隆。利用野生花生基因组,JOSH等[51]对栽培种花生全生育期中22 种不同类型的组织进行RNA-seq测序,组装了栽培种花生的转录组图谱,包含了花生正常生育条件下最多的基因转录本数据,这些转录本数据中包含了大量还未利用的SSR标记资源,且来自转录组的SSR直接与功能基因的表达相关,是开发功能基因特征标记的潜在资源。【拟解决的关键问题】本研究拟利用已发表的栽培种花生RNA-seq数据,鉴定SSR 位点、开发与基因相关联的SSR 标记,进一步丰富花生SSR 标记,为花生重要功能基因的挖掘、等位变异研究和分子标记辅助育种奠定基础。

1 材料与方法

1.2 RNA-seq 数据处理

根据转录组数据注释信息,将组装序列与基因名称、染色体定位、基因功能等信息进行一一对应。

1.3 SSR 位点挖掘及基因SSR 引物设计

使用MISA 软件(microsatellite identification tool,http://pgrc.ipk-gatersleben.de/misa/)搜索栽培种花生转录组unigene 中的简单重复序列,并对SSR 重复基序类型进行特征分析。查找标准:单核苷酸基序至少重复次数为10,而2、3、4、5 和6 核苷酸基序最少重复次数分别为6、5、5、5 和5。

使用Primer3.0 软件对SSR 位点进行引物设计,每个SSR 位点分别设计3 组引物,并且满足以下的特征:(1)长度在15—25 bp;(2)PCR 扩增产物长度为100—400 bp;(3)退火温度(Tm 值)在50℃—60℃;(4)GC 的含量在40%—60%;(5)避免出现发夹结构及引物二聚体。

1.4 e-PCR 引物质量检测

使用e-PCR Version: 2.3.9 对设计的引物进行电子PCR 检测,参数设置按照DENG 等[52]方法进行。分别分析来源于栽培种花生转录组的 SSR 引物在A.duranensis、A.ipaensis和栽培种花生(Tifrunner)全基因组(https://peanutbase.org/)中的扩增情况,统计并记录引物在基因组上的扩增次数,剔除扩增产物长度小于100 bp 或大于500 bp 及特异性不好的引物。使用Tbtools[53]软件对扩增位点在基因组上的位置进行 可视化。

1.5 花生DNA 提取及PCR 检测

选取花生幼嫩叶片,采用改良CTAB 法提取DNA,用1%的琼脂糖凝胶电泳检测DNA 浓度与纯度,于-20℃保存备用。38 对随机选取的基因SSR 引物由生工生物工程(上海)股份有限公司合成(电子附表1)。PCR 反应体系和PCR 程序按照HUANG等[6]方法进行。

表1 栽培种花生RNA-seq SSR 位点分布特征Table 1 Distribution of RNA-seq SSR locus characteristics in cultivated peanut

2 结果

2.1 栽培种花生RNA-seq SSR 位点分布及结构特点

栽培种花生22 个组织RNA-seq 深度测序共组装获得52 280 条转录本(总长度75 821 219 bp),其中33 293 条转录本注释到相应基因(注释到A 基因组16 222 个基因,B 基因组17 071 个基因)。利用MISA软件从全部转录本中共鉴定出19 143 个SSR 位点,其中有1 494 个SSR 位点以复合位点的形式存在。在全部转录本中共有14 084 条转录本含有SSR 位点,发生频率为26.94%,平均每3.96 kb 出现一个SSR;3 606条(6.90%)转录本中含有≥2 个SSR 位点,大部分转录本含有2—4 个位点,单条转录本中最多含7 个SSR 位点。在所有鉴定的SSR 位点中,大部分SSR位点分布于转录本序列5′端300 bp 或3′端300 bp 的区域,包括UTR、内含子和CDS 区域。

栽培种花生转录组重复单元类型丰富,单核苷酸到五核苷酸均存在,各重复单元组成的SSR 数量上存在着较大差异(表1)。其中以单核苷酸和三核苷酸为重复单元的SSR 位点数最多,分别占SSR 位点总数的39.24%和38.40%,分布频率为14.37%和14.06%,其中以五核苷酸为重复单元的SSR 位点数最少,仅为48 个。在SSR 位点基序种类方面,不同重复单元在基序种类上存在着丰富的多样性,单核苷酸到五核苷酸基序种类分别为4、12、60、87 和39 种,共202 种,从单核苷酸到四核苷酸基序种类随着重复单元碱基数增加而增加(表1)。

各重复单元优势基序类型随着重复单元增加,在所属重复单元SSR 位点中所占的比例呈下降趋势(表1)。在鉴定出的SSR 位点中,单核苷酸重复单元中,优势基序类型为A/T,为7 334 个,占所有以单核苷酸为重复单元的SSR 位点的97.62%;二核苷酸重复单元中,优势基序类型为AG/CT,占该重复单元位点的72.01%;三核苷酸到五核苷酸重复单元中,优势基序类型依次为30.96%、24.59%和16.67%。

2.2 栽培种花生RNA-seq SSR 重复次数和基序长度

鉴定的SSR 位点各重复单元的重复次数和SSR位点长度存在着明显的差异(表2 和图1)。重复单元的重复次数为5—47(单核苷酸)次,随着重复次数的增加,同一重复单元类型的SSR位点数逐渐减少。其中,单核苷酸重复次数主要集中在10—12 次;二核苷酸重复次数主要集中在6—8 次;三核苷酸重复次数主要集中在5—6 次;四核苷酸和五核苷酸重复次数主要集中在5 次。从整体上看,重复单元的重复次数主要集中在5、6 和10 次,在所有SSR 位点中的分布频率分别为24.24%、18.87%和17.37%。单个SSR 位点的长度的分布范围为10—47 bp,基序长度主要集中在10—14 bp,其中,长度为10 和12 bp 的基序数量最多,分别为2 985 和2 389 个;复合SSR 位点的长度范围为21—249 bp,其中,以长度为31—40 bp 的复合位点最多,随着基序长度增加,复合SSR 位点数呈逐步减少的趋势。

图1 SSR 基序长度分布Fig. 1 Distribution of SSR motif length

2.3 栽培种花生SSR 标记的开发

利用primer3.0 软件,对14 084 条转录本中的SSR位点进行引物设计,发现共有13 477 个SSR 位点可以进行引物设计,其中,可以进行引物设计的单个SSR位点有12 515 个,复合SSR 位点962 个。不能进行引物设计的SSR 位点共4 172 个,其中,单个SSR 位点3 797 个,复合SSR 位点375 个;这些SSR 位点中共有1 771 个SSR 位点位于序列5′端50 bp 以内,2 179个SSR 位点位于3′端100 bp 区域内,SSR 位点位于序列起始端和末端,位点一端序列过短或无序列是造成这些位点不能进行引物设计的主要原因。在可以进行引物设计的序列中,共有5 661 条转录本未注释到基因,这些序列中共包含7 305 个SSR 位点,有1 235条序列含有多个位点,单条序列最多含有7 个SSR 位点。

表2 栽培种花生SSR 各重复单元重复次数及分布频率Table 2 Repetition times and distribution frequency of each SSR repeat unit in cultivated peanut

根据序列注释信息,共有5 020 条转录本序列对应到特定的基因,共包含5 859 个可进行引物设计的SSR 位点(单一位点和复合位点),基因的平均SSR位点密度为1.17(表3),共设计出17 574 对特定基因SSR 引物(每个位点设计3 对引物)。与基因对应的SSR 位点在A 基因组和B 基因组共20 条染色体上不均匀分布(表3),其中B03 染色体上SSR 位点最多,为484 个;单一位点范围为170(A02)—451(B03),共5 533 个;复合位点范围为9(A01)—33(B03),共326 个。这些包含SSR 位点的基因主要以单位点基因的形式存在(68.75%),单条染色体基因数目为160(A07)—430(B03),其中单位点基因范围为110(A07)—328(B03),多位点基因范围为13(A02)—49(B04)。

2.5 e-PCR 引物质量检测分析

利用一组特定基因SSR 引物(5 859 对),分别以A.duranensis、A.ipaensis和栽培种花生基因组为模板进行电子PCR。结果(表4)表明,栽培种花生特定基因SSR 引物在A.duranensis、A.ipaensis和栽培花生基因组中都具有较高的扩增效率,在3 个基因组中的有效扩增位点分别为4 468、4 929 和10 188 个,有效引物数分别为3 968(67.74%)、4 232(72.25%)和5 174(88.33%)对。且这些SSR 引物,在栽培种花生基因组中具有更高的多态性:在A.duranensis和A.ipaensis基因组中,引物扩增位点主要以1 个位点为主,在有效引物中的比例分别为93.75%和91.33%;而在栽培种花生基因组中,SSR 引物扩增位点主要以2 个位点为主(62.24%),其次是1 个位点(28.54%),且扩增3 个及以上位点的SSR 引物数要显著高于A.duranensis和A.ipaensis。在所有检测的引物中,共有3 250(55.47%)对引物在3 个基因组中均可有效扩增,716(12.22%)对可在A.duranensis和栽培种花生基因组中扩增,978 对可在A.ipaensis和栽培种花生基因组中扩增,231(3.94%)对仅在栽培种基因组中扩增(图2)。根据SSR 标记在栽培种花生基因组中的扩增情况和扩增位点信息,绘制了SSR 位点物理图谱(图3)。根据QTL 两端标记在基因组上的位置,利用SSR 位点物理图谱,可以为QTL 精细定位提供SSR 标记信息。如图4 所示,80 个基因关联SSR 标记可用于QTLqBWRB02.1的区间加密。

2.6 SSR 标记扩增及多态性分析

随机合成了38 对SSR 引物在栽培种花生基因组中进行扩增验证,在远杂9102 和花育910 基因组中共有35 对(92.1%)SSR 引物可以扩增出清晰的条带,其中有11 对(28.9%)SSR 引物在2 个品种间扩增出差异条带,有3 个SSR 标记为显性标记,在2 个花生品种中表现为条带有无的多态性(图5)。表明开发的基因关联SSR引物在花生基因组中具有较高的扩增效率和较好的多态性。

表3 可进行引物设计的特异基因SSR 位点统计Table 3 Statistics of primer design specific gene-associated SSR

图2 基因关联SSR 标记在基因组中的扩增分布Fig. 2 Amplification site distribution of gene-associated SSR markers in peanut genome

图3 花生SSR 标记位点物理图谱Fig. 3 Physical map of SSR markers in peanut genome

表4 基因关联SSR 引物e-PCR 扩增位点统计Table 4 Statistics of gene-associated SSR primer amplified in peanut genome by e-PCR

图4 花生青枯病抗性相关QTL 定位Fig. 4 QTL analysis of bacteria wilt resistance in peanut

图5 随机SSR 引物在花生品种远杂9102 和花育910 中的扩增情况(部分)Fig. 5 Randomly SSR markers amplification in Yuanza 9102 and Huayu 910 (part)

3 讨论

栽培种花生(2n=AABB)来源于数百万年前野生花生A.duranensis(2n=AA)和A. ipaensis(2n=BB)间的自然杂交、加倍事件,已有研究表明野生花生A基因组和B 基因组具有高度的共线性和一致性[54]。本研究开发的基因关联SSR 引物中,共有62.24%(3 221对)的有效引物具有2 个有效扩增位点,且大部分引物扩增的位点分别分布于栽培种花生A 基因组和B 基因组的同源染色体上,如引物A0101UKP-1-1 的2 个扩增位点,定位到A01 和B01 染色体上的一对等位基因Aradu.01UKP.1和Araip.K30076.1的基因序列上;且这些引物可以同时在野生花生A、B 基因组上有效扩增。栽培种花生SSR 标记的这些特性也进一步印证了花生A、B 基因组的高度同源性。

SSR 标记已广泛的应用于作物的遗传多样性分析、指纹图谱构建、杂种鉴定、遗传图谱构建、基因挖掘和育种实践中。来源于转录组的SSR 直接与功能基因的表达相关,鉴定转录组中与基因直接关联的SSR 位点,开发与基因关联的SSR 标记,对于研究基因的等位变异及变异对功能的影响、重要性状关联的基因挖掘和精细定位具有重要意义[55]。本研究鉴定了13 477 个可进行引物设计的SSR 位点,并对5 020 条基因转录本中5 859 个SSR 位点进行了引物设计和电子PCR 检测,进一步丰富了花生SSR标记,为基于分子标记的花生研究提供了可利用的资源。其中有1 147 个基因关联SSR 标记e-PCR 检测只有一个扩增位点,具有一定的特异性,这些SSR 标记经进一步鉴定,有可能开发成基因的特征标记,应用于基因在不同种质中的等位变异研究和基因的功能变异研究。

当前,尽管一批栽培种花生重要性状相关QTL 被鉴定出来,为花生分子标记辅助育种奠定了基础;但实际上,进入育种应用分子标记的还较少,最主要的原因是鉴定的QTL 的遗传距离还较大,标记与基因间的连锁还不够紧密,在实际运用中存在目标性状丢失的风险[36]。利用SSR 位点物理图谱和QTL 两端标记在基因上的位置,可以获得对区间加密的SSR 标记信息。作者前期利用花生抗、感青枯病亲本远杂9102×徐州68-4 构建的RIL 群体,在B02 连锁群上鉴定出一个稳定的QTLqBWRB02.1(或qBWRB02.4,标记区间为AGGS1592-AHTE0775),表型变异解释率为6.91%—18.68%[56]。根据标记AGGS1592、GM2196(AHTE0775 相邻连锁标记)在基因组上的位置信息,将qBWRB02.1定位于B02 染色体5.53 Mb 区域(包含402 个基因),根据SSR 位点物理图谱,在此区间包含80 个基因关联的SSR 标记(图4)。利用这些SSR标记可对该位点区间进行加密,对花生青枯病抗性基因的进行精细定位,从而大大减少候选基因的数量,为目的基因的图位克隆奠定基础。

4 结论

鉴定了13 477 个可进行标记开发的SSR 位点,开发、检测了5 859 个基因相关SSR 标记,在栽培种花生基因组中具有较高的扩增效率,并构建了基因相关SSR 位点的物理图谱。

猜你喜欢
基序核苷酸引物
龙眼全基因组和转录本序列SSR位点的鉴定
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
甜菜全基因组SSR引物的筛选与评价
带TRS基序突变的新型冠状病毒威胁更大
玉米品种德美亚多重SSR-PCR系统的建立及应用
花菜类杂交种纯度鉴定SSR 核心引物筛选
科学思维视角下PCR 的深度学习
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
Acknowledgment to reviewers—November 2018 to September 2019