覃 瑞 ,陈贤军,湛 蔚,向妮艳,刘 虹,严兴初,黄 稳,覃尔岱,李 刚
(1.中南民族大学 武陵山区特色资源植物种质保护与利用湖北重点实验室,湖北 武汉 430074;2.中国农业科学院油料作物研究所,湖北 武汉 430062)
红花(Carthamus tinctorius L.)是菊科红花属1 ~2 年生草本植物,又名草红花,红蓝花,淮红花,扎浪子(新疆维吾尔语)等.红花在我国的种植有两千多年的历史,早在汉代就已有红花种植的记载,红花具有抗旱和抗寒能力,目前我国红花的种植主要集中在新疆,云南,安徽,河南等地[1-2].红花是一种油药两用的经济作物,其种子富含不饱和脂肪酸,特别是亚油酸含量很高,号称“亚油酸之王”.同时,它也是一种传统中药材,具备降血压,血脂,活血通经,祛瘀止痛等效用[3].红花是具有巨大遗传潜力的花油两用的经济作物,因为缺乏基因组和转录组的数据,其遗传潜力尚未完全挖掘,在20 世纪90 年代中期,红花被国际植物遗传资源研究所(IPGRI)和德国技术合作局(GTZ)认定为25 种未被充分利用的作物之一[4].
DNA 分子标记是评估群体内或者群体间遗传变异的可靠工具,简单重复序列(simple sequence repeat,SSR)又称微卫星(microsatellites) 标记是由几个核苷酸(一般为1 ~6 个)为重复单位组成的长度为几十个核苷酸的串联重复序列. SSR 标记拥有共显性,高多态性,强稳定性,操作简单等优点[5],在很多的植物研究中被广泛应用,如水稻[6],玉米[7],小麦[8-9],油菜[10],棉花[11],甜瓜[12]等.SSR 标记的来源之一为快速增长的EST 序列[13],EST-SSR 是基于转录组测序而非全基因组测序来开发的SSR 标记,具有准确,快速,廉价的优点.然而,目前在NCBI 上公布的有关红花的DNA/RNA 序列少,不能满足SSR 标记的开发.在本研究中,我们通过对云南红花转录组的Illumina高通量测序和组装,利用生物信息学软件对得到的转录组数据中EST-SSR 的分布特征进行了分析,在此基础上开发了红花EST-SSR 标记,并且初步验证了这些标记在不同红花品种中的可用性,为红花EST-SSR 标记的开发,核心种质构建和分子标记辅助育种奠定基础.
用于EST-SSR 引物可用性验证与多态性检测的60 份红花种质材料由中国农业科学院油料作物研究所提供,材料信息见表1.按照改良的CTAB 法提取基因组DNA[14].提取的DNA 质量通过1%的琼脂糖凝胶电泳来检测.
用于转录组测序的红花材料为云南红花(YH),种植于中南民族大学生命科学学院温室,待植株长到3 周左右,株高在10 cm 左右,取幼苗全株,立即置于液氮当中,并将其保存在-80 ℃. 使用华越洋RNA提取试剂盒(HUAYUEYANG)并依据其流程进行RNA 提取.将提取的RNA 送至安诺优达基因科技有限公司进行Illumina 高通量测序,测序读长为PE150.采用Trinity 软件对经过过滤的高质量数据进行拼接[15],得到Unigene 序列.
利用MISA 软件(http:/ /pgrc.ipk-gatersleben.de/misa)从转录组数据中识别出EST-SSR 位点. 搜索参数设置为:重复基序为1 ~6 bp,其中一、二、三、四、五和六核苷酸重复序列的最小重复数分别为10、6、5、5、5 和5.
基于默认参数使用Primer 3.0 软件设计EST-SSR引物,随机选择27 对引物验证EST-SSR 标记(表2).PCR 扩增体系和扩增程序主要参照唐小慧等[5]的方法.PCR 产物检测用4% 的聚丙烯酰胺凝胶电泳(PAGE).固定功率90 W,电泳90 分钟,银染显色.
经过Trinity 拼接,云南红花(YH)转录组共得到142 946 条Unigen 序列,总长为143.2Mb,N50 值为1 508bp,序列平均长度为1 002bp.用MISA 软件对其进行SSR 位点搜索,在其中的32 520 条Unigene 中检测得到46 016 个EST-SSR 位点.EST-SSR 发生概率(含有SSR 的Unigene 条数/总Unigene 条数)为22.75%,分布频率(SSR 个数/总Unigene 条数)为32.19%,平均3.11kb 会出现一个EST-SSR 位点.在32 520 条含有EST-SSR 位点的Unigene 序列中含2 个及2 个以上EST-SSR 位点的序列仅有9 533 条,其余序列只含有1 个EST-SSR 位点.
在云南红花(YH)转录组中,46 016 个EST-SSR位点一共包含425 种重复基序,单核苷酸重复不计算在其中. 其中二核苷酸重复数量最多,为17 319 个,占49.22%(图1);三核苷酸重复数量为16 299 个,占46. 32%;四核苷酸重复数量为1 040 个,占2.96%;五核苷酸重复数量为197 个,0.56%;六核苷酸重复数量为330 个,占0.94%. 在二核苷酸重复类型中,AG/CT 出现的频率最高,达到44%(图2);AT/AT 占比为33%,AC/GT 占比为23%,CG/CG 占比为0.01%.在三核苷酸重复类型中,出现频率最高的是AAG/CTT,达到24%(图3);ACC/GGT 占比为23%,ATC/ATG 占比为20%,AGG/CCT 占比为8%.
图1 云南红花转录组SSR 基序类型分布特征Fig.1 Distribution characteristics of SSR motif types in the transcriptome of YH safflower
图2 云南红花(YH)转录组二核苷酸SSR 基序分布特征Fig.2 Distribution of the dinucleotide SSR motifs in YH safflower transcriptome
图3 云南红花(YH)转录组三核苷酸SSR 基序分布特征Fig.3 Distribution of the trinucleotide SSR motifs in YH safflower transcriptome
在云南红花(YH)转录组中,SSR 重复单元的重复次数为5 ~34 次,此中5 次重复数最多,为9 369个,占26. 63% (图4);其次是六次为8 148 个,占23.16%;7 次有5 068 个,占14.40%;8 次为3 600个,占10. 23%;基序大于8 次的重复较少,共占25.58%.SSR 位点的长度以15 bp 最多,为8 388 个,占23.85% (图5);之后是18 bp,为6 181 个,占17.58%;12 bp 为3 681 个,占10.47%;14 bp 为2 890个,占8.22%;最长的SSR 位点为68 bp.
图4 云南红花(YH)转录组SSR 位点数重复次数分布Fig.4 Distribution of the SSR repeat numbers in YH safflower transcriptome
图5 云南红花(YH)转录组SSR 长度分布Fig.5 Distribution of the SSR repeat length in YH safflower transcriptome
先将60 份不同来源红花基因组DNA 进行等量混融,以此为模板,对随机选择的27 对EST-SSR 引物(表2)进行PAGE 检测. 结果显示27 对EST-SSR 引物中有21 对引物可以扩增出清晰可读且符合预期大小的条带,有效扩增率为77.8%,将21 对可以扩增出预期大小条带的EST-SSR 引物在60 份不同来源的红花品种中进行多态性检测分析. 扩增结果表明12 对引物多态性理想(表2 中黑体字部分).多态性引物比率为44. 4%. 其中HHSSR-5,HHSSR-10,HHSSR-16的扩增效果如图6.
表2 27 对EST-SSR 引物信息Table 2 Information of 27 pairs of EST-SSR primers
注:表中加粗的部分为多态性理想的SSR 引物Note: The primers in bold are polymorphic primers
图6 3 对EST-SSR 引物在60 份红花DNA 模板中的扩增效果Fig.6 Amplification using three EST-SSR primers in sixtysafflower DNA samples
转录组测序并不依赖于物种的全基因组信息,便能获取全部转录本信息[16]. 现如今许多植物的转录组测序已经完成,利用转录组数据开发EST-SSR 标记已经越来越多的被应用到茶树[17],芝麻[18],豌豆[19]等植物研究中.
本研究是基于红花转录组开展的SSR 位点分析和标记挖掘,云南红花(YH)转录组中,在142 946 条转录本序列中筛选出46 016 个SSR 位点,涉及32 520条Unigene 序列,分布频率为每3.11kb 一个SSR 位点. 红花转录组 SSR 分布频率高于红松的17.38 kb[20],木豆的8.4 kb[21],杏仁树的5.45 kb[22],柑橘的5.20 kb[23].这表明红花转录组SSR 数量上更加丰富. 红花SSR 分布频率与楠木(1/3. 37 kb)相近[16],低于橡胶(1/0.92 kb)[24].由于物种的基因组大小,搜索软件及其参数设定等多种因素可以导致SSR 分布频率的差异. 在本研究中,转录组测序采用的材料是幼苗全株,测序质量好,构建的文库质量高,测序获得的EST 序列平均长度较长,说明cDNA 文库的构建可能影响SSR 分布频率.
根据已有的报告,多数植物SSR 标记的重复类型主要为二,三核苷酸重复,这两种类型的核苷酸重复的多态性普遍高于其他基序重复类型.如茶树[17],橡胶树[25]等以二核苷酸重复基序为最多,而黄麻[26],紫楠[27],芝麻[18],番薯[28]等以三核苷酸重复基序为最多.本研究发现,在云南红花(YH)转录组中数量最多的基序重复类型为二核苷酸(17 319 个)稍多余三核苷酸(16 299 个). AG/CT 为二核苷酸中的优势重复基序,AAG/CTT 为三核苷酸中的优势重复基序,这结果符合在双子叶植物中AAG/CTT 为其优势重复基序的规律[29].
另外,随机选取27 对设计的EST-SSR 引物合成并初步验证,21 对引物在60 份不同来源的红花DNA中均能扩增出清晰可读且符合预期大小的条带,其中12 对引物的多态性理想,多态性引物比率为44.4%,高于菠菜[30]和南方红豆杉[31]. 该结果表明开发的EST-SSR 引物可以用于红花遗传多样性分析和亲缘关系研究,同时表明基于红花转录组数据开发SSR 标记是可以实施的.在不同物种中基于转录组数据开发SSR 标记的成功率存在差异,这可能与不同物种的DNA 转录序列的保守性有关[26].
本研究基于红花转录组的高通量测序数据,从总RNA 水平上有针对性地进行了红花特异性SSR 位点的检索和评价,结果表明红花转录组SSR 发生率较高,类型丰富,实用性较高. 我们开发了大量的ESTSSR 标记,这些标记具有极高的实际应用价值,因为它的多态性可能直接具有相关基因的功能,并可以在近缘物种中使用. 结合转录组功能注释分析,可以找出与功能基因相关联的EST-SSR 标记,如具有与产量性状相关的开花基因,具有重要经济价值的黄酮代谢途径有关的基因等,这将为红花优良性状的研究提供帮助.同时EST-SSR 标记也为红花的遗传多样性研究、遗传连锁图谱的构建、种质资源表征和分子标记辅助育种等提供了有力工具.