赵松子
(江西省林业科学院·江西省油茶种质资源保护与利用实验室,江西 南昌 330013)
种子大小是对作物产量具有重要影响的数量性状,拟南芥(Arabidopsis thaliana)CYP78A 亚基因家族基因参与种子大小的遗传控制,该调控机制在植物中似乎是相当保守的。拟南芥有6 个CYP78A 基因,分别 为KLU/CYP78A5、EOD3/CYP78A6、CYP78A7、CYP78A8、CYP78A9 和CYP78A10;CYP78A5 通过增加细胞分裂来促进叶、花和种子的生长,CYP78A5 功能缺失突变体的细胞分裂停止较早,导致花瓣、萼片、叶、茎等器官变小[1-4];CYP78A6 在几乎所有组织或器官遍在性地表达,功能缺失突变体没有突变表型,过表达能增加种子大小[5];CYP78A7 功能缺失突变体似乎具有正常表型,但CYP78A5 和CYP78A7 的双突变体产生胚柄向胚的转换并常在胚期死亡,幸存的植株矮小,并且不能产生种子[2];CYP78A8 和CYP78A9 的双突变体产生种子数量较少[6];CYP78A9 过表达导致果荚变大,只产生少量种子[7],通过RNAi 沉默樱桃(Prunus avium)PaCYP78A9 可以使果实变小[8];大豆(Glycine max)GmCYP78A10(CYP78A51)是CYP78A10的同源基因,野生大豆(G.soja)GmCYP78A10 的野生等位型与大豆的高产等位型间存在3 个SNP,等位型的不同导致种子重量7.2%的差异[9]。
油茶是山茶科山茶属(Camellia)中油用物种的总称,主要包括普通油茶(Camellia oleifera)、小果油茶(C.oleiferavar.monosperma)、攸县油茶(C.yuhsienensis)、越南油茶(C. vietnamensis)、浙江红花油茶(C.chekiangoleosa)、广宁红花油茶(C. semiserrata)、宛田红花油茶(C. polydonta)、腾冲红花油茶(C. reticulata)等[10-11]。油茶种子大小在物种内和物种间均存在明显差异,并且物种间的差异大于物种内的差异。黄勇等调查了小果油茶18 个不同群体,种子长度为12.75~19.52 mm,种子宽度为10.82~16.23 mm[12];马力等调查了11 种山茶属植物,最大的为越南油茶,种子千粒质量为1 878.77 g,最小的为攸县油茶,千粒质量为450.55 g[13]。简单重复序列(SSR)主要是以1~6 个核苷酸为基本重复单位的串联重复序列,利用SSR 差异可以开发SSR 标记,具有多态性高、重复性好及共显性等优点。油茶物种间杂交具有较高的亲和力,如越南油茶×小果油茶的座果率达36.6%[10],物种间种子大小的巨大差异为超高产杂交育种提供了良好的材料,鉴别油茶种子大小等产量性状相关基因,开发与之紧密连锁的SSR 标记,可以开展分子标记辅助育种,有助于实现产量性状相关优良等位基因的聚合,大幅提高油茶产量。
从种植于江西省林业科学院院内的油茶良种“赣无1 号”采收成熟种子,室内发芽后采集长约0.5 cm的根尖组织进行转录组分析。
采集油茶根尖组织,委托深圳华大基因科技服务有限公司提取RNA 并进行转录组测序,共得到40 529 966 条读段,读长为90 nt,去除的低质数据后得到37 184 398 条读段。经过SOAP 软件的拼接,获得90 698 条Unigene。经与NR、NT、SwissProt、KEGG、COG 及GO 等6 个数据库比对,确定CDS 有63 008 条。
利用BLAST 软件,以拟南芥的CYP78A10 蛋白质序列搜索油茶良种赣无1 的幼叶、未成熟种仁、花蕾、根转录组CDS 数据库[14-16],得到同源基因的部分CDS 序列及其蛋白质序列,用Boetie2[17]软件将转录组测序数据单读段比对到CDS 序列,根据读段编号用自编的Perl 脚本提取成对的读段,在默认状态下用Cap3 软件[18]进行序列拼接,获得同源基因的mRNA 序列;再用Boetie2软件将转录组测序数据单读段比对到mRNA 序列,提取成对的读段,用Cap3 软件再进行序列拼接,获得新的mRNA 序列;重复上述过程,直到mRNA 序列不再延伸。
用油茶CYP78A10 同源基因的mRNA 序列搜索油茶良种赣无1 基因组三代测序数据[19],得到含有油茶CYP78A10 同源基因mRNA 序列的亚读段;亚读段经过校正后,用Augustus[20]软件进行基因预测,得到油茶CYP78A10 同源基因的全长CDS 序列。
利用COBALT[21]软件对油茶CYP78A10 同源基因及玉米(Zea mays)、大豆、松树(Pinus radiata)、拟南芥、水稻(Oryza sativa)、苔藓(Physcomitrella patens)等植物中已鉴别的CYP78A 进行蛋白质序列比对,构建CYP78A 蛋白质系统进化树(Neighbor-joining 法)。
用Boetie2 软件将15 个油茶良种(赣无1、赣无2、赣190、赣447、赣70、赣抚20、赣6、赣永5、赣8、赣石84-3、赣石83-4、赣石84-8、赣无12、兴46、赣无15)的GBS 分析数据[22]以及油茶幼叶、未成熟种仁、花蕾、根转录组数据[14-16]比对到油茶CYP78A10 同源基因的基因组序列或mRNA 序列。用自编的Perl 脚本对比对结果进行统计分析,提取成对比对、读段距离小于300bp、仅比对1 次的读段用于搜索SSR 序列。
搜索SSR 序列:用自编的Perl 脚本对油茶CYP78A10 同源基因的基因组序列及提取的GBS 和转录组读段进行SSR 序列搜索;搜索SSR 序列的条件为:单核苷酸的重复次数≥16,二核苷酸的重复次数≥8,三核苷酸的重复次数≥5,四核苷酸的重复次数≥4,五核苷酸的重复次数≥3,六核苷酸的重复次数≥3。
以拟南芥的CYP78A10 基因序列分别搜索油茶幼叶、未成熟种仁、花蕾、根转录组CDS 数据库,各得到1条最佳匹配序列,合计4 条序列,经过序列比对,从花蕾和根中得到的2 条序列为CYP78A10 的同源基因;将转录组测序数据单读段比对到油茶CYP78A10 的同源基因序列,提取成对读段,用Cap3 软件进行序列拼接,获得油茶CYP78A10 同源基因的mRNA 序列。
用油茶CYP78A10 同源基因的mRNA 序列分别搜索油茶基因组三代测序数据,得到2 条亚读段,亚读段经过校正后,长度分别为40817bp(GenBank 登录号:MW143063)、15341bp(GenBank 登录号:MW143061),用Augustus 软件进行基因预测,得到油茶CYP78A10同源基因的全长mRNA 序列、全长CDS 序列及aa 序列,其结果与转录组测序数据的拼接结果基本一致,2个基因分别命名为CoCYP78A10a(GenBank 登录号:MW143062)、CoCYP78A10b (GenBank 登录 号:MW143060),其aa 序列相似度为81.02%。
用油茶CYP78A10 同源基因及其它植物中CYP78A 亚基因家族的29 条蛋白质构建进化树(表1、图1),结果表明,CoCYP78A10a 和CoCYP78A10b 与CYP78A10、GmCYP78A10(CYP78A51)、CYP78A68 在一个分支,是CYP78A10 的同源基因,可能参与油茶种子大小的调控。
表1 系统进化树中的CYP78A 蛋白质及其编号Tab. 1 CYP78A proteins in phylogenetic tree and their accession numbers.
对CoCYP78A10a 和CoCYP78A10b 的基因组序列进行分析,分别搜索到7、15 个SSR 位点(表2)。用赣无1 等15 个油茶良种(表3)的GBS 分析数据与SSR位点的序列进行比对,结果(表3)表明:CoCYP78A10a的7 个SSR 位点在GBS 数据中未检测到;CoCYP78A10b 的15 个SSR 位点中,在GBS 数据中检测到5 个,其中,SSR8、SSR17 和SSR18 具有多态性。SSR18 与CoCYP78A10b 的转录、翻译起始位点分别距离814bp、1009bp;SSR18 的基本重复单位为TTTCT,具有4 种重复序列,即4 个等位位点,分别为:(TTTCT)3、(TTTCT)4、(TTTCT)5、(TTTCT)6,不同等位位点测序深度的比例基本合理。
图1 油茶及其它植物中CYP78A 蛋白质的系统进化树Fig. 1 Neighbor-joining phylogenetic tree of CYP78A proteins in Camellia oleifera and other plants
在CoCYP78A10a 的7 个SSR 位点中,SSR7 位于第1 外显子5’端的非翻译区,与翻译起始位点距离35bp,用油茶幼叶、未成熟种仁、花蕾、根转录组数据与CoCYP78A10a 的mRNA 序列进行比对,结果(表4)表明:SSR7 具有多态性;基本重复单位为CT,具有8 种重复序列,即8 个等位位点,分别为:即(CT)9、(CT)10、(CT)11、(CT)13、(CT)14、(CT)15、(CT)17、(CT)18;花蕾中有3 个等位位点,代表油茶良种赣无1 中SSR7 的多态性;根和种仁中分别有5、3 个等位位点,其中5 个等位位点是花蕾中所没有的,由于油茶是异花授粉,根和种仁是赣无1 与其它品系杂交所得,其等位位点代表油茶群体中SSR7 的多态性。
表2 CoCYP78A10a 和CoCYP78A10b 基因组序列中的SSR位点Tab. 2 SSR loci in CoCYP78A10a and CoCYP78A10b genome sequences
本研究从油茶转录组CDS 数据库中鉴定出2 条与拟南芥CYP78A10 基因同源的CDS 序列,从油茶基因组三代测序数据中得到其完整的基因组序列及全长CDS 序 列,并分别命名 为 CoCYP78A10a、CoCYP78A10b。经与其它植物的CYP78A 基因序列进行比对分析并构建进化树,结果表明,CoCYP78A10a、CoCYP78A10b 与CYP78A10、GmCYP78A10 在一个分支,是CYP78A10 的同源基因,可能参与种子大小的调控。
对CoCYP78A10a 和CoCYP78A10b 的基因组序列进行SSR 位点信息分析,分别搜索到7、15 个SSR 位点。用赣无1 等15 个油茶良种的GBS 数据,以及油茶幼叶、未成熟种仁、花蕾、根转录组数据对SSR 位点的多态性进行分析,SSR7、SSR8、SSR17 和SSR18 具有多态性;SSR7 位于CoCYP78A10a 第1 外显子5’端的非翻译区,与翻译起始位点距离35bp;SSR18 位于CoCYP78A10b 的启动子区,与转录、翻译起始位点分别距离814bp、1009bp。
表3 SSR18 等位位点在不同良种中的测序深度Tab. 3 Sequencing depth of SSR18 alleles in different cultivars
表4 SSR7 等位位点在不同组织中的测序深度Tab. 4 Sequencing depth of SSR7 alleles in different tissues
总体而言,油茶SSR 标记开发比较盲目,成功率比较低,主要原因是没有PCR 产物或PCR 产物没有多态性,如:Jia 等合成了150 对SSR 引物,检测了20 个品种,只有52 对具有多态性[23];李海波等合成了89 对SSR 引物,只有32 对能有效扩增[24];闫蕊等用163 对SSR 引物检测了5 个品种,48 对引物具有多态性[25]。利用油茶基因组数据搜索SSR 位点,结合GBS 数据和转录组数据统计分析SSR 位点的多态性,有利于提高SSR 标记开发的成功率。未来将围绕CoCYP78A10a、CoCYP78A10b 挖掘出更多的多态性位点,并转换成分子标记,以便对油茶种质资源群体进行种子大小的关联分析,研究CoCYP78A10a 和CoCYP78A10b 的功能。