赵松子,左继林,幸伟年
(江西省林业科学院·江西省油茶种质资源保护与利用实验室,江西 南昌 330013)
植物种子数量是一个复杂的性状,涉及多个生物学过程,胚珠数量及其育性、双授精、种子发育等均可能影响果实中最终的种子数量,从遗传角度,胚、胚乳、细胞质及母本的基因型均可影响种子数量。种子数量是普通油茶(Camellia oleifera)的一个重要产量性状,单果重与种子数量(粒数)呈极显著正相关,果高也与种子数量呈极显著正相关[1]。EPF/EPFL基因家族编码植物特有的分泌多肽激素;成熟的EPF/EPFL多肽有6或8个半胱氨酸残基,半胱氨酸残基间可形成分子内的二硫键;拟南芥(Arabidopsis thaliana)EPF/EPFL基因家族有11个基因,水稻(Oryza sativa)有12个;植物EPF/EPFL基因可分为4个亚家族:EPF1/2/EPFL7亚家族、EPFL9亚家族、EPFL1/2/3亚家族、EPFL4/5/6/8亚家族[2-4]。在拟南芥中,成熟子房中的胚珠数量与胚珠原基密度(胚珠原基/胎座长度)、胎座长度相关,由母本基因型决定,EPFL2(At4;37810,AtEPFL2)功能缺失突变体epfl2-1的胚珠原基密度降低、胚珠原基数量减少[5];在水稻中,OsEPFL1(;AD1)影响种子的长度和数量,gad1的种子数量增加、长度变短[6-7];AtEPFL2与OsEPFL1均属于EPFL1/2/3亚家族[4],表明该亚家族的基因对种子数量的影响具有进化上的保守性,双子叶植物中的EPFL2可能具有相同的保守的功能,即参与调控种子数量。本研究通过生物信息学方法,从普通油茶良种‘赣无1’的转录组和基因组数据中鉴定出3个EPFL2基因,并进行系统进化分析,为深入研究这些基因的生物学功能及油茶种子数量性状变异的分子基础提供参考。
利用BLASTP[8]软件,以拟南芥的EPFL2蛋白质序列分别搜索油茶良种‘赣无1’的幼叶、未成熟种仁、花蕾、根转录组蛋白质数据库[9-12],得到同源基因的部分蛋白质序列及其CDS序列,用Boetie2[13]软件将转录组测序数据单读段比对到CDS序列,根据读段编号用自编的Perl脚本提取成对的读段,在默认状态下用Cap3软件[14]进行序列拼接,获得同源基因的mRNA序列;再用Boetie2软件将转录组测序数据单读段比对到mRNA序列,提取成对的读段,用Cap3软件再进行序列拼接,获得新的mRNA序列;重复上述过程,直到mRNA序列不再延伸。
用油茶EPFL2基因的mRNA序列搜索油茶良种‘赣无1’基因组3代测序数据[15],得到含有油茶EPFL2基因mRNA序列的亚读段;亚读段经过校正后,用Augustus[16-17]软件进行基因预测,得到油茶EPFL2基因的全长CDS序列。
以拟南芥与水稻EPF基因为参考,利用ME;A7[18-19]软件对油茶EPFL2基因、植物中已鉴别的EPFL1/2/3亚家族基因进行蛋白质序列比对,构建EPFL1/2/3亚家族蛋白质系统进化树(Maximum Likelihood法,JTT模式)。
以拟南芥的EPFL2基因序列搜索油茶幼叶、未成熟种仁、花蕾、根转录组蛋白质数据库,得到3条EPFL2的不完整CDS序列;将转录组测序数据单读段比对到油茶EPFL2序列,提取成对读段,用Cap3软件进行序列拼接,分别获得油茶EPFL2基因的mRNA序列。
用油茶3条EPFL2基因mRNA序列搜索油茶基因组3代测序数据,得到3条亚读段,亚读段经过校正后,长度分别为39769bp(;enBank登录号:MZ218071)、44625bp(;enBank登录号:MZ218072)、48498bp(;enBank登录号:MZ218073),用Augustus软件进行基因预测,得到油茶EPFL2基因全长mRNA序列、全长CDS序列及aa序列,其结果与转录组测序数据的拼接结果基本一致,3个基因分别命名为CoEPFL2a、CoEPFL2b、CoEPFL2c。
用在线分析软件SignalP-5.0[20-21](http://www.cbs.dtu.dk/services/SignalP-5.0/)进行蛋白信号肽与酶切位点预测,结果表明:AtEPFL2、CoEPFL2c含信号肽,信号肽长度分别为28、34个氨基酸,酶切位点分别在28与29(AN;-RP)、33与34(AE;-RA)个氨基酸之间,CoEPFL2a、CoEPFL2b不含信号肽。
为更好地了解油茶CoEPFL2a、CoEPFL2b、CoEPFL2c的功能,以拟南芥与水稻EPF蛋白质序列作为参考,利用ME;A7软件进行植物31个EPFL1/2/3亚家族蛋白质的进化分析(表1)。结果显示(图1),31个EPFL1/2/3亚家族蛋白质分为3个分支,即EPFL1分支、EPFL2分支、EPFL3分支;OsEPFL1、AtEPFL1属于EPFL1分支;CoEPFL2a、CoEPFL2b、CoEPFL2c属于EPFL2分支,并且CoEPFL2a、CoEPFL2c与AtEPFL2在同一个亚分支。
图1 植物EPFL1/2/3蛋白质系统进化树Fig.1 Maximum likelihood phylogenetic tree of EPFL1/2/3 proteins in plants
表1 系统进化树中的EPF/EPFL蛋白质及其编号Tab.1 EPF/EPFL proteins in phylogenetic tree and their accession numbers
本研究利用反向遗传学技术从油茶转录组蛋白质数据库和基因组3代测序数据中鉴定出了3条与油茶种子数量相关的基因,分别为CoEPFL2a、CoEPFL2b、CoEPFL2c;利用ME;A7软件构建了植物EPFL1/2/3亚家族蛋白质系统进化树,CoEPFL2a、CoEPFL2b、CoEPFL2c属于EPFL2分支,并且CoEPFL2a、CoEPFL2c与AtEPFL2在同一个亚分支;对AtEPFL2、CoEPFL2a、CoEPFL2b、CoEPFL2c进行信号肽与酶切位点预测,AtEPFL2、CoEPFL2c含信号肽与酶切位点,CoEPFL2a、CoEPFL2b不含;CoEPFL2c可能与AtEPFL2具有同样的功能,即通过调节胚珠原基密度影响种子数量。
目前,对油茶种子数量相关的基因进行正向遗传学定位、克隆与鉴定需要十余年或更长的时间才能完成,利用反向遗传学技术可以加快研究进程。在油茶种质资源中,单果种子数量差异巨大,如‘白皮中子’为1~4粒、‘赣54’为1~3粒、‘石市红皮’为2~6粒、‘夏讲6号’为4~13粒[1],为研究油茶种子数量性状变异的分子基础提供了良好的材料,未来将继续利用反向遗传学技术鉴定油茶种子数量相关基因,并基于这些基因开发SSR、SNP标记,利用油茶种质资源群体进行基因功能研究,挖掘可以增加种子数量的等位基因或分子标记。