椰子ZF-HD基因家族的鉴定及生物信息学分析

2020-03-23 06:07孙熹微范海阔弓淑芳刘蕊纠凤凤肖勇
热带作物学报 2020年2期
关键词:生物信息学椰子

孙熹微 范海阔 弓淑芳 刘蕊 纠凤凤 肖勇

摘  要:ZF-HD蛋白是一类只存在于植物体内且含有锌指结构域的转录因子家族,其不仅能够调节植物的生长发育,且在植物响应逆境过程中也起着重要的作用。本研究通过比对已开发的椰子基因组数据,共鉴定出20个椰子ZF-HD蛋白。采用生物信息学的方法,对其基因结构、蛋白理化性质、蛋白质保守结构域、超二级结构、系统进化树及表达谱进行分析。结果显示:椰子ZF-HD蛋白多为碱性蛋白,且主要定位于细胞核、叶绿体及线粒体中。椰子ZF-HD基因家族可分为6个亚族,每个亚家族都具有相似的结构域和超二级结构。motif搜索分析显示,CoMIF亚族只含有锌指结构域保守序列,其他亚族均含有锌指结构域序列与同源异形盒结构域序列。表达谱分析显示,CoZHD18、CoZHD20在测序的各组织中表达较少,其他家族成员在各组织中的表达量具有差异性。

关键词:ZF-HD基因家族;椰子;生物信息学

中图分类号:S667.4;Q786     文献标识码:A

Abstract: ZF-HD protein is a family of transcription factors that contain zinc finger domains and only exist in plants. It not only regulates the growth and development of plants, but also plays an important role in floristic response to stress. In this study, 20 ZF-HD proteins of coconut were identified by comparison with the developed coconut genome database. Bioinformatics methods were used to analyze its genic structure, protein physicochemical properties, protein conserved domains, motifs, phylogenetic trees and expression profiles. The analysis showed that the coconut ZF-HD proteins are mostly basic protein. And they are mainly located in the nucleus, chloroplast and mitochondria. The coconut ZF-HD gene family could be divided into 6 subfamilies, each of which had similar structural domains and super secondary structures. The motif search analysis showed that the CoMIF subfamily only contained the zinc finger domain conserved sequence, and the other subfamilies contained the zinc finger domain sequence and the homeobox domain sequence. And expression profiling revealed that CoZHD18 and CoZHD20 were not detected in the sequenced tissues, and the expression levels of other family members in each tissue were different.

Keywords: ZF-HD gene family; coconut; bioinformatics

同源异型盒基因广泛存在于生物体中,其最早于1984年在果蝇中发现[1],之后又在其他生物中陆续发现。同源异型盒基因参与生物个体生长发育的调控过程,但在植物发育中起到的作用也不尽相同。例如:拟南芥WUS基因参与拟南芥子房发育成型与侧生器官形成的调控[2],而拟南芥中ZHD1基因参与拟南芥的抗逆表达,提高拟南芥逆境中的抗性[3]。锌指蛋白是一种Zn2+与氨基酸螯合形成的具有手指状结构域的转录因子。其广泛存在于所有生物體中,最早于1983年在非洲爪蟾蟾(Xenopus laevis)的卵母细胞的转录因子TF母细胞中发现[4-5]。Berg等[6]通过锌指蛋白中组氨酸(His)与半胱氨酸(Cys)残基位置与个数的不同将锌指蛋白分为C2H2、C2HC、C6、C8、C2HC5、C3HC4、C4HC3、C2C2和CCCH共8种。锌指蛋白能够与目标DNA[7]、RNA[8]、DNA-RNA杂交双链[9]相互作用或与其他锌指蛋白、自身之间[10]相互作用,从而调控蛋白的转录及翻译。ZF-HD(zinc finger-homeobox)基因家族的显著特点是含有1个锌指结构域和1个同源异形盒结构域,广泛地存在于陆生植物中[11]。该类蛋白在细胞凋亡以及基因转录的调控过程中起着关键的作用[12]。

椰子是棕榈科椰子属单子叶多年生乔木[13],具有很高的经济价值及药用价值。椰水中含有丰富的脂肪、蛋白质、维C以及人体必须的微量元素,经常饮用可强心、清暑、利尿。椰肉可以用来制作糕点、菜肴,椰香浓郁。椰油中含有大量的月桂酸,长期食用可降低人体固醇含量,提高身体免疫力,有效预防疾病。椰壳更是可入药,对心绞痛、癣症、梅毒有特殊功效[14]。目前关于椰子的研究较少,且还没有对椰子ZF-HD基因家族进行深入的生物信息学分析。本研究通过拟南芥ZF-HD基因家族蛋白保守序列比对椰子基因组序列,获得椰子ZF-HD基因家族序列,并对该家族成员的保守结构域、三维结构和进化关系等方面进行了初步的生物信息学分析,同时通过表达谱分析该家族成员在椰子不同部位的表达量,为进一步研究椰子ZF-HD基因家族提供依据。

1  材料与方法

1.1  椰子ZF-HD基因家族的鉴定

在(GIGA)nDB(http://gigadb.org/dataset/100?347? tdsourcetag=s_pcqq_aiomsg)上下载已经拼接好的椰子基因组数据。从TAIR(https://www.arabi?dopsis.org/)数据库中下载拟南芥ZF-HD 基因家族基因号,在NCBI(https://www.ncbi.nlm.nih. gov/)数据库中下载拟南芥ZF-HD基因家族中基因对应的蛋白序列。之后将拟南芥ZF-HD基因家族蛋白序列与椰子基因组数据进行TBLASTN比对(E值≤1对LA10)。所得结果去掉重复项,将其序列翻译后在Pfma(http://pfam.xfam.org/ search)数据库中进行结构域的预测,去除不含有结构域的序列。再使用ExPASy-ProtParam (https:// web.expasy.org/protparam/)在线工具对获得的蛋白序列进行分子量、等电点和氨基酸数的预测。使用WoLF PSORT在线工具对获得的蛋白序列进行亚细胞定位分析。

1.2  构建进化树

依照检索对比所得到的基因的内含子、外显子信息,利用GSDS 2.0(http://gsds.cbi.pku.edu.cn)在线绘制内含子与外显子组成图。并使用Clus?talW软件对获得的蛋白序列与拟南芥ZF-HD基因家族序列进行多序列比对。将得到的结果输入MAGA7软件中,采用邻接法构建进化树,校检次数(Bootstrap)为1000次。

1.3  超二级结构预测与三级结构同源建模

利用GeneDoc序列分析软件对比得到的椰子ZF-HD基因家族蛋白序列进行多序列比对分析。再利用MEME(http://meme-suite.org/tools/ meme)在线工具对比得到的椰子蛋白序列与拟南芥ZF-HD基因家族序列进行motif搜索。在SWISS-MODEL(https://www.swissmodel.expasy. org/)上在线進行蛋白质三级结构同源建模。

1.4  基因家族表达分析

在NCBI数据库中下载不同品种椰子叶片(SRR1063404、SRR1063407、SRR1125016、SRR?1173229、SRR1273180)与椰子胚(SRR?12?73070)、胚乳(SRR1265939)及胚愈伤组织(SRR1137438)的转录组数据。用FPKM(Fragments Per Kilobase Million)的计算方法标准化paired-end测序的转录组数据。依照Trapnell等[15]提供的算法,公式如下:

式中,F为fragment,l(t)为transcript长度。检索后得到比对所得基因在不同品种椰子叶片、胚、胚乳以及胚愈伤组织中的FPKM值,并以l g函数处理FPKM值,之后将数据导入MeV软件构建基因表达谱。

2  结果与分析

2.1  椰子ZF-HD基因家族的鉴定及理化性质与亚细胞定位分析

本研究用拟南芥ZF-HD基因家族的基因序列比对椰子基因组数据,去掉重复项后得到20条椰子基因序列。之后用MAGA7软件将得到的序列翻译为蛋白序列,在Pfma数据库中进行结构域的预测。结果显示,20条序列均含有ZF-HD蛋白二聚区结构域。将20条椰子ZF-HD基因家族基因序列按照其基因ID排序从CoZHD1~CoZH?D20。最后,对椰子ZF-HD基因家族进行了蛋白理化性质的分析以及亚细胞结构的定位,结果如下(表1)。

从表1中可以看出,椰子ZF-HD基因家族的蛋白质等电点在6.78~9.66之间,其中仅有CoZ?HD8、CoZHD19等电点小于7,而其他18个家族成员均为碱性蛋白质。分子量在10012.12~ 75156.63 Da之间,分子量最小的是CoZHD2,而CoZHD8的分子量远大于家族中其他成员,为其他家族成员的2~3倍。CoZHD8的氨基酸数目最多,为670 aa,而CoZHD2的氨基酸数目最少,为91 aa。通过亚细胞定位分析发现,椰子ZF-HD基因家族20个家族成员均分布在细胞核、线粒体与叶绿体中,而在叶绿体、线粒体中均有功能蛋白翻译。这也与ZF-HD基因家族蛋白的基因调控功能相吻合。

2.2  椰子ZF-HD基因家族与拟南芥ZF-HD基因家族进化树分析

依照与椰子基因组数据对比所得椰子ZF-HD基因家族家族成员的内含子、外显子信息,利用GSDS2.0在线绘制内含子与外显子组成图。再将其蛋白序列与拟南芥ZF-HD基因家族成员蛋白序列进行多序列比对,将得到的结果输入MA?GA7软件中,采用邻接法构建椰子ZF-HD基因家族进化树与椰子、拟南芥ZF-HD基因家族系统进化树(图1)。图1、图2根据Hu等[12]对拟南芥ZF-HD基因家族亚家族的分类,从构建所得的进化树中,可将拟南芥与椰子ZF-HD基因家族分为7个亚家族(表2),分别为ZHDⅠ、ZHDⅡ、ZHDⅢ、ZHDⅣ、ZHDⅤ、MIF、UK(unknown)。将椰子ZF-HD基因家族分为6个亚家族(表3),分别为CoZHDⅠ、CoZHDⅡ、CoZHDⅢ、CoZHDⅣ、CoMIF、UK。进化树显示,ZHDⅢ亚族中没有椰子ZF-HD基因家族成员。这是由于拟南芥为双子叶植物而椰子单子叶植物,而ZHDⅢ亚族中均为双子叶植物。UK亚家族的功能尚不知晓,其功能还尚待研究。在椰子ZF-HD基因家族中有85%(17个)的基因不含有内含子,只有外显子。这也与Irish[16]对拟南芥ZF-HD基因家族的研究保持一致。

图1  椰子、拟南芥ZF-HD基因家族系统进化树

Fig. 1  Phylogenetic tree of the ZF-HD gene family of coconut and Arabidopsis thaliana

图2  椰子ZF-HD基因家族蛋白进化树与基因结构

Fig. 2  Protein evolution tree and gene structure of coconut ZF-HD gene family

2.3  椰子ZF-HD基因家族蛋白结构分析

利用MEME在线工具对椰子ZF-HD基因家族家族成员进行motif超二级结构搜索(图3)。在一个基因家族中共有的motif很有可能就是执行此基因家族功能的序列或是组成此基因家族所必不可少的序列。通过搜索,共搜索到9个motif。其中motif1、motif2、motif3、motif4的保守性最高。从图3可以看出,椰子ZF-HD基因家族各成员均含有motif2与motif3,且motif2与motif3是典型的锌指结构域序列,与蛋白二聚体的形成有关。椰子ZF-HD基因家族家族成员可能也具有相似的功能。除椰子MIF亚族外,

其他家族成员均含有motif1或motif4。motif1与motif4为同源异形盒结构域序列,与DNA的特异性结合有关。这与ZF-HD基因家族具有1个锌指结构域与1个同源异形盒结构域的特征相吻合。而从椰子ZF-HD基因家族保守域多序列比对图(图4)中,能够更加清晰的看出椰子ZF-HD基因家族中保守的序列与所检测到的motif1、motif2、motif3、motif4序列相吻合,更加验证了所鉴定出的椰子ZF-HD基因家族基因的可靠性。而椰子CoMIF亚族中只含有motif2与motif3,根据拟南芥ZF-HD基因家族中MIF亚族的功能推测,可能会竞争性的与家族中的其他转录因子结合,形成杂二聚体,从而阻断同型二聚体的结合活性[12]。

本研究利用SWISS-MODEL在线对20个椰子ZF-HD基因家族成员进行三维结构同源建模。選取其中最具代表性的4种结构进行分析(图5)。椰子MIF亚族具有与其他亚族不同的空间结构。在CoZHD2、CoZHD20中均含有典型的锌指结构域,即1条-螺旋与2条反向的平行(图5A)。在CoZHD8中则呈现出多条锌指结构的高度聚集(图5B)、这可能与CoZHD8本身的功能有关,可能是为了特异性识别某些较长的片段。在其他的家族成员中,都含有三螺旋结构(图5C,图5D)。它们通过三螺旋结构可以更好的结合DNA的大小沟,从而调节染色质的状态[17]。

2.4  椰子ZF-HD基因家族表达量分析

在NCBI数据库中下载不同品种椰子叶片与椰子胚、胚乳及胚愈伤组织的转录组数据(表4)。

图5  椰子ZF-HD基因家族三维结构模型

Fig. 5  3D structure model of coconut ZF-HD gene family

用FPKM(Fragments Per Kilobase Million)的计算方法标准化paired-end测序的转录组数据。在检索椰子ZF-HD基因家族基因号后,得到椰子ZF-HD基因家族在叶片、胚乳、胚以及胚愈伤组织中的FPKM值,并以l g函数处理FPKM值,将处理后的数据导入MeV软件构建基因表达谱(图6)。除CoZHD18外,所有椰子ZF-HD基因家族成员在胚愈伤组织中均有表达,这说明大部分椰子ZF-HD基因在椰子的早期生长与分化中起着至关重要的作用。CoZHD18、CoZHD20整体表达量较少,其具体功能还尚待研究。CoZHD 12、CoZHD 13、CoZHD 14在叶片中表达较少,其主要在在胚、胚乳、胚愈伤组织中表达,说明其与幼苗的发育有关。CoZHD13在胚乳中有较高的表达,在胚中几乎没有表达、在胚愈伤组织中却有所表达,其可能与椰子胚乳的形成有关。CoZHD9、CoZHD15、CoZHD19在各部位中均有较高的表达量,其可能在整个椰子的生长周期中发挥作用。已有研究证明,拟南芥在受到盐胁迫时会诱导ZHD盐亚族基因的表达[10],而与其同亚族的椰子CoZHD9在椰子叶片、胚、胚乳、胚愈伤组织中均有较高的表达,这可能与椰子本身较高的耐盐性有关。CoZHD16在叶片中表达量较低,但在胚乳、胚、胚愈伤组织中均有较高的表达量,它可能主要参与椰子果实生长发育的调控。

3  讨论

椰子具有极高的营养、药用和经济价值,但目前国内外对椰子的研究较少,与椰子相关的许多研究还尚未展开。为更好的认识椰子ZF-HD基因家族的种类与数量,本研究采用生物信息学方法对椰子ZF-HD基因家族进行了鉴定以及生物信息学分析,旨在为椰子ZF-HD基因家族的进一步研究提供基础。

本研究用拟南芥ZF-HD基因家族蛋白序列比对椰子基因组数据库,去除掉不含结构域的基因后共鉴定出20条椰子ZF-HD基因家族序列。根据前人对拟南芥ZF-HD基因家族的研究,将椰子ZF-HD基因家族分为6个亚族,其中UK亚族功能尚未知晓。其可能是单子叶植物所特有的亚族,也有可能是椰子ZF-HD基因家族所特有的亚族,其具体功能还尚待研究。椰子ZF-HD基因家族中大部分(17个)成员都只含有内含子,这与Irish[16]对拟南芥ZF-HD基因家族的研究保持一致,在白菜与棉花中也有类似的现象[18-19],这是ZF-HD基因家族特有的特点。不含有内含子使得ZF-HD基因无法进行可变剪切,从而使得ZF-HD蛋白高度保守。但不同的是,拟南芥ZF-HD基因家族17个家族成员全部都不含有内含子,而椰子ZF-HD基因家族中有3个成员含有内含子。

通过motif搜索发现,椰子ZF-HD基因家族中CoMIF亚族3个成员与拟南芥MIF亚族成员一样,仅有锌指结构域而不具有同源异形盒结构域。其他亚族成员均具有ZF-HD基因家族典型特征,即含有1个锌指结构域与1个同源异形盒结构域。通过三维结构同源建模,更加直观清晰的看出ZF-HD基因家族中的锌指结构域以及三螺旋结构。

CoZHD9在叶片、胚、胚乳、胚愈伤组织中具有较高的表达,而拟南芥中ZHD、家族已被证明在被盐胁迫诱导表达[10],其较高的表达量可能与椰子本身较高的耐盐性有关。CoZHD16在叶片中表达量较低,但在胚乳、胚、胚愈伤组织中均有较高的表达量,其可能主要参与椰子果实生长发育的调控。CoZHD9、CoZHD15、CoZHD19在各部位中均有较高的表达量,其可能在整个椰子的生长周期中发挥作用。CoZHD18、CoZHD20整体表达量较少,可能在其他部位有相应的表达,还待更深入的研究。

本研究运用生物信息学的分析方法,鉴定了椰子ZF-HD基因家族的20个成员,并对其结构、同源关系、功能进行了预测。这为椰子ZF-HD基因家族的研究与利用提供了理论基础,也为部分椰子ZF-HD基因家族成员的生物学功能提供了参考。

参考文献

Lovering R, Hanson I M, Borden K L, et al. Identification and preliminary characterization of a protein motif related to the zinc finger[J]. Proceedings of the National Academy of Sciences of the United States of America, 1993, 90(6): 2112-2116.

Gehring W J . How genes support development: the history of the homeobox[M]. Basel: Birkh?user Verlag AG, 2000.

Haecker A, Grosshardt R, Geiges B, et al. Expression dynamics of WOX genes mark cell fate decisions during early embryonic patterning in Arabidopsis thaliana[J]. Develop-

ment, 2004, 131(3): 657-668.

Miller J, Mclachlan A D, Klug A. Repetitive zinc-binding domains in the protein transcription factor IIIA from Xenopus oocytes[J]. Embo Journal, 1985, 4(6): 1609-1614.

Lee M S, Gippert G P, Soman K V, et al. Three-dimensional solution structure of a single zinc finger DNA-binding domain[J]. Science, 1989, 245(4918): 635-637.

Berg J M, Shi Y. The galvanization of biology: a growing appreciation for the roles of Zinc[J]. Science, 1996, 271(5252): 1081-1085.

Ren B. Genome-wide location and function of DNA binding proteins[J]. Science, 2000, 290(5500): 2306-2309.

宋  冰, 洪  洋, 王  武, 等. 植物C2H2型鋅指蛋白的研究进展[J]. 基因组学与应用生物学, 2010, 29(6): 1133- 1141.

Lee J A, Suh D C, Kang J E, et al. Transcriptional activity of Sp1 is regulated by molecular interactions between the zinc finger DNA binding domain and the inhibitory domain with corepressors, and this interaction is modulated by MEK[J]. Journal of Biological Chemistry, 2005, 280(30): 28061-28071.

Tran L S, Nakashima K, Sakuma Y, et al. Co-expression of the stress-inducible zinc finger homeodomain ZFHD1 and NAC transcription factors enhances expression of the ERD1 gene in Arabidopsis[J]. Plant Journal, 2010, 49(1): 46-63.

Figueiredo D D, Barros P M, Cordeiro André M, et al. Seven zinc-finger transcription factors are novel regulators of the stress responsive gene OsDREB1B[J]. Journal of Experimental Botany, 2012, 63(10): 3643-3656.

Hu W, Depamphilis C W, Ma H. Phylogenetic analysis of the plant-specific zinc finger-homeobox and mini zinc finger gene families [J]. Journal of Integrative Plant Biology, 2008, 50(8): 1031-1045.

毛祖舜, 邱维美. 椰子种质资源[M]. 北京: 中国农业出版社, 2006.

刘  莹. 椰子全身都是宝[J]. 解放军健康, 2002(4): 31.

Trapnell C, Williams B A, Pertea G, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J]. Nature Biotechnology, 2010, 28(5): 511-515.

Irish T V F. The Arabidopsis Zinc Finger-homeodomain genes encode proteins with unique biochemical properties that are coordinately expressed during floral development[J]. Plant Physiology, 2006, 140(3): 1095-1108.

張大勇, 王长彪, 易金鑫, 等. 大豆ZF-HD蛋白家族的全基因组序列特征分析[J]. 江苏农业学报, 2011, 27(3): 675-677.

Wang W, Wu P, Li Y, et al. Genome-wide analysis and expression patterns of ZF-HD transcription factors under different developmental tissues and abiotic stresses in Chinese cabbage[J]. Molecular Genetics and Genomics, 2016, 291(3): 1465-1465.

倪万潮, 徐珍珍, 沈新莲. 陆地棉 ZF-HD 蛋白的全基因组分析[J]. 棉花学报, 2016, 28(6): 519-526.

猜你喜欢
生物信息学椰子
ISTEN
椰子旅行记
趣味数学——水手分椰子
南海岛带回来的椰子
椰子漂流记
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究