胡冬秀 刘浩 梁炫强 吴自明 方加海
摘 要:AT-hook蛋白不僅在植物生长发育、器官构建、胁迫和激素信号应答中起重要作用,而且还作为染色质重塑的转录因子和辅助因子,调节基因的转录活性。为全面了解花生AT-hook基因家族的结构特征,利用生物信息学技术比对花生基因组数据库,分析AT-hook基因家族成员的理化性质、基因结构、保守结构域和系统发育关系以及在12个组织中的表达特异性。结果表明:在花生基因组数据库中鉴定得到64个AT-hook基因,染色体定位显示这些基因在染色体上呈不均匀分布。系统发育树分析表明花生AT-hook基因可分为8个亚群,多数基因都含有5?-UTR和3?-UTR。MEME数据库显示,花生AT-hook基因编码的蛋白质包含6个保守的结构域,大多数AT-hook蛋白含有RGRP和PPC的基序。表达热图显示,AT-hook基因在不同花生组织中呈现特定的表达模式,如arahy.BT3IUC、arahy.QUTE6V、arahy.8MM6DT、arahy.RIX96U和arahy.T2XHT6在根中高度表达,但arahy.EW3BSR和arahy.CSXK13分别在雌蕊和叶片中高丰度均匀转录。本研究结果为进一步阐明花生基因组中AT-hook基因的潜在分子功能提供理论参考。
关键词:花生;AT-hook;生物信息学;基因家族
中图分类号:S565.2 文献标识码:A
Bioinformatics Analysis of AT-hook Genes Family in Peanut (Arachis hypogaea L.)
HU Dongxiu1,2, LIU Hao2*, LIANG Xuanqiang2, WU Ziming1**, FANG Jiahai1**
1. Jiangxi Key Laboratory of Crop Physiology, Ecology and Genetic Breeding, Ministry of Education, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China; 2. Crops Research Institute, Guangdong Academy of Agricultural Sciences / South China Peanut Sub-Center of National Center of Oilseed Crops Improvement / Guangdong Provincial Key Laboratory of Crop Genetic Improvement, Guangzhou, Guangdong 510640, China
Abstract: AT-hook genes not only play important roles in plant growth and development, organ construction, stress and hormone signal response, but also are transcription factor and auxiliary factor of chromatin remodeling to regulate gene transcriptional activity. In order to fully understand the structural characteristics of AT-hook family genes in peanut, we analyzed the physical and chemical properties, gene structure, phylogenetic relationship, protein conserved domain, and expression specificity of AT-hook genes in twelve tissues utilizing bioinformatics technologies to blast peanut genome database. Totally, 64 AT-hook genes were identified in the peanut genome, and chromosome location displayed that these genes were unequally distributed on the chromosome. Phylogenetic tree viewer indicated that AT-hook genes cpuld be divided into eight subgroups, and most of them contained 5?-UTR and 3?-UTR. MEME database exhibited that AT -hook genes encoded proteins containing six conserved domains, majority of the AT-hook proteins harboured the motifs of RGRP and PPC. Expression heatmap showed that AT-hook genes presented specific expression pattern in different peanut tissues, such as arahy. BT3IUC, arahy. QUTE6V, arahy. 8MM6DT, arahy. RIX96U and arahy. T2XHT6 highly expressed in the root, but arahy. EW3BSR and arahy. CSXK13 homogeneously transcribed with high abundances in the pistil and leaf, respectively. Collectively, the results would provide a theoretical reference for further illustrating the potential molecular functions of AT-hook genes in peanut genome.
Keywords: peanut; AT-hook; bioinformatics analysis; gene family
DOI: 10.3969/j.issn.1000-2561.2021.03.005
AT-hook是一种小型的DNA结合蛋白基序,最早是在高迁移率组蛋白染色体基因HMG-I(Y)中发现的,其主要以精氨酸(Arg)-甘氨酸(Gly)-精氨酸(Arg)-脯氨酸(Pro)即RGRP作为核心的保守基序[1]。根据序列保守性和DNA亲和力的大小,可将AT-hook分为3类,Ⅰ型是RGRP基序下游第2位为甘氨酸残基;Ⅱ型是C端第2位为赖氨酸,代替了Ⅰ型中的甘氨酸;Ⅲ型兼具了Ⅰ型和Ⅱ型的一些共同点,在RGRP基序C端存在赖氨酸和一个极性氨基酸且第4位是赖氨酸残基。不同类型的AT-hook基序结合DNA的能力有所不同,与DNA结合的亲和性通常为Ⅰ型>Ⅲ型>Ⅱ型[2]。拟南芥中AT-hook蛋白含有AT-hook基序和PPC(plants and prokaryotes conserved)基序,该类蛋白常定位于细胞核,因此又被称为AHL蛋白(AT-hook motif nuclear localized protein)[3-4]。PPC结构域是核定位不可缺少的信号,长度约为120个氨基酸,广泛存在于细菌和古细菌中,但是在单独含有PPC结构域的蛋白质中并未发现AT-hook基序,因此PPC结构域在进化上是高度保守[5]。目前,AHL蛋白在已测序的植物如拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、大豆(Glycine max)、番茄(Solanum lycopersicum)、蒺藜苜蓿(Medicago truncatula)、玉米(Zea mays)等物种内均有发现[3, 5-7]。模式植物拟南芥[3]、水稻[5]和番茄[6]中分别含有29个、45个和32个AHL蛋白。
AHL蛋白不仅在植物生长发育、防御反应、逆境胁迫和激素信号传导中发挥重要作用,还可以作为转录因子的辅助因子,调节特定基因的转录活性。例如,拟南芥AHL22通过调节FT和PIF4的表达来调控制植株开花与下胚轴伸长,AHL22的过表达导致开花延迟,敲除突变体则下胚轴伸长[8-9]。AtAHL25调控赤霉素基因GA3ox1的表达影响GA3氧化酶的活性,进而通过赤霉素信号途径影响植物的生长发育[10]。AHL4通过抑制参与三酰甘油(triacylglycerol,TAG)水解和脂肪酸氧化特定基因的表达,调节种子萌发和幼苗形成过程中的脂质降解[11]。AtAHL15的异位表达抑制腋芽生分生组织(AM,axillary meristem)发育,并促进开花植物顶端分生组织不断生长[12],相关研究表明AT-hook作为转录因子,可以通过拮抗光敏色素相互作用因子(PIFs)所介导的生长和激素相关基因的转录激活,从而抑制叶柄生长途径[13]。此外,AT-hook转录因子也参与植物免疫应答反应以及器官建成,AtAHL20过表达的植物中产生一种具有毒性的新型细菌,可参与调节植物免疫反应[14]。辣椒的CaATL1(Bukang AT-hook-like gene 1)过表达转基因植株对细菌和卵菌等病原菌具有抗性[15]。水稻中DP1能够促进内颖的形成和花器官数目的增加[16],棉花GhAT1蛋白负调控毛状体中的非纤维组织中的纤维特异基因FSltp4启动子,参与棉花纤维的发育[17]。由此可见,AT-hook基因在植物的整个生长发育过程中都起了重要的调控作用。
花生(Arachis hypogaea L.)是异源四倍体豆科植物,也是世界范围内广泛种植的经济作物与油料作物。相对于模式植物,花生功能基因组的研究技术与方法依旧存在诸多缺陷,但是随着花生栽培种全基因组测序工作的完成[18],利用生物信息学方法从基因组水平上鉴定基因家族、挖掘功能基因为研究基因功能等提供了更加方便和快捷的手段。目前对花生AT-hook基因家族的研究还未见报道,本研究通过生物信息学的相关技术对花生基因组数据库中AT-hook基因家族成员进行理化性质、基因结构、保守结构域和系统发育关系以及组织特异性分析,为花生AT-hook基因家族的功能分析提供基础信息,以期为花生AT-hook蛋白功能的深入研究提供理论参考。
1 材料与方法
1.1 花生AT-hook基因家族成员的鉴定
首先利用花生基因组数据库(Peanutbase.org)的Genefamily搜索功能,输入关键词AT-hook,检索AT-hook家族成员;并从拟南芥数据库下载AT-hook基因家族29个成员的蛋白序列,以拟南芥29个AT-hook基因序列为检索对象在花生基因组数据库进行Blast Protein比对,获得部分花生AT-hook的拟南芥同源基因,与此前通过关键词检索获得的基因进行合并整理,去除冗余后共获得了69个候选的AT-hook基因。利用Pfam和SMART(http://smart.embl.de)数据库对69个候选基因的蛋白序列结构域进行保守结构域鉴定,剔除不含有RGRP基序的蛋白序列,最终鉴定到了64个花生AHL蛋白。利用ExPasy网站与ProtParam tool工具分析得到AT-hook蛋白的氨基酸序列长度、分子量、等电点、蛋白质总平均亲水性等理化性质。以花生基因组数据库中公布的AHL基因染色体位置信息为基础,利用MG2C(http://mg2c.iask.in)在线软件绘制基因的染色体定位图。
1.2 花生AT-hook基因系统进化树和基因结构分析
将64个花生AT-hook基因的蛋白序列输入进化分析软件MEGA 6.0,并结合Evolview在线软件采用Neighbor Joining方法构建基因系统进化树。随后在花生基因组数据库中下载AT-hook基因家族成员的基因组DNA序列和mRNA序列,并以mRNA序列为检索对象在NCBI的ORFfinder在线网站检索其CDS序列,基于基因组DNA序列和CDS序列,利用GSDS 2.0(http://gsds.cbi. pku.edu.cn)分析其基因结构;利用MEME和NCBI的Conserved domains軟件在线分析基因保守结构域,并利用TBtools软件进行基因结构可视化分析。
1.3 AT-hook基因在花生中的表达分析
从花生基因组数据库中下载花生AT-hook基因家族成员在根、茎、叶、花、荚果、种子、根瘤、果壳、营养茎尖、生殖芽尖、雌蕊和雄蕊等12个组织转录组数据的FPKM值,基于其FPKM数据,运用TBtools软件中的heatmap功能对AT-hook基因在不同器官组织中的表达量进行聚类、绘制热图。
2 结果与分析
2.1 花生AT-hook基因家族成员的鉴定
利用Pfam和SMART对69个候选基因的蛋白序列结构域进行鉴定,剔除不含RGRP基序的蛋白序列,最终从花生基因组数据库中共鉴定了64个花生AHL蛋白序列(表1)。利用ProtParam tool工具对这64个基因编码的蛋白序列进行理化性分析发现,不同的AHL蛋白序列有较大的差异。氨基酸长度为117~1377 aa,多数氨基酸序列长度集中在180~420 aa;蛋白分子量集中在12.27~44.41 kDa;等电点为4.47~11.00,其中13个蛋白等电点小于7,偏酸性,其余蛋白等电点均大于7,偏碱性;花生AHL蛋白不稳定指数大多数大于40;蛋白质总平均亲水性为–1.29~0.004;在花生基因组数据库中预测其功能时发现,多数花生AHL蛋白除含有保守的RGRP基序外,还含有PPC结构域。
在花生基因组数据库中获取了花生AT-hook基因的位置信息,利用MG2C在线软件绘制基因的染色体定位图。从图1中可以看出,花生AT-hook基因在花生的不同染色体上呈不均匀分布,在17号染色体上分布最多,含有7个基因,其次是3号、5号、13号和15号染色体,均含有5个AT-hook基因,而20号染色体上分布为0。
2.2 花生AT-hook基因进化分析
为了更好地了解花生AT-hook基因家族系统进化关系,利用MEGA 6.0软件采用Neighbor Joining方法对花生和拟南芥的AHL蛋白序列构建系统进化树(图2)。结果表明:花生AT-hook基因可分为8个亚群,AT-hook基因家族成员并未因物种差异而单独聚为一类,说明花生与拟南芥的AT-hook基因家族成员具有一定的同源性,在各分支内的AHL蛋白各自聚类,说明AT-hook基因家族在进化上出现了很大的分化。
2.3 花生AT-hook基因结构分析
花生AT-hook基因家族成员基因结构分析显示(图3),不同AT-hook基因的结构存在很大的差异。例如,arahy.H7KX2Z、arahy.25KDWJ和arahy.6X9KLT等9个基因只含有1个外显子,无内含子和非翻译区,属于单外显子基因。arahy.NG49FS、arahy.QUTE6V和arahy.BT3IUC等3个基因含有1个外显子和非翻译区,无内含子。arahy.CC1FIV有2个外显子,1个内含子,无非翻译区。arahy.649GVM、arahy.DRN59F和arahy.NUW6LV等9个基因3?端无非翻译区。其余基因两端均含有非翻译区,但基因结构也存在明显的差异,有的基因(如arahy.2Z77FC、arahy.7X1Y1S和arahy.H8H77X等)含有2个外显子,1个内含子,而有的基因(如arahy.WFL2XE、arahy.G8H5C8和arahy.T4KAXF)则多达15个外显子,14个内含子。
2.4 花生AT-hook基因保守结构域分析
利用MEME在线软件结合TBtools软件[19]对花生AT-hook基因保守结构域进行可视化分析,共鉴定了6个保守结构域,所有基因均含有AT-hook保守基序,这与之前的分析结果保持一致。从图4可见,不同基因含有AT-hook基序的数量不同,大部分基因含有1~4个,arahy.58UXC0有5个,arahy.7T6UUP、arahy.DY9A0E和arahy.5E7A70有6个,arahy.0WKN8B有7个。花生64个AT-hook基因中有37个含有PPC结构域,其中arahy.WDJ6GM含有2個PPC,其余均含有1个。含有Motif5的基因均含有3个以上AT-hook结构域且不含其他结构域。arahy.CC1FIV、arahy.KDAIJ3、arahy.DRN59F、arahy.EW3BSR、arahy.TSWN09和arahy.NUW6LV等6个基因仅含有AT-hook结构域。推测具有不同保守结构域的成员在进化和功能上可能存在差异。
2.5 花生AT-hook基因组织表达
为了进一步解析花生AT-hook基因家族成员的功能,从花生基因组数据库中共获得62个AT-hook基因在根、茎、叶、花、荚果、种子、
根瘤、果壳、营养茎尖、生殖芽尖、雌蕊和雄蕊等12个组织转录组数据的FPKM值,进行组织表达模式分析。结果表明(图5),花生AT-hook基因的表达呈现组织特异性。大多数基因在根、营养茎尖和生殖芽尖都具有较高的表达量,其次是荚果和种子,在茎、花和雌蕊中的表达量较低。例如,arahy.QUTE6V、arahy.12UU0E、arahy. B0RN30和arahy.BT3IUC等基因在根中的有较高的表达量,其中arahy.B0RN30、arahy.BT3IUC、arahy.Z4FMKE和arahy.8MM6DT四个基因在根瘤中也呈现出高表达,在其他组织中的表达量相对较低。而arahy.NUW6LV、arahy.XN3VW8、arahy. DRN59F、arahy.UEVJ5G和arahy.CY9PQR等基因在种子中具有高表达,其中arahy.XN3VW8和arahy.DRN59F分别在茎和果壳中也呈现了高表达量。arahy.609EQ8、arahy.U4QFTB和arahy. H7KX2Z在荚果中表达量最高。arahy.EW3BSR和arahy.TSWN09在雌蕊中表达量较高,而arahy.CSXK13和arahy.RHY2RN则在叶片中呈现较高表达量。表明AT-hook基因在花生的不同组织器官中存在特异性表达。
3 讨论
对花生AT-hook基因家族成员理化性分析发现,不同的AHL蛋白序列有较大的差异,氨基酸长度为117~1377 aa,多数AHL蛋白等电点大于7,表明这类基因的编码蛋白富含碱性氨基酸,少数等电点小于7,偏酸性,在碱性亚细胞环境中发挥的作用较小。花生AHL蛋白不稳定指数大多数大于40,根据不稳定参数值在40以下是稳定蛋白的标准,表明花生的AHL蛋白稳定性相对较差,属于不稳定蛋白;蛋白质总平均亲水性为–1.29~0.004,说明花生AHL蛋白是一类相对亲水的蛋白质。从基因的染色体定位图发现除20号染色体外,其余染色体上均有AT-hook基因的分布且呈随机不均匀分布,这与许多基因在染色体上呈不均匀分布相似。由于内含子的不断插入使其基因结构存在一定的差异,有的基因仅含有1个外显子,有的则多达15个,花生部分AT-hook基因在5?末端和3?末端不含非翻译区。花生AT-hook基因编码的蛋白质包含6个保守的结构域,大多数AT-hook蛋白含有RGRP和PPC的基序,不同基因含有的保守结构域数量不同,推测花生AT-hook基因家族成员具有不同保守结构域的成员在进化和功能上可能存在差异。
花生AT-hook基因主要在特定的组织和器官中表达,可能在这些组织或器官的生长发育中发挥着重要的作用。arahy.BT3IUC、arahy.QUTE6V和arahy.8MM6DT等基因在根中的表达量显著高于其他组织,说明这些基因主要参与了花生根的生长发育。arahy.CSXK13和arahy.RHY2RN在叶片中呈现高表达量,在拟南芥中AtAHL27基因过量表达可降低葉片衰老基因的表达水平,提高光合效率和叶绿素含量以延缓植物叶片的衰老[20-22],推测arahy.CSXK13和arahy.RHY2RN可能参与了花生叶片衰老调控。arahy.EW3BSR和arahy. TSWN09在雌蕊中表达量较高,这2个基因与AtAHL18同源性较高,在拟南芥中沉默AtAHL18可促进提早开花,说明这2个基因可能与花生的开花调控有关。结合基因结构域分析发现,大部分含有AT-hook基序和PPC结构域的基因有明显的组织特异性,而不含AT-hook基序和PPC结构域的基因在组织表达中差异不明显,表明AT-hook基序和PPC结构域在花生特定的组织中可能存在某种特定的功能,这需要进一步深入研究。
AHL蛋白是一类DNA结合蛋白,在植物的生长发育过程中发挥着重要的调控作用。目前,AT-hook基因家族在拟南芥、水稻、大豆、番茄和玉米等多种植物中已有研究[5-8, 23-24],花生作为我国重要的油料经济作物之一,至今关于其AT-hook基因家族的研究仍缺乏报道。该研究从基因组水平上对花生AT-hook基因家族进行了较系统的生物信息学分析,包括蛋白的理化性分析、编码基因在染色体上的分布、系统进化和组织表达模式等,为进一步研究花生AT-hook家族基因的功能及机制提供了重要的依据。
参考文献
[1] Eckner R, Birnstiel M L. Cloning of cDNAs coding for human HMG I and HMG Y proteins: Both are capable of binding to the octamer sequence motif[J]. Nucleic Acids Research, 1989, 17(15): 5947-5959.
[2] Aravind L, Landsman D. AT-hook motifs identified in a wide variety of DNA-binding proteins[J]. Nucleic Acids Research, 1998, 26(19): 4413-4421.
[3] Zhao J, Favero D S, Peng H, et al. Arabidopsis thaliana AHL family modulates hypocotyl growth redundantly by interacting with each other via the PPC/DUF296 domain[J]. Proceedings of the National Academy of Sciences of the United States of America, 2013, 110(48): E4688-E4697.
[4] Fujimoto S, Matsunaga S, Yonemura M, et al. Identification of a novel plant MAR DNA binding protein localized on chromosomal surfaces[J]. Plant Molecular Biology, 2004, 56(2): 225-239.
[5] 张贵慰, 曾 珏, 郭 维, 等. 水稻AT-hook基因家族生物信息学分析[J]. 植物学报, 2014, 49(1): 49-62.
[6] 丁丽雪, 李 涛, 李植良, 等. 番茄AT-hook基因家族的鉴定及胁迫条件下的表达分析[J]. 植物遗传资源学报, 2016, 17(2): 303-315.
[7] Bishop E H, Kumar R, Luo F, et al. Genome-wide identification, expression profiling, and network analysis of AT-hook gene family in maize[J]. Genomics, 2020, 112(2): 1233- 1244.
[8] Yun J, Kim Y S, Jung J H, et al. The AT-hook motif-containing protein AHL22 regulates flowering initiation by modifying FLOWERING LOCUS T chromatin in Arabidopsis[J]. Journal of Biological Chemistry, 2012, 287(19): 15307-15316.https://www.ncbi.nlm.nih.gov/pubmed/22442143/
[9] Xiao C W, Chen F L, Yu X H, et al. Over-expression of an AT-hook gene, AHL22, delays flowering and inhibits the elongation of the hypocotyl in Arabidopsis thaliana[J]. Plant Molecular Biology, 2009, 71(1-2): 39-50.
[10] Matsushita A, Furumoto T, Ishida S, et al. AGF1, an AT-hook protein, is necessary for the negative feedback of AtGA3ox1 encoding GA 3-oxidase[J]. Plant Physiology, 2007, 143(3): 1152-1162.
[11] Cai G, Kim S C, Li J, et al. Transcriptional regulation of lipid catabolism during seedling establishment[J]. Molecular Plant, 2020, 13(7): 984-1000.
[12] Karami O, Rahimi A, Khan M, et al. A suppressor of axillary meristem maturation promotes longevity in flowering plants[J]. Nature Plants, 2020, 6(4): 368-376.
[13] Monte E. Plant biology: AHL transcription factors inhibit growth-promoting PIFs[J]. Current Biology, 2020, 30(8): R354-R356.
[14] Lu H B, Zou Y, Feng N. Overexpression of AHL20 negatively regulates defenses in Arabidopsis[J]. Journal of Integrative Plant Biology, 2010, 52(9): 801-808.
[15] Kim S Y, Kim Y C, Seong E S, et al. The chili pepper CaATL1: An AT-hook motif-containing transcription factor implicated in defence responses against pathogens[J]. Molecular Plant Pathology, 2007, 8(6): 761-771.
[16] Jin Y, Luo Q, Tong H, et al. An AT-hook gene is required for Palea formation and floral organ number control in rice[J]. Developmental Biology, 2011, 359(2): 277-288.
[17] Delaney S K, Orford S J, Martin-Harris M, et al. The fiber specificity of the cotton FSltp4 gene promoter is regulated by an AT-rich promoter region and the AT-hook transcription factor GhAT1[J]. Plant and Cell Physiology, 2007, 48(10): 1426-1437.
[18] Chen X P, Lu Q, Liu H, et al. Sequencing of cultivated peanut, Arachis hypogaea, yields insights into genome evolution and oil improvement[J]. Molecular Plant, 2019, 12(7): 920-934.
[19] Chen C J, Xia R, Chen H, et al, TBtools, a Toolkit for biologists integrating various HTS-data handling tools with a user-friendly interface.Molecular Plant, 2020, 113 (8):1194-1202.
[20] Street I H, Shah P K, Smith A M, et al. The AT-hook- containing proteins SOB3/AHL29 and ESC/AHL27 are negative modulators of hypocotyl growth in Arabidopsis[J]. Plant Journal, 2008, 54(1): 1-14.
[21] 肖朝文, 陈福禄, 傅永福. AT-hook基因AHL27过量表达延迟拟南芥开花[J]. 中国农业科技导报, 2009, 11(4): 89-94.
[22] Lim P O, Kim Y, Breeze E, et al. Overexpression of a chromatin architecture-controlling AT-hook protein extends leaf longevity and increases the post-harvest storage life of plants[J]. Plant Journal, 2007, 52(6): 1140-1153.
[23] Zhao J, Favero D S, Qiu J, et al. Insights into the evolution and diversification of the AT-hook Motif Nuclear Localized gene family in land plants[J]. BMC Plant Biology, 2014, 14: 266.
[24] 張大勇, 戚维聪, 万 群, 等. 5个大豆AT-hook基因GmAHLs的克隆与定位分析[J]. 植物资源与环境学报, 2017, 26(4): 1-7.
责任编辑:黄东杰
收稿日期 2020-05-19;修回日期 2020-06-16
基金项目 广东省自然科学基金面上项目(No. 2020A1515010021)。
作者简介 胡冬秀(1997—),女,硕士研究生,研究方向:花生功能基因;*同等贡献作者:刘 浩(1988—),男,博士,助理研究员,研究方向:花生功能基因。**通信作者(Corresponding author):吴自明(WU Ziming),E-mail:wuzmjxau@163.com;方加海(FANG Jiahai),E-mail:fjh-86@163.com。