棉花苯丙氨酸解氨酶基因家族的生物信息学分析

2021-02-05 09:38李雨哲邢淋雪刘梦洁刘苏瑶鲍梦楠刘震
棉花学报 2021年1期
关键词:共线性雷蒙德基因组

李雨哲,邢淋雪,刘梦洁,刘苏瑶,鲍梦楠,刘震

(安阳工学院,河南安阳45500)

棉花是重要的纤维作物,棉花产业对中国经济发展有着重要的作用。 二倍体棉种分为8 个基因组(即A~G 和K),而常见的四倍体棉种(陆地棉、海岛棉)为异源四倍体,由A 和D 两个二倍体亚组组成[1]。 二倍体亚洲棉(Gossypium arboreum,A 组)[2]、雷蒙德氏棉(G.raimondii,D 组)[3]及四倍体陆地棉 (G.hirsutum,AD 组)、 海岛棉(G.barabdense,AD 组)[4-5]的基因组已经公布。 同时,NCBI-SRA 数据库也公布了棉属大量的表达数据,为开展基因家族的全基因组鉴定与生物信息学分析提供了基础信息。

苯丙烷代谢途径是植物重要的三大次生途径之一, 其上游起始是以L- 苯丙氨酸或酪氨酸为底物,在苯丙氨酸解氨酶(phenylalanine ammonia-lyase,PAL,EC 4.3.1.5)的催化下脱氨,产生反式肉桂酸,最终生成香豆酰辅酶A,并以此为底物进入下游的类黄酮代谢、木质素代谢、香豆素代谢等分支[6-7]。 苯丙烷类代谢途径的中间产物酚类物质和终产物黄酮、异类黄酮、木质素等物质参与植物的抗病原菌侵入过程,从而防御病原生物的侵染[8]。 PAL 是初级代谢途径和苯丙烷类代谢途径第一步反应的连接酶,是苯丙烷代谢的关键限速酶;它也被认为是一种防御酶,其编码基因属于多基因家族成员, 不同物种其拷贝数各异,成员从几个至几十个不等[9-10]。 PAL 表达量和活性的提高能促进木质素及酚类等次生物质的合成[11]。木质素是植物细胞次生壁的重要成分,次生壁加厚能在细胞形态结构上抵抗黄萎病菌的入侵,是棉株抗黄萎病菌的第一道屏障,次生壁中的木质素含量与棉花品种的耐病程度成正比。 已有研究表明,PAL 对阻碍棉花黄萎病菌的侵染具有重要作用[12]。 酚类物质作为莽草酸途径的中间产物, 在棉花抗病防御反应中也有重要作用,它能抑制真菌水解酶的合成和分泌,避免棉花木质部结构的分解或导管的堵塞[11]。 生物信息学的方法在全基因组分析中发挥着越来越重要的作用, 棉花的多个重要基因家族已经通过生物信息学的全基因组分析取得了重要成果[13-14]。 本研究依据已公布的陆地棉、海岛棉、亚洲棉和雷蒙德氏棉的基因组数据, 系统地分析了棉花PAL基因家族成员的进化、基因结构、共线性关系和基因表达等, 为深入研究棉花PAL 功能提供数据支撑。

1 材料与方法

1.1 棉花PAL 基因家族的全基因组鉴定与理化性质分析

下载陆地棉(https://www.cottongen.org/)、海岛棉(https://www.cottongen.org/)、亚洲棉(ftp://bioinfo.ayit.edu.cn/downloads/) 和 雷 蒙 德 氏 棉(https://cottonfgd.org/) 的基因组序列和注释数据。 依据PAL 家族的隐马尔可夫模型文件PF00221,利用HMMER 程序[15];同时依据拟南芥PAL 家族蛋白序列,利用BLASTP 程序[16](E 值设为1e-10), 搜寻上述4 个棉种的PAL 家族蛋白序列。 进一步通过在线工具NCBI CD-Search(https://www.ncbi.nlm.nih.gov/cdd/)和Search Pfam(http://pfam.xfam.org/search)进行验证,去除保守结构域不完整的序列,得到PAL 家族成员序列。

借助在线工具ExPASy(https://www.expasy.org/)计算棉花PAL 家族成员的分子量和等电点。 利用亚细胞定位工具WoLF PSORT(https://wolfpsort.hgc.jp/)预测棉花PAL 家族的亚细胞定位。

1.2 棉花PAL 基因家族的进化与基因结构分析

利用MEGA-X[17]内置的Clustal W[18]对棉花PAL 蛋白序列进行比对,采用邻接法(Neibourjoining method),Bootstrap 重复1 000 次构建进化树。 利用在线工具GSDS(http://gsds.cbi.pku.edu.cn/)分析棉花PAL 基因家族成员的基因结构。 利用在线工具MEME(http://meme-suite.org/)分析PAL 蛋白序列的保守结构域,最大发现基序设置为10,其他参数为默认值。

1.3 棉花PAL 基因家族的染色体定位与顺式作用元件分析

依据陆地棉、海岛棉、亚洲棉和雷蒙德氏棉的基因组注释文件,利用MapChart[19]软件绘制PAL 基因家族在染色体上的位置图。编写perl 脚本,从基因组序列中提取PAL 基因上游1 500 bp(base pair, 碱基对)作为启动子序列,利用在线工具PlantCARE[20]分析启动子的顺式作用元件。

1.4 棉花PAL 基因家族成员的共线性分析

利用MCScanX[21]软件分析PAL 基因家族在陆地棉、海岛棉、亚洲棉和雷蒙德氏棉中成员的共线性关系,最小模块设置为10 个基因,并通过KaKs_Calculator 2.0[13]计算PAL 基因的选择压力。

1.5 棉花PAL 基因家族的表达分析

从NCBI SRA(https://www.ncbi.nlm.nih.gov/sra/)数据库下载高温、低温、盐和PEG 胁迫下的陆地棉转录数据(NCBI BioProject:PRJNA248163),并下载陆地棉和海岛棉在不同组织中的转录数据(NCBI BioProject: PRJNA490626)。 使用软件Trimmomatic[22]去除转录序列两边的接头,并对数据做质量控制。 通过软件hisat2[23]将read 序列比对到基因组,使用软件cufflinks[24]得出基因的表达量标准值FPKM (Fragments per kilobase million),将表达数据进行log2(FPKM+1)处理后,使用MeV[25]软件将表达数据可视化。

2 结果与分析

2.1 棉花PAL 基因家族成员的数量及其理化性质

综合HMMER 和BLASTP 程序的分析结果(表1),共从陆地棉、海岛棉、亚洲棉和雷蒙德氏棉中鉴定出40 个棉花PAL 基因, 其中陆地棉12 个、海岛棉13 个、亚洲棉7 个、雷蒙德氏棉8 个。 PAL 蛋白包含491~753 个氨基酸残基,等 电 点 为5.85 ~9.09; 除GB_D04G1317 和GH_D04G1248 的编码蛋白外,均呈酸性,分子量为54 360.02~78 879.87。 亚细胞定位结果显示PAL 蛋白全部在细胞质中(表1)。

2.2 棉花PAL 基因家族的结构

进化分析结果表明棉花40 个PAL 基因家族成员可分为6 组,依次命名为Group1~Group6(图1)。同一组内的PAL 基因具有相近的序列长度。 Group1 中GB_D04G1317 有6 个外显 子,GH_D04G1248 有5 个外显子,Gorai.009G416400有4 个外显子;Group6 中均只有1 个外显子;其余的PAL 基因家族成员均含2 个外显子。

表1 棉花PAL 基因家族成员信息Table 1 Information of cotton PAL gene family members

表1 (续)Table 1 (Continued)

我们将从PAL 蛋白序列中找到的10 个保守基序依次命名为Motif 1~Motif 10(图1)。 棉花40 个PAL 家族成员中有36 个具有全部的10个Motif,且顺序相同。 在4 个缺失Motif 的PAL基因中,3 个是来自Group1 中“内含子- 外显子”结构发生变化的基因, 另外一个是Group4 中的Gorai.007G373700 基因。

顺式作用元件分析结果表明,陆地棉、海岛棉、 亚洲棉和雷蒙德氏棉中的PAL 基因含有较多 的 光 响 应 相 关 元 件(ATCT-motif、GT1-motif、box-4、TCT-motif 等19 种)、 激素反应相关元件(ABRE、TGA-element、GARE-motif 等8 种)、胁迫响应相关元件 (LTR、WUN-motif、ARE 等6种) 和 生 长 发 育 相 关 元 件 (RY-element 和CAT-box 等3 种)。 其中光反应元件的数量较多且种类丰富。 在激素响应元件中,乙烯响应元件含量较多(图2)。

2.3 棉花PAL 基因家族的染色体分布与共线性关系

棉花PAL 基因家族在染色体上的分布比较分散, 每条染色体包含1 个或2 个PAL 基因。 2 个PAL 基因位于同一染色体的则两者距离非常近(图3)。 在分析的4 个棉种之间共发现271 个PAL 共线性基因对; 结合PAL 基因家族的分组数据(图1),发现除一条染色体上有2 个PAL 基 因 外(Ga04G0847、GB_A04G0957、Gorai.009G416400.1,GB_D04G1317,GH_D04G1248,Gorai.007G373700.1),同一组的PAL 基因之间均具有共线性关系(图4)。

2.4 棉花PAL 基因家族的表达

图1 PAL 基因的结构与保守基序Fig. 1 Gene structure and conserred motif of PAL gene in cotton

图2 顺式作用元件位置图Fig. 2 Location diagram of cis-acting element

图3 PAL 基因在染色体上的位置Fig. 3 Location of PAL gene on chromosome

总的来看, 陆地棉PAL 基因家族的表达量随高温、盐和PEG 胁迫时间变化而增加,而在低温胁迫下的表达量随时间变化而逐渐减少。GH_D09G1608 和GH_D04G1247 基因分别在低温和高温胁迫12 h 后的表达量最高、GH_A01G2316 基因在盐和PEG 胁迫12 h 后的表达量最高;GH_D04G1248 在本实验所有条件下都不表达。在低温胁迫下,GH_A06G0814 呈现上升趋势(图5)。 我们进一步分析了陆地棉和海岛棉PAL 基因家族成员在不同组织中的表达情况(图6), 结果表明,PAL 基因在不同组织中的表达量不同,根、茎中的表达量较高,萼片中的表达量则较 低。 陆 地 棉 GH_D04G1248 和 海 岛 棉GB_D04G1317 在所有检测的组织都不表达。

3 讨论

图4 棉花PAL 基因共线性分析图Fig. 4 Collinear analysis diagram of PAL genes in cotton

PAL 蛋白在植物防御系统中起着重要作用,参与植物响应病原菌的过程。 有研究表明,PAL与棉花黄萎病抗性有关[12],PAL 酶活也可以作为植物抗病的标志酶[26]。 PAL 基因家族是一个相对较小的多基因家族,存在于多种植物,如拟南芥中有4 个PAL 基因[27],胡桃中有12 个[28],黄瓜中有13 个[29]。 依据进化分组数据和共线性关系,我们推测亚洲棉和雷蒙德氏棉分化之前的二倍体祖先共有6 个PAL 基因, 分别对应于本研究中的6 个分组。 其中Group1(4 号染色体祖先)中的PAL 基因进行了一次复制,因此该二倍体祖先有7 个PAL 基因祖先。我们还推测最初的四倍体祖先有14 个PAL 基因,在随后的进化过程中丢失了1 个(位于D06 染色体)。 四倍体分化之后,陆地棉再丢失1 个PAL 基因 (位于A04 染色体)。此外,分化之后,雷蒙德氏棉的PAL 也发生了复制和丢失的情况,最终在陆地棉、海岛棉、亚洲棉和 雷 蒙 德 氏 棉 中 分 别 有12、13、7、8 个PAL 基因。

图5 陆地棉PAL 基因家族在非生物胁迫下的表达Fig. 5 Expression of PAL gene family under different stress in G. hirsutum

图6 PAL 基因家族在陆地棉和海岛棉不同组织的表达Fig. 6 Expression of PAL gene family in different tissues of G. hirsutum and G. barabdense

棉花PAL 基因在不同逆境胁迫下的表达变化趋势也不尽相同。 在高温、 盐以及PEG 胁迫下,陆地棉PAL 基因的表达量明显升高,这可能与PAL 基因参与木质素、 黄酮类等苯丙烷类代谢物的生成有关。 但在低温胁迫下,基因的表达量呈下调趋势, 推测低温可能会影响PAL 基因的表达。 GH_D04G1248 在本实验所有条件下都不表达。 参考基因结构和保守域分析结果,该基因含有5 个外显子, 缺失motif 7 与motif 9 保守域; 同时, 在该基因附近有另一个PAL 基因GH_D04G1247,因此我们推测GH_D04G1248 可能已经丧失了生物学活性,成为假基因。

4 结论

本研究分析了陆地棉、海岛棉、亚洲棉和雷蒙德氏棉基因组中PAL 基因家族成员的理化性质、基因结构、保守结构域、顺式作用元件、染色体分布、进化、共线性关系和表达,推测了棉花PAL 基因家族成员数量的进化历程。研究发现棉花PAL 基因家族在不同条件、 不同器官中的表达均有差异, 个别PAL 基因家族成员可能已经丧失了表达能力。 这些研究结果为深入解析棉花PAL 基因的功能提供了参考。

猜你喜欢
共线性雷蒙德基因组
“植物界大熊猫”完整基因组图谱首次发布
第一代基因组设计的杂交马铃薯问世
最后的断片
牛参考基因组中发现被忽视基因
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
血清HBV前基因组RNA的研究进展
银行不良贷款额影响因素分析
我国寿险需求影响因素的岭回归分析
蜂鸟