藜麦4,5-多巴双氧化酶基因(CqDODA)家族的全基因组鉴定与分析

2023-07-14 09:25丁洪霞陈方军郭善利陈世华
关键词:共线性甜菜分支

丁洪霞,杨 博,陈方军,彭 悦,郭善利,陈世华

(烟台大学生命科学学院,山东 烟台 264006)

甜菜素主要存在于真菌(担子菌:鹅膏菌[1])、细菌(重氮营养葡萄糖酸杆菌[2])、水生植物(蓝藻[3-4])、开花植物(石竹目:苋菜、鹦鹉花[5]、大花马齿苋[1])等物种中。甜菜素具有清除自由基的能力和一定的抗氧化活性,可被用作食品着色剂,并对几种类型的癌症有预防能力[6-7]。甜菜素是一类由酪氨酸衍生而来的植物色素,甜菜醛氨酸是甜菜素合成的重要中间产物,也是甜菜素最常见的发色基团。DODA(3,4-dihydroxyphenylalanine 4,5-dioxygenase)基因编码的4,5-多巴双氧化酶是甜菜素生物合成的关键酶之一[8],它打开酪氨酸的氧化产物左旋多巴(L-DOPA)C-4和C-5之间的二羟基苯丙氨酸环,生成不稳定的Seco-DOPA,然后自发形成甜菜醛氨酸[9]。DODA属于LigB基因家族成员,在石竹目中LigB基因复制产生了DODAα和DODAβ两个分支,其中DODAα分支中的基因具有编码该酶的功能[2,10],研究认为DODAβ可以编码打开左旋多巴的C-2和C-3位产生麝香黄素的酶[3]。DODA基因的同源基因在非合成甜菜素的植物中是已知的,如拟南芥(AtLigB)和水稻(AK104601)等,虽然是DODA基因的同源基因,但是它们编码的酶不具有催化合成甜菜醛氨酸的功能[11]。

藜麦(ChenopodiumquinoaWilld.)是苋科藜属的一年生双子叶自花授粉的草本植物,属于伪谷类作物。藜麦起源于南美洲安第斯地区,但能适应世界多地的生态环境,具有较好的耐盐碱、耐干旱及耐低温特性和极大的农艺栽培价值和潜力[12]。藜麦被认为是可以提高世界粮食安全的重要作物,全株可食用,具有丰富的营养成分,有色藜麦种子中含有高抗氧化能力的酚类和甜菜素[13-14]。已有研究表明利用有色藜麦品种建立藜麦愈伤组织培养体系,可以获得具有产生甜菜素能力的藜麦细胞[15]。藜麦中分离和鉴定了CqDODA酶,基于多巴胺的色素生物合成途径的所有中间化合物和产物都已明确[16]。目前国内外对藜麦DODA(CqDODA)基因的研究较少,且对该基因家族尚无深入系统分析及研究。

2017年藜麦高质量基因组的组装[17],为藜麦基因组学研究及藜麦的遗传、进化及基因功能研究奠定了重要的遗传基础。为了进一步了解CqDODA基因在藜麦中的作用,基于藜麦全基因组序列,本研究利用生物信息学的方法鉴定了CqDODA基因家族的全部成员,分析了蛋白理化性质,保守结构域、启动子顺式作用元件、表达模式、系统发育关系、自身共线性及其与祖先种共线性等,为深入研究CqDODA基因的功能和藜麦甜菜素的研究提供新的方向。

1 材料与方法

1.1 CqDODA基因的鉴定与蛋白理化性质及蛋白一、二级结构预测

藜麦基因组数据来源于NCBI藜麦数据库,在NCBI上分别下载苋菜(AcDODA1)、拟南芥(AtLigB)、甜菜(BvDODA1)等16个物种的蛋白序列。用TBTools软件将不同物种的DODA蛋白序列分别对比藜麦蛋白数据库,选出质量较高(E-value<1×10-20)的CqDODAs候选基因。用NCBI CDD (https://www.ncbi.nlm.nih.gov/cdd/)工具(Expect Value为 0.01)验证候选基因是否含有4,5-DOPA-Dioxygenase(PSSMID 153375)结构域,最终筛选出18个CqDODA基因。使用ExPASy 在线网站提供的Protparam工具(https://web.expasy.org/protparam/)对CqDODA基因家族成员编码蛋白的氨基酸序列进行一级结构和二级结构特性分析,得到DODA蛋白的氨基酸长度、分子量、等电点等理化性质。Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/#)和CELLO(http://cello.life.nctu.edu.tw/)用于预测亚细胞定位。

1.2 CqDODA基因结构与蛋白保守基序分析

根据获得的18个CqDODA基因家族成员,提取它们的基因组DNA序列和CDS序列,使用GSDS 2.0在线网站(http://gsds.cbi.pku.edu.cn)对CqDODA基因结构进行作图分析;使用MEME5.1在线网站(http://meme-suite.org/tools/meme)对CqDODA蛋白序列进行蛋白保守基序(Motif)搜索,可被搜索的Motif数量设置为10。

1.3 蛋白系统发育树

从NCBI上下载藜麦及不同物种的DODA蛋白序列。CluastW程序用于多个DODA蛋白序列比对。利用MEGA7.0软件,采用邻接法和1000次Bootstrap重复构建藜麦与不同物种的蛋白系统发育树。用同样的方法构建了CqDODAs自身的系统发育树。

1.4 CqDODA基因重复序列分析

使用MCScanX对C.quinoa、C.pallidicaule和C.suecicum进行全基因组共线性分析,从共线性结果文件中筛选出CqDODA共线性基因对以及藜麦与C.pallidicaule和C.suecicum之间的共线性基因对,并用TBtools软件绘图。使用TBtools软件计算藜麦自身CqDODA共线性基因对的Ka/Ks值(非同义替换率/同义替换率)。

1.5 CqDODA基因表达模式分析

在NCBI的GEO数据库中下载藜麦各组织器官和几个品种的RNA-Seq数据(SRP226463、SRP116149),以RNA-Seq为基础进行log2转换计算TPM(每百万次读取的转录本),分别找到CqDODA基因家族所有成员的TPM值,使用TBtools软件绘制CqDODA基因家族的组织表达热图。

1.6 启动子区顺式作用元件预测

从藜麦基因组数据库中获得了CqDODAs转录起始点上游3000个碱基,作为相关基因的启动子序列。这些序列用PlantCare(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)预测分析顺式作用元件,并用GSDS2.0作可视化分析。

2 结果与分析

2.1 CqDODA全基因组的鉴定

根据DODA蛋白的保守结构域,通过对比藜麦数据库和保守结构域数据库,在藜麦中鉴定出18个含4,5-多巴双氧化酶结构域的CqDODA蛋白。根据其基因在染色体上的位置(表1),分别命名为CqDODA1至CqDODA18。藜麦一共18对染色体,这18个CqDODA分布在3、4、5、12号染色体上,其中12个基因在5号和12号染色体上。

表1 CqDODA基因信息

表1(续)

2.2 CqDODA蛋白理化性质及一、二级结构预测

18个CqDODA蛋白的理化性质和一、二级结构特征如表2所示。CqDODA的长度在178~865个氨基酸残基之间,分子质量为19.72~99.46 kU,其中最小分子质量的是CqDOPA9,最大分子质量的是CqDOPA18;理论的等电点为5.27~8.02,大部分CqDODA蛋白呈酸性,其中CqDODA9和CqDODA17等电点大于7,为碱性蛋白;CqDODA蛋白中有9个蛋白不稳定指数大于40,是不稳定蛋白;蛋白亲水性大于-0.5属于亲水蛋白,CqDODA6是疏水蛋白,其余均为亲水蛋白;蛋白的二级结构中α-螺旋和无规卷曲结构较多。

基于CqDODA蛋白的亚细胞定位预测结果如表2所示,这些CqDODA蛋白具有叶绿体、线粒体、细胞壁、细胞质和细胞核等多个亚细胞定位特征,CqDODA2、3、5、10、15、16等6个CqDODA蛋白存在细胞壁和细胞质定位特征,CqDODA1、6、7、9、12、13、14、16、17等9个CqDODA蛋白具有叶绿体定位特征,多个CqDODA蛋白都有两个以上的亚细胞定位特征。

表2 CqDODA蛋白理化性质及一、二级结构预测以及亚细胞定位

2.3 CqDODA基因结构和蛋白保守基序(Motif)分析

如图1所示,CqDODA基因内含子数目在2~15个之间,外显子数目在2~16个之间,大部分CqDODA含有3 个外显子,除了CqDODA18外均含有1~3个内含子,分支2和分支3的基因结构差异较大,CqDODA基因在分支1中相似度高。蛋白保守基序如图2,CqDODA蛋白含有4~9个蛋白保守基序,Motif-1、2、5这样的结构存在于所有CqDODA成员中;CqDODA12和CqDODA13缺少Motif-8,CqDODA9缺少Motif-3,CqDODA18和CqDODA7的Motif-8被Motif-10取代,CqDODAs的蛋白基序组织高度保守。CqDODA基因家族虽然部分基因结构差异较大,但是在CqDODA蛋白在进化中却相对保守。

图1 CqDODAs系统发育关系和基因结构

图2 CqDODA 蛋白Motif结构

2.4 蛋白系统发育进化分析

DODA蛋白的系统发育和结构分析来自包括藜麦在内的15个不同物种,聚为A、B、C、D四个分支(图3),分别包含2个、6个、6个和4个CqDODA蛋白。图3中分支A和B对应图2中的分支1,分支C对应图2中的分支3,分支D对应图2中的分支2。分支B中CqDODA7、8、9、16、17、18与毯粟草MvDODA亲缘较近;分支D中CqDODA11、14、12、13与甜菜BvDODA2b、菠菜SoDODA5亲缘关系较近;CqDODA10、15与菠菜SoDODA4、盐地碱蓬SsDODA2是同一支进化而来;拟南芥、水稻和小麦等属于分支B与分支B中的CqDODAs为同一祖先进化而来。结合表2蛋白亚细胞定位预测可以发现,分支A定位于细胞质、细胞壁、线粒体;分支B定位于细胞壁、叶绿体、线粒体、细胞质、细胞核;分支C定位于叶绿体、线粒体、细胞质、细胞壁;分支D定位于细胞膜、细胞壁、叶绿体、细胞质、高尔基体、核中。

图3 CqDODA蛋白系统发育进化树

2.5 基因共线性分析

藜麦和两个二倍体祖先种的共线性分析如图4,CqDODA7、CqDODA18可能起源于C.pallidicaule,CqDODA1、2、5、13可能起源于C.suecicum。CqDODA基因自身共线性如图5,在该基因家族中总共发现了3个基因复制事件,分别是CqDODA10和CqDODA13、CqDODA7和CqDODA16、CqDODA1和CqDODA5。CqDODA基因家族的扩大主要归因于节段性复制事件。计算所有重复的CqDODA共线基因对的Ka/Ks值如表3,发现3对基因对均Ka≪Ks,Ka/Ks值≪1,这3对基因在进化过程中受纯化选择,非同义替换率Ka小于同义替换率Ks[18]。

图4 C. quinoa与C. pallidicaule、C. suecicum的全基因组共线性

表3 共线CqDODA基因的Ka/Ks

2.6 CqDODA基因表达模式和顺式作用元件分析

为了进一步分析CqDODA基因在藜麦甜菜素合成中的作用,本研究基于正常生长中的藜麦不同组织的RNA-seq数据,分析了CqDODA基因家族中各成员表达模式(如图6)。结果表明,CqDODAs表达模式差异较大,CqDODA2、15、10、16、18几乎在全藜麦的所有组织中均表达,分支2的CqDODA1、14、11、13、12和分支3的CqDODA17、8几乎不表达或者表达量很低,基因表达的时间和空间特异性不明显。CqDODA4在花和未成熟的种子中存在高表达,CqDODA16在茎和正在发育的种子中存在高表达。在进化亲缘关系较近的成对基因中,CqDODA1和CqDODA2、CqDODA3和CqDODA6、CqDODA9和CqDODA16、CqDODA18和CqDODA7表达差异非常大。对这些成对基因的顺式作用元件(图7)进一步分析可以发现,表达量高的CqDODA基因家族成员的顺式作用元件种类和数量均多于表达量低的成员,在亲缘较近的成对基因中表达量低的一方缺少如玉米醇溶蛋白代谢调节元件、干旱诱导性元件、在分生组织表达元件、在胚乳表达元件等。

图5 CqDODA基因家族自身共线性分析

对CqDODA基因家族上游3000 bp启动子区域顺式作用元件分析如图7所示,CqDODA基因家族存在基本的启动子元件如CAAT-box、TATA-box等,每个基因都有脱落酸反应元件(ABRE)厌氧诱导(ARE)和大量的光响应元件(TCT-Motif、G-Box、Box4、GT1-Motif、AE-Box等);CqDODA16含根特异性调控元件,CqDODA1、11、14含栅栏叶肉细胞分化元件,CqDODA10、12、13含创伤反应元件;在启动子序列中还鉴定了一些激素调控的元件如脱落酸、生长素、赤霉素、水杨酸、茉莉酸甲酯等,还有一些环境诱导的调节元件如低温响应、光响应、缺氧反应元件等。

图6 CqDODA基因在不同组织的表达模式

图7 CqDODA基因上游3000 bp启动子区域顺式作用元件

3 讨 论

DODA酶在甜菜素合成中有重要的作用,甜菜素与植物的颜色和抗逆性等多方面有密切联系。本研究基于藜麦基因组数据,首次对CqDODA全基因家族进行系统研究。共确定了18个CqDODA基因,根据基因在染色体上的位置进行了命名,18个CqDODA基因集中分布在3、4、5、12号染色体上(表1)。CqDODA蛋白的一级和二级结构以及亚细胞定位的分析预测(表2)表明,CqDODA蛋白性质接近,多为酸性蛋白且亲水;这些蛋白理化性质可以预测特异性位置以及CqDODA之间的底物选择性。

基于多物种DODA蛋白进化分析,CqDODAs可以分为四支(图3),并与菠菜、盐地碱蓬、甜菜毯粟草、苋菜来源的DODAs具有较高的相似性和亲缘关系最近。拟南芥AtLigB、猪笼草NaDODA等属于分支B,其基因属于DODAα分支,拟南芥和猪笼草等植物是产生花青素类色素的植物[19],不能产生甜菜素;AtLigB不具有打开C-4、C-5位二羟基苯丙氨酸环的功能,而是催化C-2、C-3位二羟基苯丙氨酸环生成麝香黄素[6]。CqDODAs与AtLigB、NaDODA均属于分支B,三者的编码基因属同一支祖先基因进化而来,推测也属于DODAα分支中[2];这一支中只有CqDODA8、CqDODA9和CqDODA16基因在藜麦不同组织中有表达,因此推测CqDODA7、18、9、16、8、17这6个基因与AtLigB一样不具有编码4,5-多巴双氧化酶的功能,且CqDODA8、9、16在藜麦中表达了并产生了其他物质。图1中分支2的基因在正常生长的藜麦各组织中表达量极低,几乎不表达(图6),分支3也推测出不具有编码4,5-多巴双氧化酶的功能,因此推测出分支1中的8个CqDODA基因在藜麦甜菜素合成中具有重要的作用[17]。根据CqDODA基因结构和蛋白保守基序分析,可知分支1中的CqDODA基因所编码的蛋白具有保守性,其中Motif-3、1、8、5、2、6高度保守(图2);在分支1中仅有CqDODA15和CqDODA6基因所编码的为稳定蛋白,在热图上这两个基因的表达量比同支的CqDODA10和CqDODA2等编码不稳定蛋白的基因表达量低,所以推测藜麦中的CqDODA在需要合成甜菜素时才表达产生 CqDODA蛋白,蛋白发挥活性以后CqDODA蛋白就立刻分解或者结合其他物质,最后失去酶的活性[20]。

CqDODA18和CqDODA7可能起源于C.pallidicaule,CqDODA1、2、5、13可能起源于C.suecicum,CqDODA1、2、5在进化过程中仍维持较近的亲缘关系。启动子区域的顺式作用元件可以预测出CqDODAs基因上游含有丰富的激素响应和逆境胁迫响应元件(图7),暗示CqDODAs基因在受到低温、缺氧、创伤或激素处理时可能会发挥一定的作用[21]。一些亲缘关系较近的成对基因中(CqDODA1/CqDODA2、CqDODA16/CqDODA9、CqDODA18/CqDODA7)出现表达量差异很大的情况,可能是由于表达量高的一方较表达量低的一方拥有更多的上游调控元件,从而造成了这一现象[22]。本研究通过生物信息学的方法系统研究分析CqDODA基因家族成员在藜麦中的功能,特别是对甜菜碱色素合成中的作用,为深入探究CgDODA基因家族提供理论支持。

猜你喜欢
共线性甜菜分支
甜菜应答盐胁迫的RING型E3连接酶基因的鉴定与分析
辣椒甜菜,各有所爱
银行不良贷款额影响因素分析
巧分支与枝
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
不完全多重共线性定义存在的问题及其修正建议
一类拟齐次多项式中心的极限环分支
新疆产区有机甜菜栽培技术探讨
二二三团甜菜主要病虫害发生特点及防治
生成分支q-矩阵的零流出性