芸薹属作物TT8基因鉴定与生物信息学分析

2022-12-23 12:07陈镇何晓莹任静俎峰赵凯琴李根泽黄晓霞程小毛
西南林业大学学报 2022年6期
关键词:甘蓝型同源拟南芥

陈镇何晓莹 任静 俎峰赵凯琴李根泽黄晓霞程小毛

(1.西南林业大学园林园艺学院,国家林业与草原局西南风景园林工程技术研究中心,云南昆明 650233;2.云南省农业科学院经济作物研究所,云南昆明 650225)

油菜(Brassicanapus)是我国植物油生产最主要的油料作物之一[1-2]。在同一遗传背景下,黄籽油菜较黒籽油菜具有种皮薄、含油量高及油清澈透明等多方面优点[3-4]。然而在推广面积最大的油菜栽培类型—甘蓝型油菜中却不存在天然黄籽种质资源,故而开展黄籽甘蓝型油菜种质创新,一直是甘蓝型油菜品质育种的重大研究课题之一。研究表明,仅在种子发育时期种皮部位特异表达的TT8基因是种皮色素代谢通路下游的重要转录因子,其突变后可获得透明/黄色种皮,并提升籽粒含油量[5]。Zhai等[6]利用最新的CRISPR/Cas9技术编辑BnTT8的2个同源拷贝,创制出了黄籽甘蓝型油菜,该黄籽突变性状可稳定遗传且对含油量有明显的提升作用。因此,探究芸薹属(Brassica)作物TT8基因功能,对促进黄籽种质的创制工作具有较为重要的现实意义。

对于种子种皮色泽性状的研究,前人以拟南芥(Arabidopsisthaliana)开展了大量探索。1992年,Shirley等[7-8]最早利用电离辐射发现2个透明突变tt基因,随后研究认为突变体能破坏种皮色素的合成积累,其中tt8与ttg能特异地影响类黄酮生物合成途径,导致种皮色素无法积累,进而致使种皮呈现透明。Nesi等[9]发现,tt8基因编码的蛋白是类黄酮途径后期生物合成2个基因DFR和BAN的关键调控因子,推测TT8、TT2与TTG1之间的相互作用可能控制类黄酮的代谢。之后,Baudry等[10]研究证实了三者产生的肽链可结合形成三元复合体直接调控BAN表达,特异调控种皮发育中的类黄酮、原花青素生物合成途径,对种皮色素积累起至关重要的作用。高度保守性的多肽链复合体对植物类黄酮合成积累具有重要调控作用,而转录因子TT8作为该复合体的中心组分已在多项研究中得到证实[11-15]。

芸苔属作物与拟南芥共属十字花科(Brassicaceae),亲缘关系紧密,TT8同源基因在油菜黄色籽粒性状研究中起极为相似的作用。Li等[16]在白菜型油菜研究中报道,BrTT8被插入大片段新型转座子,可致使基因突变与功能丧失,进而产生黄色种皮性状。在芥菜型油菜研究中,Padmaja等[17]发现TT82个同源拷贝BjuA.TT8与BjuB.TT8的自然突变能控制其种皮黄色性状。以上研究均表明,TT8是控制芸薹属作物种子颜色和含油量的关键调控因子,对拟南芥种皮透明与芸薹属作物黄籽性状起重要作用,但目前尚未有对芸薹属作物TT8基因开展系统生物信息学分析的研究报道。因此,本研究挖掘与鉴定芸薹属TT8基因,利用生物信息学方法对其核苷酸及氨基酸序列进行比较分析,在此基础上,根据43份甘蓝型油菜种质材料的重测序数据对其TT8基因多态性进行分析,为进一步理解该基因参与种子种皮色泽变化的调控机制,以及促进油菜的黄籽种质创制提供参考。

1 材料与方法

1.1 数据来源

芸薹属作物中白菜(Brassicarapa)、甘蓝(Brassica oleracea)、芥菜(Brassica juncea)、黑芥(Brassicanigra)和甘蓝型油菜的基因组数据从BRAD[18](http://brassicadb.org/brad/)获取,拟南芥的基因组数据从TAIR(https://www.arabidopsis.org/)下载。拟南芥AtTT8(AT4G09820.1)基因核苷酸序列从PlantTFDB[19](http://planttfdb.gao-lab.org/)检索下载并作为种子或探查序列(query sequence)。

1.2 芸薹属作物TT8同源基因的鉴定及理化性质分析

构建白菜、甘蓝、芥菜、黑芥、甘蓝型油菜和拟南芥本地基因组数据库,以拟南芥TT8蛋白氨基酸序列为探针序列,设置阈值(E)为10-5,使用本地BLAST程序进行比对检索,分别获取TT8候选基因蛋白序列。从Pfam数据库[20]下载保守结构域bHLH-MYC_N的隐马尔科夫模型(HMM)PF14215.7,使用本地Hmmersearch软件,E值<10-5,进行二次比对检索。利用在线工具Conserved Domain Search (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrps-b.cgi)及数据库SMART[21](http://smart.embl-heidelberg.de/)对已得到的TT8同源拷贝验证bHLH-MYC_N结构域的存在,筛选两次基因组比对检索结果,整理去冗余及假基因后得到芸薹属作物的TT8基因成员并命名。使用WoLF PSORT(https://wolfpsort.hgc.jp/)和ExPASy[22]中Protparam工具(https://web.expasy.org/protparam/)预测其亚细胞位置和基础理化性质。

1.3 序列比较与系统进化树构建

DNAMAN软件对蛋白氨基酸序列进行比较分析,基于多重比对结果,采取MEGA[23]软件中邻接法(NJ),默认参数构建TT8同源蛋白系统发育树。

1.4 保守结构域及Motif预测

在线工具CDD预测TT8蛋白保守结构域,E值为10-5;MEME[24](http://meme-suite.org/tools/meme)预测其Motif,其中参数设置为:基序位点按任意重复次数,Motif 数最大为10,Motif最小宽度为6,最大宽度为50。上述结果下载保存,并使用TBtools[25]绘图。

1.5 蛋白三级结构预测

采用SWISS-MODEL(https://swissmodel.expasy.org/)在线预测分析拟南芥、芥菜、黑芥、白菜、甘蓝与甘蓝型油菜TT8蛋白的三级结构。

1.6 染色体定位与共线性分析

在甘蓝型油菜全基因组数据中获取TT8同源基因位置信息;利用MCScanX[26]对拟南芥、甘蓝型油菜及近缘物种间进行共线性分析,用TBtools中Advanced Circos工具绘制TT8基因共线性关系图。

1.7 CRISPR/Cas9靶点选择及sgRNA设计与本地化分析

提交拟南芥TT8基因(AT4G09820.1)到sgRNA在线分析网站(http://chopchop.cbu.uib.no/),获取AtTT8基因sgRNA序列位点及序列信息。使用ncbi-blast-2.11.0+软件包makeblastdb命令,分别构建白菜、甘蓝、芥菜、黑芥、甘蓝型油菜和拟南芥的CDS序列本地化数据库。输入文件为拟南芥TT8基因的sgRNA序列,利用命令将其提交至本地化数据库进行BLAST比对,其参数设置为-qcov_hsp_perc 100-task blastn-short-outfmt 6-evalue 1E-3。

1.8 甘蓝型油菜核心种质资源TT8基因的变异检测与多态性分析

为探究甘蓝型油菜BnTT8自然变异信息,利用云南省农业科学院经济作物研究所油菜中心提供的43份核心种质重测序数据进行SNP与InDel分析(项目编号:PRJCA006241/CRA004803)。使用Burrows-Wheeler Aligner[27]中MEM算法,将reads映射至“Darmor-bzh”基因组(https://www.genoscope.cns.fr/brassicanapus/data/)。使 用SAMtools[28]对reads进行比对并排序,PICARD[29]去重 复(http://broadinstitute.github.io/picard/)。使用GATK[30]中HaplotypeCaller模块对所有样品进行SNP、InDel检测,过滤SNP参数:QD<2.0||MQ<40.0||FS>60.0||SOR >3.0||MQRankSum<-12.5||ReadPosRankSum <-8.0;过 滤Indel参数:QD<2.0||FS>200.0|| SOR >10.0||MQRank-Sum <-12.5|| ReadPosRankSum<-8.0。采用ANNOVAR[31]软件进行SNP、Indel注释,提取并统计甘蓝型油菜BnTT8基因的变异注释信息。序列变异频率=变异位点总数/参考基因组基因序列长度。

2 结果与分析

2.1 TT8蛋白理化性质和亚细胞定位分析

通过本地BLAST和Hmmersearch检索比对,在线数据库CDD和SMART鉴定TT8基因均含有完整的bHLH结构域。研究发现,共获得检索鉴定得到共8条TT8蛋白序列,其中拟南芥有1条,芥菜有2条,黑芥有1条,白菜有1条,甘蓝有1条,甘蓝型油菜中有2条(表1)。在所有TT8基因中,蛋白基础理化性质差异较不明显,其蛋白长度为512(BjuB004115)~566(BjuA034148),分子量为58.698(BjuB004115)~64.917(BjuA034148)kD,等电点为5.48(BjuA034148)~5.90(BniB08g 052890.2N.1),不稳定系数为49.61(AT4G09820.1)~59.25(BjuA034148),脂肪族系数为79.19(AT4G09820.1)~86.61(BraA09g028560.3C),疏水性指数为-0.601(BjuA034148)~-0.415(BniB08g052890.2N.1)。从理化性质看,其所有等电点均小于6,为弱酸性,这与水稻(Oryzasativa)[32]研究现象保持一致;不稳定系数均大于40为不稳定蛋白结构;总疏水性指数均小于0,表明其所有成员属亲水性蛋白;亚细胞定位结果,均位于在细胞核上。

表1 拟南芥、芥菜、黑芥、白菜、甘蓝与甘蓝型油菜TT8基因的信息Table 1 TT8 gene information of A.thaliana, B. juncea, B.nigra, B.rapa, B.oleracea and B.napus

2.2 TT8蛋白序列对比与系统发育分析

利用DNAMAN进行多序列比对发现,8个蛋白序列均存在典型bHLH保守结构域(图1)。bHLH结构域高度保守,分为碱性区域、2个螺旋及1个环形区域,这4个保守区域由约60个氨基酸组成;该结构域含有2个功能分区,一个位于N端由13~17个主要碱性氨基酸构成,其主要DNA结合特异性位点有关;另一个位于C端的HLH区域,主要由疏水性氨基酸组成,与相邻的两个螺旋,共同组成螺旋—环—螺旋结构[33]。系统进化树表明,8个TT8同源基因的亲缘关系极为接近,进一步可分为两大类:一类为拟南芥TT8基因AT4G09820.1;另一类为芸薹属作物TT8同源基因。其中,甘蓝型油菜(BnaA09g22810D、BnaC09g24870D)与白菜(BraA09g028560.3C)、甘蓝(Bo9g086910.1)遗传相似度分别为94和99,遗传关系更为紧密,进一步说明甘蓝型油菜TT8基因高度保守(图2)。

图1 TT8蛋白的多序列比对Fig.1 Multiple sequence alignment of TT8 protein

图2 TT8蛋白的系统进化树Fig.2 Phylogenetic tree of TT8 protein

2.3 TT8蛋白保守结构域及Motif分析

对TT8蛋白保守结构域分析发现,所有成员均具有典型的bHLH-MYC_N结构域蛋白(PF14215),属于bHLH蛋白超家族,且含有双结构域(图3)。芸薹属作物TT8同源基因含有bHLH_SF superfamily结构域,而AT4G09820.1另含bHLH_AtTT8_like结构域。

图3 TT8蛋白结构域示意图Fig.3 Schematic representation of TT8 protein

利用MEME对TT8同源蛋白序列进行Motif预测分析发现,Motif数量与种类差异较小,拟南芥TT8基因AT4G09820.1不含有Motif8外,其余均与芸薹属作物TT8同源基因Motif相同(表2、图4)。

表2 TT8基因的Motif信息Table 2 Motif information of TT8 gene

图4 TT8蛋白Motif示意图Fig.4 Schematic representation of TT8 protein Motif

2.4 TT8蛋白3级结构分析

对TT8同源蛋白的三级结构进行预测,如图5展示:基础结构由α螺旋、无规则卷曲、β转角及延长链构成。所预测的蛋白三级结构模型,AT4G09820.1、BraA09g028560.3C、BnaC09g2487 0D、BnaA09g22810D、Bo9g086910.1这5个几乎一致,而BjuA034148与上述模型也极为相似,BjuB004115、BniB08g052890.2N.1则部分相似,进一步表明其系统发育关系紧密。

图5 TT8蛋白的三级结构预测Fig.5 Tertiary structure prediction of TT8 protein

2.5 染色体定位与共线性分析

通过系统进化树分析发现,甘蓝型油菜与其近缘物种白菜、甘蓝亲缘关系最近;对拟南芥、甘蓝型油菜及其近缘物种TT8同源基因,进行染色体定位与共线性分析(图6)。发现拟南芥的AT4G09820.1基因位于Chr4染色体,甘蓝型油菜及其近缘物种TT8同源基因均定位于基因组或亚基因组第9条染色体上;拟南芥、白菜、甘蓝与甘蓝型油菜之间,共6个基因对存在共线性关系,且分别各存在2个共线性基因对。研究认为,TT8基因在染色体间存在少量且相等的共线性基因对,基因组内部未见共线性关系,甘蓝型油菜BnTT8基因的产生,主要通过白菜、甘蓝的染色体间同源复制拷贝形成,整体数量较少,进一步说明,在异源四倍体甘蓝型油菜的基因组进化过程中,TT8基因具有高度的功能保守性。

图6 拟南芥、白菜、甘蓝与甘蓝型油菜TT8基因染色体定位及基因组间共线性分析Fig.6 Chromosome location and syntenic relationship of TT8 genes in A.thaliana,B.rapa, B.oleracea,and B.napus

2.6 TT8基因中高度保守的sgRNA序列

提交拟南芥TT8基因(At4g09820)到sgRNA在线网站分析,设计sgRNA共147条,可作为CRISPR/Cas9编辑的靶点(图7)。之后利用这147条AtTT8的sgRNA分别提交甘蓝型油菜、白菜、甘蓝、芥菜、黑芥CDS序列本地化数据库进行BLAST分析,其中4条sgRNA序列存在于所有7个TT8同源基因中,显示出高度的进化保守性,推测是TT8基因功能所必须的。

图7 拟南芥TT8基因的目标靶点区域Fig.7 The target region of TT8 gene in A.thaliana

根据基因在染色体上的相对位置(表3),深入分析发现这4条sgRNA均位于AtTT8第7个外显子上,对应bHLH结构域。后续选择这4条sgRNA序列位点作为芸薹属作物TT8基因CRISPR/Cas9编辑靶点,预期更易获得TT8基因功能缺失突变体。

表3 TT8基因目标靶点的选择Table 3 Selection of target of TT8 gene

2.7 甘蓝型油菜核心种质资源TT8基因的变异检测结果与多态性分析

甘蓝型油菜TT8同源基因:BnaA09g22810D和BnaC09g24870D,其全长分别为3668、2798 bp,基本结构均由5'UTR、7个外显子、6个内含子组成。基于云南农科院油菜中心收集到的43份核心种质资源的重测序数据,在甘蓝型油菜TT82个同源基因共检测到11个多态性位点(表4),且均位于5'UTR区,包括4个SNP和1个单碱基InDel、6个 多 碱 基InDel(DNA的 缺 失/插 入);其发生的总频率为0.00308,SNP与InDel出现的总频率分别为0.00109和0.00199;其中BnaA09g 22810D的SNP有4个,出现频率为0.00109,InDel有6个,出现频率为0.00163,而BnaC09g24870D仅存在1个InDel,出现频率为0.00036。在检测的4个SNP中,2个SNP发生了嘌呤与嘌呤间的转换,2个发生了嘧啶与嘌呤间的颠换,转换与颠换的发生频率相同。1个单碱基InDel位点以A碱基的插入,多碱基InDel位点以a:碱基序列为TA、b:碱基序列为GGAGAGGGAGAGGGAG、c:碱基序列为AG、d:碱基序列为AGAGAGAGAGAGAGA、e:碱基序列为CA,这5种类型的插入/缺失。多态性在甘蓝型油菜TT82个同源基因的各区域及基因间呈不均匀分布。

表4 43份核心种质资源中BnTT8序列多态性分布Table 4 Polymorphism of BnTT8 sequence in 43 coregermplasm resources

3 结论与讨论

十字花科芸薹属植物是油料作物的重要来源,其中甘蓝型油菜是世界第三大的油料作物,占总植物油产量的16%左右[34]。提升甘蓝型油菜含油量,不断优化菜籽油品质一直为研究热点;研究表明,油菜黄籽较黑籽的含油量与蛋白质比例更高。在十字花科作物中,TT8基因是参与种皮颜色调控的关键基因,该基因突变可造成功能丧失,形成透明或半透明种皮,这已在拟南芥[9]、白菜型油菜[16]及芥菜型油菜[17]中得到证实。因此,在芸薹属作物尤其是甘蓝型油菜中,TT8基因系统性的生物信息学分析,对解析TT8基因生物学功能及创新育种具有重要意义。

近年来,随着拟南芥和芸薹属作物全基因组数据库的建立,以及对部分基因家族鉴定与研究,为芸薹属作物TT8基因的生物信息学分析,奠定了扎实的数据与理论基础。本研究在芸薹属数据库中共鉴定出7个TT8同源拷贝,其基本理化性质分析发现,整体呈弱酸性且结构较不稳定;亚细胞定位均位于细胞核上,这与齐双慧[5]对BnTT8烟草叶片亚细胞定位实验结果相符。

bHLH蛋白是广泛存在于动植物转录因子中的一大超家族,在多种生物过程和组织发育中起着重要调控作用,该家族已在拟南芥、水稻、玉米(Zeamays)等[35-36]多种植物中得到鉴定与研究。前人研究认为,拟南芥TT8基因是bHLH转录因子超家族的成员之一,主要通过对bHLH蛋白合成进行调控,进而对种子发育及物质储藏产生重要影响[33]。白菜BrTT8基因编码bHLH结构蛋白,其蛋白序列在C端存在明显的bHLH信号[16]。本研究中,芸薹属作物TT8基因包含典型的bHLH保守结构域,其保守的bHLH结构域由碱性、第一螺旋、环和第二螺旋区域共同构成。保守元件发现,基因成员均含有相似的Motif和结构域,与Doebley等[37]发现来自同一拷贝的基因拥有相似的结构与保守Motif相一致;在BnCKX基因分析中也得到相同的结论[38]。

甘蓝型油菜2个TT8同源拷贝分别同白菜与甘蓝聚为一类,且均定位于第9条染色体上,其蛋白三级结构预测模型几乎一致,亲缘关系高度紧密。拟南芥、白菜、甘蓝与甘蓝型油菜基因组间共线性分析认为,TT8基因复制扩张程度较小,不存在基因丢失现象,这可能也是成员较少,基因保守程度较高的原因之一。此外,本研究分析获得4条sgRNA序列位点,可作为芸薹属作物TT8基因CRISPR/Cas9编辑靶点,预期更易获得TT8基因功能缺失突变体,为CRISPR/Cas9系统在芸薹属中应用提供一定的参考。

SNP是在植物全基因组中出现频率最高的遗传多态性[39]。本研究基于云南省农科院经济作物研究所对43份甘蓝型油菜材料的全基因组重测序数据,对TT8基因进行核苷酸多态性分析,共检测到11个多态性位点,包括4个SNP和1个单碱基InDel、6个多碱基InDel(DNA的缺失/插入);其发生的总频率为0.00308,SNP与InDel出现的总频率分别为0.00109和0.00199。与前人研究中的人类基因组SNP频率1/1000[40]相近,而远高于玉米的SNP频率1/57[41]及水稻的SNP频率1/154[42],表明植物全基因组中该基因的单核苷酸多态性较为单一匮乏。此外,SNP转换与颠换的发生频率相同,很有可能在进化过程中TT8基因高度保守,在自然条件下极难发生AC基因组上的同时突变,从而产生黄色性状。

总体而言,芸薹属TT8基因是bHLH转录因子超家族成员之一,含bHLH结构域,序列高度保守。本研究揭示芸薹属作物TT8基因进化保守位点与功能结构域,为利用CRISPR/Cas9对芸薹属特别是甘蓝型油菜的黄籽创新育种提供参考。

猜你喜欢
甘蓝型同源拟南芥
Bna-miR171g提高甘蓝型油菜耐渗透胁迫能力的功能鉴定
基于“乙癸同源”理论辨治股骨头缺血性坏死
通过CRISPR/Cas9技术突变BnMLO6基因提高甘蓝型油菜的抗病性
甘蓝型油菜白花基因InDel连锁标记开发
以同源词看《诗经》的训释三则
拟南芥栽培关键技术研究
以六倍体(AnAnCnCnCoCo)为桥梁创制抗旱新型甘蓝型油菜(AnArCnCo)
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
同源宾语的三大类型与七项注意
拟南芥