周 珂,刘乃新,于清涛,2
(1.黑龙江大学现代农业与生态环境学院,哈尔滨 150080; 2.哈尔滨市农业科学院,哈尔滨 150000)
植物的发育是一个非常复杂的过程。在这个过程中,DNA和蛋白质起着重要的作用。通过它们之间的相互作用,实现对基因表达的调控。众所周知,基因表达的调控主要发生在转录水平上,而在转录水平上与DNA相互作用的蛋白质分子中最多样化的是转录因子(TF)。转录因子通过激活许多与植物生长和发育有关的功能基因而发挥重要作用。通过与DNA结合或调节DNA结构,TF可以调节与逆境胁迫有关的基因的表达,从而控制植物的生物过程[1]。
NAC基因家族主要存在于植物中,它的名字来自于三个基因的缩写(矮牵牛的NAM,拟南芥的ATAF和CUC2)。无根尖分生组织(NAM)是在矮牵牛中发现的第一个特征化的NAC蛋白[2],而拟南芥转录激活因子(ATAF)和杯状子叶(CUC)是在拟南芥中发现的。NAC蛋白在N端有一个高度保守的NAC结构域[3]。NAC结构域由几个螺旋体组成,环绕着一个反向平行的B-折叠,它可以结合DNA和其他蛋白[4],转录因子的C端是转录激活功能区,其序列和功能具有多样性[5]。
目前,在拟南芥中已发现110多个NAC成员,在水稻中发现140多个NAC成员。以前的研究表明,NAC基因家族参与了植物发育和形态发生的各种过程,包括芽尖分生组织的形成[6]胚胎发育[7]花器官的形态发生[8],侧根的形成[9]叶衰老[10]和胁迫条件下的花器官诱导。NAC基因家族的成员还参与了细胞周期控制、激素信号转导等。[11]激素信号转导[12]和谷物营养物质的转运[13]。
此外,NAC基因家族还与植物抗性有关,如干旱[14],高盐[15]、低温[16]、机械损伤[17]和病毒感染[18]。
甜菜(Betavulgaris)是一种两年生草本植物,原产于欧洲西部和南部沿海地区,是甘蔗以外的主要糖源。根据联合国粮食及农业组织(FAO)的数据,全世界每年有30%的糖产量来自甜菜,它也是生物乙醇的重要来源。[19]天然色素[20]蔬菜[21]和动物饲料的重要来源。[22]近年来,越来越多的瑞士甜菜[23]栽培品种(红茎叶甜菜、红叶甜菜)作为观赏植物被广泛用于景观配置。
甜菜在生长发育过程中,容易受到各种生物和非生物胁迫的影响,严重影响甜菜的产量和观赏价值。本研究以甜菜全基因组为基础,鉴定了NAC家族的成员,并分析了其基因结构、染色体定位、亚细胞定位、蛋白质保守结构域和系统发育关系,为分析NAC转录因子的功能和构建抗逆调控网络奠定了基础。
甜菜基因组和注释文件数据下载自NCBI(https://www. ncbi.nlm.nih.gov/sra/?term=beta+vulgaris)。NAC基因家族保守结构包含有PF01849、PF02365(数据来自Pfam数据库),利用 HMMER3.0 软件(http://www.ebi.ac.uk/Tools/hmmer/)搜索甜菜蛋白序列,鉴定甜菜的PF01849、PF02365的 NAC 候选基因。候选基因再利用保守结构域预测网站Pfam (http://pfam.xfam.org/)和CDD (http://www.ncbi.nlm.nih.gov/cdd/)进行检测,保留完整的结构域的作为NAC基因。利用 ProtParam (http://web.expasy.org/protp-aram/)分析NAC基因的氨基酸长度、分子质量、理论等电点进行分析。
引入拟南芥 NAC 基因家族对甜菜NAC基因进行亚组分类,拟南芥 NAC 蛋白序列下载于arabidopsis网站 (http://www.arabidopsis.org/)。将筛选得到的甜菜 NAC 蛋白序列进行进化树分析,利用 Clustalx2.0 软件进行多序列比对,再通过进化树分析软件 MEGA5.2根据NJ方法构建系统进化树(参数设置: P-distance, pairwise deletion, bootstrap (1 000 次重复))
使用MEME程序(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)对甜菜的motif进行识别。主要参数Motif的最大数量是15。
甜菜 NAC 基因的内含子、外显子和基因组定位信息均下载于NCBI数据库甜菜注释文件。利用在线软件 GSDS2.0(http://gsds.cbi.pku.edu.cn/) 对 NAC 的内含子和外显子结构进行分析和整理;利用R包chromPlot对NAC基因进行染色体定位。利用软件MCscanX对 NAC 基因进行片段复制和串联复制分析。
从NCBI下载甜菜逆境的转录组数据, ID PRJNA254489。使用软件solexQA 对下载的数据进行质量控制,使用软件Tophat2进行比对并使用Cufflink计算表达量, 使用R包pheatmap进行候选基因的可视化。
前人研究报道,NAC基因可能受miR164调控。根据 miR164 靶序列(TGCACGTGCCCTGCTTCTCCA) ,在筛选得到的 52 个候选甜菜 NAC 转录因子相应的核苷酸序列中使用 BLAST在线联配工具,预测潜在的miR164的靶标。
通过 NCBI数据库下载甜菜基因组及蛋白序列,根据 NAC 保守域序列号 PF01849、PF02365(Pfam数据库),利用 HMMER3.0 软件检索甜菜的氨基酸序列。再利用保守结构域预测网站 Pfam和 CDD对候选序列进行筛选鉴定。通过以上筛选获得 87个NAC候选基因,5个含有NAC结构域,82个为NAM结构域。去除掉可变剪切和位于scaffold上的NAC基因,一共获得52个甜菜NAC基因。利用 ExPASy 提供的在线软件 ProtParam (http://web.expasy.org/protp-aram/)对候选成员氨基酸序列进行一级结构预测结果见表1。
表1 β硫化物中NAC基因的数量和特性
续表1
引入已知类型的拟南芥 NAC 蛋白序列,构建 BvNAC的进化树。通过已知拟南芥 NAC 蛋白的类型指导 BvNAC 蛋白的分组。进化树结果显示,BvNAC 蛋白序列可分为 18 个亚族(图 2)。各亚族成员数量分布差异很大,其中Ⅻ亚族的Bv NAC 转录因子成员最多为 28 个,而Ⅸ和Ⅹ亚族成员均只有一个。其中的Ⅻ亚族与拟南芥并没有相聚成簇。
图1 Beta vulgaris和拟南芥的NAC基因的系统发育树
利用在线MEME软件对甜菜 NAC 的 NAC 结构域进行分析,结果发现甜菜 NAC 转录因子的 NAC 保守结构域是高度保守的(图2)。NAC 保守结构域中包含 15个亚结构域,其中 A、C、D 亚结构域保守性高,B 和 E 保守性低。由于亚族Ⅲ、Ⅵ、Ⅷ、Ⅸ、Ⅹ的成员较少无法使用 Web Logo 软件构建该组的全序列标签,所以没有列出。甜菜 NAC 转录因子Ⅰ、Ⅴ、Ⅺ亚族成员的保守性最高,而Ⅻ亚族成员保守性最低(图2)。
图2 甜菜NAC 转录因子motif结构分布
甜菜 NAC 基因的内含子、外显子和基因组定位信息均下载于 NCBI数据库。利用在线软件 GSDS2.0(http://gsds.cbi.pku.edu.cn/)对 NAC 的内含子和外显子结构进行分析和整理(图3)。甜菜 NAC 转录因子家族成员主要由 1~7 个外显子组成,其中Ⅻ亚族大多数成员只含有一个外显子,这可能与其是甜菜特有的一类 NAC 转录因子有关。
图3 甜菜 NAC 转录因子家族染色体定位和数量分布
利用R包chromPlot制作 NAC 的染色体定位分布图,并对 NAC 基因进行片段复制和串联复制分析。本实验筛选出的 52 个甜菜 NAC 基因不均匀的分布于 9 条染色体上,6 号染色体上分布最多,为11 个;其次是 1 号染色体,为 10 个;7 号染色体分布最少,只有 1 个(图5B)。同时,对甜菜 NAC 转录因子基因进行片段复制和串联复制检测。多个甜菜 NAC 转录因子基因处于甜菜基因组复制事件区域,其中没有基因经历了片段复制, 6个基因经历了串联复制,占基因总数的 11.5%(图5A)。可见,甜菜 NAC 基因家族以串联复制0为主要扩增方式。
根据 miR164靶序列(TGCACGTGCCCTGCTTCTCCA)与筛选得到的 52 个候选甜菜 NAC 转录因子相应的核苷酸序列,利用 BLAST工具对 miR164 靶序列的定位分析,选取e-value小于 0.009的序列。结果表明,在 52 个甜菜 NAC 转录因子中有1 个 NAC 转录因子成员(BvNAC30)的核苷酸序列具有 miR164 靶序列识别位点。
本研究通过生物信息学方法筛选出了52条甜菜NAC转录因子,并对其构建了进化树、 分析了蛋白质保守结构域、染色体上进行了定位和 mi R164 靶序列定位,这些研究结果将为以后 利用基因工程技术创制甜菜新种质提供优异基因资源做准备。