豆科植物IPI基因密码子偏好性

2022-06-29 00:40蒋瑞平赵辰晖李文杰安秋菊李佳伦周嘉裕李遂焰
浙江农业学报 2022年6期
关键词:拟南芥聚类烟草

蒋瑞平,赵辰晖,李文杰,安秋菊,李佳伦,周嘉裕,李遂焰,廖 海

(西南交通大学 生命科学与工程学院,四川 成都 610031)

萜类物质是由异戊二烯及其衍生物连接而成的一类次生代谢产物,广泛存在于植物界。以赤霉素、脱落酸、类胡萝卜素与叶绿素等为代表的萜类物质,在调节植物生长发育、响应外界环境变化、抵御病原微生物和病虫侵害等过程发挥重要作用。以人参皂苷、紫杉醇、丹参酮与青蒿素等为代表的萜类物质具有提高免疫力、抗肿瘤、促进活血化瘀与抗疟疾等重要的药用活性,受到科研人员的广泛关注。植物萜类成分主要通过甲羟戊酸(MVA)途径和赤藓糖(MEP)途径合成,二者交汇于由异戊烯基焦磷酸异构酶(IPI)催化的异戊烯焦磷酸(isopentenyl pyrophosphate,IPP)异构化形成二甲基丙烯基焦磷酸(dimethylallyl pyrophosphate,DMAPP)的可逆反应。IPI是MVA和MEP途径的关键酶之一,调控中间代谢产物的合成方向与速率。Okada等构建的1-2缺失突变体在长日照条件下表现出侏儒症和雄性不育,与野生型拟南芥相比,突变体中甾醇和泛醌含量低于50%。反之,提高基因的表达能够增加下游萜类物质的合成。例如,Sun等通过控制光强提高的表达效率,导致类胡萝卜素富集于红球藻的细胞质中而呈现深红色。Kajiwara等将酵母和绿藻的基因分别转入含有、、与基因的大肠埃希菌中过表达,能够明显提高类胡萝卜素的含量。赵惠娟成功构建并鉴定了紫苜蓿转基因烟草,为基因在植物表达载体中的功能检测奠定基础。以上研究结果表明,提高基因的表达效率,将明显增加下游萜类物质产率,因此,提高基因的表达效率是开展植物萜类代谢工程的重要途径。

已有研究表明,密码子偏好性是影响基因表达效率的关键因素之一。生物体中同义密码子的非均衡使用称为密码子偏好性。不同种属的生物偏好使用的密码子不同,甚至同一物种不同功能和保守性的基因也具有不同的密码子偏好性。研究显示,通过优化密码子可提高基因的表达效率,如陈徵婷等根据大肠埃希菌密码子偏好性,优化基因序列,使其在大肠埃希菌中的表达量提高了2.2~3.8倍。豆科植物含有多种萜类物质,例如甘草酸、三萜皂苷、环菠萝蜜烷三萜。本研究收集了25种豆科植物、5种除豆科外的双子叶植物、烟草和拟南芥来源的32条基因,分析其碱基组成、同义密码子偏好性与影响因素,确定豆科植物偏好使用的最优密码子,并与6种模式生物相比较,确定适宜豆科基因外源表达的潜在宿主,为豆科植物的基因工程研究提供理论支撑。

1 材料与方法

1.1 序列来源

决明()的基因序列来源于实验室前期获得的决明转录组数据,登录号为SRP144670。其余31种植物的基因来源于NCBI数据库,具体信息如表1所示。

1.2 方法

1.2.1基因同义密码子偏好性分析

通过Codon W分析获取相对密码子使用度(relative synonymous codon usage,RSCU)、密码子适应指数(codon adaptation index,CAI)、同义密码子GC含量(GC)与第3位碱基含量(GC3s,T3s,C3s,A3s,G3s)。通过CUSP获得密码子使用频率,CHIPS获得基因有效密码子数(effective number of codons,ENc)。其中,CAI为使用最优密码子编码蛋白时该基因的适应指数,介于0~1,密码子偏好程度越低,其CAI值越趋于0。ENc介于20~61,其值越小,表明密码子偏好性强,反之,密码子偏好性较低。

1.2.2 ENc-GC3s绘图分析

1.2.3 PR2-plot偏倚分析

PR2 (Parity Rule 2)规则是碱基组成的一个规则,当DNA的两条互补链没有突变和选择的偏倚,则该基因其中一条链的碱基含量为A=T、C=G,否则偏好可能受自然选择及其他因素影响。分别以25种豆科植物基因的G3/(G3+C3)值与A3/(A3+T3)值作为横坐标和纵坐标,形成25个坐标点,以它们到达中心点(0.5,0.5)的矢量值计算基因的奇偶偏好。

1.2.4 基于RSCU和CDS的聚类分析

去除3种终止密码子与RSCU=1的密码子,以剩余59种密码子的RSCU值于SPSS 26软件进行聚类分析,聚类方式采用组间联接,基因间的距离规定为RSCU值的平方欧式距离。

利用MEGA软件采用最大似然法(Maximum Likelihood Tree)构建基于32个物种基因CDS序列的系统发育树。序列比对完成后人工去掉Gaps,经自举法(Bootstrap method)检验1 000次后输出进化树。

1.2.5 豆科植物基因的最优密码子分析

根据ENc值对25种豆科植物基因进行排序,分别选取ENc值最小和最大各5个基因建立低表达基因库和高表达基因库。Codon W分析计算得到2个表达库的RSCU值,分别记作RSCU和RSCU,以RSCU-RSCU得到△RSCU值。将RSCU>1且△RSCU≥0.08的密码子视为最优密码子。

1.2.6 豆科植物基因的外源表达宿主确定

在1.2.1节中得到豆科植物基因的密码子使用频率,通过Kazusa数据库获得大肠埃希菌、酿酒酵母、烟草、拟南芥、水稻、玉米基因组的密码子使用频率,将豆科植物基因的ENc与6种模式生物基因组的ENc相比较,以确定适合的外源表达宿主。

图1 豆科植物IPI密码子偏好性聚类热图

2 结果与分析

2.1 同义密码子偏好性

豆科植物基因偏好使用(RSCU值>1)的密码子有6个,分别是UUC、UUG、CUU、AUU、UCU与CCU,其中4个密码子以U结尾。UCU(RSCU=3.05)、AUU(RSCU=2.23)是豆科植物偏好性最强的2个密码子。AUG和UGG无密码子偏好性(RSCU=1),UGA、CCG、AUA等12个密码子偏好性极低(RSCU<1)。

2.2 密码子组成特征

如表1所示,25种豆科植物基因的ENc值为46.69~55.00,平均值为50.57,密码子偏好性整体偏低(ENc>35)。CAI广泛应用于评估基因表达水平,25种豆科植物基因的CAI介于0.23~0.27,平均值0.26,CAI值整体偏低,推测的表达水平偏低。25种豆科植物基因的GC3s为0.416~0.503,除落花生2(0.503)外,其余均小于0.5,GC含量为0.437~0.482,小于0.5,表明豆科植物偏好使用AU并以AU结尾。

表1 三十二个物种IPI基因的登录号、ENc、CAI、GC3s、GC含量

2.3 ENc-GC3s绘图分析

ENc-GC3s分析显示(图2),所有分布点均落在标准曲线的下方,且距离较远。统计发现25个豆科植物基因的ENc比值的绝对值均大于0.05,说明基因的密码子使用偏好性主要受到自然选择等因素的影响。

GC3s,第3位同义密码子上G和C的含量。

2.4 PR2-plot分析

PR2-plot分析(图3)显示,所有的点都偏离中心点(0.5,0.5),存在第三位密码使用偏好。以A/T为例,所有分布点均位于A3/(A3+T3)<0.5区域,表明25个豆科植物的基因更偏好使用碱基U,而非A作为第三位密码。以G/C为例,除相思子、大豆1、野大豆2、紫苜蓿、赤豆与膜荚黄芪,其余豆科植物的分布点位于G3/(G3+C3)<0.5区域,偏好使用碱基C为第三位密码。

图3 豆科植物IPI基因PR2-plot偏倚分析

2.5 基于RSCU和CDS的聚类分析

基于SPSS的系统聚类分析得到32个物种基因的RSCU聚类图(图4),32个物种在等级结合线=25处分成3支,其中小粒咖啡单独为一支,长春花、胡桃、木槿聚为一支,日本杜鹃、烟草、拟南芥同25种豆科植物聚为一大支,表明豆科植物与日本杜鹃、烟草、拟南芥的密码子使用模式较为相近。

图4 三十二个物种IPI基因的RSCU聚类分析

基于CDS序列的系统发育树(图5)显示,原始花被亚纲(胡桃除外)和合瓣花亚纲植物形成两个分支。原始花被亚纲分支中,25种豆科植物聚为一个单系群(Bootstrap=88),在豆科分支中,含羞草亚科的阿根廷牧豆树同云实亚科的决明聚为一支(Bootstrap=81),其余23种蝶形花亚科植物聚为一支(Bootstrap=33),表明基于CDS序列的系统发育树能够更好地反映物种间的亲缘关系。该聚类结果与基于密码子偏好性的聚类分析结果不完全相同,表明密码子偏好性与亲缘关系并非绝对一致。

图5 三十二个物种IPI的系统进化树分析

2.6 豆科植物IPI最优密码子

根据最优密码子判定的条件,RSCU>1且ΔRSCU≥0.08,筛选出豆科植物中8个优势密码子(表2),分别是CUG、AUU、GUG、UCC、GAU、CGC、AGA、GGU,其中,以A、U、C与G结尾的密码子分别有1、3、2与2个。值得注意的是,ΔRSCU>0.5的密码子有2个,CUG(ΔRSCU=0.698)和GGU(ΔRSCU=0.942),它们以碱基G和U作为结尾。

表2 豆科植物IPI基因最优密码子分析

2.7 豆科植物IPI基因的外源表达宿主确定

若外源基因与宿主基因组之间的密码子使用频率比值介于0.5~2.0,表明二者密码子使用模式比较接近。与大肠埃希菌、酿酒酵母、烟草、拟南芥、水稻、玉米相比较,25个豆科植物基因的密码子使用频率介于0.5~2.0的密码子数分别为43、40、44、44、41、40,表明相较于酿酒酵母,大肠埃希菌更适合作为豆科植物基因的微生物表达宿主,相较于水稻和玉米,烟草和拟南芥更适合作为豆科基因的植物表达宿主,若选择水稻和玉米为遗传转化受体,需根据这两种粮食作物的密码子偏好性对豆科植物基因进行密码子优化。

3 结论与讨论

豆科植物基因偏好使用的密码子(RSCU>1)有6个,其中,UCU(RSCU=3.05)和AUU(RSCU=2.23)为偏好性最强的密码子。已有报道表明,同属MEP途径的基因对AGA与AGG有较强的偏好性(RSCU>2),而基因中偏好性最强的密码子为AGA(RSCU=3.60)与UCU(RSCU=2.17)。、与基因中偏好性最强的密码子有部分重叠,但它们仍然具有各自独特的偏好性密码子,表明来源于相同代谢途径的不同基因在进化上可能受到不同的选择压力,并且也强调了对不同基因开展密码子偏好性分析的必要性。最优密码子分析结果表明,豆科植物有8个优势密码子,其中最优密码子是GGU,以上密码子均可以作为基因密码子优化改造的重要组成部分。豆科植物的ENc值介于46.69~55.00,表明豆科植物的基因表达水平整体较低,推测提高基因的表达强度能够明显增加下游萜类物质的产量,例如,杨帆等在大肠埃希菌中过表达黏细菌基因,与未转化的对照菌株相比,该菌株番茄红素产量最高提高了约2倍。豆科植物基因的密码子更偏好以A/U结尾(GC3s<0.5,落花生2除外),且GC含量低(GC<0.5),该结果与Kawabe等的分析类似,即双子叶植物基因的密码子大多以A/U结尾,且双子叶植物的整体GC含量低于单子叶植物。

ENc-plot和PR2-plot分析均显示,豆科植物基因密码子偏好性的形成主要源于自然选择,这与MEP途径的、基因的密码子使用偏好性主要受到纯化选择的影响不同,推测来自同一途径的基因其密码子偏好性的形成受到不同选择压力的作用。这一结果与最优密码子的结果相类似。相较于基于RSCU值的聚类树,基于CDS序列的系统进化树能够更准确反映植物间的亲缘关系,例如,烟草、拟南芥分别为茄科与十字花科植物,它们在系统进化树上与25种豆科植物未聚为一支,而在基于RSCU值的聚类树中,两种植物与豆科植物聚为一个分支。类似结果也出现在赵春丽等对苋菜基因的RSCU和CDS聚类分析中。另一方面,RSCU值聚类与基因CDS序列进化树的结果又有一定的相似性,表明密码子偏好性受到了多种因素的影响,其聚类分析可以作为基因CDS聚类分析的补充。将两种聚类结果相结合,能更准确反映物种真实系统分类和亲缘关系。

RSCU聚类中,烟草、拟南芥与豆科植物具有相近的密码子使用模式,表明两者均可作为豆科植物基因的适宜外源表达宿主。通过与烟草、拟南芥等4种模式生物的密码子使用频率对比,确定大肠埃希菌、烟草、拟南芥均适合作为豆科基因的外源表达系统,这也验证了聚类树的分析结果。本文所获结果为基因的密码子优化改造和开展植物萜类代谢工程奠定了重要的理论基础。

猜你喜欢
拟南芥聚类烟草
基于数据降维与聚类的车联网数据分析应用
烟草产品展厅设计
基于模糊聚类和支持向量回归的成绩预测
基于密度的自适应搜索增量聚类法
一地烟草,半世孤独
拟南芥
口水暴露了身份
全国首次青少年烟草调查
一株特立独行的草