重叠基因在异源蛋白表达中的新应用

2022-12-17 02:40逯晓云卢丽娜张娟琨江会锋
生物学杂志 2022年6期
关键词:清样密码子突变体

彭 凯, 逯晓云, 卢丽娜, 张娟琨, 江会锋

(1. 天津科技大学 生物工程学院, 天津 300457; 2. 中国科学院天津工业生物技术研究所系统微生物工程重点实验室, 天津 300308)

蛋白质是生命体关键的功能大分子,在生长快速、基因工程技术成熟的大肠杆菌中表达异源基因,已成为获取或研究异源蛋白最简单的方式。但异源表达中常见的低表达和可溶性的问题限制了基因异源宿主中的再利用,也阻碍了生物蛋白在生物催化、生物制药和临床检测方面的推广和应用[1]。

从DNA水平到转录调控,从翻译过程到外界环境,分子伴侣或助溶性标签都会影响大肠杆菌表达系统高效表达异源蛋白[2-3]。常用的对复制起始位点(origin of replication,ori)、启动子、核糖体结合位点(ribosome binding site,RBS)、蛋白融合标签、分子伴侣和基因的组成及结构等因素的调控策略也有助于异源基因的正常表达(图1)。其中针对翻译过程中mRNA组成与结构的研究最为深入[4-6]。mRNA遗传密码子在定义蛋白质氨基酸序列的同时,还包含着影响翻译速率和效率的信息[7]。密码子作为mRNA的基本功能结构,其生物性约束将影响翻译的全过程。但现有的密码子介导的蛋白表达调控机制并未得到明析的理解[8-10]。mRNA的二级结构作为另一种基本结构,其空间物理约束强烈影响翻译过程速率。研究表明mRNA的+1~+100 nt区域的结构对细菌翻译起始的影响很大,改变这一段序列的结构会对蛋白表达水平产生显著影响[11-13]。

图1 基因表达调控策略Figure 1 Gene expression regulation strategy

重叠基因(overlapping genes,OG)是指两个或两个以上的基因共用一段完全相同的DNA序列[14]。基因可多种方式重叠,形成的共用序列通过不同的读取方式对多个基因产物作出贡献,可有效提高遗传物质的编码能力,也会对发生偶联的基因的转录和翻译过程产生重要影响[15]。

共用DNA序列长的重叠基因,特异性强,难以再利用。但当两个基因以单碱基对重叠时,即前一个基因的终止密码子(TGA)和后一个基因的起始密码子(ATG)仅共用一对碱基,形成TGATG重叠形式,则可被再利用于蛋白表达调控。这种形式转录出的mRNA上,包含了两个重叠的阅读框。核糖体在前一个终止密码子处完成阅读框的翻译后,不会立即完全解开游离,而是经过终止-重新初始化过程,重新开始读取下一个起始密码子[16]。使这两个仅共用一个碱基对的基因产物将被分开翻译出来(图2)。

图2 TGATG重叠类型Figure 2 TGATG overlap type

基于原核生物边转录-边翻译-边折叠的多聚核糖体表达模式[17-18],我们将这种终止-重起始过程引入到大肠杆菌异源蛋白表达质粒中,融合mRNA的5′-端序列变化(密码子简并性允许在氨基酸不变的情况下,通过对mRNA的5′-端区域进行同义密码子替换,来改变mRNA的二级结构),探索重叠基因强度变化对异源蛋白表达量和可溶性的影响。

1 材料与方法

1.1 材料

1.1.1 菌株、质粒和基因

大肠杆菌BL21(DE3)感受态细胞购自TransGen Biotech公司;pET-28a (+)质粒和候选基因FLS(Formolase)、GAOA[Galactose oxidase(Gibberellazeae)]、PPK[Polyphosphate kinase (Klebsiellapneumoniae)]和HACL[2-hydroxyacyl-CoA lyase (Homosapiens)]均来自本实验室基因库。

1.1.2 主要工具酶和试剂盒

高保真DNA聚合酶PrimerSTAR Max DNA Polymerase购自TaKaRa公司;无缝克隆试剂盒Minerva Super Fusion Cloning Kit购自天津百倍生物科技有限公司。

1.1.3 培养基与缓冲液试剂

LB液体培养基,LB固体培养基, 2×YT培养基;1×TAE电泳缓冲液,1×Tris-Glycine蛋白电泳缓冲液,SDS-PAGE染色液。

1.2 方法

1.2.1 试验设计

选取实验室基因库中存在表达问题的候选基因。2个低表达的基因FLS(59 ku)、GAOA(68.5 ku),3个不可溶表达的基因FLS(wild type,wt低表达)、PPK(80.4 ku)、HACL(61 ku)。根据试验设计,在各基因起始密码子之后的连续13个密码子上设计简并引物。利用简并引物向基因上引入同义突变,基因与载体片段的融合基于Minerva Super Fusion Cloning Kit的方法。将构建好的表达载体pET-28a-Gene转入BL21(DE3)感受态细胞内,建立筛选库。

1.2.2 mRNA的5′-端序列优化设计

验证基因mRNA的5′-端约100 nt区域对蛋白表达的影响。选取已知的低表达基因FLS、GAOA,设计简并引物,如图3,构建5′-端序列优化筛选库。

图3 同义突变设计Figure 3 Synonymous mutation design

FLS、GAOA的5′-端简并引物设计:FLS上游引物:5′-CGCGCGGCAGCCATATGGCNATGATHACNGGNGG-NGARCTNGTNGTNCGNACNCTNATT-AAAGCTGGCGTAGAAC-3′。

GAOA上游引物:5′-AGAAGGAGATATACCATGGCNTCNGCNCCNATHGGNAGYGCNATHAGYCGNAAY-AAYTGGGCAGTTACCTGTGAT-3′。

1.2.3 重叠基因结构设计

验证重叠基因结构对蛋白表达的影响。不可溶表达基因FLS(wt低表达)、PPK、HACL,保留pET-28a载体上表达框5′-端His-Tag和thrombin site的DNA序列,在基因起始密码子前引入两个碱基TG,形成TGATG共用碱基A的重叠基因形式,设计简并引物,如图4,构建表达载体pET-28a-Gene(OG),建立mRNA的5′-端重叠基因结构筛选库。

图4 重叠基因结构设计Figure 4 Overlapping gene structure design

FLS(OG)、PPK(OG)、HACL(OG)的5′-端重叠基因结构筛选引物设计。FLS(OG)上游引物:5′-CGCGCG-GCAGCCATTGATGGCNATGATHACNGGNGGNGARCT-NGTNGTNCGNACNCTNATTAAAGCTGGCGTAGAAC-3′。

PPK(OG)上游引物:5′-CGCGCGGCAGCCATTGATGGGNCARGARAARCTNTAYATHGARAARGARCT-NTCNTGGCTGTCTTTCAACGAACG-3′。

HACL(OG)上游引物:5′-GCGCGGCAGCCATTGATGCCNGAYTCNAAYTTYGCNGARCGNTCYGARGA-RCARGTNTCTGGTGCTAAAGTTATCGCTC-3′。

1.2.4 表达量差异分析

(1) 单克隆挑取及诱导表达。挑取单克隆(10~20个单克隆),转至有2×YT培养基(Kan+,100 μg/mL)的24孔板或无菌EP管内,37 ℃摇床培养,作为种子液。再转接到试管,37 ℃,220 r/min,培养至OD600为0.8左右,加入终浓度为0.5 mmol/L IPTG诱导蛋白表达,17 ℃,220 r/min,诱导14~16 h。测量各菌株收集时的OD600,离心收菌,PBS重悬,控制各样品的终OD600一致(OD600=15~20)。

(2) SDS-PAGE胶检测。制全细胞的SDS-PAGE样品,保持上样量相同,通过SDS-PAGE胶检测目的蛋白表达量。将电泳完成的胶,经染色和脱色处理后,使用凝胶成像仪拍摄保存胶图。

(3) 通过Image J 软件分析SDS-PAGE胶中目标蛋白灰度,并使用内参蛋白GAPDH(Glyceraldehyde-3-phosphate dehydrogenase,35 ku)做归一化处理,计算相对表达量。

2 结果与分析

2.1 mRNA的5′-端序列变化对蛋白表达的影响

2.1.1 mRNA的5′-端序列变化对表达量的影响

原核生物的边转录-边翻译表达模式表明,mRNA的5′-端起始密码子附近区域的结构会影响翻译起始过程。若这段区域内同义突变点越多,其变化多样性幅度就越高。针对DNA序列,通过引物设计,在低表达基因FLS和GAOA上各自突变部分区域,覆盖约100 nt区域,验证mRNA的5′-端区域对蛋白表达的影响。随机挑选少量克隆,培养,诱导表达,全细胞制样,SDS-PAGE检测其表达变化,如图5。突变体测序,FLS突变体序列见表1,GAOA突变体序列见表2。

(a)FLS突变库的SDS-PAGE分析(1~12:FLS突变菌株的全细胞样);(b)GAOA突变库的SDS-PAGE分析(1~12:GAOA突变菌株的全细胞样)。M: Protein Marker;C0:相应含pET-28a-Gene (wt)未经IPTG诱导的全细胞样;C1:相应含pET-28a-Gene (wt)的全细胞样。图5 突变体文库的SDS-PAGE分析Figure 5 SDS-PAGE analysis of mutant library

表1 FLS前14个氨基酸的密码子优化

表2 GAOA前14个氨基酸的密码子优化

分析胶图,对低表达基因FLS和GAOA,大部分同义突变体相较于野生型(wt),表达量均有明显提高,且呈现出一定的波动。表明mRNA的5′-端100 nt区域范围内的序列变化,都会强烈影响基因的表达水平。分析测序结果,表达量的变化与密码子的使用并无明显相关性,更可能与mRNA的5′-端的二级结构、GC含量相关。

2.1.2 mRNA的5′-端序列变化对可溶性的影响

挑选FLS、GAOA中表达量较高的菌株进行简单的可溶性验证,200 mL体系诱导表达后,经高压匀浆机破碎细胞后,离心,取上清液制样,SDS-PAGE胶检测其表达变化。简单观察发现FLS上清样中几乎没有可溶性蛋白,而GAOA的上清样中有可溶性蛋白,如图6。

(a)FLS突变体可溶性表达分析 [M: Protein Marker;C1:FLS (wt)的全细胞样;C2:FLS (wt)细胞破碎上清样;1:FLS (7)的全细胞样;2:FLS (7)细胞破碎上清样]。(b)GAOA突变体可溶性表达分析[M: Protein Marker;1:GAOA(11)的全细胞样;2:GAOA(11)细胞破碎上清样;3、4:经Ni-NTA纯化后的GAOA 蛋白样]。图6 FLS和GAOA突变体的可溶性表达分析Figure 6 Soluble expression analysis of FLS and GAOA mutants

蛋白质可溶性表达形成空间结构的过程主要由细胞质的环境条件(折叠环境)和翻译速率两个因素控制[19]。如大肠杆菌的细胞质环境呈现还原性,不利于蛋白二硫键的形成和稳定,产生包涵体。此外,大肠杆菌中可溶性蛋白的产率主要取决于蛋白的合成速率和蛋白的折叠速率。FLS不可溶表达的原因可能与表达速率过快有关,减慢翻译速率将有助于蛋白的可溶性表达。

2.2 重叠基因结构对蛋白表达的影响

2.2.1 重叠基因结构对蛋白表达量的影响

经初步的试验验证,发现单碱基重叠的两个基因并不是以等量偶联翻译的。一些序列形成的单碱基重叠,后一个基因可能无法表达,说明重叠区域的结构会影响核糖体终止-重新初始化过程,调控基因的翻译过程。融合重叠基因结构和mRNA的5′-端序列优化,形成基于重叠基因结构强度的翻译调控方法,可能有助于蛋白的可溶性表达。将pET-28a的5′-端标签序列作为重叠基因的一部分片段,在基因FLS、PPK、HACL的起始密码子前引入两个碱基TG形成重叠基因结构,通过引物设计,构建FLS(OG)、PPK(OG)、HACL(OG) 重叠基因结构强度筛选库。随机挑选少量克隆,培养,诱导表达,全细胞制样,SDS-PAGE检测其蛋白量变化,如图7。突变体测序,FLS(OG)突变体序列见表3,PPK(OG)突变体序列见表4、HACL(OG)突变体序列见表5。

表3 FLS(OG)重叠基因结构筛选

2.2.2 重叠基因结构对蛋白可溶性的影响

重叠基因结构筛选结果表明,发生重叠的基因,其表达量与重叠基因结构强度有关。挑选FLS(OG)、PPK(OG)、HACL(OG)中表达量较高的菌株进行可溶性验证,200 mL体系诱导表达后,经高压匀浆机破碎细胞后,离心,制样,经SDS-PAGE胶检测,如图8,发现其中FLS(OG)、PPK(OG)可溶性表达有显著提高,而HACL(OG)上清样中无明显可溶性蛋白。

(a)FLS(OG)突变体可溶性表达分析[M: Protein Marker;C1:FLS(OG-wt)细胞破碎上清样;1:FLS(OG-1)全细胞样;2:FLS(OG-2)细胞破碎上清样;3:FLS(OG-9)细胞破碎上清样]。(b)PPK(OG)突变体可溶性表达分析 [M: Protein Marker;C0:PPK(OG-wt)未经IPTG诱导的全细胞样;C1:PPK(OG-1)的全细胞样;1: PPK(OG-2)细胞破碎上清样;2:PPK(OG-2)细胞破碎沉淀样;3:PPK(OG-13)细胞破碎上清样;4:PPK(OG-13)细胞破碎沉淀样]。(c)HACL(OG)突变体可溶性表达分析 [M: Protein Marker;C0:HACL(OG-wt)未经IPTG诱导的全细胞样;C1:HACL(OG-1)的全细胞样;1:HACL(OG-9)细胞破碎上清样;2:HACL(OG-9)细胞破碎沉淀样;3:HACL(OG-12)细胞破碎上清样;4:HACL(OG-12)细胞破碎沉淀样]。图8 重叠基因对蛋白可溶性表达的影响Figure 8 The effect of overlapping genes on the soluble expressionof protein

利用重叠基因结构强度筛选的策略,筛选FLS高表达可溶性突变体,将在大肠杆菌中FLS的可溶性表达量提高了近6倍,如图9,突变体序列见表6。利用FLS通过全细胞催化将乙醛缩合成乙偶姻,再通过化学法将乙偶姻转化为川芎嗪(2,3,5,6-四甲基吡嗪,TMP)。优化反应条件后,乙偶姻和川芎嗪的滴度分别达到222 g/L和94 g/L,乙醛的转化率分别为86.5%和48%,这是已知TMP报道的最高产量[20]。

3 讨论与结论

利用mRNA的5′-端序列优化的方法成功提高了低表达基因的蛋白表达量。在低表达基因FLS和GAOA的+1~+100 nt序列内的两个不同区域引入同义突变,对其突变体的蛋白表达结果分析发现其表达量均发生了大幅度变化,证明了mRNA的5′-端约100 nt序列的不同区域的变化均能强烈影响蛋白的表达水平。

(a)FLS突变体可溶性表达分析[M: Protein Marker; C1:FLS(wt)细胞破碎上清样;C2:FLS(OG-wt) 细胞破碎上清样;1:FLS(a)细胞破碎上清样;2:FLS(OG-a)细胞破碎上清样;3:FLS(b)细胞破碎上清样;4:FLS(OG-b)细胞破碎上清样]。(b)使用Image J分析的相对表达量。图9 FLS可溶性表达量差异分析Figure 9 Analysis of the difference in the soluble expression of FLS

表6 FLS重叠基因结构筛选

试验设计在优化基因的5′-端序列使mRNA的二级结构和密码子适应性同时发生了改变,从组成与结构的关系来看,这两个因素既有联系又有区别。在分析突变体序列与表达量变化的关系时,采用RNAfold web Server计算GAOA突变体mRNA的最小自由能[分析序列为5′-UTR(untranslated region) + AUG +同义突变部分,其中5′-UTR序列是AGAAGGAGAUAUCAU],并对照标准E.coli密码子使用表统计GAOA同义突变部分使用频率低于10%密码子的个数。分析发现,低表达的GAOA-C1 (-67.36 kJ/mol,0)和GAOA-8 (-35.15 kJ/mol,5),高表达的GAOA-2 (-40.58 kJ/mol,3)、 GAOA-11 (-32.22 kJ/mol,5)和GAOA-12 (-60.67 kJ/mol,3),如果分析这5个突变体的密码子使用或mRNA的5′-端自由能来确定决定性表达量的影响因素,无论是改变最小自由能还是密码子使用频率,其与表达量关系的结论都是矛盾和混乱的。对这样相互影响的变量的分析,更为深入的结论则需要从大样本的统计学上进一步研究。

通过在翻译过程中引入重叠基因结构,成功提高了FLS和PPK基因的可溶性表达量,证明重叠基因在调控蛋白可溶性表达中的作用。其中对FLS的表达优化结果也应用到了川芎嗪的合成中。我们也观察到,HACL基因在重叠基因结构调控下,可溶性并未增加。

针对异源基因表达,重叠结构在调控可溶性上并未显示出高通用性。对重叠基因结构的设计,我们利用pET-28a表达载体自身含有的标签序列片段,仅在基因起始密码子前增加两个碱基TG,形成TGATG重叠。重叠基因的前一个基因片段并不是固定的,它的长度或序列是可变和可设计的。这一片段的变化会影响SD(Shine-Dalgarno)序列与后一阅读框的间隔长度和重叠区域的mRNA二级结构,而这两个因素会直接影响核糖体终止-重起始过程的效率,导致核糖体在后一个阅读框内的数量和密度分布发生改变,这也可能是其调节翻译速率来改善蛋白的可溶性的机制[14,16]。使用不同的重叠片段,对后一蛋白翻译起始和翻译速率的影响也会有所差异。

蛋白表达是一个涉及诸多因素协调工作的过程,其中翻译过程中mRNA的密码子使用和空间结构是影响蛋白质翻译-折叠过程速率的重要因素,也包含着维持细胞生命有序性活动的重要信息。在进行异源基因表达时,细胞“黑箱”能在一定范围内平衡各因素波动的影响,但当失衡影响超过限度时,仅通过单因素调控,难以找到一种普遍适用的优化方法。本研究证明重叠基因结构在调节异源蛋白的表达量和改善可溶性方面的作用,提出一种基于重叠基因结构筛选的异源蛋白表达优化方法,这种新方法是对现有蛋白表达调控策略的有效补充。

猜你喜欢
清样密码子突变体
清样主要校对项目
航天搭载小麦株高突变体研究初探
密码子与反密码子的本质与拓展
清样主要校对项目
新型密码子、反密码子、氨基酸对应盘
10种藏药材ccmFN基因片段密码子偏好性分析
清样主要校对项目
清样主要校对项目
一个粳稻早熟突变体的遗传分析及育种应用潜力的初步评价
SHP2不同突变体对乳腺癌细胞迁移和侵袭能力的影响