大麻CBDA1基因的生物信息学分析

2017-05-30 15:53常丽唐慧娟李建军黄思齐陈安国赵立宁李德芳
安徽农业科学 2017年29期
关键词:生物信息学大麻

常丽 唐慧娟 李建军 黄思齐 陈安国 赵立宁 李德芳

摘要 [目的]研究大麻二酚酸合成酶基因(CBDA1)编码的蛋白质序列所包含的生物学信息。[方法] 利用生物信息学在线工具及软件分析大麻二酚酸合成酶(CBDAS)的理化性质、亲/疏水性、跨膜结构、信号肽、motif结构域及空间结构等。[结果] CBDAS由544个氨基酸组成,分子量为62 168.42,理论等电点为8.81,是一种稳定的亲水性分泌蛋白,N末端包含1个由28个氨基酸残基组成的信号肽,该蛋白的亚细胞定位在胞外。CBDAS属于氧化还原酶家族,FDA是该酶活性的必需辅因子,CBDAS蛋白中只含有1个低复杂度区域,含有23个磷酸化位点和6个N-糖基化位点,其二级结构主要由α-螺旋、β-转角和无规卷曲组成,三级结构与四氢大麻酚酸合成酶(THCAS)同源性最高。[结论]该研究结果可为今后深入研究CBDAS蛋白的结构特征和功能提供理论参考。

关键词 大麻;大麻二酚酸合成酶;生物信息学

中图分类号 S563.3 文献标识码 A 文章编号 0517-6611(2017)29-0144-05

Bioinformatic Analysis of CBDA1 Gene in Cannabis sativa

CHANG Li, TANG Huijuan, LI Jianjun, ZHAO Lining*, LI Defang* et al

(Institute of Bast Fiber Crops,Chinese Academy of Agricultural Sciences,Changsha,Hunan 410205)

Abstract [Objective]To study the biological information contained in the protein sequence encoded by cannabidiolic acid synthase gene (CBDA1). [Method]The physicochemical properties, hydrophilicity and hydrophobicity, transmembrane structure domain, the signal peptide, the motif and the spatial structure of cannabidiolic acid synthase (CBDAS) were analyzed by bioinformatic sever and online tools. [Result]CBDAS consisted of 544 amino acids with molecular weight of 62 168.42 and a theoretical isoelectric point of 8.81. It was a stable hydrophilic secretory protein and the Nterminal contained a signal peptide of 28 amino acid residues, moreover, the subcellular localization of CBDAS was extracellular. It was presumed that CBDAS belonged to the family of oxidoreductases and FDA was a necessary cofactor for the activity of CBDAS. In addtion, CBDAS contained one low complexity region, twenty three phosphorylation sites and six Nglycosylation sites. The secondary structure mainly included αhelix, βturn and random coil. Furthermore, the tertiary structure was the most homologous to tetrahydrocannabinol synthase (THCAS). [Conclution]The results could provide a theoretical reference for further study of the structure and functions of CBDAS.

Key words Cannabis sativa;CBDAS;Bioinformatics

基金項目 國家麻类产业体系分子育种项目(CARS-19-E04)。

作者简介 常丽(1984—),女,河南焦作人,助理研究员,博士,从事麻类生物技术研究。*通讯作者:赵立宁,研究员,硕士生导师,从事麻类生物技术研究;李德芳,研究员,博士生导师,从事一年生麻类遗传改良研究。

收稿日期 2017-07-31

大麻(Cannabis sativa)是一年生草本植物,起源于我国,在南北朝时期人们就开始种植和使用大麻,大麻是我国传统经济作物,主要用于纺织、建材、造纸、药用、食用、饲料、工业原料等方面[1]。大麻植株中含有多种活性物质,主要分为两大类,即大麻酚类化合物和非大麻酚类化合物。目前,研究最多的是大麻酚类化合物,主要包括四氢大麻酚(tetrahydrocannabinol,THC)、大麻酚(cannabinol,CBN)、大麻二酚(cannabidiol,CBD)、大麻萜酚(cannabigerol,CBG)、大麻环萜酚(cannabichromene,CBC)等。THC是由以色列Weizmann科学研究所的Yechiel Gaoni和Raphael Mechoulam于1963年首次分离得到[2],并于次年确定其化学结构。THC是大麻中最重要的活性物质,具有神经保护作用,可用于治疗癌症引起的呕吐[3],但THC具有致幻作用,因此大麻在多国被禁止种植。四氢大麻酚酸合成酶(Tetrahydrocannabinolic acid synthase,THCAS)是THC合成途径中的关键酶,最早在1995年由Taura等[4]从大麻幼叶中分离出,并于2004年成功克隆了该酶的基因[5],随后在2012年研究了该酶的结构和功能[6]。与THC不同的是,CBD是大麻中的非成瘾性成分,能阻碍THC对人体神经系统影响,并具有治疗癫痫、抗痉挛、抗炎、抗焦虑等药理活性[7-10]。因此,高CBD含量的药用大麻成为当今研究的一个热点。而大麻二酚酸合成酶(Cannabidiolic acid synthase,CBDAS)是CBD合成途径中的关键酶,最早在1996年由Taura等[11]从墨西哥纤维大麻中分离得到,并于2007年通过逆转录获得其cDNA[12]。但是CBDAS的结构和功能至今还未报道,该研究以CBDA合成酶基因为研究对象,采用生物信息学方法对CBDA合成酶基因编码蛋白质序列的理化性质、结构特征、修饰位点等进行预测和分析,以期为今后深入研究和利用CBDA合成酶提供重要的理论依据和研究基础,同时为大麻作物遗传改良提供参考。

1 材料与方法

1.1 材料

以大麻品种Carmen的大麻二酚酸合成酶基因 (CBDA1)(LOCUS KJ469374)为研究对象,对其完整的CDS序列编码的氨基酸序列、蛋白质理化性及功能结构域进行预测与分析。

1.2 方法

利用ExPASy软件中的Protparam程序对CBDAS蛋白的氨基酸序列长度、分子量大小及等电点等进行分析;利用ProtScale工具分析CBDAS蛋白的亲疏水性;利用TMHMM Server v.2.0 和Signal IP 4.1工具分析CBDAS蛋白的跨膜结构域及信号肽;利用ProtComp v.9.0工具对CBDAS蛋白的亚细胞定位进 行分析;利用PROSITE模体数据库对CBDAS蛋白进行motif预测;利用SMART工具分析CBDAS蛋白的保守功能域;利用NetPhos 2.0 Server和NetNGlyc 1.0 Server分析其蛋白质翻译后修饰位点;利用GOR(GarnierOsguthorpeRobson Method)对蛋白的二级结构进行性分析;利用SWISSMODEL服务器同源模拟构建CBDAS的三级结构。

2 结果与分析

2.1 CBDA1基因编码蛋白的氨基酸组成

氨基酸的种类、排列顺序及数量直接影响蛋白质的功能。CBDA1基因的CDS序列编码蛋白质的氨基酸序列为:

CBDAS由544个氨基酸组成,分子式为C2834H4343N743O792S21, 分子量为62 168.42,理论等电点为8.81。CBDAS包含20种常见氨基酸(表1),其中疏水性氨基酸占48.8%,亲水性氨基酸占51.2%,碱性氨基酸占13.6%,酸性氨基酸占94%,且含有21个含硫氨基酸,说明该蛋白中存在二硫键。由于CBDAS序列的N末端是Met,该蛋白估计半衰期为30 h(哺乳动物网织红细胞,体外)、 > 20 h(酵母,体内)、> 10 h(大肠杆菌,体内)。CBDAS的不稳定指数 Ⅱ 为30.57,属于稳定蛋白[13]。脂肪族氨基酸指数为88.31。

2.2 CBDA1基因编码蛋白的亲/疏水性分析

疏水作用能驱动蛋白质的肽链压缩成球状结构,对于维持蛋白质的空间构象十分重要。氨基酸发生变化可导致蛋白质亲/疏水性的改变,而亲/疏水性的变化直接影响蛋白质的结构以及功能。此外,通过了解肽链中不同肽段的疏水性,可以对跨膜蛋白的跨膜結构域进行预测,为蛋白二级结构的预测及功能结构域的分选提供重要的参考依据。因此,分析蛋白质的亲/疏水性具有十分重要的意义。通过ProtScale在線工具对CBDAS进行亲/疏水性分析,结果见图1,在第15位氨基酸出现最高值2.566,即疏水性最强,在第453位氨基酸出现最低值-3.556,即亲水性最强。整体看CBDAS的疏水性和亲水性氨基酸分布均衡,但预测结果显示CBDAS的亲水性指数平均值(GRAVY,表示蛋白质的溶解度)为-0.202,所以CBDAS更偏向是一个亲水蛋白[14]。由图1可知,在前29个氨基酸位置出现一个较强的疏水区域(score>1.5),且疏水区域较宽,在这个位置有可能出现一个跨膜结构。

2.3 CBDA1编码蛋白的跨膜结构分析

跨膜结构是蛋白质通过与膜内在蛋白的静电相互作用和氢键键合作用与膜结合的一段氨基酸片段,一般由20个左右的疏水氨基酸残基组成,主要形成α-螺旋。跨膜结构域是膜中蛋白与膜脂相结合的主要部位,固着于细胞膜上起“锚定”作用[15]。跨膜结构域的预测和分析对于了解蛋白质的结构、功能以及在细胞中的作用部位具有重要意义。在目前的基因组数据中,有20%~30%的基因产物被预测为膜蛋白,它们在生物体中担负着多种功能。因此,有效、准确地预测跨膜区和跨膜的方向对指导跨膜蛋白的结构和功能的研究具有重要意义。利用跨膜预测服务器TMHMM Server v.2.0对CBDAS进行分析,结果见图2,该蛋白存在一个潜在的跨膜区(第1~28位氨基酸),其中第1~4位氨基酸位于膜内,第5~27位氨基酸为跨膜的螺旋结构,第28位以后的肽链主要在细胞膜外发挥其生物学功能。由于该跨膜结构位于蛋白质的N端,推测其极可能为一个信号肽结构。蛋白质序列的其他位置不存在跨膜结构,因此,该蛋白属于跨膜蛋白。

2.4 CBDA1基因编码蛋白的信号肽分析

信号肽是蛋白质的一个片段,一般由5~30个氨基酸残基组成[16],并大致分为 3个区段:N端为带正电荷的氨基酸;中间为由20个或更多的以中性氨基酸为主组成的疏水核心区,能够形成一段α-螺旋;C端含有小分子氨基酸,是被信号肽酶裂解的部位,亦称加工区。信号肽在蛋白分泌的过程中起重要作用[17],主要负责引导新合成蛋白质的跨膜、转移和定位,把蛋白质引导到细胞不同的亚细胞器内发挥其生物学功能。通过Signal IP 4.1工具进行分析[18],结果表明(图3),CBDAS的N末端包含1个由28个氨基酸残基组成的信号肽,切割位点在第28和29个氨基酸残基之间,其平均值S为0801,当平均值S>0.500时,可判断该蛋白为分泌蛋白,说明CBDAS是一种分泌蛋白。

2.5 CBDA1基因编码蛋白的亚细胞定位

细胞中蛋白质合成后经蛋白质分选信号引导被转运到特定的细胞器中,部

分蛋白质则被分泌到细胞外或留在细胞质中,只有转运到正

确的部位才能参与细胞的各种生命活动[19],如果定位发生

偏差,将会对细胞功能甚至生命产生重大影响。了解蛋白质的亚细胞定位信息,可以为推断蛋白质的生物学功能提供必要的帮助,同时对蛋白质的其他研究如相互作用、进化等也能提供必要的信息。利用ProtComp v.9.0对CBDAS进行亚细胞定位分析,结果显示,该蛋白质位置的积分预测为细胞外(分泌),得分9.4,说明该蛋白主要在细胞外发挥其生物学功能。

2.6 CBDA1基因编码蛋白motif分析

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速、可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。利用PROSITE对CBDA1编码蛋白进行motif预测,结果如图4所示,CBDAS含有1个FAD-PCMH结合域,位于第77~251位氨基酸( TTPKPLVIVTPSHVSHIQGTILCSKKVGLQIRTRSGGHDSEGmsYISQVPFVIVDLRNMRSIKIDVHSQTAWVEAGATLGEVYYWvnEK NESLSLAAGYCPTVCAGGHFGGGGYGPLMRSYGLAADNIIDA HLVNVHGKVLDRKSMGEDLFWALRGGGAESFGIIVAWKI RLVAV )。CMH型FAD结合结构域是由2个α-β亚结构域组成:1个由α螺旋包围的3个平行的β链(B1~B3)组成,并被包含在含有5个反平行β链的第2子结构域(B4~B8)[20]。2个子域可以适应它们之间的FAD辅因子[21]。在PCMH蛋白中,辅酶FAD也共价连接到位于C末端催化结构域FAD结合结构域之外的酪氨酸[22]。除CBDAS外,目前发现大麻的四氢大麻酚酸合成酶(THCAS)、细菌UDP-N-乙炔烯醇丙酮酰葡萄糖还原酶(UDP-N-acetylenolpyruvoylglucosamine reductase,EC 1.1.1.158)、脊椎动物烷基二羟基丙二酸合酶(alkyldihydroxyacetonephosphate synthase,EC 2.5.1.26)、真核乳酸脱氢酶D(D lactate dehydrogenase,EC 1.1.2.4)和细菌一氧化碳脱氢酶(Carbon monoxide dehydrogenase,EC 1.2.99.2)的结构中也含有PCMH型FAD结合结构域。推测CBDAS同THCAS一样属于氧化还原酶家族,FDA是CBDAS酶活性的必需辅因子。

2.7 CBDA1基因编码蛋白的保守功能域分析

保守结构域指生物进化或1个蛋白家族中不变或相同的结构域,具有重要功能。采用SMART工具推测,CBDAS蛋白中只含有1个低复杂度区域(low complexity region,LCR): GGHFGGGGYG ,位于第182~191位氨基酸。

2.8 CBDAS蛋白翻译后修饰位点分析

真核生物中的多肽及蛋白质分子经核糖体合成后大多需翻译后修饰,才能确保蛋白质发挥其正常的生物学功能[23]。常见的蛋白质翻译后修饰有磷酸化和糖基化2种。磷酸化是由蛋白质激酶催化将ATP或GTP γ位的磷酸基转移到底物蛋白质氨基酸残基(Ser、Thr、Tyr)上,是生物体内一种普通的调节方式[24],蛋白质磷酸化修饰的作用主要体现在以下3个方面:一是通过磷酸化修饰改变了受体蛋白质的活性,蛋白质磷酸化或去磷酸化修饰起到开启或关闭蛋白质活性的作用;二是磷酸化蛋白质参与植物体内信号的传导;三是影响蛋白质间的互作,由于在氨基酸残基上结合或失去了磷酸基团,从而改变了受体蛋白质的结构,影响了该受体蛋白质与其他蛋白质间的互作。细胞中蛋白质磷酸化水平是一个动态的变化过程,其细微差异都可能导致细胞代谢水平上的变化。因此,蛋白质磷酸化对植物生长发育的影响是全方位的。糖基化通常修饰天冬酰胺的N端,其氨基酸特征序列为Asn-X-Ser-Thr(X是除Pro外的任一种类氨基酸)[25]。N-糖基化与植物蛋白质正确折叠、细胞凋亡、器官发育及信号转导等生物学功能密切相关[26]。通常胞外分泌蛋白、膜整合蛋白及构成内膜系统的可溶性驻留蛋白大多需要经过N-糖基化修饰。利用NetPhos 2.0和NetNGlyc 1.0对CBDAS进行预测,结果表明该蛋白存在23个磷酸化位点、6个N-糖基化位点(表2、3)。

2.9 CBDA1基因編码蛋白的二级、三级结构分析

目前最好的单序列预测程序能够达70%左右,比如基于information theory的GOR准确度达69.7%[27],利用GOR IV对CBDAS的二级结构进行预测,结果如图5显示,CBDAS蛋白由α-螺旋、β-折叠和无规卷曲组成,分别占整个肽链的21.88%、26.29%和51.84%。

利用SWISSMODEL蛋白质三维结构建模工具构建的CBDAS的三维结构模型,如图5所示。建模过程中共有168条模板和目标序列相匹配,通过启发式分析过滤得到29个模板,主要有Tetrahydrocannabinolic acid synthase(四氢大麻酚酸合成酶)、Pollen allergen Phl p(花粉过敏原Phl p)、berberine bridgeforming enzyme(小檗碱桥形成酶)、Reticuline oxidase(纤维素氧化酶)、alkyl dihydroxyacetone phosphate synthase,peroxisomal(烷基二羥基乙酸磷酸酯合成酶,过氧化物酶)。CBDAS的三级结构也是参考这29个模板模拟构建的,其中与THCAS[28]的同源性最高,为83.95%。

3 讨论与结论

利用生物信息学对目的基因进行功能预测是当前国际上研究的热点之一,也是发现和研究新基因的一个重要手段。生物信息学与传统的通过RT-PCR方法进行克隆分析基因的方法相比,具有快捷、针对性强、成本低等优点。生物信息学能针对未知功能基因,采集数据,归纳分析,预测基因功能,挖掘基因潜在的研究线索,可为科学研究提供启示和方向指导。对于蛋白质而言,其生物学功能才是最终的研究目的。通过多种生物信息学工具分析CBDA1基因编码的蛋白序列,发现该基因编码544个氨基酸,等电点为8.81,N端包含1个信号肽,而含有信号肽的蛋白质一般都是分泌到细胞外。CBDAS的亚细胞定位结果也证实了该蛋白是一种稳定的分泌蛋白,主要在胞外发挥其生物学功能。THCAS的二级结构丰富,包含了α-螺旋、β-折叠和无规卷曲,含有许多蛋白质修饰及活化位点,如磷酸化位点、糖基化位点、FDA结合位点等,暗示该蛋白可能在体内受多种因子的调控,具有接受细胞信号并做出反应,实现其生物学功能的潜能。这些结果对正确认识和理解蛋白质结构、定位、功能等均有重要的指导意义。

参考文献

[1] 梁晓红.大麻的生物学特性及用途[J].现代农业科技,2014(13):48-50.

[2] GAONI Y,MECHOULAM R.Isolation,structure,and partial synthesis of an active constituent of hashish[J].Journal of the American chemical society,1964,86(8):1646-1647.

[3] ABRAMS D I,GUZMAN M.Cannabis in cancer care[J].Clinical pharmacology and therapeutics,2015,97(6):575-586.

[4] TAURA F,MORIMOTO S,SHOYAMA Y,et al.First direct evidence for the mechanism of Δ1tetrahydrocannabinolic acid biosynthesis[J].Journal of the American chemical society,1995,117(38):9766-9767.

[5] SIRIKANTARAMAS S,MORIMOTO S,SHOYAMA Y,et al.The gene controlling marijuana psychoactivity[J].Journal of biological chemistry,2004,279(38):39767-39774.

[6] SHOYAMA Y,TAMADA T,KURIHARA K,et al.Structure and function of Δ1tetrahydrocannabinolic acid(THCA)synthase,the enzyme controlling

the psychoactivity of Cannabis sativa[J].Journal of molecular biology,2012,423(1):96-105.

[7] KLEIN B D,JACOBSON C A,METCALF C S,et al.Evaluation of cannabidiol in animal seizure models by the Epilepsy Therapy Screening Program(ETSP)[J].Neurochemical research,2017,42(7):1939-1948.

[8] BORRELLI F,AVIELLO G,ROMANO B,et al.Cannabidiol,a safe and nonpsychotropic ingredient of the marijuana plant Cannabis sativa,is protective in a murine model of colitis[J].Journal of molecular medicine,2009,87:1111-1121.

[9] SYED Y Y,MCKEAGE K,SCOTT L J.Delta9tetrahydrocannabinol/cannabidiol(Sativex):A review of its use in patients with moderate to severe spasticity due to multiple sclerosis[J].Botany and biotechnology,2014,74(5):563-578.

[10] BLESSING E M,STEENKAMP M M,MANZANARES J,et al.Cannabidiol as a potential treatment for anxiety disorders[J].Neurotherapeutics,2015,12(4):825-836.

[11] TAURA F,MORIMOTO S,SHOYAMA Y,et al.Purification and characterization of cannabidiolicacid from Cannabis sativa L.[J].Journal of biological chemistry,1996,271(29):17411-17416.

[12] TAURA F,SIRIKANTARAMAS S,SHOYAMA Y,et al.Cannabidiolicacid synthase,the chemotypedetermining enzyme in the fibertype Cannabis sativa[J].FEBS letters,2007,581(16):2929-2934.

[13] 于欣,楊震,楚元奎,等.IL-6基因結构和功能生物信息学预测[J].国际检验医学杂志,2016,37(21):2959-2960,2963.

[14] 丁帅,熊勇,李正涛,等.菊花rbcL基因电子克隆及生物信息学、适应性进化分析[J].种子,2015,34(10):24-30.

[15] KROGH A,LARSSON B,VON HEIJNE G,et al.Predicting transmembrane protein topology with a hidden Markov model:Application to complete genomes[J].Journal of molecular biology,2001,305(3):567-580.

[16] YAN S,WU G.Signal peptide of cellulase[J].Applied microbiology and biotechnology,2014,98(12):5329-5362.

[17] IZARD J W,DOUGHTY M B,KENDALL D A.Physical and conformational properties of synthetic idealized signal sequences parallel their biological functional[J].Biochemistry,1995,34(31):9904-9912.

[18] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nature methods,2011,8(10):785-786.

[19] 張松,黄波,夏学峰,等.蛋白质亚细胞定位的生物信息学研究[J].生物化学与生物物理进展,2007,34(6):573-579.

[20] CUNANE L M,CHEN Z W,SHAMALA N,et al.Structures of the flavocytochrome pcresol methylhydroxylase and its enzymesubstrate complex:Gated substrate entry and proton relays support the proposed catalytic mechanism[J].Journal of molecular biology,2000,295(2):357-374.

[21] FRAAIJE M W,MATTEVI A.Flavoenzymes:Diverse catalysts with recurrent features[J].Trends in biochemical sciences,2000,25(3):126-132.

[22] MCINTIRE W,EDMONDSON D E,HOPPER D J,et al.8 alpha(OTyrosyl)flavin adenine dinucleotide,the prosthetic group of bacterial pcresol methylhydroxylase[J].Biochemistry,1981,20(11):3068-3075.

[23] EISENHABER B,EISENHABER F.Prediction of posttranslational modification of proteins from their amino acid sequence[J].Methods in molecular biology,2010,609:365-384.

[24] 劉秋林,钟月仙,万伟峰,等.植物磷酸化蛋白质组学研究进展[J].福建农林大学学报(自然科学版),2015,44(3):225-231.

[25] 叶强,金晓琴,刘伟娜,等.植物蛋白质N-糖基化修饰研究进展[J].浙江师范大学学报(自然科学版),2016,39(1):80-86.

[26] LEROUGE P,CABANESMACHETEAU M,RAYON C,et al.NGlycoprotein biosynthesis in plants:Recent developments and future trends[J].Plant molecular biology,1998,38(1/2):31-48.

[27] SEN T Z,JERNIGAN R L,GARNIER J,et al.GOR V server for protein secondary structure prediction[J].Bioinformatics,2005,21(11):2787-2788.

[28] SHOYAMA Y,TAMADA T,KURIHARA K,et al.Structure and function of Δ1tetrahydrocannabinolic acid(THCA)synthase,the enzyme controlling the psychoactivity of Cannabis sativa[J].Journal of molecular biology,2012,423(1):96-105.

猜你喜欢
生物信息学大麻
工业大麻中大麻二酚的研究进展
大麻二酚在医学上的应用前景
科技在线
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
大麻促进骨折痊愈