王 晨,杨 娟,袁肇方,张雪婷,魏锁成
(西北民族大学 生命科学与工程学院,甘肃 兰州 730030)
生物信息学(Bioinformatics)是通过计算处理实现对生命系统的科学理解,旨在对大量的原始数据进行存储、编辑、处理、传播和归纳,分析变化规律,以揭示数据中所蕴含的生物学奥秘,挖掘和发现新知识[1,2].目前,生物信息学已在众多科学领域中广泛应用.雌激素(包括雌酮,雌三醇和17β-雌二醇)是胆固醇衍生的类固醇激素,主要由卵巢产生.雌激素在调控性行为和生殖功能方面发挥重要作用,可调节多种组织和器官的发育和稳态[3].雌激素只有与其特异性的受体(Estrogen receptor,ER)结合才能发挥生物性作用[3].雌激素受体β(Estrogen receptor beta,ERβ)是雌激素受体家族中的重要一员,是雌激素作用于细胞的主要途径,促进雌激素发挥生理功能[4].一般认为,ERβ只在正常卵巢上皮细胞的核膜上表达,也在卵巢癌细胞的细胞质中表达[5].很多研究结果表明,ERβ不仅与卵巢癌的发病机制有关,而且与治疗反应有关[6,7].鉴于ERβ基因的重要生物学功能,以及目前未见关于绵羊ERβ基因生物信息学相关报道,本研究拟通过生物信息学工具对ERβ基因结构、蛋白质理化性质、二级结构、三级结构、同源性、分子功能、信号通路与蛋白互作进行系统分析,全面深入地了解绵羊ERβ基因的生物信息学特点,以期为进一步研究ERβ基因的生物学功能提供理论依据.
在Genbank数据库找到绵羊ERβ基因(登录号:AF177936.1).本研究所用15个物种的ERβ基因CDS区编码氨基酸序列来源于NCBI,见表1.
表1 不同物种ERβ基因序列来源
根据从数据库所收集的基因序列进行分析,应用NCBI中ORFfinder (https://www.ncbi.nlm.nih.gov/orffinder)软件分析开放阅读框,使用ProtParam (https://web.expasy.org/protparam)与BioEdit(https://bioedit.software.informer.com/)分析ERβ基因的理化性质,以ProtParam分析ERβ基因的疏水性与亲水性,利用SignalP-4.1(http://www.cbs.dtu.dk/services/SignalP/)分析ERβ基因的信号肽,使用Netphos3.1Server(http://www.cbs.dtu.dk/services/NetPhos/)软件分析ERβ基因磷酸化位点,使用MultiLoc2下的Yloc(https://abi-services.informatik.uni-tuebingen.de/yloc/webloc.cgi)分析ERβ基因的亚细胞结构定位,通过TMHMM server v.2.0(http://www.cbs.dtu.dk/services/TMHMM/)预测ERβ基因的跨膜结构区域,使用Sopma(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)与SWISS MODEL分别预测ERβ基因的二级和三级结构,使用NCBI-BLAST分析同源性相似度,使用MEGA-X(https://www.megasoftware.net/)构建进化树,应用KEGG (https://www.kegg.jp)数据库分析ERβ信号通路,利用STRING(https://string-db.org/)预测蛋白互作网络.
ERβ全长为1584bp,CDS (Coding sequence) 范围为1-1584bp.ORF finder分析表明即全长均属ORF(见图1),同时包含ORF2-ORF10九个子ORF,他们的核苷酸起止位点不同,核苷酸数大小有别,分别为108bp、147bp、105bp、163bp、78bp、583bp、99bp、84bp和333bp.核苷酸序列既不同,又重叠.
图1 绵羊ERβ基因序列的ORF分析
经ProtParam软件及Bioedit软件分析计算蛋白理化性质.得到ERβ基因的氨基酸组成(见表2),该基因由527个氨基酸组成,其中最多的是亮氨酸(Leu)与丝氨酸(Ser),均占总氨基酸数的11.67%.
蛋白分子量为59120.12Da,理论等电点为8.83,分子式为C2583H4136N736O771S40,共8 266个原子,负电荷残基总数(Asp和Glu)51个,正电荷残基总数(Arg和 Lys)63个,不稳定系数为61.68,表明该蛋白不稳定.脂肪指数为81.59,总平均亲水性为-0.336,表明该蛋白为亲水性蛋白(见图2).
表2 绵羊ERβ基因的氨基酸组成
图2 绵羊ERβ基因的疏水性与亲水性分析
注:C-score:原始剪切位点得分;S-score:信号肽得分;Y-score:被结合的剪切位点得分
经预测分析可知(见图3),ERβ蛋白氨基酸序列不存在信号肽.ERβ蛋白整体序列都位于细胞膜表面,是非跨膜蛋白(见图4).
ERβ基因磷酸化位点进行分析结果显示(图5-a、图5-b),有38个丝氨酸(Ser)、12个苏氨酸(Thr)、8个酪氨酸(Tyr)可能成为蛋白激酶磷酸化的位点.
基于YLoc+动物模型,对ERβ基因的亚细胞定位预测.结果显示,该蛋白主要位于细胞核内的概率为67.6%,位于细胞质的概率为31.8%,位于线粒体和细胞膜的概率分别为0.6%和0.1%.
图4 绵羊ERβ蛋白的跨膜结构域分析
图5-a 绵羊ERβ基因磷酸化位点预测
注:S—丝氨酸;T—苏氨酸;Y—酪氨酸
图5-b绵羊ERβ基因磷酸化位点预测
经绵羊ERβ蛋白结构预测分析,得到其二级结构(图6)、功能域(图7)、三级结构(图8)预测示意图和二级结构元件比例,绵羊ERβ蛋白是由53.89%无规则卷曲、34.54% α螺旋、3.04%β转角和2.66%延伸链组成,由此可推测,α-螺旋与无规则卷曲是绵羊ERβ蛋白最主要的蛋白质二级结构元件.ERβ蛋白质含有1个ERbeta_N蛋白结构域,位于12-122氨基酸位置,1个ZnF_C4蛋白功能域(核激素受体中的C4锌指)和一个HOLI蛋白功能域(激素受体配体结合域)分别位于143-214位氨基酸和297-466位氨基酸处.其中HOLI蛋白功能域(激素受体配体结合域)E期望值最大,达到1.35e-32.在ERbeta_N与ZnF_C4之间,125-139位点上有一个低复杂区域.使用SWISS MODEL软件以同源建模方法预测绵羊ERβ蛋白三级结构,其中以人ERβ蛋白为模版(SMTL ID:1l2j.1),预测的三级结构显示,序列一致性达到93.57%、相似性为0.57、覆盖率为0.47,绵羊ERβ蛋白三级结构中主要由α-螺旋结构单元组成,有极少的β-折叠和无规则卷曲结构单元.
注:蓝—α-螺旋;红—延伸链;绿—β-转角;紫—无规则卷曲
图7 绵羊ERβ蛋白功能域预测示意图
图8 绵羊ERβ蛋白三级结构预测示意图
通过对15个物种的ERβ蛋白序列进行多重序列比对发现,绵羊ERβ基因与山羊、水牛、牛、牦牛、野猪、白鲸、抹香鲸、北美灰熊、美洲狮、家猫、非洲草原象、大棕蝠、大猩猩、小鼠和人类的同源性相似度分别为98.66%、98.10%、97.15%、96.58%、91.84%、88.77%、88.59%、89.62%、89.04%、88.66%、87.55%、88.80%、87.74%、83.94%和87.55%.使用MEGA-X软件的邻接法构建出15个物种的ERβ基因进化树(图9).两种方法的结果均表明绵羊ERβ基因的同源性和亲缘关系与山羊最近,与小鼠的亲缘关系最远.因此,推测ERβ蛋白在山羊、水牛、绵羊、牛等哺乳动物中可能具有相似的生物学功能.
KEGG数据库分析结果表明,ERβ主要参与5个信号通路,包括雌激素信号通路(ko04915)、催乳素信号通路(ko04917)、内分泌抵抗机制过程(ko01522),同时还参与包括乳腺癌(ko05224)在内的癌症的信号通路(ko05200).蛋白质互作网络分析结果也表明(图10),网络中的蛋白彼此之间关联性较强,少数蛋白直接与ERβ形成关联,多数蛋白质以ERβ作为媒介间接进行关联,这表明ERβ在其中的信号通路中起到关键性作用.
图9 15个物种的ERβ基因的系统发育树
图10 ERβ蛋白互作网络分析结果
雌激素(主要是雌二醇,E2)的生物学作用是通过两类胞内雌激素受体(estrogen receptor,ER)雌激素受体α(estrogen receptor-alpha,ERα)和雌激素受体β(estrogen receptor-beta,ESR2,ERβ)介导的[8-10].ERβ介导雌激素发挥生理作用.ERβ可以增强ERα介导的激素依赖性癌细胞的增殖[11].我们先前的研究也表明,可通过ERβ的表达量与抑制卵巢癌的发生有密切关系[12-13],且ERβ是卵巢癌的潜在愈后指标和治疗靶点[14].因此,对ERβ基因进行全面深入的生物信息学分析尤为重要.
通过ERβ基因结构的分析可知,绵羊ERβ基因CDS区共编码527个氨基酸.ERβ蛋白属于不稳定的亲水性蛋白,在ERβ蛋白磷酸化过程中,苏氨酸和丝氨酸磷酸化的主要作用是激活蛋白质的活力,绵羊ERβ蛋白的苏氨酸和丝氨酸磷酸化位点比较多,酪氨酸的磷酸化位点相对较少.有研究表明,17β-雌二醇经ERβ活化ERK1/2雌激素胞膜信号传导,从而促进肿瘤的侵袭和转移[15],证实了本试验得出的绵羊ERβ蛋白酶活力较强的预测.通过亚细胞定位预测分析可知,ERβ蛋白主要在细胞核中表达,少量在细胞质及其他结构中表达,这与De STEFANO I 等人的研究结果相同[5],其研究表明在正常的卵巢组织中ERβ蛋白只在核膜上表达,但卵巢癌细胞在细胞质中表达,且细胞质中出现ERβ是卵巢癌患者愈后不良的因素之一[17].因此,ERβ蛋白的亚细胞定位在卵巢癌的筛查与治疗方面有重要的生物学作用.
不同物种间ERβ基因编码序列比对发现,绵羊ERβ基因的同源性和亲缘关系与山羊最近,与小鼠的亲缘关系最远,表明绵羊和山羊的ERβ蛋白可能具有十分相似的生物学功能.
通过分子功能预测与蛋白互作网络分析,可知ERβ蛋白与G蛋白偶联受体活性相关性极强.然而,前期的研究认为,乳腺癌组织中G蛋白偶联受体表达及ERβ表达相互独立,两者与临床病理变量没有相关性[16].另有研究表明,ERβ蛋白的表达与乳腺癌、卵巢癌、前列腺癌和结肠癌的发生有密切关系[17-20],在肿瘤发生过程中ERβ表达水平逐渐降低,产生了类似肿瘤抑制因子的作用.但其作用的有效性和适用性仍存在争议,故ERβ基因和ERβ蛋白的作用有待进一步深入研究.
绵羊ERβ基因共编码527个氨基酸,其同源性和亲缘关系与山羊最近.ERβ蛋白属于不稳定的亲水性非跨膜蛋白,无信号肽.