徐 伟,周军媚,叶湘漓,江志钢,李永青,范雄伟,吴秀山,王跃群
(1.湖南省人民医院转化医学研究所,湖南师范大学附属第一医院,长沙 410005;2.南华大学生命科学学院,衡阳 421001;3.湖南师范大学生命科学学院心脏发育研究中心,长沙 410081;4.湖南师范大学医学院,长沙 410013)
TMEM121基因又名Hole,最早是在鸡的胚胎心脏中作为心肌特异性高表达因子而被发现的[1]。之后Zhou等发现在哺乳动物的胚胎期该基因在多种组织中均有表达,其中在心脏中的表达最高;而在成体期该基因仅在心脏、骨骼肌、肝脏和胰腺中有表达,且心脏仍是表达丰度最高的组织之一。Zhou等进一步利用荧光报告系统对其可能参与的信号通路进行筛查发现,TMEM121能显著的抑制ERK信号通路介导的AP-1与SRE-LUC荧光素酶报告活性[2]。在此基础上,我们进一步研究发现心肌特异性过表达该基因可以通过ERKs信号途经抑制ISO诱导的病理性心肌肥厚[3]。此外,同行的研究还发现TMEM121基因内部的PXXP位点的SNP与人类先天性心脏病存在一定的关联:即广东、贵州两地汉族人群中TMEM121基因SNP(rs10569304)位点存在插入/缺失(GCC/---)多态性,其中携带缺失型纯合子基因型的个体患先天性心脏病的风险显著增高[4]。上述研究结果无不提示TMEM121在心脏功能的调节中发挥重要作用。不过,尽管TMEM121基因作为一个在心脏发育和成体期均有高表达的基因,但有关TMEM121基因的功能及其作用机理迄今仍是知之甚少。
生物信息学(bioinformatics)以生物学、计算机科学、工程学和应用数学为基础,以计算机软件为主要工具,借助海量储存的生物实验及衍生数据结果,对DNA或蛋白质的序列、结构等相关信息进行加工和分析,建立理论模型,指导实验研究,在基因组学及蛋白质组学的研究中发挥了不可替代的作用。本文利用生物信息学方法对人类TMEM121基因及其蛋白的理化性质及分子结构等进行了分析,并预测了TMEM121在细胞中所参与的功能。生物信息学所获得的TMEM121数据将为深入研究该基因的功能、人类心脏疾病的发病机制以及心脏相关疾病的基因治疗等奠定了基础。
1.1 材料不同物种TMEM121的编码序列和氨基酸序列的获取,利用NCBI(http://www.ncbi.nlm.nih.gov/)获得人、黑猩猩、猕猴、绿猴、家猫、大鼠、小事、家犬、鸡、热带爪蟾等的TMEM121基因的编码序列和氨基酸序列(登录号见表1)。
1.2 方法
1.2.1 TMEM121的同源度分析及进化树的构建从NCBI-Blastp对比结果中选择几种具有代表性的物种,如人、黑猩猩、猕猴、家猫、家犬等,并下载其氨基酸序列,利用DNAMAN、MEGA6.0及ClustalX等软件对不同物种进行同源度分析并构建蛋白进化树。
1.2.2 TMEM121生物信息学分析利用NCBI、ExPASy、ProtFun等公共数据库及在线软件包等分析了TMEM121基因的分子结构、亚细胞定位、二级、三级结构及功能等。文中所涉及的数据库及软件如表2所示。
表1 不同物种TMEM121的编码和蛋白序列登录号
表2 文中所应用的数据库及软件
2.1 人TMEM121蛋白同源度的预测与分析通过核酸和蛋白质差异来评估不同物种间的亲缘关系,即同源度分析。同源度分值越高表示亲缘关系越近,反之则表示亲缘关系越远。利用NCBI(http://www.ncbi.nlm.nih.gov)获取不同物种TMEM121基因的CDs及蛋白序列,并应用DNAMAN及MEGA软件对不同物种TMEM121蛋白序列进行同源度分析(图1-A),结果显示人与黑猩猩、猕猴、绿猴、家猫、大鼠、小鼠、家犬、鸡、热带爪蟾的TMEM121蛋白序列同源度分别为99.37%、99.06%、98.12%、97.18%、97.18%、97.18%、96.55%、75.86%和74.92%。选取其中11个不同物种构建蛋白进化树(图1-B),结果显示TMEM121蛋白在哺乳动物之间具有高度保守性,与鸡、热带爪蟾等的亲缘关系则相对较远,同源度也高到78%以上。
2.2 人TMEM121蛋白的亚细胞结构定位分析应用PSORT II(http://www.genscript.com/psort.html)在线软件预测分析,人TMEM121蛋白定位于内质网和线粒体的可能性分别为77.8%和22.2%。
图1 不同物种间TMEM121蛋白的同源度分析
2.3 人TMEM121蛋白的二级结构分析通过SOPHMA程序[5,6]预测人TMEM121蛋白的二级结构(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html),发现由155个氨基酸残基构成的α螺旋结构占整个二级结构的48.59%(155/319),是TMEM12二级结构的主要构成原件;无规则卷曲占29.47%(94/319);延伸链占17.8%(57/319)及β转角站4.08%(13/319)(图2-A,B)。以上数据说明TMEM121蛋白中大部分氨基酸残基处在一个基本有序的结构中,这有利于执行其应有的功能。应用COILS在线软件对人类TMEM121蛋白进行卷曲螺旋分析,结果显示该蛋白不存在任何卷曲(图2-C)。
图2 人TMEM121蛋白二级结构预测
2.4 人TMEM121蛋白的三级结构预测分析Swiss-Model(https://swissmodel.expasy.org/)[7]采用同源建模法可预测蛋白的三级结构及相关参数。因此在Swiss-Model中提交人源TMEM121氨基酸序列,得到1个预测结果(图3-A),预测结果不太理想,估计与模板覆盖程度不高(仅10.19%)有关。进一步分析人TMEM121蛋白与同源蛋白的相似性波形图(图3-B),预测值也偏低(不足0.6),因此认为该模型并不太理想。
进一步应用模拉曼图方法(The Structure Analysis and Verification Server)(http://services.mbi.ucla.edu/SAVES/)[8]分析该模型的空间结构的合理性,得到图3-C,结果显示预测模型中的大部分氨基酸残基均在拉曼图中的红色核心区内和黄色的合理区域内,说明该模型中的所有氨基酸均形成的二面角均合理可靠,表明该模型的空间结构基本合理。
图3 人类TMEM121蛋白三级结构的预测分析
2.5 人TMEM121的相互作用蛋白分析应用在线STRING数据库(http://string-db.org/)[9]预测人TMEM121的相互作用蛋白,得到TMEM121蛋白相互作用网络(图4),预测结果显示TMEM121的互作蛋白主要有5个(表3,图4),且互作蛋白的分值均在0.6以上,有一定的参考价值。
表3 人TMEM121蛋白相互作用预测
2.6 人TMEM121基因编码产物功能预测与分析通过Protfun(http://www.cbs.dtu.dk/services/ProtFun/)[10]在线预测人TMEM121编码产物的功能,由分析结果(表4)可知,人TMEM121蛋白具有转运、受体、转录调控及信号转导功能的可能性分值分别为1.324、0.854、0.521和0.437。
本研究利用多种生物信息学技术,通过网络大数据对不同物种TMEM121基因的CDs及氨基酸序列进行了同源度分析,并预测了该基因编码蛋白的高级结构、互作蛋白及蛋白功能等。研究结果发现:(1)TMEM121的CDs序列和编码蛋白在哺乳动物间高度同源,同源度高达96%~100%;(2)亚细胞定位于胞质的可能性比较大,有5个主要互作蛋白,可能具有转运、受体及转录调控的功能等。上述研究结果为进一步实验研究TMEM121的功能及其作用机制提供了一定的依据。
图4 人TMEM121蛋白相互作用预测
表4 人TMEM121基因编码产物的功能分析
作为心肌特异性高表达基因,TMEM121已被克隆多年,但对其功能的了解目前仍知之甚少。因此对TMEM121蛋白的结构进行全面的预测分析对进一步研究其功能具有重要的指导意义。
本文利用NCBI公共数据库获取不同物种TMEM121基因的CD序列及编码的氨基酸序列,同源度比对分析发现其与其他哺乳动物的一致性在96%~100%之间,氨基酸序列的一致性也在95%以上,说明人类TMEM121基因与哺乳动物其他物种的同源基因在进化过程中高度保守。在蛋白质相互作用网络中,与人类TMEM121功能相关目前只分析到两个,即嗅觉标记蛋白OMP和铁蛋白重链多肽FTH1。OMP它主要存在于大脑中枢系统的特定部位及嗅球上,是在主要嗅觉通路中可见的唯一标记脑蛋白[11];FTH1则主要参与铁的代谢与调节,并可调节凋亡相关基因的表达,从而影响凋亡的进程[12]。上述结果提示人类TMEM121蛋白可能并不太活跃,其功能的实现可能主要通过与上述两个蛋白的相互作用来实现。虽然上述预测分析结果还需后续实验加以验证,但初步研究结果提示TMEM121蛋白的这些功能位点或许可以作为调控其活性的重要靶点。当然,作为一种新的技术方法,生物信息学也存在一定的局限,如预测结果需要实验数据加以验证。但与传统的实验相比,仍具有简便、快捷等极大优越性。因此,生物信息学在基因功能方面的研究有着其他技术所不可替代的地位。