孙佳,刘跃华,秦轲茹,胡金瑞,栗馨洋,徐白雪,庞敏,王维,王海龙
1.山西医科大学基础医学院,山西 晋中 030600;2.山西医科大学第一医院呼吸与危重症医学科,山西 太原 030001
吸烟可能导致肺癌,生活及工作环境的粉尘、建筑装修材料、油漆、油烟、空气污染(汽车尾气)和肺部慢性病及遗传因素等也可能导致肺癌。一般而言,工业化程度越高,城市污染越严重的地方,肺癌的发病率越高。有调查显示,我国城市肺癌的发病率为农村的15倍[1]。肺癌是世界范围内最常见的癌症死亡原因,非小细胞肺癌(non-small cell lung cancer,NSCLC)是肺癌的主要类型[2]。
癌症是一个多基因参与的复杂的多因素疾病,抑癌基因的失活或癌基因的过表达是癌症发生的重要内在因素[3]。同时癌症又是一个多阶段疾病,在癌症发展的不同阶段,有着特定基因的表达或沉默。锚蛋白重复结构域49(ANKRD49)包含4个锚蛋白重复序列,该序列含30~34个氨基酸残基,介导蛋白质与蛋白质之间的相互作用[4]。在酵母Swi6p、seeptin 7假基因1(Cdc10p)和Notch中首次发现锚蛋白重复结构域[5-6],而这些蛋白质具有重要的生物学功能,如Notch蛋白是细胞信号通路的关键组成部分,当重复结构域被突变破坏时,会引起神经系统疾病[7]。小鼠ANKRD49主要在精原细胞、精母细胞和圆形精子细胞中高表达且通过调节NF-κB信号通路对小鼠精原细胞系GC-1发挥抗凋亡作用[8]。文献报道,ANKRD49蛋白质在胃癌组织中高表达,且该蛋白定位于细胞浆或细胞核[9-10],细胞定位的不同预示着该蛋白质可能在胃癌的发生发展中发挥不同的功能。基因芯片研究显示,ANKRD49基因及其编码蛋白在高侵袭性肺癌组织中低表达,在低侵袭性肺癌组织中高表达[11-12]。然而,该基因在肺癌发生发展中的具体作用尚未阐明。
人ANKRD49基因的功能少有报道,因此,本文应用生物信息学方法[12],分析了ANKRD49及其编码蛋白质的理化性质、结构、翻译后修饰及可能的相互作用蛋白,为该基因及其编码蛋白质功能的研究提供生物信息支持。
1.1 基因及蛋白序列登录号 人ANKRD49基因登录号分别为:NM_017704、NM_001126283和NM_019683;人、大鼠、小鼠ANKRD49以及人ANKRD1、Fank1、P16蛋白质的登录号分别为:AAH17798.1、AAI61982、AAH19777.1、NP_055206.2、NP_660278.3和AAB60645.1。
1.2 分析方法 人ANKRD49基因的基本信息来自Ensembl Genome Brower(http://asia.ensembl.org/index.html)和NCBI(http://www.ncbi.nlm.nih.gov/)数据库,不同种属ANKRD49蛋白质的同源性比较采用DNAMAN软件;人ANKRD49蛋白质与大鼠、小鼠、河狸、蛇、伊蚊氨基酸的同源性,及与其他ANK家族蛋白质进化树的比对采用DNAMAN软件;ANKRD49蛋白质的理化性质、等电点、相对分子质量预测采用ProtParam tool软件;蛋白的二级结构分析及亲(疏)水性分析采用DNAMAN软件,三级结构预测采用SWISS-MODEL软件;信号肽及跨膜结构预测分别采用SignalP 4.1软件和TMpred软件;ANKRD49蛋白质翻译后修饰分析采用MotifScan软件,相互作用蛋白质的预测采用CharlesKW数据库(http://www.geneinfinity.org)。
2.1 人ANKRD49基因和蛋白质的基本信息 人ANKRD49基因位于11号染色体的94493629-94499583区间,见图1。
图1 NCBI网站分析人ANKRD49基因在染色体中的位置Fig.1 Analysis of position of human ANKRD49 gene in chromosome by NCBI website
人ANKRD49基因的cDNA序列总长度为1 908 bp,cDNA的CDS区始于cDNA序列的第143位碱基,止于第864位碱基,共720个碱基。该基因含有3个外显子,有7个转录本,见图2。该基因编码1个含239个氨基酸的蛋白质。见图3。
图2 人ANKRD49基因的cDNA序列分析Fig.2 Analysisof cDNA sequenceof human ANKRD49 gene
图3 人ANKRD49基因编码蛋白质氨基酸序列分析Fig.3 Analysis of amino acid sequence encoded by human ANKRD49 gene
ANKRD49的分子式为C1192H1860N340O386S5,含有3 783个原子,由239个20种氨基酸组成。其中亮氨酸(Leu)占比最大(12.6%),半胱氨酸(Cys)占比最小(0.8%)。见表1。239个氨基酸中有42个为负电荷氨基酸残基(Asp+Glu),25个为正电荷氨基酸残基(Arg+Lys)。其预测的理论等电点为5.00,呈酸性。在280 nm水溶液中的消光系数为36 565 U/(M·cm);在哺乳动物、酵母及大肠埃希菌中的半衰期分别为30、>20、>10 h;不稳定系数为34.25,预测表明该蛋白为稳定蛋白(不稳定系数<40时为稳定蛋白,≥40则为不稳定蛋白)。脂肪系数为80.84;总平均亲水性(GRAVY)为-0,预测其为亲水蛋白。相对分子质量为27 290.2,包含4个ankyrin重复序列结构域(78-106、107-139、140-172和173-207)。
表1 人ANKRD49蛋白质的氨基酸组成Tab.1 Amino acid composition of human ANKRD49 protein
2.2 人A N KRD49蛋白质的进化分析 利用DNAMAN软件比对了人、大鼠、小鼠、河狸、眼镜王蛇和白纹伊蚊的ANKRD49蛋白质氨基酸的组成,发现其同源性高达78.65%,见图4,提示该蛋白在进化上保守。同时利用该软件对ANKRD49的进化进行了简单分析,发现该蛋白与其他含ankyrin重复序列蛋白质的进化具有较高的亲缘性,见图5,进一步提示其为一个保守的蛋白质。
图4 人、大鼠、小鼠、河狸、蛇、伊蚊的ANKRD49蛋白质氨基酸同源性分析Fig.4 Analysis of amino acid homology among ANKRD49 proteins of human,rat,mouse,beaver,snake and Aedes
图5 人ANKRD49蛋白质与其他含ankyrin重复序列蛋白质的进化树分析Fig.5 Phylogenetic tree of human ANKRD49 protein and other proteins containing ankyrin repeats
2.3 人A N KRD49蛋白质的亲(疏)水性 利用DNAMAN软件分析,人ANKRD49蛋白质含有5个亲水性参数得分≥1.9的区域(0-17、47-63、64-75、100-109和182-191),ANKRD49整条肽链的亲水性氨基酸数量大于疏水性氨基酸数量,该蛋白总体表现为亲水性,无明显的疏水性区域,见图6。ProtParam tool软件分析,ANKRD49蛋白质的平均亲水性系数为0.764,提示其为可溶性蛋白质。
图6 DNAMAN软件分析人ANKRD49蛋白质的亲(疏)水性Fig.6 Prediction of hydrophilicity(hydrophobicity)of human ANKRD49 protein by DNAMAN software
2.4 人A N KRD49蛋白质的信号肽及跨膜结构 利用SignalP 4.1软件对人ANKRD49蛋白质的信号肽进行了预测,剪切位点值(C-score)、信号肽值(Sscore)和综合剪切位点值(Y-score)均在0.1附近,预测人ANKRD49蛋白质不含信号肽,为非分泌型蛋白,在细胞内不进行跨膜运输,见图7。
图7 SignalP 4.1软件预测人ANKRD49蛋白质的信号肽Fig.7 Prediction of signal peptide of human ANKRD49 protein by SignalP 4.1 software
2.5 人A N KRD49蛋白质的跨膜结构域 利用TMpred软件分析了ANKRD49的跨膜区结构,结果如图8所示,紫色细线对应的纵坐标数值表示该蛋白位于膜外的可能性为90%,蓝色细线对应的纵坐标数值表示该蛋白位于膜内的可能性为10%,表明人ANKRD49蛋白质属于非跨膜类蛋白。
图8 TMpred软件分析人ANKRD49蛋白质的跨膜性Fig.8 Analysis of transmembrane property of human ANKRD49 protein by TMpred software
2.6 人A N KRD49蛋白质的二级结构 利用DNAMAN软件预测239个氨基酸组成的ANKRD49蛋白的二级结构,结果见图9,其中102个(42.68%)可能形成无规则卷曲(红色细线),83个(34.7%)可能形成α螺旋(绿色细线),54个(22.6%)可能形成β折叠片(蓝色细线)。人ANKRD49蛋白质的主要结构为α-螺旋和无规则卷曲,该结构有助于蛋白质的稳定性。
图9 DNMAN软件分析人ANKRD49蛋白质的二级结构Fig.9 Analysis of secondary structure of human ANKRD49 protein by DNAMAN software
2.7 人A N KRD49蛋白质的三级结构 利用SWISSMODEL软件分析人ANKRD49蛋白质的三级结构,可见α螺旋结构和无规则卷曲结构,还有部分β-折叠结构,与二级结构预测结果一致,见图10。
图10 SWISS-MODEL软件分析人ANKRD49蛋白质的三级结构Fig.10 Analysis of tertiary structure of human ANKRD49 protein by SWISS-MODEL software
2.8 人A N KRD49蛋白质翻译后修饰位点 利用MotifScan软件,预测获得4个可能的磷酸化部位,分别为CAMP磷酸化位点、CK2磷酸化位点和PKC磷酸化位点,见表2。
表2 人ANKRD49蛋白质翻译后修饰分析Tab.2 Analysis of post-translational modification of human ANKRD49 protein
2.9 人A N KRD49蛋白质互作蛋白 利用蛋白质相互作用在线预测工具(http://www.string-db.org/newstring_cgi/show_input_page.pl)分析了人ANKRD49蛋白质可能的相互作用蛋白质为MT3、MPL、HBG1、HBG2、KLF11、ZBED5、ELAVL2和ARHGEF16,见图11。
图11 人ANKRD49蛋白质互作蛋白质预测Fig.11 Prediction of interacting proteins of human ANKRD49 protein
蛋白质的结构是其功能的基础,资料显示,ankyrin结构域是介导蛋白质与蛋白质相互作用的常见结构基序[13]。而含ankyrin结构域的蛋白质通过ankyrin介导蛋白质与蛋白质的相互作用广泛参与转录调控、细胞周期、细胞凋亡、细胞骨架完整性、细胞机械感受和内吞作用等细胞生命活动过程[14]。ANKRD49含有4个ankyrin结构域,蛋白质氨基酸序列比对及进化树分析提示其是一种进化上保守的蛋白质,在肿瘤发生发展过程中具有重要的生物学功能。通过对肿瘤基因组图谱(TCGA)数据库的挖掘,发现ANKRD49在胶质瘤组织中的表达增加,并且ANKRD49的高表达与疾病分级高、总存活率低密切相关。细胞实验证明,其通过促进人恶性胶质瘤细胞的增殖影响肿瘤的发生发展[15]。人ANKRD49基因及其编码蛋白质在NSCLC细胞也有表达,但该蛋白在低分化、高侵袭性肺癌组织细胞中高表达,而在高分化、低侵袭性肺癌组织细胞中低表达,提示其参与肺癌发展的后期进程及侵袭转移[16],然而ANKRD49在肺癌发生发展中的确切作用及潜在机制还未研究。生物信息学方法有助于揭示其可能的理化性质、互作蛋白等信息,为深入研究ANKRD49基因及其编码蛋白质在肺癌发生发展中的功能提供重要参考价值。
生物信息学分析显示,人ANKRD49蛋白质含有239个氨基酸,氨基酸组成分析得出该蛋白质为亲水的非分泌蛋白和非膜蛋白。氨基酸同源性及进化树分析显示,人ANKRD49蛋白质在进化中高度保守,而4个磷酸化位点的存在提示其可能具有重要功能。人ANKRD49蛋白质含有4个ankyrin结构域,提示其可能通过与其他蛋白质相互作用来发挥生物学作用。蛋白质的相互作用预测显示,ANKRD49可能与KLF11、MT3、MPL、HBG1、HBG2、ZBED5、ELAVL2和ARHGEF16具有相互作用。在这8种互作蛋白中,KLF11和MT3两个蛋白质研究较多,KLF11是Kruppel样转录因子家族中的成员,在胰腺、肌肉、肝脏等多种组织中广泛表达,参与调控细胞增殖、糖脂代谢等多种重要的生理及病理过程。研究表明,KLF11在胰腺癌、肺癌等多种肿瘤中的表达量明显下降,其抑癌作用亦明显降低,这种异常表达参与了肿瘤的发生发展过程。进一步的研究发现[17],KLF11作为TGF-β信号通路下游的调节因子,参与了由TGF-β信号通路调控的一系列生物学功能,包括促进细胞分化凋亡、抑制细胞增殖、调控胰腺等体内重要脏器的发育并维持其功能等。金属硫蛋白(metallo-thionein,MT)是一类缺乏芳香族氨基酸、富含半胱氨酸,可以通过SH-基团与众多金属离子结合的小分子蛋白质[18]。MT与肿瘤的关系非常密切,它不仅参与肿瘤发生、发展及预后等,而且与肿瘤细胞的分化、某些化疗药物的耐药性也密切相关。MT在多种恶性肿瘤中均呈现高水平的表达,由此推测其可能为某些恶性肿瘤的生物学标志[19]。MT3又称神经生长抑制因子,属于编码MT的基因,特异表达于中枢神经系统中,不仅具有重金属解毒和清除自由基等功能,同时具有独特的神经生长抑制活性,与Alzheimer’s病以及肿瘤的发生、发展进程密切相关[20]。
本研究通过生物信息学技术,结合互作蛋白分析推测人ANKRD49蛋白质可能通过与MT3、KLF11等蛋白质相互作用,从而参与调控癌症的发生发展。下一步研究将通过免疫共沉淀、Gst-pull down等方法验证ANKRD49与MT3、KLF11的相互作用,借助基因过表达技术、基因敲低或基因敲除技术进一步研究其在肺癌发生发展中的作用并揭示其作用机制,为肺癌的靶向治疗提供可能的作用靶标。