李中辉,郑文岭,马文丽
(南方医科大学 基因工程研究所, 广东 广州 510515)
研究论文
2型糖尿病相关基因的生物信息学分析
李中辉,郑文岭,马文丽*
(南方医科大学 基因工程研究所, 广东 广州 510515)
目的通过生物信息分析途径,从分子水平揭示2型糖尿病的发病机制,为2型糖尿病的研究提供新的思路。方法从公共数据库GEO中下载2型糖尿病相关基因芯片数据,利用Qlucore Omics Explorer 3.0软件筛选差异表达基因,STRING、DAVID等在线分析工具对差异表达基因进行下一步的生物信息学分析。结果共筛选出89个差异基因,其中表达上调67个,下调22个,这些差异表达基因主要涉及到氧化还原反应、葡萄糖代谢过程、磷酸化作用、细胞骨架蛋白结合、核苷酸结合等分子功能和生物学过程。通过STRING分析,发现9个基因处在核心节点位置。结论通过生物信息学的方法分析得出CDK9、TXN,NDUFS8基因可能为潜在的治疗靶点,需要下一步的分子生物学实验证实。
2型糖尿病;骨骼肌;生物信息学;基因芯片
骨骼肌组织是人体的一个关键的代谢组织,是吸收和利用葡萄糖的主要部位,在体内糖代谢平衡重发挥着重要的作用,骨骼肌胰岛素抵抗的发生是2型糖尿病发病的重要因素[1]。所以,对2型糖尿病患者骨骼肌组织的研究也显得尤为重要。近年来,随着基因芯片技术的发展和应用,产生了大量的基因表达谱数据,如何从这些数据挖掘出有价值的信息,已成为生物信息学研究的一个热点[2- 3],生物信息学的兴起为糖尿病的研究带来了新的方向。本研究对来自基因芯片公共数据库(gene expression omnibus,GEO)中的两组2型糖尿病患者骨骼肌组织的芯片数据进行了生物信息学分析。
1.1 材料
本研究所采用的两组与2型糖尿病骨骼肌组织相关的基因表达谱数据(登录号分别为GSE7014和GSE29221),均从美国国立生物信息中心NCBI数据库GEO (http://www.ncbi.nlm.nih.gov/geo/)中下载,在GEO Datasets数据库搜索框中以“diabetes,type 2 diabetes mellitus”为检索词,获得Krahe R, Sirito M等提交的芯片数据GSE7014和由Jain P, Vig S等提交的芯片数据GSE29221。GSE7014所用实验平台是Affymetrix公司的HG-U133_Plus_2芯片,总共有26个样本,其中2型糖尿病患者骨骼肌组织样本数20例,正常人骨骼肌样本数6例。GSE29221所用的实验平台为Illumina公司的HumanHT-12 V3.0芯片,总共有24例样本,其中2型糖尿病骨骼肌组织样本数12例,正常人骨骼肌组织样本数12例。
1.2 方法
1.2.1 数据处理及差异基因分析:Qlucore Omics Explorer 3.0(http://www.qlucore.com/)可用于分析基因芯片、Mi-RNA芯片,甲基化芯片、蛋白质芯片等,该软件不仅功能完善,而且操作相对简便。本研究利用Qlucore Omics Explorer 3.0软件对芯片数据进行统计学分析,先将数据集导入到Qlucore Omics Explorer 3.0软件,再对数据信息进行标准化处理(平均数为0,标准差为1),采用two group comparsion(两组样本t检验)统计方法,对数据信息的有效过滤,筛选出差异基因,差异基因的筛选条件为:P<0.05,≥2 fold change,Q<0.01。
1.2.2 差异基因的GO富集分析和通路分析:生物学信息注释数据库(the database for annotation, visualization and integrated discovery,DAVID),为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,能够找出最显著富集的生物学注释[4- 5]。本研究是将筛选出的差异基因上传至DAVID (http://www.pantherdb.org/)在线软件,选择DAVID软件中的基因功能注释(functional annotation),对这些差异基因分别进行生物学过程、分子功能、生物学通路分析(kyoto encyclopedia of genes and genomes,KEGG)。
1.2.3 差异基因编码蛋白的相互作用分析: 蛋白质相互作用关系数据库 (functional protein association networks,STRING),包含1 133个物种里的5 214 234种蛋白质,是最大的蛋白质数据库之一,通过STRING分析工具,我们可以直接或间接地预测蛋白质之间的关系[6- 7]。将差异基因导入STRING(http://string-db.org)分析工具,分析其所编码的蛋白之间的相互作用图,找出处在关键节点的蛋白质。
2.1 差异基因筛选结果
从GSE7014数据中筛选出的差异基因为1 271(图1),从GSE29221数据中筛选出的差异基因1480(图2),筛选出的共同差异基因为89个,其中表达上调的为67个,表达下调的为22个(表1)。
Red dots represent high expression and green dots mean low expression图1 GSE7014数据中筛选出的差异基因Fig 1 Differentially expressed genes of GSE7014
Red dots represent high expression and green dots mean low expression图2 GSE29221数据中筛选出的差异基因Fig 2 Differentially expressed genes of GSE29221
GEOdatasetsdifferentialexpressiongenes(n)over-expressedgenes(n)under-expressedgenes(n)GSE70141271956315GSE2922114804521028Co-expressedgene896722
2.2 差异基因的GO富集分析和通路分析结果
GO富集分析显示这些差异表达基因主要参与到氧化还原反应、葡萄糖代谢过程、磷酸化作用、细胞骨架蛋白结合、核苷酸结合等分子功能和生物学过程。KEGG通路分析显示这些差异基因主要参与阿尔茨海默病信号通路、亨廷顿病信号通路、帕金森病信号通路、柠檬酸循环(TCA循环)信号通路、脂肪细胞因子信号通路、氧化磷酸化等信号通路(表2)。
2.3 差异基因编码蛋白的相互作用分析
通过STRING 9.1在线工具对89个差异基因进行蛋白质相互作用网络分析(被STRING识别的基因有89个)(图3),从图中可以看出,GBR10、CDK9、TXN、IGFBP3、PDHA1、NDUFB3、NDUFA5、NDUFS8和TNFRSF1A蛋白与其他蛋白存在≥5的相互作用关系,为此蛋白质相互作用网络的中心节点,删除这些节点蛋白后,网络结构的稳定性降低。
2型糖尿病的发生是多基因相互作用的结果,基因表达谱在糖尿病中的大量应用,为本研究提拱了从生物信息学方面研究糖尿病发病机制的可能性,对基因芯片数据进行后续的生物学解释,是挖掘基因芯片数据的一个重要方向。本研究利用生物信息学软件对芯片数据进行分析,共发现89个差异表达基因,并对这些差异基因进行富集分析、通路分析以及蛋白质相互作用网络分析,筛选出了9个可能和2型糖尿病病变相关的基因,其中GBR10、PDHA1、NDUFB3、NDUFA5和NDUFS8表达上调,TNFRSF1A、CDK9、TXN和IGFBP3表达下调。对这些基因深入研究,发现GBR10、NDUFB3、NDUFA5、TNFRSF1A、CDK9、TXN、IGFBP3以及PDHA1与2型糖尿病的关系已有文献报道,NDUFS8与2型糖尿病关系报道的少之又少。在以上8个已经报道的和2型糖尿病发病有关的基因中,只有GBR10、IGFBP3、PDHA1、NDUFB3、NDUFA5和TNFRSF1A已经被证实了在骨骼肌中表达的异常和2型糖尿病的发病有着密切的联系,CDK9、TXN只是被证实了在胰岛组织中表达的异常和2型糖尿病发病有关,在骨骼肌组织中并没有类似的研究,其具体的作用机制还不清楚,可以作为潜在的治疗靶点,不过还需实验进行证实。
表2 差异基因的GO分析和Kegg通路分析列表
NDUFS8基因(nadh dehydrogenase (ubiquinone) Fe-S protein 8), 即烟酰胺腺嘌呤二核苷酸脱
图3 差异表达基因的蛋白-蛋白相互作用图
氧酶铁-硫蛋白3,相对分子质量为23 ku,包含7个外显子,位于染色体11q13,是线粒体电子传递链复合物Ⅰ的一个重要的亚单位,在真核生物和原核生物中高度保守[8- 10],主要在心脏和骨骼肌组织中表达。在荚膜红细菌的研究中发现其在复合体Ⅰ的装配中发挥着重要的作用[6]。在红面包菌的研究中发现它能阻止复合体Ⅰ的装配[8]。另有研究发现它的突变与亚急性坏死性脑脊髓病的发生有着很大关系[11- 12]。而在本研究中,NDUFS8基因在2型糖尿病患者骨骼肌组织中高表达,可以推测,NDUFS8表达的上调,会影响骨骼肌组织正常的糖代谢,导致胰岛素抵抗的出现,进而促发糖尿病。对于采用生物信息学方法筛选出的差异基因,对2型糖尿病发生的预测价值,还需要通过体内外实验研究证实和大量的临床病例验证。
[1] Eckardt K, Taube A, Eckel J. Obesity-associated insulin resistance in skeletal muscle: role of lipid accumulation and physical inactivity [J]. Rev Endoc Metab Disord, 2011, 12: 163- 172.
[2] 郭霞,伊力努尔·沙比提,玛依拉·卡米力江,等.基于IPA@生物信息平台筛选维吾尔族宫颈癌前病患者血浆预警蛋白[J]。基础医学与临床杂志,2014,34:6- 10.
[3] 庞希宁,李彩虹,施萍,等.EGF对hAMSCs基因表达谱影响及生物信息学分析[J]。基础医学与临床杂志,2013,33:1391- 1397.
[4] Huang da W, Sherman BT, Stephens R,etal. DAVID gene ID conversion tool [J]. Bioinformation, 2008, 2: 428- 430.
[5] Huang da W, Sherman BT, Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources [J]. Nat Protoc, 2009, 4: 44- 57.
[6] Salwinski L, Miller CS, Smith AJ,etal. The database of interacting proteins: 2004 update [J]. Nucleic Acids Res, 2004, 32: 449- 451.
[7] Mishra GR, Suresh M, Kumaran K,etal. Human protein reference database-2006 update [J]. Nucleic Acids Res, 2006, 34: 411- 414.
[8] V Procaccio, D Depetris, P Soularue,etal. cDNA sequence and chromosomal localization of the NDUFS8 human gene coding for the 23 kDa subunit of the mitochondrial complex Ⅰ [J]. Biochim Biophys Acta, 1997, 1351: 37- 41.
[9] Walker JE. The NADH: ubiquinone oxidoreductase (complex Ⅰ) of respiratory chains [J]. Biophys Acta, 1992, 25: 253- 324.
[10] Weidner U, Geier S, Ptock A,etal. The gene locus of the proton-translocating NADH: ubiquinone oxidoreductase in escherichia coli: organization of the 14 genes and relationship between the derived proteins and subunits of mitochondrial complex Ⅰ [J]. J Mol Biol, 1993, 233: 109- 122.
[11] Duarte M, Videira A. Respiratory chain complex Ⅰ is essential for sexual development in Neurospora and binding of iron sulfur clusters are required for enzyme assembly [J]. Genetics, 2000, 156: 607- 615.
[12] Loeffen J, Smeitink J, Triepels R,etal. The first nuclear-encoded complex Ⅰ mMutation in a patient with leigh syndrome [J]. Am J Hum Genet, 1998, 63: 1598- 1608.
Bioinformatic analysis of genes related to type 2 diabetes mellitus
LI Zhong-hui, ZHENG Wen-ling, MA Wen-li*
(Institute of Genetic Engineering, Southern Medical University, Guangzhou 510515, China)
Objective To investigate the genes associated with type 2 diabetes and to explore the molecular mechanism of type 2 diabetes. Methods The microarray data of type 2 diabetes were downloaded from the Gene Expression Omnibus(GEO) database and Qlucore Omics Explorer software was used to screen differentially expressed genes. The further analysis of differentially expressed genes were comducted by the on-line tools STRING, DAVID. Results Of all the 89 differentially expressed genes, 67 genes were of overexpression, 22 genes were underexpressed. These genes were involved in the biological process and molecular function of oxidation reduction, glucose metabolic process, phosphorylation, cytoskeletal protein binding, nucleotide binding. ConclusionsCDK9,TXNandNDUFS8 may be a potential therapeutic target through the bioinformatic analysis, which needs a further study together with molecular experiments.
type 2 diabetes; skeletal muscle; bioinformatic; gene microarray
2014- 10- 23
2014- 12- 29
国家自然科学基金(39880032);广东省领军人才基金(C1030925)
1001-6325(2015)06-0749-05
R587.1
A
*通信作者(corresponding author):wenlima668@qq.com