结直肠癌与糖尿病关联的关键基因鉴定与机制探讨

2023-12-18 14:02胡慧娴陈丽婷亚胜男徐争元
关键词:绘制直肠癌癌症

张 云,胡慧娴,陈丽婷,亚胜男,徐争元*

(1.皖南医学院医学工程学教研室,安徽芜湖 241002;2.芜湖市中医医院血液净化中心,安徽芜湖 241000)

结直肠癌在世界范围内癌症发病率中排名第三,约占所有癌症发病总数的10%,死亡率位居第二[1],近几年在中国结直肠癌(Colorectal Cancer,CRC)的发病率有着明显的上升趋势[2]。一般来说,不健康的生活方式可能占CRC 病因的70%[3],如肥胖、饮酒、糖尿病、不健康的饮食习惯和缺乏运动等因素对结直肠癌的发展有重要影响[4]。近年来研究发现,胰岛素抵抗和高胰岛素血症与结直肠癌密切相关[5]。此外,大量流行病学研究表明,与非糖尿病患者相比,结直肠癌在糖尿病患者中更为普遍[6]。一些观察结果表明,糖尿病与特定器官(如肝脏、胰腺和结肠等)癌症发病率升高之间存在关联。胰岛素调节的异常通过胰岛素样生长因子1(Insulin-like Growth Factor 1,IGF-1)受体等信号通路成为糖尿病和肥胖相关肿瘤发生的基础[7]。为了探讨糖尿病和结直肠癌间的关联,本研究筛选了结直肠癌患者的差异表达基因和糖尿病相关基因并取交集,对交集基因集做功能富集分析和蛋白互作网络分析,进一步筛选出其中的关键基因,并探讨结直肠癌与糖尿病关联的关键基因对结直肠癌患者诊断和预后生存的影响。

1 材料与方法

1.1 数据来源

研究所用数据集来自美国国家癌症研究所(National Cancer Institute,NCI)的TCGA数据库结直肠癌项目(COAD)(https://portal.gdc.cancer.gov/),包含453个结直肠癌组织样本和41个正常组织样本。基因表达谱矩阵含未进行标准化的RNA-seq数据(counts)和每千个碱基的转录每百万映射读取的片段(Fragments Per Kilobase of exon model per Million mapped fragments,FPKM)标准化RNA-seq 数据。验证所用数据集来自美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的GEO数据库中的GSE39582(https://www.ncbi.nlm.nih.gov/geo/),包含566 个结直肠癌组织样本和19 个正常组织样本[8]。表达谱矩阵为RNA-seq数据。使用R(version 4.2.2)及R软件包分析与处理。

1.2 糖尿病相关基因的确定

在GeneCards 数据库中(https://www.genecards.org/)[9]搜索“diabetes”找到糖尿病相关基因,通过相关性评分>15 筛选到264 个高相关性基因,将其作为后续分析使用待选基因。

1.3 差异表达分析

在TCGA数据库中使用R软件包DESeq2比较表达谱数据(counts)以确定COAD样本和正常样本之间的差异表达基因[10],阈值设置为|log2FoldChange|>2,P<0.05,其中FoldChange 为结直肠癌样本和正常样本间的差异变化倍数。利用R 包ggplot2 绘制火山图,利用pheatmap绘制热图。

1.4 功能富集分析

对结直肠癌中差异表达基因与糖尿病相关基因取交集,得到31 个基因,使用Venny 2.1.0(https://bioinfogp.cnb.csic.es/tools/venny/)绘制韦恩图,并使用DAVID 平台(https://david.ncifcrf.gov/)进行基因本体论(Gene Ontology,GO)和京都基因及基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。其中GO 包括生物学过程(Biological Processes,BP)、细 胞成分(Cellular Components,CC)和分子功能(Molecular Functions,MF),可视化采用R包ggplot2[11]。

1.5 蛋白质互作网络分析

使用STRING 数据库(https://cn.string-db.org/)[12],对31个结直肠癌中差异表达基因与糖尿病相关基因交集基因构建蛋白质互作网络(Protein-Protein Interaction networks,PPI),置信分数设置为0.4。将生成的TSV文件导入Cytoscape 软件(3.7.2 版本),使用MCODE 算法得到紧密连接的子网络。再使用cyto-Hubba 中的MCC、DMNC、MNC、Degree 和EPC 等五种算法各取前8 个基因再取交集,筛选出整个PPI网络中的2个关键基因(hub genes)。

1.6 基因表达水平验证及预后分析

分别 在 TCGA 数据库 和 GEO 数 据库(GSE39582)中验证2 个关键基因的表达量差异。以表达量中位数为阈值对结直肠癌样本和正常样本进行分组分析,使用R 包ggpubr 进行表达量差异的可视化呈现(采用wilcoxon 检验),使用R 包pROC 绘制其对应的受试者工作特征(Receiver Operating Characteristic,ROC)曲线,并计算ROC 曲线下面积(Area Under Curve,AUC),以评判其诊断效能。将患者按照表达量的四分位进行分组,绘制两组间Kaplan-Meier(KM)生存曲线进行结直肠癌患者预后分析(采用log-rank检验)。

2 结果

2.1 差异基因

针对结直肠癌患者组织样本和正常组织样本进行差异分析,以log2FoldChange >2,P<0.05 为阈值筛选出上调差异基因980个,以log2FoldChange <-2,P<0.05 为阈值筛选出下调差异基因1 062 个,并绘制成火山图(图1A)。根据上述2 042 个差异基因在两组间的表达量差异,绘制成热图(图1B)。

图1 结直肠癌相关差异表达基因的火山图和热图

在GeneCards 中筛选与糖尿病相关性评分大于15 的基因,共264 个。将结直肠癌的2 042 个差异基因和糖尿病相关的264 个基因取交集,共得到31 个基因,绘制成韦恩图(图2)。

图2 结直肠癌差异表达基因与糖尿病相关基因的交集基因韦恩图

2.2 功能富集分析

对31个交集基因进行GO功能富集分析,结果显示其参与的主要生物学过程为血糖稳态、胰岛素分泌、外分泌胰腺发育、活动响应和对糖皮质激素的反应等。KEGG 富集分析结果显示其参与的主要通路为脂肪细胞因子信号通路、神经活性配体-受体相互作用、AMPK 信号通路、2 型糖尿病和肾素分泌等(图3)。

图3 GO和KEGG富集分析

2.3 PPI网络

为了探索31 个交集基因间的相互作用关系,我们使用STRING 数据库构建了 combined score >0.4 的PPI蛋白互作网络(图4),该网络由31 个节点和125 条边构成。再将该网络导入Cytoscape 软件中做进一步分析,利用MCODE 插件筛选出一个中心模块(图5),模块得分为9.667,由13 个节点和58 条边构成。利用cytoHubba 插件中的五种算法(MCC、DMNC、MNC、Degree 和EPC)分别计算得分,各取前8 位关键基因(表1),再对这些算法筛选出的基因取交集,绘制韦恩图(图6),得到重叠的2 个关键基因,分别是CD36 和SERPINE1。

表1 cytoHubba 中5 种算法的前8 基因

图4 PPI蛋白互作网络

图5 MCODE网络模块

图6 cytoHubba 5种算法重叠的关键基因

2.4 关键基因的表达验证

在TCGA数据库中分析CD36和SERPINE1在两组间的表达差异,并绘制成箱线图。结果显示CD36在结直肠癌组织中显著低表达(P<0.001),而SERPINE1在结直肠癌组织中显著高表达(P<0.001)。采用ROC曲线评判其诊断效能,曲线下面积AUC 分别为96.8%和87.0%(图7)。选取GEO数据库中与结直肠癌相关的GSE39582数据集进行外部验证,结果同样显示CD36在结直肠癌组织中显著低表达(P<0.001),而SERPINE1在结直肠癌组织中显著高表达(P<0.01)(图8),这表明两个关键基因均可以作为有效的结直肠癌诊断标志物。

图7 TCGA数据库中CD36和SERPINE1表达差异与ROC曲线

图8 GEO数据库中验证CD36和SERPINE1表达差异与ROC曲线

2.5 结直肠癌患者预后分析

为了探究两个关键基因和结直肠癌患者的预后及生存的关系,我们结合患者临床数据中的生存状态和生存期,绘制了KM 生存曲线(图9)。结果显示TCGA 数据库中CD36 高表达组具有较短的生存期(P<0.01),SERPINE1 高表达组同样具有较短的生存期(P<0.001)。在GEO 数据库中结论基本一致,CD36 高表达组具有较短的生存期(P<0.01),而SERPINE1 高表达组也具有较短生存期的趋势,尽管这种差异无统计学意义。

图9 CD36和SERPINE1在两个数据库中的KM生存曲线

3 讨论

一些流行病学研究已经确定糖尿病是结直肠癌的危险因素,它们关联的潜在病理生理机制包括高胰岛素血症、胰岛素样生长因子(IGF)轴、高血糖、脂肪组织功能障碍引起的炎症、胃肠运动障碍和免疫监测受损等。以往的研究证实了2 型糖尿病与结直肠癌的发生和患者的生存状态之间具有相关性,潜在的糖尿病会对结直肠癌患者的预后产生不利影响[13]。

通过对糖尿病相关基因和结直肠癌差异表达基因取交集,并采用PPI蛋白互作网络等方法筛选出关联糖尿病和结直肠癌两种疾病的2 个关键基因——CD36和SERPINE1。

CD36,也被称为清道夫受体B2,是一种多功能受体,介导脂质摄取、高级氧化蛋白产物和免疫识别。作为跨膜蛋白,CD36 主要表达于细胞表面的膜糖蛋白,存在于多种细胞类型中,包括血小板、脂肪细胞和部分上皮细胞[14]。已有研究证明CD36 可作为如胰岛素抵抗和2 型糖尿病等代谢性疾病和心血管疾病等的生物标志物[15]。同时CD36 通过调节细胞与细胞外基质的附着,影响基质细胞的命运(脂肪细胞、内皮细胞),在癌症转移定殖、脂质积累、细胞凋亡中发挥作用[14]。临床研究发现,CD36 通过介导的脂质代谢促进肿瘤生长、转移侵袭和耐药[16]。进一步研究发现CD36 mRNA 高表达的CRC 患者的5年生存率低于CD36 mRNA 低表达的CRC 患者[17]。本研究结果表明CD36 在结直肠癌组织中显著低表达,这种改变与基质受体的缺失有关,CD36 在分离的肿瘤细胞上的正常表达证实了这一假设[18]。目前为止CD36 已被反复提出作为各种癌症的预后标志物,特别是上皮性癌症(如结肠癌和乳腺癌等)。各种癌症的临床模型表明阻断CD36 可能有助于阻止癌症的转移扩散[15]。CD36 通过促进Glypcian4(GPC4)的蛋白酶依赖泛素化来抑制β-catenin/c-myc轴参与CRC 的发展[19]。另外,CD36 通过多种分子机制参与肿瘤免疫和治疗耐药,靶向CD36 可作为肿瘤免疫治疗的有效策略[20]。CD36 与代谢紊乱密切相关,并参与结直肠癌的发生、生长、肿瘤免疫和转移性侵袭,是糖尿病和结直肠癌的不良预后标志物[21]。

丝氨酸蛋白酶抑制因子1(Serpin Peptidase Inhibitor 1,SERPINE1)是丝氨酸蛋白酶抑制剂的编码基因,在体内可抑制纤维蛋白溶解[22]。研究证明SERPINE1 基因多态性与2 型糖尿病(T2D)有关,SERPINE1 基因编码的纤溶酶原激活物抑制剂-1(PAI-1)水平较高时促使2 型糖尿病的发病[23],是糖尿病的治疗靶点[24]。此外,SERPINE1 被发现与结直肠癌的发病率密切相关,因此了解SERPINE1在体内表达的调控机制至关重要。近期研究表明,SERPINE1 的表达与结直肠癌的进展和不良预后相关[25]。Pranteda 等人发现SERPINE1 可以通过P38-MAPK 通路促进结肠癌的进展[26]。SERPINE1 可以催化基底膜和ECM的降解,使癌细胞更容易入侵周围的正常组织并促进癌症的发展[27]。同时发现SERPINE1 表达上调激活上皮细胞-间充质转化(EMT)过程,导致结直肠癌细胞的侵袭和增殖能力明显升高,凋亡水平降低[28]。进一步研究证实肠上皮细胞中SERPINE1 上调有利于细胞外信号调节激酶信号的原肿瘤作用,是治疗结直肠癌的潜在靶点[29]。SERPINE1 表达水平升高时可促使2 型糖尿病发病,并影响结直肠癌侵袭性,是调节糖尿病和结直肠癌进展的因素和潜在的治疗靶点[30]。

本研究通过对糖尿病和结直肠癌的交集基因做富集分析,发现交集基因集与胰岛素分泌、2 型糖尿病等过程与通路有关,而糖尿病是一种复杂的代谢性疾病,以胰岛素分泌不足与胰岛素抵抗引起慢性高血糖为典型特征[31],且2 型糖尿病患者较1 型糖尿病患者更容易发生癌症[32]。研究表明,2 型糖尿病与不同类型癌症的发生风险增加有关,尤其是内分泌和胃肠道恶性肿瘤[33]。此外,2 型糖尿病可能通过慢性高血糖和高胰岛素血症与结直肠癌的发展有因果关系,可增加结直肠癌复发的风险[34-35]。根据Zhu 等人研究发现,结直肠癌、结肠癌和直肠癌合并糖尿病患者的生存期比无糖尿病患者短5年[36]。

4 结语

本研究通过关联糖尿病与结直肠癌,筛选了2个关键基因,通过对CD36 和SERPINE1 进行分子功能的探讨,提供了结直肠癌发病机制及进展的新见解,为后续探索糖尿病和结直肠癌的关联提供研究基础,并为结直肠癌发生发展机制的研究及治疗提供了新思路。

猜你喜欢
绘制直肠癌癌症
Art on coffee cups
留意10种癌症的蛛丝马迹
放学后
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症
腹腔镜下直肠癌前侧切除术治疗直肠癌的效果观察
直肠癌术前放疗的研究进展
COXⅠ和COX Ⅲ在结直肠癌组织中的表达及其临床意义
GRP及GRPR在结直肠癌中的表达及意义