许 晶,李冬云,吴洁雅,代 忠,吴俊汎,姚梦丹,侯 丽
(1.北京中医药大学东直门医院,北京 100700;2.北京市朝阳区桓兴肿瘤医院,北京 100023)
胃癌是胃黏膜上皮细胞常见的消化系统恶性肿瘤。在中国,恶性肿瘤中胃癌发病率和死亡率均居第三位[1-2]。2020年全球癌症数据显示,胃癌发病率和死亡率在全球恶性肿瘤中分别居第五位和第四位;其中中国胃癌新发病例为48万例,死亡病例37万例,约分别占全球的44.04%和48.05%;早期胃癌5年生存率可超过95%,但中国80%患者在诊断时已为晚期,总体5年生存率<50%,治疗效果欠佳,且不良反应大,严重影响患者身心健康[3-4]。
中医学认为脾胃虚弱是胃癌发病之关键,气、血、瘀、痰、毒等为重要的病理因素。其治疗手段多样,包括中药汤剂、中成药、针灸等,可有效提高患者临床疗效和生活质量,并减轻不良反应,延长生存期。目前,关于中医药治疗晚期胃癌的机制研究较少,较少从基因、分子等微观层面阐述其作用机制。数据挖掘技术是利用现代技术从大量数据中获取有用信息的手段,网络药理学可从系统层面展现中药的活性成分和作用机制。本研究通过数据挖掘方法分析135例晚期胃癌患者的中药处方规律,综合运用网络药理学和基因芯片技术分析核心处方治疗胃癌的关键靶点和作用机制,并探索关键靶点与胃癌预后的关联性,以期为中医药防治胃癌及新药研发提供理论指导和依据。
1.1 数据来源 本研究遵循《赫尔辛基宣言》中的伦理准则。收集2015年1月1日至2020年12月31日就诊于北京中医药大学东直门医院和北京市桓兴肿瘤医院晚期胃癌患者病历,并从中筛选出晚期胃癌中医治疗受益人群。此受益人群为接受现代医学规范化治疗与同步中医药治疗后,生存期超过循证医学证据下中位生存期的晚期胃癌患者。将2010年ToGA研究中单纯化疗组的中位生存期11.1个月作为循证医学的中位生存期,故受益人群定义为Ⅳ期生存时间≥11.1个月的患者[5-6]。
1.2 纳入标准 (1)病理诊断明确为胃癌,参照WHO(2019年)《消化系统肿瘤分类》胃癌定义[附录(二)][7];(2)TNM分期为Ⅳ期,参照UICC及AJCC胃癌TNM分期系统(第8版,2016)[附录(三)][8];(3)晚期胃癌中医治疗受益人群,即Ⅳ期生存时间≥11.1个月的患者;(4)至少接受1个月的中医药汤剂辨证治疗;(5)年龄18周岁以上,性别不限。
1.3 排除标准 (1)既往或合并2种及以上原发恶性肿瘤;(2)心、肝、肾等脏器存在严重的非肿瘤性疾病;(3)未口服中药汤剂者;(4)孕期、哺乳期妇女等。
1.4 数据录入和分析 分析软件为中国中医科学院自主研发的中医传承计算平台(TCMICS)V 3.0软件。首先使用Excel录入相关病历信息,规范中医处方药名后根据模板录入处方信息,一人负责信息录入,两人负责信息核对,以确保数据准确性。所有纳入病历均选择录入患者首次就诊时的处方。最后,通过TCMICS V 3.0软件对药物频数和组方规律进行分析。
1.5 筛选核心组合成分和靶点 首先检索TCMSP数据库(http://tcmspw.com/tcmsp.php)[9]并以口服生物利用度(OB)>30%和类药性(DL)>0.18为筛选条件获得了核心组成药物的有效活性成分[10],同时检索中国知网、万方、维普数据库和Pubmed数据库以补充药物的活性成分,时间截至2021年1月15日。去重后,利用Pubchem数据库(https://pubchem.ncbi.nlm.nih.gov/)[11]获得有效化学成分的2D或3D结构,通过将其结构“SDF”格式文件导入Swiss Target Prediction平台(http://www.swisstargetprediction.ch/)[12]预测活性化合物的潜在靶点,同时结合TCMSP数据库中的有效成分靶点对所有药物靶点进行汇总。
1.6 获取胃癌靶点 以“gastric cancer”为关键词,以“Series”“Expression profiling by array”“Homo sapiens”为限定条件检索GEO数据库,截止时间为2021年1月15日,最终得到277个胃癌相关基因芯片。使用GEO2R筛选胃癌和胃正常组织样本之间的差异表达基因(DEGs),其中|lgFC(fold change)|>1和校正P<0.05为差异有统计学意义。运用limma包和pheatmap绘制DEGs火山图和热图。
1.7 构建相关PPI网络 首先利用Venn在线数据获得药物和疾病共同靶点,STRING数据库分析蛋白质之间的相互作用,分别获取疾病DEGs、共同靶点及“有效成分-共同靶点“的PPI网络。随后,利用Cytoscape 3.8.1软件对PPI网络进行可视化分析,其插件MCODE和Bisogenet被用来识别各PPI网络中的最显著modules,参数设置均为默认参数。
1.8 富集分析 通过R软件的“ggplot2”“clusterProfiler”“enrichplot”等安装包获取GO和KEGG富集分析结果,以P<0.05为差异有统计学意义,得到共同靶点的主要生物学过程和可能性较大的通路,并进一步筛选与胃癌相关的信号通路,利用Cytoscape软件对通路和涉及的基因进行可视化分析。
1.9 关键靶点与胃癌关联性分析 通过Oncomine数据库和Kaplan-Meier Plotter数据库进一步探寻关键靶点与胃癌预后的关联性。
2.1 一般资料 本研究最终纳入135例患者,其中男性81例,女性54例,男女比例约为3∶2。最大者为85岁(3例),最小者为26岁(1例),平均年龄为59.33岁。平均体质量指数(BMI)为21.13 kg/m2。(见表1)
表1 一般资料
2.2 药物频数统计 研究所纳入的135份处方涉及251味中药,药物频数前10的中药依次为黄芪、党参、半夏、陈皮、茯苓、鸡内金、白术、甘草、麦芽、鸡血藤。(见表2)
表2 中药使用频数分布(频数≥33)
2.3 药物性味归经功效统计 四气总频数为2 472,频数由高到低依次为温、平、寒、凉、热,其中温、平、寒共占94.38%;五味总频数为3 805,频数由高到低依次为甘、苦、辛、酸、咸,其中甘、苦、辛共占90.41%。(见表3~4)
表3四气频数分布
表4 五味频数分布
中药归经总频数为6 832,其中脾经频数最高,其次为肺经、胃经、肝经、肾经、心经等。(见表5)
表5 中药归经频数分布
药物功效分类总频数为2 504,频数最高为补虚类(696),其次为理气类(234)、清热类(218)、消食类(197)、化痰止咳平喘类(171)、利水渗湿类(169)等。(见表6)
表6 药物功效分类
2.4 药物关联规则分析 本研究设置支持度为30%,置信度为0.7,得到29个核心组合,其中黄芪与半夏、黄芪与党参、党参与半夏、党参与陈皮等为排名靠前的药物组合。(见表7)图1为药物关系网络图。将支持度个数设置为40,置信度≥0.7,得到23个核心关联组合。(见表8)
表7 高频药物组合表(支持度≥0.3,置信度≥0.7)
图1 药物网络关系图(支持度≥0.3,置信度≥0.7)
表8 药物关联规则分析表(支持度≥0.3,置信度≥0.7)
2.5 药物组方规律分析 本研究通过无监督的聚类算法,将聚类个数设定为3进行聚类分析。第一类:以黄芪、党参、陈皮、半夏、茯苓为主的处方有72份;第二类:以黄芪、党参、陈皮、半夏、白术为主的处方有33份;第三类:以黄芪、鸡内金、甘草、麦芽、鸡血藤为主的处方有30份。(见表9)结合药物频数、关联规则及聚类分析可知,“黄芪-党参-陈皮-半夏-茯苓”为治疗晚期胃癌的核心药物组合。
表9 无监督聚类核心组合(聚类个数为3)
2.6 “黄芪-党参-陈皮-半夏-茯苓”的网络药理学研究
2.6.1 “黄芪-党参-陈皮-半夏-茯苓”有效活性成分和靶点 从TCMSP数据库中筛选药物有效活性成分,结合文献补充了黄芪[13-14]中的黄芪皂苷Ⅰ(astragaloside Ⅰ)、黄芪皂苷Ⅱ(astragaloside Ⅱ)、黄芪皂苷Ⅲ(astragaloside Ⅲ)、黄芪皂苷Ⅳ(astragaloside Ⅳ);陈皮[15]中的橙皮甙(Hesperidin)。去重后得到有效活性成分77个(黄芪23个,党参20个,陈皮6个,半夏12个,茯苓14个,党参、半夏共同成分1个,黄芪、茯苓共同成分1个)。(见表10)
表10 “黄芪-党参-陈皮-半夏-茯苓”有效活性成分
通过Pubchem数据库排除5个无2D和3D结构的化合物及3个Swiss Target Prediction平台无法预测的化合物,最终通过该平台获取可预测有效化合物69个。将该平台属性为“homo sapiens”,可信度≥0.1,筛重后得到药物靶点579个,通过TCMSP数据库得到了283个有效成分靶点,筛重后最终得到药物靶点862个。
2.6.2 胃癌作用靶点 以GSE63089和GSE118916数据集中的胃癌样本组织为研究对象,最终共获得520个胃癌DEGs,包含366个上调基因和154个下调基因。图2A为差异基因热图,图2B为火山图,图中红色和绿色分别代表为上调和下调基因,黑色为差异无统计学意义的基因。
图2 胃癌差异基因的热图
2.6.3 构建“药物-疾病”共同靶点PPI网络图 本研究利用Venn在线数据库将862个药物靶点和520个胃癌DEGs取交集后可得到58个“药物-疾病”共同靶点。(见图3)通过Cytoscape软件中的CytoNCA插件,对获得的PPI网络图进行可视化分析以获得最显著的靶点子网络。以度中心性(Degree Centrality,DC)>61和介度中心性(betweenness centrality, BC)>600作为筛选条件进行PPI网络可视化分析。将共同靶点PPI网络图(图4-A,12 563个节点,63 587条边)经degree(>61)过滤后得到PPI网络图(图4-B,666个节点,28 308条边),经BC(>600)得到PPI网络图(图4-C中146个节点,3 683条边)。NTRK1、TP53、MCM2、CUL3、CDK2、FN1、ESR1、ITGA4、UBC、NPM 1、CUL1等为排名靠前的靶点。(见表11)
表11 排名前20 的核心靶点拓扑分析表
图3 药物靶点与胃癌DEGs 交集韦恩图
图4 共同靶点PPI 网络图
2.6.4 构建“有效成分-共同靶点”可视化网络图 通过Cytoscape 3.8.1软件构建“有效成分-共同靶点”的可视化网络图。图5中紫色倒三角形为靶点,椭圆形为有效成分,共涉及105个节点(58个基因和47个药物成分),280条边。MOL000098[quercetin,(槲皮素)]、MOL000006[luteolin,(木犀草素)]、MOL000354[isorhamnetin(异鼠李素)]、MOL000422[kaempferol,(山奈酚)]、MOL002714[baicalein,(黄芩素)]等为度值排名靠前的有效成分。
图5 “有效成分-靶点”可视化网络图
2.6.5 GO 和KEGG 富 集 分 析 通 过R 软 件 的“ggplot2”“clusterProfiler”“enrichplot”包对58个共同靶点进行GO和KEGG富集分析。共获得485条GO功能富集通路,其中BP涉及细胞外基质代谢、DNA信号转导、调控有丝分裂过程等,MF涉及金属内肽酶活性、氧化还原酶活性、蛋白酶活性等,CC涉及染色体结构、细胞周期蛋白依赖性蛋白激酶全酶复合物、蛋白激酶复合物等。
通过R软件构建58个共同靶点的KEGG通路富集图,其涉及的通路包括细胞周期、细胞衰老、p53信号通路、糖尿病并发症中的AGE-RAGE信号通路、TNF信号通路等。(见图6)此外,本研究利用Cytoscape构建了靶基因与富集通路的PPI网络图。此图形共涉及41个节点(29个靶基因、12条富集通路),66条边。图7显示,红色倒三角形代表富集通路,绿色矩形代表靶基因,面积越大表示通路富集程度越显著,基因参与富集通路越多。
图6 KEGG 通路富集分析图
图7 KEGG 通路可视化网络图
2.7 关键靶点与胃癌预后的关联性 本研究分析了Degree值排名前3的关键靶点(NTRK1、TP53、MCM2)与胃癌预后的关联性。在Oncomine数据库中,Meta分析纳入10项研究,结果显示:胃癌组织中NTRK1表达与正常组织比较,差异有统计学意义(P<0.05)。Meta分析纳入7项研究,结果显示:TP53在所有差异表达基因中其中位数值排名为3 465.0(P<0.05)。Meta分析纳入12项研究结果显示:MCM2在所有差异表达基因中的中位数值排名为2 386.0(P<0.05)。(见图8)表12为9项研究中3个关键靶基因所在研究的样本量、过表达倍数、P值等。
表12 NTR1/TP53/MCM2 在不同研究中的表达情况
图8 Oncomine 数据库中TP53/NTRK1/MCM2在胃癌组织中的表达
通 过Kaplan-Meier Plotter 数 据 库 发 现,NTRK1、TP53、MCM2高表达组的OS和FP均低于低表达组,差异有统计学意义(P<0.05),提示NTRK1、TP53、MCM2表达水平越低,胃癌患者生存期越长。(见图9~10)
图9 NTRK1/TP53/MCM2 的表达水平与胃癌总生存期(OS)的关系
图10 NTRK1/TP53/MCM2 的表达水平与胃癌首次进展时间(FP)的关系
胃癌是常见的消化系统恶性肿瘤,其发病率和死亡率在中国乃至全球恶性肿瘤中位居前列。本研究通过数据挖掘的方法分析了135例晚期胃癌中医治疗受益人群,发现晚期胃癌男性发病率明显高于女性,男女比例约为3∶2,此结果与既往文献报道男性发病率约为女性的2.22倍一致[22]。135例患者中超过85%患者的年龄在50岁以上。既往流行病学调查显示,胃癌发病率随年龄的增加逐渐升高,尤其是45岁以后,与本研究结果基本一致[23]。“黄芪-党参-陈皮-半夏-茯苓”为治疗晚期胃癌的核心药物组合。黄芪和党参是临床上常用的补益类药物。黄芪多糖可通过干扰细胞周期过程,抑制并杀伤人胃癌细胞MKN45、MGC-803的生长,发挥抗胃癌作用[24]。党参多糖可显著抑制胃癌BGC-823细胞的增殖,诱导细胞发生凋亡[25]。半夏和陈皮为常用的燥湿化痰药对。半夏总生物碱可通过损伤细胞DNA抑制人胃癌细胞株SGC-7901细胞的增殖来发挥抗胃癌作用[26]。陈皮提取物可通过抑制STAT3信号通路,下调STAT3的磷酸化表达,抑制胃癌细胞的上皮-间充质转化(Epithelial-mesenchymal transition,EMT)以抑制肿瘤细胞的侵袭[27]。现代药理学研究表明,茯苓可通过增强机体免疫功能,活化巨噬细胞、NK细胞和T、B淋巴细胞,以及调节细胞因子分泌等途径发挥抗肿瘤作用[28]。
网络药理学研究发现,“黄芪-党参-陈皮-半夏-茯苓”共含有效活性成分为77个。“有效成分-靶点”网络图显示,黄芪中的槲皮素、异鼠李素、山奈酚、熊竹素,党参中的木犀草素,半夏中的黄芩素,陈皮中的橙皮素、柚皮素,以及茯苓中的16α-羟基脱氢甲基丙烯酸等成分均为抗胃癌的主要有效成分。其中槲皮素、异鼠李素、山奈酚、木犀草素、黄芩素、橙皮素、柚皮素等均为黄酮类化合物。黄酮类化合物可通过抑制肿瘤细胞增殖和肿瘤新生血管生成、诱导肿瘤细胞凋亡、促进肿瘤细胞自噬性死亡、逆转多药耐药等多途径发挥抗肿瘤作用[29-30]。有研究采用不同浓度的槲皮素处理胃癌细胞SGC-7901后发现,槲皮素可通过降低Cav-1表达抑制胃癌细胞的增殖及侵袭[31]。此外,槲皮素可通过下调Bcl-2的表达、上调Bax的表达、降低Bcl-2/Bax的水平,促进胃癌细胞凋亡[32]。朱栋良等[33]发现异鼠李素可通过p53等凋亡相关蛋白抑制人胃癌细胞MKN28的增殖,促进其细胞凋亡,从而发挥抗胃癌作用。SONG H等[34]发现山奈酚可通过下调CCNB1、CDK1、CDC25C的水平抑制胃癌MKN28和SGC7901细胞的增殖和小鼠移植瘤的生长。REN L Q等[35]发现木犀草素联合奥沙利铂可通过改变细胞周期比例以抑制胃癌SGC-7901细胞的增殖,从而诱导细胞凋亡。HE P等[36]发现橙皮素可通过抑制PI3K/AKT信号通路,上调PTEN表达而诱导线粒体通路以增强顺铂对胃癌的抗肿瘤作用。
本研究发现,核心药物和疾病共同靶点为58个,其中NTRK1、TP53、MCM2、CUL3、CDK2、FN1、ESR1等为关键靶点。神经营养因子受体酪氨酸激酶基因1(Neurotrophic Receptor Tyrosine Kinase 1,NTRK1)负责编码TRK家族蛋白中高亲和力神经生长因子受体(TRKA蛋白),是NTRK基因家族成员之一,与EGFR、KRAS 基 因 突 变 和ROS1 融 合 基 因 不 同 时 存 在[37]。NTRK1基因融合广泛存在于多种实体瘤中,但发生率因肿瘤类型不同而差异较大。其在非小细胞肺癌、乳腺癌等常见肿瘤中发生率不足1%,在分泌性乳腺癌、婴儿型纤维肉瘤等罕见肿瘤中则超过90%[38]。SHINOZAKI-USHIKU A等[39]于2020年首次报道了NTRK1基因重排发生在胃癌中,可能与侵袭性表型及广泛的淋巴管浸润等组织学特征有关。肿瘤抑制因子p53(tumor suppressor p53, TP53)是一种重要的抑癌基因,约50%肿瘤存在TP53突变,且与肿瘤患者不良预后密切相关[40]。微小染色体维持蛋白2 (minichromosome maintenance complex component 2,MCM2)为微小染色体维持蛋白家族成员之一,过表达于增殖细胞以反映细胞增殖活性,可作为细胞增殖标记物[41]。KATO H等[42]研究发现,MCM2在食管鳞癌中的表达与淋巴结转移、远处转移、病理分期等有关,其在预后价值方面可能会成为比Ki-67更可靠和有用的标记。
富集分析结果发现,NTRK1、TP53、MCM2、CUL3、CDK2等58个共同靶点通过参与细胞外基质代谢、DNA信号转导、调控有丝分裂、金属内肽酶活性、氧化还原酶活性、染色体结构等过程,以及调控细胞周期、细胞衰老、p53信号通路、糖尿病并发症中的AGE-RAGE信号通路、TNF信号通路等途径发挥抗胃癌作用。细胞周期在调控细胞生长增殖过程中起重要作用,细胞周期进程的异常或中断会打乱细胞增殖和细胞凋亡间的平衡,继而导致肿瘤。CDK2是重要的细胞周期依赖性蛋白。有研究发现,槲皮素可通过使CDK2过表达以阻滞胃癌SGC-7901细胞周期于S期,发挥抗癌效应[43]。有研究发现,异鼠李素可通过细胞周期通路阻断细胞G0期转换为S期,且可阻断细胞DNA合成和复制,从而抑制胃癌细胞增殖,诱导细胞凋亡[44]。p53信号通路是以肿瘤抑制基因p53为核心且与许多基因相互作用而构成的信号通路,其在调控细胞正常生命活动中有重要作用。柚皮素可通过调控microRNA34a/Sirt1/p53信号通路发挥抗癌作用,而槲皮素可通过促进p53的表达及增加p53的稳定性以抑制肿瘤细胞增殖[45-46]。糖基化终末产物(AGEs)是由一系列复杂化学过程形成的异源性大分子物质。RAGE是首个AGEs的受体,属于免疫球蛋白超家族受体,在肝癌、直肠癌、乳腺癌等肿瘤中高表达。AGEs结合RAGE共同构成了糖尿病中的AGE-RAGE信号通路[47-48]。AGEs可通过使RAGE过表达促进结肠癌干细胞增殖,抑制其凋亡[49]。肿瘤坏死因子(TNF)可通过与特异性受体结合诱发炎症反应,促进细胞生长增殖、分化、凋亡等过程[50]。TNF可通过激活NF-κB、JNK、细胞凋亡3条下游信号通路发挥其免疫调节、抗炎、抗病毒、细胞凋亡等生物学功能。木犀草素可通过抑制TNF-α诱导的NF-κB活性以抑制NF-κB靶定抗凋亡基因的表达,其尚可通过抑制NF-κB放大并延长TNF-α诱导的JNK活性以发挥抗癌效应[51]。
本研究通过Oncomine数据库和Kaplan-Meier Plotter数据库发现,NTRK1、TP53、MCM2在胃癌组织中均高表达;其高表达组的OS和FP均低于低表达组,表明NTRK1、TP53、MCM2表达水平越低,胃癌患者生存期越长。TP53突变被证明与多种肿瘤的不良预后相关,但TP53的状态与胃癌患者预后之间的关系并未明确[52]。HAMAKAWA T等[53]通过检测晚期胃癌患者血浆中TP53基因后发现,TP53水平升高与不良预后密切相关,且术后发生复发转移的患者TP53水平均升高。此结论与本研究通过Oncomine数据库得出的观点一致。MCM2是能准确反映细胞增殖状态的标志物,可对肿瘤患者预后进行预测。YANG C等[54]通过检测264例患者胃癌组织和癌旁组织中MCM2的水平后发现,MCM2在胃癌组织中的表达水平高于正常胃黏膜(P=0.04),且MCM2表达阴性的患者生存期明显高于表达阳性者(P<0.05)。此结论与本研究通过Oncomine数据库和Kaplan-Meier Plotter数据库得出的结果一致。LIU M等[55]通过MCM2表达水平预测贲门癌的诊断和预后,发现MCM2与Ki67和PCNA的表达相关,且MCM2敏感性和阴性预测值优于Ki67,是一种敏感、特异、高效的贲门癌标志物,具有潜在的临床应用价值。1项大规模的中国肺癌患者NTRK1融合调查[56]显示,21 155例肺癌患者中出现12例NTRK1融合阳性,最终发现伴有多个融合的NTRK1+肺癌病例极为罕见,但NTRK1+融合的出现可能是EGFR TKIs的耐药机制。但目前关于NTRK1在胃癌中的研究较少,SHINOZAKI-USHIKU A等[39]在2020年首次报道了NTRK1基因重排发生在胃癌中。关于其在胃癌中的表达和预后关系目前并不明确,需要未来大样本的研究加以证实。
中医药治疗晚期胃癌使用频率最高和关联程度最大的5味核心药物为“黄芪-党参-陈皮-半夏-茯苓”;“黄芪-党参-陈皮-半夏-茯苓”可能通过其有效成分槲皮素、异鼠李素、山奈酚、木犀草素等调控NTRK1、TP53、MCM2、CUL3、CDK2等58个关键靶点,并通过细胞周期、p53信号通路、糖尿病并发症中的AGE-RAGE信号通路、TNF信号通路等途径参与调控肿瘤细胞周期、炎症反应发挥抗胃癌效应;NTRK1、TP53、MCM2在胃癌组织中均高表达,三者高表达组OS和FP均低于低表达组,表明NTRK1、TP53、MCM2表达水平越低,胃癌患者生存期越长。