黄爱本 何泽生 黄菲一 孔令员
依据近期世界卫生组织国际癌症研究机构的研究数据,2020年全球新增癌症病例约1 930万例(不包括非黑色素瘤皮肤癌1 810万例),癌症死亡病例近1 000多万例(排除非黑色素肿瘤皮肤癌990万例),其中一个最明显的变化是乳腺癌新发病例数的快速增长。目前,女性癌症中乳腺癌的患病率已超过肺癌成为最常见的诊断癌症,新增病例约230万例(11.7%)[1]。发达国家有636 128例乳腺癌病例,而发展中国家为514 072例,分别为189 765例和220 648例[2]。在欧洲,2004年的估计表明,新诊断的乳腺癌病例为371 000例,与乳腺癌相关的死亡病例为12.99万例[3]。在全世界范围内,乳腺癌是影响女性的最常见的癌症,预计其发病率和死亡率在未来5~10年内将显著增加,已严重的影响了女性的生命健康。据统计,我国乳腺癌五年生存率超80%,已成为继甲状腺肿瘤外生存率最高的肿瘤。但大量患者仍存在复发或转移的风险,中国乳腺癌复发率约20%~30%,5年内复发转移风险最高。毫无疑问,随着医疗水平的不断提高及全身放化疗的标准化,放化疗技术成为了治疗大多数癌症类型的“金标准”方法,以适度改善癌症患者的存活率和降低放化疗不良反应的毒性,靶向治疗成功吸引了科学界的最大研究兴趣和制药行业的资金投入。最近的研究证据表明,乳腺癌确诊时年龄的年轻化是一个独立的生存预后因素[4]。世界卫生组织国际癌症研究机构的研究数据报告分析表明,乳腺癌确诊时患者年龄的年轻与复发和死亡的巨大风险高度相关[5]。乳腺癌的发生其病理生理学机制复杂,有研究认为基因检测可以作为乳腺癌的早期治疗辅助工具[6],FSIP1可以与HER2结合,增强乳腺癌细胞的增殖和侵袭能力[7]。然而,早期诊断的方法策略目前也尚未成熟。然而,不幸的是,蛋白质风险信号的机制研究从未被构建来预测乳腺癌患者的预后。癌症蛋白质组图谱(the cancer proteome atlas,TCPA)数据库通过整合来自肿瘤基因组图谱(the cancer genome atlas,TCGA)的反相蛋白阵列芯片数据和几个独立的肿瘤研究项目提供的蛋白质表达谱[8],在本研究中,基于Kaplan-Meier方法和Cox回归分析,确定了3个Hub蛋白,并首次构建了蛋白质风险特征。受试者工作特征曲线下面积进一步证实了风险特征的准确性。借助位于伯明翰的AL-abama大学可以提供cer数据分析门户网站,研究中进一步发现3个Hub蛋白在癌组织和正常组织以及不同的乳腺癌分期中存在差异表达,并在HPA数据库中得到验证。
TCPA数据库通过整合来自TCGA和几个独立的肿瘤研究项目的RPPA芯片数据,提供了一个肿瘤蛋白质谱数据中心。依据TCPA数据库已将原始数据转换为可识别的格式。此研究基于单变量Cox比例风险回归分析和Kaplan-Meier,提取与总生存期(overall survival,OS)相关的候选蛋白。P<0.05的关键蛋白质在乳腺癌中被定义为具有显著预后价值。风险率(hazard rate,HR)<1的蛋白被定义为候选保护蛋白,HR>1的蛋白被定义为候选风险蛋白[9]。
基于逐步多因素Cox比例风险回归分析数据,最终获得了3个HUB蛋白作为研究对象,将这3种HUB蛋白的表达值按其回归系数加权,建立预后风险特征。中位值风险评分被设定为分界值,并依据乳腺癌患者的风险因素将其分为高风险组和低风险组两大组。
为了预测研究的3个HUB蛋白风险特征的性能,使用“ROC”软件包绘制了ROC曲线。进行单变量和多变量Cox比例风险回归分析,以评估蛋白风险信号的独立预后潜力。多变量Cox分析了年龄、性别、分期、肿瘤原位大小(T)、淋巴结转移(N)和远处转移状态(M)对乳腺癌危险信号的影响。
对3个Hub蛋白进行Pearson的相关分析,找到与其相关性的共表达蛋白。相关过滤标准P<0.001,皮尔逊相关系数(Pearson correlation coefficient,PCC)>0.40。PCC>0表示与Hub蛋白呈正相关,PCC<0表示与Hub蛋白呈负相关。研究进一步利用ggplot2和gguluviaPackage在3个Hub蛋白和它们的共表达蛋白中生成了Sankey图。
人类蛋白数据库(human protein atls,HPA)利用转录组学和蛋白质组学技术,从RNA和蛋白水平研究人类不同组织和器官中的蛋白表达情况。HPA基本上提供了人类可获得的所有蛋白(约26 000种)在人体组织、器官的表达和分布。本次研究利用HPA数据库对3个Hub蛋白进行在蛋白水平的验证。
在本研究中,所有统计分析均使用R软件(4.0.3版)进行,相关性分析使用皮尔逊相关系数,Cox回归分析和Kaplan-Meier筛选显著蛋白,显著性定义为P<0.05。
在TCPA数据库中下载了1 178例乳腺癌患者/组织的蛋白质表达谱。从TCGA数据库下载相应的临床信息。为了预测蛋白质表达对癌症患者至关重要的乳腺癌的预后基因,利用单因素Cox回归分析,筛选了4个候选生存相关蛋白。高风险蛋白意味着它的表达越高,患者的死亡风险就越高,总生存期就越短。
为了能精确提取到与乳腺癌发生发展密切相关的HUB蛋白,进一步进行多因素Cox回归分析,最终鉴定出DVL3、LCK和p27 3个与乳腺癌生存相关的蛋白,并命名为HUB蛋白(P<0.05)。所有确定的Hub蛋白都与乳腺癌患者的总生存期显著相关,是监测患者预后的潜在预后标记物(图1)。
图1 基于3种HUB蛋白的高风险组和低风险组的Kaplan-Meier生存曲线
根据风险评分的中位数,本研究将乳腺癌患者分为两组,高风险组和低风险组(图2A)。属于高危组的乳腺癌患者预后较差,死于乳腺癌的患者数量明显高于低危组(图2B)。热图显示了3种HUB蛋白在高危组和低危组之间的差异表达。DVL3在高危组高表达,而P27、LCK在低危组高表达(图2C)。蛋白风险特征与乳腺癌患者的总生存期(OS)显著相关。高风险组的总生存期明显生存率低于低风险组(图2D)。
ROC曲线下面积为0.689,表明其对总生存率OS的预测效果为中等(图2E)。为了本研究的风险模型的独立性,对本次研究进行了单变量和多变量Cox回归分析(图2F),发现蛋白质风险模型构建是一个独立可靠的预后因素之一。
图2 蛋白质风险评分的构建和验证
根据TCPA蛋白和3个Hub蛋白的表达谱,本研究提取了其中11个相对有意义的共表达蛋白(PCC约等于0.5)(图3),它们都显示在桑基图中。
图3 TCPA数据库中与3个HUB蛋白相关的所有蛋白质的Sankey图
此研究通过TCGA数据集,分析DVL3以及LCK在乳腺癌的通路富集情况,发现DVL3主要蛋白在非小细胞肺癌、Notch信号通路、Wnt信号通路等相关;LCK蛋白主要在MAPK信号通路、CANCER信号通路、原发性免疫等信号通路相关,如图4所示。
图4 GSEA富集分析
研究通过HPA蛋白数据库验证3种关键蛋白的表达,发现DVL3、P27在癌组织中表达阳性高表达,而LCK表达为弱阳性,如图5所示。
图5 HPA蛋白数据库
乳腺癌是女性癌症中最常见的恶性肿瘤之一,但由于其预后相对较好,所以它在死因中排名第五[10]。在乳腺癌患者中,小于40岁的乳腺癌患者的肿瘤除了具有更强的侵袭性外,其生物学行为相对较差且患者的生存率也更低。尽管医学界进行了几十年的实验室研究、流行病学分析和临床研究,乳腺癌的发病率仍在继续上升中[11]。乳腺癌是女性中最常被诊断的癌症,在女性癌症相关死亡原因中排名第二。在美国,乳腺癌导致的女性癌症死亡人数比肺癌以外的任何部位的癌症都要多。然而,目前年龄是影响乳腺癌的主要因素,与肺癌相比,乳腺癌的发病率在较年轻的时候更高。在其治疗方面,女性乳腺癌患者可以通过手术、化疗和放射治疗相结合的方式进行治疗。持续的乳腺癌相关研究正在努力使治疗方案更加个体化,希望将放化疗的副作用降至最低,以此来提高乳腺癌的总体存活率。尽管如此,其死亡率在女性癌症患者中依然是死亡率最高的癌症,因而有必要寻找其中潜在的、早期易于发现的患癌因子,对提高乳腺癌的诊断和总生存期至关重要。
传统的乳腺癌组织学分类,主要基于临床病理学特征和常规生物化学标志物的评估,可能无法捕捉单个乳腺癌发生发展的不同临床过程。高通量技术的最新发现增加了有关乳腺癌潜在基因改变和生物学事件的重要信息[12]。在本研究中,基于TCPA和TCGA数据库,此次研究进行了K-M和Cox回归分析。筛选出3种Hub蛋白,均与乳腺癌患者的总生存期(OS)显著相关。基于这3个Hub蛋白,首先提出了1个与蛋白相关的预后标志,把它作为1个独立的预后因素,与乳腺癌患者的OS显著相关。ROC曲线下面积进一步验证了该方法的准确性和可靠性。此研究的蛋白风险标记的表现优于现有的临床病理参数,根据风险评分的中位数,研究中将乳腺癌患者分为高危组和低危组,发现高危组的乳腺癌患者的死亡率明显高于低危组。通过差异表达分析发现,3种HUB蛋白在不同分期的乳腺癌患者和癌组织中的表达与正常组织相比差异有统计学意义(P<0.05)。鉴于3个Hub蛋白的潜在临床意义,研究对3个Hub蛋白及其共表达蛋白进行了蛋白-蛋白相互作用和富集分析。
虽然研究报告DVL蛋白功能在不同的病理生理环境中发生改变,但在许多情况下其机制作用仍不清楚。然而,最近的研究表明,DVL易位到细胞核,并与Wnt基因的启动子结合影响乳腺癌的发生发展[13],且另有研究表明DVL3可以介导IGFIR在乳腺癌的耐药性[14]。LCK基因在缺氧环境中导致乳腺癌进展和血管的生成,而P27在乳腺癌的表达具有诊断预测意义。
根据以往的研究数据分析,这3种蛋白与乳腺癌的发生发展有显著相关性[15]。通过相关的研究进一步揭示了这3种蛋白在乳腺癌中的预后作用,在未来还需要且迫切需要更多的分子机制研究,以证实其对乳腺癌的发生、发展和预后的相关作用机制。
在这项研究中,在GSEA富集分析表明,3个Hub蛋白中,DVL3主要蛋白与Notch信号通路、Wnt信号通路等相关;LCK蛋白主要与MAPK信号通路、CANCER信号通路、原发性免疫等信号通路相关。
综上所述,本次实验研究基于TCPA和TCGA数据库筛选出3个Hub蛋白,并首次构建了与乳腺癌者总生存期(OS)显著相关的蛋白风险特征。研究结果表明风险评分是一个独立的预后因素,与年龄显著相关;3个Hub蛋白在癌组织、正常组织中的差异表达有可能用于临床预测乳腺癌患者的预后风险预测评估;通过公开数据库和功能富集分析表明,3个Hub蛋白对乳腺癌的发生发展具有驱动作用,为乳腺癌的治疗提供了新的治疗方向和靶点。