葛毅 刘爽 何超 李忻昊 徐清源 张雪
作者单位:佳木斯大学基础医学院,黑龙江 佳木斯 154000
OSCC 是临床上常见的肿瘤,除酒精和烟草的使用外,近年来HPV感染也被确定为危险因素之一,口交性行为和接吻可能是导致口腔HPV感染的原因[1]。在我国不同地区HPV 阳性OSCC 占OSCC总数的比例也不尽相同,数据显示,华南、华东和东北地区分别为20.8%(43/207)、11.7%(22/188)和5.51%(81/1470)[2~4]。对于HPV 阳性OSCC 的治疗,早期HPV 阳性OSCC 患者进行单一的手术或放疗,局部晚期患者需要二者同时进行,远处转移患者使用多西他赛联合顺铂氟尿嘧啶诱导化疗是标准治疗方式[5]。目前正在进行有关西妥昔单抗的临床试验,评估并强化治疗策略,以降低基于顺铂放化疗相关的严重副作用[6]。因此对于中晚期HPV 阳性OSCC 患者治疗效果不理想,迫切需要探究HPV感染导致OSCC 的发展机制。高危HPV 病毒过度表达E6、E7 癌蛋白与癌症相关信号通路的激活有关,如E6/E7 导致细胞应答抗凋亡的特性与p53蛋白(Tumor protein 53,p53)和视网膜细胞瘤基因(Retinoblastoma,RB)的降解有关,也与雷帕霉素靶标(Mechanistic target of rapamycin,mTOR)信号通路有关[7]。E6 可灭活PDZ 蛋白(Post synaptic density protein-drosophila disk large tumor suppressor-zonula occludens-1 proteins,PDZ),同时激活磷酸肌醇3-激酶(Phosphoinositide 3-kinase,PI3K)/蛋白激酶B(Protein kinase B,Akt)、Wnt 和Notch 通路;E7 能激活PI3K/Akt 通路[8]。以上癌症相关信号通路的激活,导致正常细胞发生癌变,促进肿瘤的发展。
对于OSCC 而言,HPV 可通过影响多个基因促进肿瘤发生。与HPV 阴性OSCC 相比,HPV 阳性OSCC 中c-MYC 基因表达量升高,错配修复蛋白(MutL homologue-1,MLH1)表达量降低[9],二者可能参与了肿瘤信号通路。与HPV 阴性OSCC 细胞相比,HPV 阳性OSCC 细胞的过氧化物氧化蛋白2(Peroxiredoxin typical 2-Cys,PRDX2)表达上调,促进HPV 阳性OSCC 细胞的生长[10]。本研究从HPV 阳性OSCC 与HPV 阴性OSCC 的差异基因着手,筛选出HPV 介导OSCC 的关键基因,为探究HPV 介导OSCC 发展的分子机制及临床治疗方法提供新思路。
1.1 获取数据集并进行差异分析通过NCBI 的GEO 数据库[Home-GEO DataSets-NCBI(nih.gov)]得到本次分析需要的HPV 阳性OSCC 侵袭性上皮组织mRNA 芯片(GSE56142)的原始数据,芯片样本来源于2 个HPV 阴性原发性侵袭性OSCC 上皮组织样本、2 个HPV 阴性正常上皮组织样本、10 个HPV 阳性原发性侵袭性OSCC 上皮组织样本和10个HPV 阳性正常上皮组织样本。在芯片样本中,选取2 个HPV 阴性原发性侵袭性OSCC 上皮组织样本作为对照组,10 个HPV 阳性原发性侵袭性OSCC上皮组织样本作为实验组。数据集GSE56142 由英国剑桥大学提供,数据集的差异分析使用GEO2R在线分析工具[GEO2R-GEO-NCBI(nih.gov)]。以P<0.05 且|logFC|>1.5 为标准进行筛选。将此数据进行下载后,利用R 语言进行数据转换并绘制热图和火山图。
1.2 蛋白质互作网络与信号通路的构建使用STRING[STRING:functional protein association networks(string-db.org)]数据库对蛋白质之间互作网络进行分析,使用Cytoscape(版本3.8.2)软件绘制基因互作网络。
1.3 基因的功能富集分析使用R 语言(版本4.0.1)进行GO(Gene ontology)和KEGG(Kyoto encyclopedia of genes and genomes)富集分析,利用Graph Pad Prism 8 软件绘制柱形图。
1.4 基因在染色体的定位使用NCBI 的基因组数据浏览器(Genome data viewer,GDV)进行基因在染色体上位置关系的查找,并利用Mapchart 软件(版本2.32)绘制差异基因的位置。
1.5 生存曲线的绘制使用基于基因表达水平值的交互式分析平台(Gene expression profiling interactive analysis,GEPIA)分析关键基因在高表达与低表达时对癌症患者生存时间的影响,并绘制生存曲线。
2.1 HPV 阳性OSCC 与HPV 阴性OSCC 差异基因的筛选使用GEO2R 在线分析工具对GSE56142数据集进行差异基因分析,得到80 个差异显著的基因,利用R 语言绘制热图(见图1),将全部的差异基因绘制火山图(见图2)。热图中GSM1356635 和GSM1356629 为HPV 阴性OSCC 对照组,其他变量为HPV 阳性OSCC 实验组,热图表明HPV 阳性和HPV 阴性OSCC 的基因表达量存在差异。火山图表明,与HPV 阴性OSCC 相比,HPV 阳性OSCC 下调的基因有69 个,上调的基因有11 个。
图1 HPV 阳性与阴性OSCC 差异基因的热图
图2 HPV 阳性与阴性OSCC 差异基因的火山图
2.2 关键基因互作网络的构建使用STRING 数据库对80 个差异显著的基因构建蛋白质互作网络,并将此数据导入Cytoscape 软件。其中,有50 个基因可形成大范围基因相互作用的关系(见图3),可能是HPV 影响OSCC 发生的关键基因。
图3 HPV 介导OSCC 形成的基因互作网络中的50 个基因
2.3 50 个关键基因的功能富集分析使用R 语言对关键基因进行GO 和KEGG 富集分析,利用Graph Pad Prism 8 软件进行整理绘制柱形图。GO 富集结果显示:关键基因聚集在生物学过程中的中性粒细胞介导的免疫、中性粒细胞激活、对伤害反应的调节等;细胞组分中的肌节、肌原纤维和收缩纤维等;分子功能中的肌动蛋白结合、肽链内切酶活性和生长因子受体结合等信号通路(见图4)。KEGG 富集到的信号通路为蛋白聚糖参与癌症进展、唾液的分泌和流体剪切应力与动脉粥样硬化等(见图5)。其中,蛋白聚糖参与癌症进展和唾液分泌的信号通路所参与的基因数量最多。蛋白聚糖参与癌症的信号通路富集金属蛋白酶组织抑制剂3(Tissue inhibitor of metalloproteinase 3,TIMP3)、HBEGF、凝血酶敏感蛋白-1(Thrombospondin-1,THBS1)、CAV1、FLNC。唾液分泌的信号通路富集CALML5、视网膜细胞瘤基因1(Retinoblastoma 1,PRB1)、视网膜细胞瘤基因2(Retinoblastoma 2,PRB2)、富酪蛋白(Statherin,STATH)和恶性脑肿瘤1(Deleted in malignant brain tumours 1,DMBT1)。
图4 50 个关键基因GO 富集分析图
图5 50 个关键基因KEGG 信号通路富集图
2.4 HPV 介导的OSCC 中50 个关键基因的染色体定位通过GDV 查询,关键基因大多聚集在7 号染色体上,而13、17、18 号和XY 染色体上没有关键基因的分布(见图6、7)。在7 号染色体上聚集到的关键基因分别为AGR2(Anterior gradient 2)、周期蛋白依赖性激酶(Cyclin-dependent kinase 6,CDK6)、SAMD 家族蛋白9(Sterile α motif domain containing 9,SAMD9)、电压门控钙离子通道(Voltage-gated Ca2+channels,CAV1)、细丝蛋白C(Filamin C,FLNC)和催乳素诱导蛋白(Prolactin-inducible protein,PIP),这些基因与癌症的发生有关。
图6 不同染色体上含50 个关键基因的数量
图7 50 个关键基因的染色体定位
2.5 50 个关键基因的不同表达量对头颈部鳞状细胞癌总生存的影响使用GEPIA 在线工具对关键基因绘制生存曲线,搜索并汇总有关头颈部鳞状细胞癌(Head and neck squamous cell carcinoma,HNSCC)的数据。其中,以log rankP<0.05 进行筛选并进行排序,log rankP<0.05 表明该基因在高表达或低表达时与患者的生存率有关,共筛选出14个基因(见表1)。将前两个基因绘制生存曲线(见图8)。图中表明高表达钙调素蛋白5(Calmodulinlike protein 5,CALML5)患者生存时间优于低表达CALML5 患者,低表达肝素结合表皮生长因子(Heparin-binding EGF-like growth factor,HBEGF)患者生存时间优于高表达HBEGF 患者。
表1 关键基因在不同表达量下对患者生存的影响
2.6 上调和下调的前3 个基因与影响生存时间的基因交集为找出50 个互作网络中可能对HPV 阳性OSCC 的发展具有较大作用的基因,从50 个互作网络基因中找出上调的前3 个基因与下调的前3 个基因(见表2),分别将上调和下调的前3 个基因与影响患者生存时间的14 个基因取得交集,得到CALML5和脂质运载蛋白(Lipocalin-1,LCN1)两个基因。
表2 关键基因中上调和下调的前3 个基因
HPV 在影响OSCC 恶性进展过程中,相比于其他基因,CALML5 和LCN1 两个基因的影响较大。利用GEPIA 数据库找到CALML5(见图8A)和LCN1 不同表达量下HNSCC 患者生存曲线(见图9)。生存曲线显示LCN1 在高表达时患者生存时间优于低表达时,表明LCN1 可能抑制HPV 阳性OSCC 的恶性进展。最后,利用Cytoscape 软件找出与CALML5、LCN1 相互作用的相关基因(见图10)。
图8 关键基因不同表达量下HNSCC 患者总生存曲线
图9 LCN1 的生存曲线
图10 与CALML5、LCN1 相互作用的基因
口腔癌是世界上第11 位最常见的恶性肿瘤[17],HPV感染是OSCC 比例上升的原因之一:在上世纪80年代的美国,只有16%的OSCC 为HPV 阳性,而在本世纪初,大约73%的OSCC 为HPV 阳性[18]。HPV 促进癌症的发生主要是通过E6、E7 对病毒基因组的保护并促进宿主细胞进入S 期[19]。目前,HPV 阳性OSCC 患者主要通过p16 高表达确诊[20],本研究通过GEO2R 在线分析工具得到了HPV 阳性OSCC 与HPV 阴性OSCC 的差异基因,利用STRING 数据库构建关键基因互作网络,分析了关键基因的染色体定位,利用GEPIA 在线分析工具绘制了关键基因分别在高、低表达量下对HPV 阳性OSCC 患者生存时间的影响。
KEGG 分析结果显示:蛋白聚糖参与癌症进展和唾液分泌的信号通路所参与的基因数量最多。在蛋白聚糖参与癌症的信号通路中,TIMP3 与细胞外基质结合,抑制OSCC 细胞生长、血管生成、迁移和侵袭。TIMP3 通过增加上皮标记物的表达和减少间充质标记物的表达来调控上皮-间充质转化,对OSCC 的发生具有抑制作用[21]。在晚期HNSCC患者中,若HBEGF 和环氧化酶2(Cyclooxygenase-2,COX-2)的表达量增高,则复发率较高,并参与顺铂耐药。顺铂耐药的抗性是通过增加HBEGF 和COX-2 的表达实现的。表皮生长因子(Epidermal growth factor,EGF)或槟榔提取物激活AKT 信号通路,由AKT 信号通路上调COX-2 的表达,再由COX-2 上调HBEGF 的表达,且呈现前列腺素E2(Prostaglandin E2,PGE2)的依赖性。在HNSCC 患者的组织样本中,COX-2 与HBEGF 的表达呈显著正相关[22]。来自OSCC 外泌体中的THBS1 参与了M1 巨噬细胞的极化,促进OSCC 的恶性进展[23]。CAV1 和FLNC 基因在7 号染色体上同样参与癌症的进展。
在唾液分泌的信号通路中,5 个基因都参与了肿瘤的进展。研究表明,CALML5 在HPV 阳性口咽癌中出现了甲基化,表明CALML5 可能是筛查HPV阳性口咽癌的替代方法[24]。HPV16 E7 癌蛋白在体内外通过PRB 泛素化而降解,导致PRB 结合到E2F(Early 2 factor)转录因子的量减少,又由于细胞周期蛋白依赖性激酶4/6(Cyclin-dependent kinases 4/6,CDK4/6)使PRB 与E2F 解离,E2F 转录因子释放量增多,使E2F 转录出的Cyclin E、Cyclin A 增多,迫使细胞提前进入S 期,从而导致细胞癌变[25,26]。PRB1抑制细胞周期进程,激活干扰素应答基因,增强对免疫治疗的敏感性,HPV E7 癌蛋白破坏PRB1 从而逃避免疫监视[27]。在人视网膜上皮细胞中PRB2和p130 主要分布在细胞质中,而纤溶酶原激活物抑制剂-2(Plasminogen activator inhibitor type-2,PAI-2)则主要聚集在细胞核中。慢性孕酮的暴露可诱导PRB2/p130 在核亚细胞定位重排,PRB2/p130 与PAI-2 位于细胞核共同的免疫定位,导致细胞在G2/M 期聚集,显著减少坏死,有利于凋亡的激活[28]。在口腔癌癌变前期以及口腔癌患者的唾液中,STATH 蛋白的表达水平降低[29]。DMBT1 基因被认为是脑癌、食管癌、胃癌、结直肠癌和肺癌的潜在抑癌基因,也是OSCC 的抑癌基因,DMBT1 在大约半数的OSCC 组织中表达下调或缺失[30]。
关键基因大多聚集在 7 号染色体,其中AGR2在起源于舌根的肿瘤细胞中表达[25]。过表达CDK6与OSCC 的发生发展和非发育不良上皮细胞的癌变密切相关[26]。在人角质形成细胞中,SAMD9 与低危HPV E6 相互作用,可能抑制低危HPV 病毒的复制[27]。在原发性OSCC 组织中,相比于低表达CAV1 患者,高表达CAV1 患者的预后较差。CAV1可激活OSCC 细胞的转移和侵袭能力,尤其是在淋巴结转移情况下表达,预示OSCC 的预后较差[28]。多形性胶质母细胞瘤(Glimoblastoma,GBM)中FLNC的表达量增加,与细胞侵袭性呈正相关,与迁移无关,并与患者预后不良相关[29]。PIP 通过AKT/丝裂原活化蛋白激酶(Mitogen-activated protein kinase,MAPK)信号通路抑制OSCC 细胞的增殖、迁移和侵袭[30]。
分析关键基因的不同表达量对HNSCC 患者生存时间的影响,共获得CALML5、HBEGF 和MYL2等14 个对患者生存时间影响较大的基因。总体而言,可查询到多数基因对于癌症的发生有显著影响。在这14 个基因中,部分基因可以促进多种癌症的发生,如HBEGF 表达量升高增加胃癌细胞侵袭和迁移性[31],且HBEGF 在卵巢癌、乳腺癌、黑色素瘤和胶质母细胞瘤中表达量显著升高,HBEGF 也可激活EGFR 和细胞外调节蛋白激酶(Extracellular regulated protein kinases,ERK)的信号通路。目前临床上已经采用针对HBEGF 治疗癌症的方法:白喉毒素突变体蛋白(Cross-reacting material 197,CRM197)与HBEGF 结合,抑制HBEGF 与EGF 的结合,阻断有丝分裂活性,紫杉醇促进HBEGF 外域脱落,因此临床上联合CRM197 和紫杉醇进行治疗[32]。有的基因影响免疫系统活性:NT5E 由CD73(Cluster of differentiation 73)编码,在健康器官和组织中执行许多稳态功能,作为抑制性免疫检查点分子,NT5E 产生的游离腺苷抑制细胞免疫反应,从而促进肿瘤细胞的免疫逃逸[33,34]。当然,有一些基因还未在癌症的发生发展过程中进行实验研究,如通过生物信息学表明LCN1 可能是一个潜在的预测乳腺癌的生物标志物,但未进行实验验证[35]。在未来的研究中,可以尝试分析这些基因在癌症发展中的机制。
本研究使用GEO 数据库中的HPV 阳性与阴性OSCC 芯片,筛选出HPV 介导OSCC 的关键基因,并对其进行功能富集分析和生存曲线的绘制,得到了CALML5、HBEGF 和MYL2 等潜在的治疗靶点。但本研究并未进行实验验证,因此,需要我们将来对癌症产生的分子机制、潜在的治疗靶点通过体内/体外实验进行验证,通过更进一步的研究,阐明HPV介导OSCC 的发展机制,为临床治疗提供新思路。