周仁龙 钟靖 唐丹丹
1深圳市龙华区中心医院输血科 518100;2邵阳市中心医院输血科 422000 ;3深圳市南山区医疗集团总部 518000
肾细胞癌(renal cell carcinoma,RCC)是最常见的实体肾病变之一,占肾脏恶性肿瘤的90%和所有癌症的3%[1-2]。KIRC是最常见的病理分类,约占RCC的80%[3-4]。近年来,由于对KIRC的分子生物学和遗传学研究的广泛深入,以及对其发生发展机制的认识提高,KIRC靶向治疗和免疫检查点抑制剂治疗取得了多项突破和巨大进展[5]。然而,总体无病生存率的提高仍然非常有限,晚期KIRC仍然具有较高的死亡率[6]。因此,在KIRC进展和病理生理过程中识别一些精确的生物标志物对于改善KIRC的诊断和预后至关重要[7]。近年来转录组图谱的长足发展,提供了强大的数据,使研究人员能够下载癌症数据,通过生物信息学技术进行全面分析[8]。此外,生物信息学方法的应用能促进潜在特异性标记物的鉴定,以方便对特定恶性肿瘤的早期诊断[7]。例如,癌症基因组图谱(the cancer genome atlas,TCGA)数据库提供了公开的癌症基因组学数据,包括RNA序列、拷贝数变异、DNA甲基化等,这使研究人员能够在全面了解特定癌症之前进行初步分析[7]。
SLC14A1基因编码的蛋白质是一种介导红细胞尿素转运的膜转运蛋白。SLC14A1基因构成了Kidd血型系统的基础。Kidd血型系统在临床上具有重要意义[9],JK抗原抗体可导致溶血性输血反应和新生儿溶血病[10]。它们是迟发性输血反应的常见原因。最新研究表明,Kidd血型基因SLC14A1与多种肿瘤的发展密切相关[11]。如与正常前列腺上皮细胞和癌旁组织相比,SLC14A1在前列腺癌细胞和组织中的表达明显降低,高表达SLC14A1可延长前列腺癌患者的生存时间[12]。与正常癌旁组织相比在非小细胞肺癌(nonsmall cell lung cancer,NSCLC)中SLC14A1呈低表达,SLC14A1低表达提示NSCLC患者预后不良[13]。但是Kidd血型基因SLC14A1在KIRC中的表达和临床意义并不很清楚,为此,本文采用生物信息学分析方法探讨SLC14A1在KIRC中表达变化及其临床意义。
图1 SLC14A1基因在不同肿瘤中的表达量
基因表达谱交互分析(gene expression profiling interactive analysis,GEPIA,http://gepia.cancerpku.cn/)是基于TCGA和GTEx数据提供快速和可定制的功能[14]。GEPIA提供关键的交互式和可定制的功能,包括差异表达分析、谱图绘制、相关性分析、患者生存分析、相似基因检测和降维分析。通过GEPIA的简单点击进行全面的表达分析,极大地促进了广泛研究领域的数据挖掘、科学讨论和治疗发现过程。GEPIA填补了癌症基因组大数据与向终端用户提供综合信息之间的空白,有助于释放当前数据资源的价值[15]。
Sangerbox数据库(http://vip.sangerbox.com),一个基于网络的工具平台[16]。用户可以在一个友好的交互页面中进行不同的分析,平台提供可交互的图形化分析工具,包括相关性分析工具,通路富集分析、WGCNA分析等常见的工具和功能[17]。
TIMER数据库(http://timer.comp-genomics.org/timer/)是系统分析不同癌症类型免疫细胞浸润水平的综合资源[18]。该数据库提供了多种免疫去卷积方法估计免疫浸润丰富度,允许用户动态生成高质量的图像,全面探索肿瘤的免疫学、临床和基因组特征。
UALCAN数据库是一个全面的、用户友好的、交互式的网络资源,用于分析癌症组学数据包括差异分析、生存分析和相关分析,又能做表观分析,还能做基因的蛋白水平差异分析和miRNA、lincRNA相关分析[19]。
STRING数据库(网址为https://string-db.org/)旨在整合所有已知和预测的蛋白质之间的关联,包括物理相互作用和功能关联[20]。
基于TCGA数据集(https://portal.gdc.com),获得了SLC14A1基因在KIRC组织中的RNAseq数据(level 3),以及相应的临床信息。使用单变量和多变量Cox回归分析,并通过“forestplot”包显示每个变量(P值,HR和95%CI)。根据多变量Cox比例风险分析的结果,通过与每个风险因素的相关性来计算患者的预后风险。
对于基因集功能富集分析我们使用R软件包org.Hs.eg.db (version 3.1.0)中的基因的KEGG和GO注释,以此作为背景,将基因映射到背景集合中,使用R软件包聚类分析器 (clusterProfiler,version 3.14.3) 进行富集分析,以获得基因集富集的结果。设定最小基因集为5,最大基因集为5 000,P<0.05有统计学意义。
使用R软件(version 3.6.4)计算了每个肿瘤中正常样本和肿瘤样本的表达差异,使用非配对的威尔科克森符号秩检验和符号秩和检验进行差异显著性分析。差异检验使用配对T检验,离群样本使用差值的1.5倍四分位距进行评估,正态性检验使用Shapiro-Wilk正态性检验单变量和多变量Cox回归分析并通过“forestplot”包使用森林图来显示每个变量(P值,HR和95%CI),当P<0.05表示差异有统计学意义。
从UCSC(https://xenabrowser.net/)数据库中下载统一标准化的泛癌数据集:TCGA TARGET GTEx(PANCAN,N=19 131,G=60 499),进一步的从中提取了ENSG00000141469 (SLC14A1)基因在各个样本中的表达数据,进一步的筛选了样本来源为:实体组织正常样本、原发性实体肿瘤、原发性肿瘤、正常组织、原发性血液源性癌症-骨髓和原发性血液源性癌症-外周血更进一步的对每一个表达值进行了log2(x+0.001)变换,最后我们还剔除了单个癌种中样本个数小于3个的癌种,最终获得了34个癌种的表达数据,如图A所示。使用R软件(version 3.6.4)计算了每个肿瘤中正常样本和肿瘤样本的表达差异,使用非配对的威尔科克森符号秩检验和符号秩检验进行差异显著性分析,我们在4种肿瘤中观察到了显著上调我们在22种肿瘤中观察到了显著下调(具体结果见图A和表1)。其中KIRC患者中SLC14A1的mRNA低表达(如图红色箭头所指,KIRC表达量1.35±1.69,正常组织中表达量3.90±2.47,P<0.05),用GEPIA数据库、TCGA数据和168对癌与正常癌旁验配对T检验验证得到了相同的结果,KIRC患者中SLC14A1的mRNA低表达如图B、C和D所示。
表1 SLC14A1在泛癌中的表达量
在GEPIA和UALCAN数据库中分别分析SLC14A1基因在KIRC分期(stage)、分级(grade)、启动子甲基化(promoter methylation)、亚型(ccA和ccB)和淋巴结的转移(node metastasis)临床特征(见图2)。结果显示KIRC分4期和4级,在KIRC患者中随着分期和分级越高,SLC14A1基因表达量越来越低,差异有统计学意义(P<0.05)。在正常组织中的启动子甲基化水平相比KIRC高,差异具有统计学意义(P<0.05)。启动子甲基化水平失衡可能与KIRC发生发展密切相关。在正常组织中与KIRC亚型(ccA和ccB)相比SLC14A1表达量较高,差异具有统计学意义(P<0.05),但是亚型ccA和ccB之间没有统计学意义(P>0.05)。N0是指无区域淋巴结转移,N1是指1~3个腋窝淋巴结转移。在正常组织中SLC14A1表达量高于KIRC中N0和N1,差异具有统计学意义(P<0.05),但是N0和N1相比表达量差异没有统计学意义(P>0.05)。
肿瘤与免疫是肿瘤学中一个快速发展的研究方向也是研究热点[21]。本研究利用TIMER数据库分析SLC14A1基因表达与KIRC免疫浸润细胞之间的相关性。肿瘤纯度(purity)、B细胞、CD8+ T细胞、CD4+ T细胞、巨噬细胞(macrophage)、中性粒细胞(neutrophil)、树突状细胞(dendritic cell)并通过肿瘤纯度进行了校正。结果显示(图3和表2),SLC14A1基因表达水平与KIRC中免疫细胞CD8+ T细胞、CD4+ T细胞、巨噬细胞、中性粒细胞、树突状细胞呈显著正相关(P<0.05),而与B细胞呈负相关,但是无统计学意义(P>0.05)。
表2 SLC14A1基因表达水平与KIRC免疫细胞浸润水平的关系
图3 SLC14A1基因表达水平与KIRC免疫细胞浸润水平的关系
KIRC患者根据最佳截断值和SLC14A1基因表达量分成高低两组(“L”表示低表达,“H”表示高表达)高表达与低表达的生存曲线(又称Kaplan-Meier曲线),分别分析患者总体生存期(overall survival,OS)、疾病特异性生存期(disease-specific survival,DSS)、无进展间隔期(progression free interval,PFI)和无疾病间隔期(disease free interval,DFI)。结果显示(见图4)在KIRC中SLC14A1基因高表达患者的OS、DSS和PFI百分数显著高于低表达患者,提示在KIRC中SLC14A1低表达者预后不良(P<0.05),但是在DFI中没有统计学意义(P=0.19)。
图4 KIRC患者中SLC14A1表达水平与预后分析
细胞生命依赖于生物分子之间复杂的功能联系网络。在这些关联中,蛋白质-蛋白质相互作用因其多功能性、特异性和适应性而尤为重要[22],蛋白质-蛋白质相互作用在所有生物体的细胞功能和生物过程中起着至关重要的作用[23]。因此本研究通过STRING数据库分析了KIRC中SLC14A1蛋白上下游间的关系。结果显示SLC14A1蛋白与UGT1A6、UGT1A8、UGT1A10、ZNF134、ATP6V1F、CFB、GATA1、SLC4A1、KEL和RHCE具有相互作用(见图5)。其中UGT1A6、UGT1A8、UGT1A10这些蛋白属于UDP-葡萄糖转移酶家族,参与药物代谢和解毒过程。ZNF134是一个转录因子,参与基因的转录调控。ATP6V1F是细胞质膜上的一个亚单位,属于ATP酶复合物,参与细胞内物质转运和酸碱平衡调节。CFB这是补体系统中的一个成分,参与免疫反应和免疫调节。GATA1是一个转录因子,对血细胞发育和分化起重要作用。SLC4A1是细胞膜上的一个离子共转运蛋白,在维持酸碱平衡和离子稳态中发挥重要作用。KEL和RHCE是红细胞膜上的抗原分子,与血型相关。
图5 SLC14A1蛋白相互作用的网路图
图6 单因素和多因素Cox回归分析
图7 富集分析KEGG和GO图
单因素和多因素回归分析是医学研究中的重要的手段,其目的之一是探讨多因素情况下,各个因素的独立效应。通过单变量Cox回归结果显示(见图A)KIRC的发生发展与SLC14A1、年龄、分期(pT-stage,pN-stage 和pM-stage)、分级(Grade)相关(P<0.05)。多变量Cox回归分析结果显示(见图B)KIRC的发生发展与年龄、分期(pM-stage)、分级(Grade)相关(P<0.05)。这些结果表明,SLC14A1可能在KIRC的发生和发展中发挥重要的作用,但其作用同时可能还受到其他因素的影响。
为了明确SLC14A1基因在KEGG和GO通路中的富集情况,进一步理解基因的生物学功能和调控机制做了KEGG和GO富集分析,KEGG富集分析结果显示,候选基因参与了代谢通路(metabolic pathways)、吞噬体(phagosome)、霍乱弧菌感染(vibrio cholerae infection)、幽门螺杆菌感染中的上皮细胞信号传导(epithelial cell signaling in Helicobacter pylori infection)、突触囊泡周期(synaptic vesicle cycle)、类风湿性关节炎(rheumatoid arthritis)、氧化磷酸化(oxidative phosphorylation)、人乳头瘤病毒感染(human papillomavirus infection)、集合管酸分泌(collecting duct acid secretion)和mTOR信号通路(mTOR signaling pathway),其中代谢途径通路占主导地位(图A)。GO富集分析结果显示候选基因参与了吞噬体酸化(phagosome acidification)、三价铁运输(ferric iron transport)、转铁蛋白运输(transferrin transport)、三价无机阳离子转运(trivalent inorganic cation transport)和ATP水解偶联质子转运(ATP hydrolysis coupled ion transmembrane transport)等。其中吞噬体酸化、三价铁运输、转铁蛋白转运占主导地位(图B)。
在临床诊疗中KIRC往往缺乏典型的早期临床表现,当出现肾癌的典型“三联征”(血尿、背痛和腹部包块)时,约60%的患者至少已达到T3期[11]。当出现发热、快速血沉、高钙血症、红细胞增多、贫血、体重减轻、精索静脉曲张等症状时,约25%~30%的患者出现局部淋巴结转移[11]。KIRC自然病程3年生存率不足5%,平均生存时间仅为3~33个月[11]。因此,早期诊断KIRC非常重要。目前临床上缺乏有效的肾癌分子标志物。因此寻找潜在的新的分子标志物,对于提高KIRC的诊疗水平至关重要。
Kidd血型系统于1951年被发现[24],由Jka和Jkb两种对立抗原,以及第3种高发抗原Jk3组成。Kidd血型有4种表型:Jk(a+b-),Jk(a-b+),Jk(a+b+)和Jk(a-b-),编码Kidd抗原的糖蛋白是一个43kDa,389个氨基酸的蛋白,具有10个跨膜结构域,在肾髓质直小血管上皮细胞和红细胞上发挥尿素转运蛋白的功能。编码该糖蛋白的基因为JK(SLC14A1) 基因定位于染色体18q12-q21[25]。其中JK(a-b-)是一种极其罕见的血型,在我国人口中的比例低于万分之一,因此被归类为稀有血型。Kidd抗原的免疫原性相对较弱,这也意味着Kidd抗体的出现并不常见[26]。然而,Kidd抗体却以其“恶名昭著”而闻名。它能引发严重的输血反应,在产生后会迅速减少到非常低的水平,以至于难以检测到,就像一个善于隐身的“忍者”。SLC14A1基因在肿瘤发生发展中的作用机制尚不清楚,其研究主要在膀胱癌上,以往关于SLC14A1基因研究多注重在其编码的Kidd血型系统上,Kidd血型系统抗体以IgG类免疫性抗体为主,多由输血或妊娠产生,在临床上常诱发迟发性溶血反应[26]。如对于产生不规则抗体Kidd血型系统抗体患者,交叉配血时未规避相应抗原,会迅速引发回忆反应,抗体效价剧增,最终引起严重溶血反应[27]。
本研究借助TCGA数据库,运用生物信息学和多个独立数据分析探讨Kidd血型SLC14A1基因在KIRC中的表达水平、患者临床病理特征的相关性、亚型ccA/ccB和预后等。结果显示在大多数KIRC中,SLC14A1基因呈现低表达,与KIRC的发生、进展和不良预后相关。通过对SLC14A1基因表达与KIRC免疫浸润细胞之间的相关性进行分析。分别对CD8+T细胞、B细胞、CD4+T细胞、巨噬细胞、中性粒细胞、树突状细胞进行研究。这些结果暗示了SLC14A1基因在调控KIRC肿瘤微环境中的免疫反应中的重要性。对其进一步的研究可能有助于揭示SLC14A1基因在KIRC发展和治疗中的潜在作用,并为免疫治疗策略的开发提供新的靶点。基因组启动子DNA甲基化组的动态失调是癌症的一个特征[28],本研究对启动子甲基化进行了研究,KIRC是由异常的甲基化引起的,并且与患者的生存可能具有一定的相关性。根据以上分析结果提示SLC14A1在KIRC中发挥抑癌作用。SLC14A1可能是KIRC新的分子标志物和治疗的潜在靶点。然而本研究也存在一些不足,其数据仅来自公共数据库TCGA数据,没有进一步的做实验验证。期待未来有更多的研究能够揭示更多关于Kidd血型系统与临床输血和疾病相关的生物学机制。
利益冲突所有作者均声明不存在利益冲突