基于数据库挖掘CLEC16A基因在KIPAN中的表达及其临床意义*

2022-10-01 10:43郭亚楠陈佳雯蒋奕斌温珍珍林泱泱朱潘婵
现代医药卫生 2022年18期
关键词:通路样本数据库

郭亚楠,陈佳雯,蒋奕斌,温珍珍,林泱泱,朱潘婵,钱 晶,3△

(1.湖州师范学院医学院,浙江 湖州 313000;2.湖州学院,浙江 湖州 313000;3.浙江省媒介生物学与病原控制重点实验室,浙江 湖州313000)

肾细胞癌(RCC)是起源于肾皮质或肾小管上皮细胞的恶性肿瘤[1],是癌症死亡的重要原因之一[2]。根据组织学类型,RCC可分为肾透明细胞癌、乳头状RCC、肾嫌色细胞癌、未分类细胞癌和Bellini集合管癌等[3]。混合性癌以存在2种及以上类型的恶性细胞和多型性细胞为主要病理特点[4],肾透明细胞癌是混合肿瘤组织学患者最常见的病理类型,其他原发性肿瘤有肾乳头状细胞癌和肾嫌色细胞癌[5]。混合性肿瘤临床较少见,混合性肾癌(KIPAN)更为罕见。由于诊断不及时,治疗延误,晚期恶性程度高,分期分级高、进展快、易转移等特点,患者预后较差[6]。肾癌具有多重耐药性[7],国内以根治性肾切除术为首选治疗方式[8]。C型凝集素域家庭16成员A(CLEC16A)是最近通过全基因组关联(GWASs)鉴定出的C型凝集素受体(CLRs)家族成员之一[9],已有多项研究证实CLEC16A与多发性硬化症、1型糖尿病等多种自身免疫性疾病有密切关系。目前,国内外关于CLEC16A的研究较少,对其在疾病中起到的确切作用机制尚不清楚[10],因此,探索发现CLEC16A在KIPAN发生、发展中的分子机制和基因调控网络,进而在分子水平上预防或阻断关键过程,以达到临床治疗、改善预后显得尤为重要。

本研究利用多个在线数据库分析CLEC16A在KIPAN中的表达,分析CLEC16A在KIPAN中的作用及对KIPAN患者预后的影响,为进一步研究CLEC16A在KIPAN的发生、发展及预后中的意义提供一定理论依据和参考,也为进一步试验研究奠定理论基础。

1 资料与方法

1.1资料 从UCSC数据库(https://xenabrowser.net/)中下载经统一标准化的泛癌数据集:TCGA Pan-Cancer(PANCAN,N=10535,G=60499),从中提取ENSG00000038532(CLEC16A)基因在各个样本中的表达数据。从TCGA数据库(https://portal.gdc.cancer.gov/)下载KIPAN组织和癌旁组织CLEC16A的mRNA表达数据及KIPAN患者的临床数据。

1.2方法

1.2.1基因差异分析 从UCSC数据库获得样本数据,并进一步筛选来源为Solid Tissue Normal、Primary Blood Derived Cancer-Peripheral Blood、Primary Tumor的样本,对每一个表达值进行了log2(X+0.001)变换。此外,剔除单个癌种中样本个数小于3的癌种,最终获得26个癌种的表达数据。使用R软件(4.1.2版)计算了每个肿瘤中正常样本和肿瘤样本的表达差异,使用非配对的Wilcoxon Rank Sum和Signed Rank Tests进行差异显著性分析。

1.2.2CLEC16A表达量与多种癌种预后的关系 从UCSC数据库中下载经统一标准化的泛癌数据集:TCGA TARGET GTEx,从中提取CLEC16A基因在各个样本中的表达数据,另外从此前发表在《Cell》上的TCGA预后研究中获得高质量的TCGA预后数据集[11],从UCSC的癌症浏览器中获取TARGET随访数据作为补充及随访时间短于30 d的样本,对每个表达值进行了log2(X+0.001)变换,剔除单个癌种中样本个数小于10的癌种,使用R软件建立Cox proportional hazards regression mode,分析基因表达与每个肿瘤中的预后关系,使用Logrank test进行统计检验获得预后显著性。

1.2.3CLEC在不同组织中的表达及其临床特征分析 从TCGA数据库中下载原始数据和临床相关数据,选择转录组分析及基因表达定量的数据,方案选择TCGA-KIRC TCGA-KIRP TCGA-KICH(TCGA Project),利用Perl脚本将count数据与人类基因组注释文件进行合并,生成单基因样本的mRNA矩阵,然后利于R软件编写的脚本进行散点差异分析和临床特征相关分析。

1.2.4CLEC16A与KIPAN患者预后关系分析 在TCGA的Gene Expression Profiling Interactive Analysis(GEPIA)数据库(http://gepia.cancer-pku.cn/index.html)中设定检索条件:(1)Single Gene Analysis选项,Enter gene name输入基因名“CLEC16A”;(2)Dataset选择KICH、KIRC、KIRP,其余默认;(3)在Survival栏中,选择Overall Survival及Disease Free Survival(RFS);(4)在Datesets Selection(Cancer name)栏中,选择KICH、KIRC、KIRP,点击Plot。

1.2.5与CLEC16A相关的蛋白及功能分析 String数据库是专门用于生物体范围蛋白质关联网络的在线资源之一[12],可作为分析生物学基因和蛋白质相互作用的检索工具,包含蛋白质-蛋白质相互作用(PPI)的生物数据库和网络资源,能生成有关基因功能的假设,分析基因列表并进行功能分析。本研究利用String数据库初步探索CLEC16A信号转导通路,以构建相关蛋白网络图。

1.2.6基因富集分析(GSEA) 根据TCGA数据库中CLEC16A表达中位值将其分为低、高表达组,随后应用GSEA软件(4.2.2版)对试验组CLEC16A高低之间差异基因进行KEGG富集分析,置换检验设置为1000次,将FDR<0.02的基因集作为显著富集基因集,对CLEC16A在KIPAN发展的机制进行初步探究。

1.3统计学处理 采用数据库默认的统计学方法,使用R软件进行统计分析与应用,通过非配对的Wilcoxon Rank Sum和Signed Rank Tests进行差异显著性分析,分析正常组织和癌症组织中CLEC16A的表达。使用Logrank test进行统计检验以获得预后显著性。GEPIA数据库的结果显示为风险比(HR)。P<0.05为差异有统计学意义。

2 结 果

2.1CLEC16A基因在不同肿瘤类型中的表达情况 从UCSC数据库获得样本数据,挖掘处理后最终获得了26个癌种的表达数据。在12种肿瘤中观察到了CLEC16A基因显著上调,如宫颈鳞癌和腺癌(CESC)、乳腺浸润癌(BRCA)、胃和食管癌(STES)、肾乳头状细胞癌(KIRP)、胃癌(STAD)、子宫内膜癌(UCEC)、头颈鳞状细胞癌(HNSC)、肝细胞肝癌(LIHC)、甲状腺癌(THCA)、膀胱尿路上皮癌(BLCA)、肾嫌色细胞癌(KICH)、胆管癌(CHOL);在5种肿瘤中观察到了显著下调如多形成性胶质细胞瘤(GBM)、肺腺癌(LUAD)、KIPAN、肾透明细胞癌(KIRC)、肺鳞癌(LUSC),见图1。

2.2CLEC16A表达预后分析 在TARGET-LAML(n=142,P=0.0028,HR=1.58)、TCGA-SKCM-M(n=347,P=0.01,HR=1.45)及TCGA-LAML(n=209,P=0.000 2,HR=1.42)3个肿瘤类型中高表达的预后差,在TCGA-GBMLGG(n=619,P=2.9×10-18,HR=0.49)和TCGA-KIPAN(n=855,P=0.000 59,HR=0.74)2个肿瘤类型中低表达的预后差,见表1。总生存期(OS)结果显示,CLEC6A是GBMLGG和KIPAN患者的保护因子,也是SKCM和LAML患者的风险因子。此外,用同样的方法获得包括KIPAN在内的多个癌种表达数据及对应样本的Disease-specific survival数据,最终观察到在1个肿瘤类型TCGA-SKCM-M(n=341,P=0.03,HR=1.41)中高表达的预后差,在TCGA-GBMLGG(n=598,P=1.4×10-16,HR=0.49)、TCGA-KIPAN(n=840,P=0.001 7,HR=0.71)、TCGA-HNSC(n=485,P=0.04,HR=0.73)和TCGA-SKCM-P(n=97,P=0.05,HR=0.40)4个肿瘤类型中低表达的预后差,见表2。DSS分析显示,CLEC6A是GBMLGG、KIPAN、HNSC和SKCM患者的保护因子,也是SKCM患者的风险因子。

表1 CLEC16A在TCGA泛癌中对OS的单变量COX回归结果

续表1 CLEC16A在TCGA泛癌中对OS的单变量COX回归结果

表2 CLEC16A在TCGA泛癌中DSS的单变量COX回归结果

续表2 CLEC16A在TCGA泛癌中DSS的单变量COX回归结果

2.3CLEC16A在正常和KIPAN癌组织的差异 在TCGA数据库中对KIPAN组织(893例)及正常组织(128例)在mRNA水平上的表达情况进行比较,结果表明,CLEC16A在KIPAN组织中的表达水平显著低于正常组织,差异有统计学意义(P<0.05),见图2。

2.4CLEC16A表达量与KIPAN患者临床特征的关系 在TCGA中的851个KIPAN样本的病理分级进行分析,结果显示,CLEC16A在KIPAN中的表达随着肿瘤分期的增加而增加,见图3。

2.5CLEC16A不同表达量的KIPAN患者预后比较 在432例KIPAN患者中,CLEC16A高表达组的总生存率、无进展生存率均高于低表达组,差异均有统计学意义(P<0.05)。CLEC16A表达与KIPAN患者总体生存率明显相关,低表达组相对于高表达组具有更高的生存率,见图4、图5。

2.6构建CLEC16A相互作用蛋白网络 通过String数据库分析得到与CLEC16A相互作用的蛋白网络,见图6。选取PPI相关且P为1.38×10-8的数个蛋白质,使平均网络局部聚类系数为0.639,得到TMF1、USP8、SH2B3、ERBB3、RNF41、PTPN22等31个蛋白质,主要参与的生物学过程有肌动蛋白皮质补丁定位、自噬体成熟负调控、线粒体自噬负调控,减数分裂重组中间体拆分等。

2.7基因富集分析 为了研究CLEC16A基因对于肾癌可能的作用机制,将试验组胃癌样本CLEC16A表达量按中位值分为高表达和低表达组,将2组的表达数据进行GSEA。结果表明,CLEC16A高表达肿瘤样本在溶酶体和氧化磷酸化等生物学过程或通路存在富集。而CLEC16A低表达组在抗原加工及呈递、产生免疫球蛋白A(IgA)肠道免疫网络、白细胞跨内皮迁移、NOD样受体信号通路、自然杀伤细胞介导的细胞毒性等信号通路存在富集。

3 讨 论

ASLAN等[13]的研究表明,早期RCC的5年生存率良好,但由于小的RCC通常无症状,故早期诊断较困难,等患者出现明显临床症状时多为晚期。其诊断效果差,导致患者疗效不佳、预后不良。尽管诊断技术水平不断提高,仍有1/3的患者在确诊时已为晚期[14]。根治性切除术是局限性RCC患者的首选治疗方式,但在根治术后仍有很大可能发生转移。由于RCC对化疗及放疗均不敏感,晚期RCC术后往往还需要靶向治疗或免疫治疗的辅助。RCC的发生、发展与缺氧信号通路有密切关系,缺氧诱导转录因子(HIF)是由调节型亚基α和组成型亚基β构成的异源二聚体。HIF-α水平有明显的氧依赖性,当氧浓度升高时,HIF-α可发生羟基化进而被泛素连接酶VHL识别而发生泛素化,从而导致HIF-α被蛋白酶体识别而降解。而当低氧时,HIF-α羟基化酶活性降低,HIF-α降解减少蛋白水平增加,VHL失活造成HIF-α持续保持在较高水平,导致RCC的发生[15]。同时,HIF可以调节Treg细胞、T辅助细胞等多种免疫细胞的功能进而影响肿瘤微环境调控肿瘤生长[16]。肿瘤抑制基因VHL是E3泛素连接酶复合物的重要组成部分,可靶向催化羟基化修饰的HIF-α亚基泛素化和蛋白酶体降解[17-19]。此外,哺乳动物雷帕霉素靶蛋白(mTOR)是一种重要的丝氨酸/苏氨酸蛋白激酶,其介导的信号传导通路参与蛋白质翻译、核糖体生物合成等过程,维持细胞生长、繁殖与凋亡平衡,是细胞代谢、增殖、生长和存活的中心调节分子[20]。在内皮细胞中,存在与血管内皮生长因子(VEGF)结合的受体酪氨酸激酶RTK,通过激活丝裂原活化蛋白激酶(MAPK)和PI3K/AKT/mTOR信号通路[21],而解除该复合物对mTOR复合物1(mTORC1)抑制,活化的mTORC1通过调节代谢、翻译、细胞自噬等多种过程来协调细胞生长,增加细胞适应性。生理条件下,该通路受到严格控制,负调节丧失是多种癌症发生的重要原因之一[22-23]。

位于染色体16p13的CLEC16A是C型凝集素结构域家族的一员,编码1 053个氨基酸的大蛋白,包含数个假定的功能域,以及C型凝集素结构域[9],在多种代谢过程中发挥作用。CLEC16A具有E3泛素连接酶的性质,已被证明在自噬和线粒体自噬过程中发挥作用,可与NRDP1和USP85形成泛素依赖型复合物。TAM等[24]将CLEC16A基因在小鼠中全身敲除后,发现多种线粒体相关的蛋白被上调或下调。HUA等[25]通过异位表达和siRNA沉默,发现CLEC16A可能通过激活mTOR通路来调节自噬,CLEC16A的过表达导致mTOR活性升高,进而降低LC3自噬活性。另一方面,CLEC16A缺乏会延迟mTOR活性,从而导致自噬反应增强。CLEC16A可作用于TSC1/2下游,增强mTORC1的活性,表现为同时增强磷酸化多个直接靶标,包括ULK、4E-BP1和S6K[26]。mTOR抑制剂已经广泛应用于肿瘤靶向治疗、器官移植、类风湿关节炎等疾病的研究[27],但临床治疗中癌症对mTOR靶向抑制剂治疗却不敏感或没有反应[28]。因此,深入探索肾癌发病潜在的分子机制至关重要,找到新的潜在治疗靶标具有关键的实际临床意义。

USCS、TCGA、GTEx、String数据库是目前较为全面的基因芯片数据平台,从中可以获取大量临床样本信息数据。由于目前尚缺乏CLEC16A与KIPAN的文献报道,本研究中首先在上述数据库中获取了CLEC16A在各个癌症组织中的表达数据,结果显示,在大部分癌症中CLEC16A高表达,但在包括KIPAN在内的5种癌种中显著低表达,表明CLEC16A是KIPAN的保护因子。对CLEC16A在KIPAN中的表达水平和预后进行深度挖掘和分析,CLEC16A在KIPAN中较正常组织低表达,且CLEC16A的表达量与预后呈负相关。进一步通过GEPIA数据库验证,结果一致,即CLEC16A高表达患者的OS较CLEC16A低表达患者明显缩短。本研究观察到,随着KIPAN病理分级的增加,CLEC16A表达量显著降低,差异有统计学意义(P<0.05)。GESA结果显示,CLEC16A高表达组在溶酶体和氧化磷酸化等生物学过程或通路存在富集;而CLEC16A低表达组在抗原加工及呈递、产生IgA的肠道免疫网络、白细胞跨内皮迁移、NOD样受体信号通路、自然杀伤细胞介导的细胞毒性等信号通路存在富集。CLEC16A很可能在KIPAN发生、发展中发挥重要作用,成为靶向治疗的新方向。

本研究与既往的利用体外实验技术分析研究肿瘤生长模式不同,通过对多个数据库的数据挖掘分析,减小由于样本量不足与地理环境等差异导致的不可控变量影响,相关结果可作为临床试验的前瞻研究与重要补充,但CLEC16A是否在KIPAN的发生、发展中发挥作用还需进一步试验验证。

猜你喜欢
通路样本数据库
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
用样本估计总体复习点拨
白芍总苷调控Sirt1/Foxo1通路对慢性心力衰竭大鼠的保护作用研究
规划·样本
数据库
随机微分方程的样本Lyapunov二次型估计
数据库
数据库
数据库