基于TCGA数据库的中央型与周围型肺鳞癌基因表达差异性研究

2019-08-26 07:04:46李伟婷李永文张洪兵李颖袁茵宫颢韦森刘红雨陈军
中国肺癌杂志 2019年5期
关键词:差异基因鳞癌中央

李伟婷 李永文 张洪兵 李颖 袁茵 宫颢 韦森 刘红雨 陈军

恶性肿瘤已成为世界性的公共卫生问题,其中,肺癌的发病率呈现逐年上升的趋势,其发病率在男性恶性肿瘤患者中居第一位,女性恶性肿瘤患者中居第二位,而其死亡率不论男女均位居恶性肿瘤的第一位[1]。在我国,肺癌已成为最常见的恶性肿瘤,每年新发病例大约70多万,而死亡病例约60余万。肺癌从组织学上主要分为小细胞肺癌(small cell lung cancer,SCLC)(占15%)和非小细胞肺癌(non-small cell lung cancer, NSCLC)(占85%)。其中NSCLC又主要分为腺癌(adenocarcinoma)、鳞癌(squamous cell carcinoma,SCC),和大细胞癌(large cell lung cancer, LCLC)。 全世界每年死于肺鳞癌的患者高达40万人[2]。近年来,肺癌的治疗研究也在不断进步,例如表皮生长因子受体酪氨酸激酶抑制剂(epidermal growth factor receptor tyrosine kinase inhibitors, EGFR-TKIs),人间变性淋巴瘤激酶(anaplastic lymphoma kinase, ALK)等为代表的分子靶向药为治疗带来了新的进展[3]。患者的生存时间和生存质量得到了较大的提高。有研究[4]指出,肺鳞癌发病率低但侵袭性相对肺腺癌高,大部分肺鳞癌在诊断时已处于晚期,由于肺鳞癌在的敏感突变率低于肺腺癌,EGFRTKI缓解率通常也只有30%,明显低于肺腺癌[5],分子靶向治疗药物并不适用于大多数的肺鳞癌患者,所以晚期肺鳞癌患者的标准治疗仍然是细胞毒性化疗,肺鳞癌与肺腺癌具有某些相似的临床特征,相比之下,鳞癌患者在治疗上的进展有限[6]。

肺鳞癌是一类起源于支气管上皮、病理显示有角化和(或)细胞间桥存在的恶性上皮肿瘤,约占NSCLC的40%。肺鳞癌多发于吸烟者,有研究表明吸烟患肺癌的危险性是不吸烟者的4.97倍[7]。肺鳞癌多发生在段支气管及次段大支气管,故多为中央型[8],中央型具有向管腔内生长、癌组织易变性、坏死形成空洞或发生出血的特点。近年来周围型肺鳞癌发病率在上升,约占肺鳞癌总数的50%。周围型肺鳞癌常见血管、胸膜侵犯,较少淋巴结转移,肺泡充盈型生长方式的周围型鳞癌预后较好。中央型和周围型肺鳞癌组织学上并无差别[9]。有文献[10]报道肺鳞癌中央型和周围型不仅在肿瘤大小和淋巴结转移上存在差异,其生物学特性如不同肿瘤的侵袭程度亦不同。因此,在分析周围型与中央型肺鳞癌患者临床特征的基础上,进一步分析其分子生物学特征的差异,必将为肺鳞癌患者的精准诊治奠定基础。本研究拟通过癌症基因组图谱(The Cancer Genome Atlas, TCGA)公共数据集,在分析研究中央型肺鳞癌及周围型肺鳞癌的临床特征差异的基础上,进一步分析其在基因分子水平的差异,为进一步明确中央型和周围型肺鳞癌在发生发展中的作用机制不同和可能的靶向治疗提供线索和思路。

1 材料与方法

1.1 数据资料收集 利用TCGA简易下载工具包从TCGA数据库(https://tcga-data.nci.nih.gov/tega/)下载肺鳞癌数据集的临床资料及RNASEqV2信息。

1.2 数据集筛选和临床参数及基因信息相关性研究 根据表达谱数据,对样本的中央型肺鳞癌及周围型肺鳞癌进行临床信息整理和对应基因信息的筛选,仅保留TCGA数据集中包含临床参数和对应的基因信息的病例。

1.3 基因差异分析 采用R软件语言的“cluster Profiler”,“pathview”,“pheatmap”,“vegan”,“volcano”的程序包辅助编程对RNA-sequence查找差异基因,并对差异基因(differential gene, DEFs)进行KEGG富集分析。GCBI网站(www.gcbi.com.cn)进行基因间相互作用分析。

1.4 统计学方法 使用 SPSS 21.0软件进行统计学分析。临床信息相关性分析,组间比较采用χ²检验及Fisher确切概率法,采用乘积极限法(Kaplan-Meier)绘制生存曲线、对数秩检验(Log-rank)比较不同样本的生存曲线。P<0.05为差异有统计学意义。

2 结果

2.1 中央型和周围型肺鳞癌患者的临床病理特征分析 本研究从TCGA数据集下载、整理、分析了240例肺鳞癌患者的临床数据和其对应的基因信息,其中,男性181例(75.4%, 181/240),女性59例(24.6%, 59/240),平均年龄(66.528±8.828)岁;存在吸烟史的225例(95.3%),无吸烟史的11例(4.7%);中央型147例(61.25%),周围型93例(38.75%)。如表1所示,240例中央型和周围型肺鳞癌患者的临床理特征相关性分析结果显示,中央型和周围型肺鳞癌患者在性别、年龄、肿瘤大小、 有无远处转移、TNM分期、EGFR突变方面均无统计学差异,而在淋巴结转移发生率上,中央型较周围型肺鳞癌患者更容易发生淋巴结转移(中央型:67/145,46.2%,周围型:26/90,28.9%)(P=0.019)。进一步采用Kaplan-MeierPlotter方法分析中央型和周围型肺鳞癌患者的生存差异,如图1所示,二者在生存时间上未见明显的统计学不同(Log-rank检验,P=0.298,图1)。

2.2 中央型和周围型肺鳞癌患者的基因表达水平的分析本研究运用R语言“pheatmap”、“vegan”、“volcano”的程序包在中央型和周围型肺鳞癌两组患者中筛选了差异表达基因,结果显示二者存在1,031个差异表达基因,其中,周围型鳞癌相对于中央型鳞癌有629个基因表达水平上调,402个基因表达水平下调(图2A-图2B)。

2.3 中央型和周围型肺鳞癌差异基因的相关KEGG富集信号通路分析 为了更进一步了解造成二者基因差异的相关生物进程,本研究采用R软件的“cluster Profiler”、“pathview”程序包对中央型和周围型肺鳞癌的1,031个差异表达基因信息进行KEGG pathway富集分析,结果显示差异基因主要富集在6个信号通路中:刺激神经组织的配体-受体相互作用(neuroactive ligand-receptor interaction),青少年糖尿病的成年发病(maturity onset diabetes of the young),脂肪消化与吸收(fat digestion and absorption),细胞色素P450对异种生物的代谢作用(metabolism of xenobiotics by cytochrome P450),胆固醇代谢(cholesterol metabolism),唾液分泌(salivary secretion)(图3)。其中,差异表达基因主要富集在刺激神经组织的配体-受体相互作用(neuroactive ligandreceptor interaction)信号通路上,而另外5个信号通路主要与代谢(糖、脂肪)有关。因此,KEGG pathway(Kyoto Encyclopedia of Genes and Genomes)富集的结果显示,周围型和中央型肺鳞癌的功能差异可能主要集中在神经分泌及代谢的差异上。

图1 中央型和周围型肺鳞癌的生存曲线比较Fig 1 Comparison of survival curves between central and peripheral squamous cell carcinoma

2.4 中央型及周围型肺鳞癌差异基因的相互作用网络分析 进一步将上述筛选出的629个表达水平上调基因和402个下调基因,录入GCBI网站(www.gcbi.com.cn),分析其所编码的蛋白之间的相互作用,绘制出了差异基因的相互作用网络图(图4)。结果显示,即肝细胞核因子1同源体A(hepatocyte nuclear factor 1 homeobox A,HNF1A)和人血清白蛋白(Albumin, ALB)在其中影响较为广泛,位于网络中心的重要节点。KEGG pathway(Kyoto Encyclopedia of Genes and Genomes)分析已经显示差异基因主要富集在刺激神经组织的配体-受体相互作用通路上,而HNF1A和ALB基因也主要富集在此通路上,提示HNF1A和ALB基因可能通过激神经组织的配体-受体相互作用通路参与肺鳞癌中央型和周围型的差异调控。HNF1A基因是糖尿病发生的重要基因之一,并且参与脂类代谢。ALB基因编码的蛋白是人类血液中最丰富的蛋白质。这种蛋白质在调节血浆胶体渗透压方面起作用,并且作为包括激素、脂肪酸和代谢物以及外源药物的广泛内源分子的载体蛋白。差异基因相关作用网络中还显示胞色素P450 (cytochrome P450)家族中A亚家族中的众多家族成员(如CYP3A4,CYP2B6;Cytochrome P450 2B6,CYP2A6 Cytochrome P450 2A6,CYP2A13;Cytochrome P450 2A13),以及载脂蛋白A1(apolipoprotein,APOA1)基因的多个同源体(APOA1、AP2、APOA3、APOA4等)也处于该相互作用网络的关键位置,与多个基因存在相互作用的关系。细胞色素P450(cytochromeP450或CYP450,简称CYP450)是一类主要存在于肝脏、肠道中的单加氧酶,主要参与内源性物质和包括药物、环境化合物在内的外源性物质的代谢。APOA1基因编码载脂蛋白A1,是血浆高密度脂蛋白(high density lipoprotein, HDL)的主要蛋白成分,是脂代谢中重要的参与者。由此可见,差异基因相关作用网络图进一步验证了,代谢相关信号通路在肺鳞癌周围型和中央型的功能差异中扮演着重要的角色。

表1 中央型和周围型肺鳞癌患者的相关临床资料分析Tab 1 Analysis of clinical data of patients with central and peripheral lung squamous cell carcinoma

图2 R程序分析出中央型和周围型肺鳞癌之间存在1,031个有意义的差异基因,周围型鳞癌相对于中央型鳞癌有629个基因表达水平上调,402个基因表达水平下调。Fig 2 The R program analyzed 1,031 significant differential genes between central and peripheral lung squamous cell carcinoma.There are with 629 genes up-regulated and 402 genes were down-regulated (Peripheral vs central).

图3 R程序针对周围型和中央型肺鳞癌的1,031个差异基因分析其KEGG pathway富集(即信号通路富集)Fig 3 R program for KEGG enrichment (Signal pathway enrichment) of 1,031 differential genes in peripheral and central lung squamous cell carcinoma

图4 GCBI网站对分析了1,031个差异基因编码的蛋白之间的相互作用Fig 4 GCBI website analyzed the interaction between proteins encoded by 1,031 differential genes

3 讨论

肺癌是我国发病率、死亡率最高的恶性肿瘤[1]。有研究[1,11]显示,仅在2017年城市居民肺癌患者高达222,500人,而因肺癌死亡的人也高达155,870人。 吸烟、遗传、环境污染、职业暴露、饮食等多种因素不同程度影响着肺癌的发生发展[9]。目前,治疗肺癌的方法有手术、化疗、放疗、分子靶向治疗、介入治疗和其他治疗(免疫治疗、中医药治疗、光动力学治疗、基因治疗、支持治疗)等[12]。而针对肺鳞癌患者主要采取手术治疗的方式[13],而且中央型肺鳞癌的全肺切除率高于周围型肺鳞癌[14]。肺鳞癌是一类起源于支气管上皮、病理显示角化和(或)细胞间桥的恶性上皮瘤,多为中央型。虽然周围型肺鳞癌与中央型肺鳞癌在临床表现及病理组织学特点存在一定的差异,但其分子机制是否存在差异尚不明确。鳞癌与腺癌的分子生物学特性存在明显的差异,如有研究报道在肺鳞癌中,并未发现KRAS基因突变与EGFR基因突变有相关性[15,16],这点与腺癌有明显不同,不过并不排除在肺鳞癌中KRAS和EGFR突变较低的缘故。肺鳞癌的发生与吸烟有强相关性[17],当然也离不开多种生物遗传事件的作用,本文主要探讨了中央型和周围型鳞癌的临床特征以及基因分子水平的差异。首先在中央型和周围型肺鳞癌患者的临床理特征相关性分析中我们发现中央型肺鳞癌较周围型更容易发生淋巴结的转移,这与文献报道的肺鳞癌中央型和周围型淋巴结转移上存在差异相一致,但在该研究中,与文献报道不同的是我们并没有发现二者在肿瘤大小上存在一定的差异[10],但由于数据来源的不同,其原因是很难分析的。

在分子生物学特征的分析中,我们基因集富集分析(gene set enrichment analysis, GSEA)从全局水平分析不同表型的基因表达变化,发现了差异基因主要富集在6个信号通路中:刺激神经组织的配体-受体相互作用,青少年糖尿病的成年发病,脂肪消化与吸收),细胞色素P450对异种生物的代谢作用,胆固醇代谢和唾液分泌,从而揭示二者的差异主要在生物体发育和分化的机制上。目前的相关研究报道较少,一项全基因组关联研究显示15号染色体15q25.1是肺癌的主要易感区域,其中表达数量定位点(expression quantitative trait loci, eQTL)的功能分析结果显示,刺激神经组织的配体-受体相互作用(neuroactive ligand-receptor interaction)与肺癌发表风险有关,可能作为主要通路参与了肺癌的发生[18]。此外,亦有文献报道脂肪组织和脂肪细胞分泌的信号分子和代谢物,尤其是在肥胖状态下,直接或间接刺激抗凋亡作用被认为是癌症进展的重要因素[19,20]。在糖的代谢方面,文献报道与大多数体细胞不同,癌细胞消耗大量的葡萄糖,依靠有氧糖酵解产生ATP,Otto Warburg对这一现象进行了描述,称之为“瓦氏效应”(Warburg effect)[21,22]。因此,我们有理由相信上文中提到的差异基因富集信号通路如青少年糖尿病的成年发病(maturity onset diabetes of the young)、脂肪消化与吸收(fat digestion and absorption)、细胞色素P450对异种生物的代谢作用(metabolism of xenobiotics by cytochrome P450)、胆固醇代谢(cholesterol metabolism)、唾液分泌(salivary secretion)参与了周围型和中央型肺鳞癌表型差异的形成。

进一步相互作用网络分析显示HNF1A、CYP3A4、ALB与APOA1位于该该差异基因作用网络的关键位置。而HNF1A和ALB基因也主要富集在刺激神经组织的配体-受体相互作用通路上,提示HNF1A和ALB(Albumin,人血清白蛋白)基因可能通过激神经组织的配体-受体相互作用通路参与肺鳞癌中央型和周围型的差异调控;CYP3A4与APOA1分别主要参与内源性物质和包括药物、环境化合物在内的外源性物质的代谢和脂代谢,这进一步证实了KEGG富集信号通路分析的结果。HNF1A是编码肝细胞核因子1同源体A,这是一种在人类肝脏、胰腺、肾脏和肠道中表达的转录因子[23]。HNF1A是发育成熟胰腺中调控转录因子通路的重要成员[24],并且HNF1A参与糖尿病和一些肝病的发生。ALB基因主要编码人血清白蛋白[25],是人类血液中最丰富的蛋白质。人血清白蛋白在调节血浆胶体渗透压方面起主要作用,ALB主要结合与水,阳离子(如Ca2+、Nat和Kt),脂肪酸,激素,胆红素,甲状腺素(T4)和药物(包括巴比妥酸盐)结合,是包括激素、脂肪酸和代谢物以及外源药物的广泛内源分子的载体蛋白。文献报道在NSCLC中,血清中CRP/Alb 可以作为肺癌患者化疗总生存期的一个预后因素[26],而NSCLC术前白蛋白球与蛋白评分可以作为其预后的一个重要因素[27],而且C反应蛋白与白蛋白(C-reactive protein/Albumin, CRP/ALB)的比值有可能是肺癌独立于病理分型和临床分期的一个预后指标[28]。

细胞色素P450(cytochrome p450 family, CYP450)是位于线粒体膜或内质网上的一组混合功能氧化酶系统的末端氧化酶。它们在内源性和外源性分子的代谢中起着至关重要的作用[29]。CYP450酶是所有器官中最重要的代谢酶家族。除了在大多数内源性化合物和外来生物的失活中起作用外,它们还介导大多数致癌物质氧化及代谢[30],也因为它在细胞中参与多条代谢作用,也有人考虑结合此特性来参与心血管疾病或是癌症的治疗[31]。APOA1基因位于11号染色体11q23-q24,其编码的蛋白质参与多种生物功能,可被分离成一种稳定因子(Prostaglandin I2, PGI2);HDL由APOA1编码,参与机体多种代谢功能,已有研究表明APOA1在肺癌患者中呈现较低水平表达[32]。在NSCLC接受顺铂化疗的患者中,APOA1的水平可以作为预测患者中生存期的预后因素[33]。在诊断方面,APOA1也有可能作为一个生物标志物用于临床诊断[34]。此外,在乳腺癌中,APOA1会增加乳腺癌的风险,它的多态性(APOA1-75G/A和+83C/T)与乳腺癌的发病相关[35]。

总之,本研究采用现有的TCGA数据库,对中央型和周围型肺鳞癌的差异进行了初步研究,发现二者不仅在淋巴结转移发生率上存在临床特征的差异,而且在基因表达水平亦有明显的不同。其中,HNF1A、CYP3A4、ALB、APOA1位于差异基因相互作用网络的关键位置,有可能参与调控二者的差异表型(phenotypic difference),为进一步探讨中央型和周围型肺鳞癌的发病机制和个体化治疗提供新的思路。

猜你喜欢
差异基因鳞癌中央
ICR鼠肝和肾毒性损伤生物标志物的筛选
2022年中央一号文件解读
定了!中央收储冻猪肉2万吨
今日农业(2021年14期)2021-10-14 08:35:36
恶性胸膜间皮瘤、肺鳞癌重复癌一例
云南医药(2021年3期)2021-07-21 05:41:06
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
心电与循环(2020年1期)2020-02-27 07:48:24
基于深度学习的宫颈鳞癌和腺鳞癌的识别分类
防止“带病提拔”,中央放大招
廉政瞭望(2016年9期)2016-09-27 07:25:49
整合素αvβ6和JunB在口腔鳞癌组织中的表达及其临床意义
SSH技术在丝状真菌功能基因筛选中的应用
海中有山吗