王 迪,李 晴,佟伟民,牛亚梅
(中国医学科学院基础医学研究所 北京协和医学院基础学院 病理学系/中国医学科学院分子病理中心,北京 100005)
胆管癌统指起源于胆管上皮组织的恶性肿瘤,是仅次于肝细胞癌的第二大原发性肝肿瘤。由于胆管癌早期症状不典型,因此多数患者确诊时已处病程晚期,治疗手段有限,长期存活率并不理想[1]。在胆管癌中,异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH)基因的功能获得性突变高频发生,达10%~20%[2]。突变的IDH1和IDH2编码的蛋白获得了催化α-酮戊二酸(α-ketoglutaric acid,α-KG)生成2-羟基戊二酸(2-hydroxyglutarate,2-HG)的能力,而细胞内2-HG的积累可导致高甲基化表型[3]。通过对胆管癌的多组学数据进行分析,发现IDH突变型胆管癌具有独特的mRNA、拷贝数和DNA甲基化特征[4],且IDH功能获得性突变与预后良好显著相关[3]。以上研究加深了对胆管癌的IDH突变与分子分型的关系的理解,但IDH突变所影响的靶基因和生物学过程尚不明确。本研究利用癌基因组图谱计划(the cancer genome atlas,TCGA)中胆管癌的DNA甲基化和转录组数据,通过生物信息学方法鉴定了IDH突变所影响的潜在靶基因及其核心模块,为阐明IDH突变在胆管癌发生发展中的作用提供了新的线索。
本研究纳入了TCGA胆管癌项目中同时具有突变、DNA甲基化及转录组数据的36例患者[4],其中IDH突变型7例,IDH野生型29例。突变数据由TCGA MC3计划产生,从GDC(https://gdc.cancer.gov/about-data/publications/pancanatlas)下载。DNA甲基化数据由Illumina Human Methylation 450K芯片检测获得,而转录组数据通过RNA-Seq产生,两者通过TCGAbiolinks[5]从GDC Legacy Archive下载。
1.2.1 差异甲基化位点的筛选:首先对DNA甲基化芯片探针进行注释和质量控制[6],之后使用limma(3.42.0)[7]对IDH突变型与IDH野生型肿瘤的DNA甲基化M值进行差异甲基化位点分析,padj<0.05且|Δβ|>0.2的甲基化位点视为差异甲基化位点。
1.2.2 差异表达基因的筛选:通过DESeq2(1.26.0)[8]对IDH突变型与IDH野生型肿瘤的基因原始计数进行差异表达分析,结果中padj<0.05且|log2FoldChange|>1的基因为差异表达基因。
1.2.3 基因表达量与对应DNA甲基化水平的相关性分析:将差异表达基因的原始计数通过DESeq2包VST方法标准化,将标准化的基因表达量与对应差异甲基化位点的甲基化水平β值进行Spearman相关性分析,计算相关系数r及P值。Spearman相关系数r的绝对值大于0.5即视为强相关性。筛选出强负相关且P<0.05的基因。其中,一个基因可能对应多个DNA甲基化探针。
1.2.4 基因本体富集分析:对高甲基化、低表达且两者强负相关的基因进行基因本体(gene ontology,GO)生物过程(biological process,BP)富集分析。利用clusterProfiler(3.14.0)[9]对GO BP中基因数在10至500的条目进行富集。
1.2.5 蛋白质互作网络的构建及核心模块的鉴定:STRING(https://string-db.org/)是一个包含已知和预测的蛋白质相互作用关系的数据库。通过STRING(11.0),对高甲基化、低表达且两者强负相关的基因构建PPI网络。利用Cytoscape(3.7.1)软件[10]的MCODE(1.5.1)[11]鉴定PPI网络的核心模块。
将IDH突变型与IDH野生型胆管癌进行差异甲基化位点分析,共鉴定出11 605个差异甲基化位点(图1),其中10 427个位点在IDH突变型胆管癌中高甲基化,对应4 278个基因,1 178个位点低甲基化,对应285个基因。
图1 差异甲基化位点Fig 1 Volcano plot of differentially methylated sites
对两组进行差异表达分析,获得735个差异表达基因,其中651个基因在IDH突变型肿瘤中表达降低,84个基因表达增加(图2)。
上述差异甲基化位点中的1 037个位点与317个差异表达基因形成1 050对DNA甲基化探针-基因组合。对它们进行相关性分析,发现377对显著强相关组合,其中呈负相关的有330对,对应143个基因,且均为DNA高甲基化、低表达组合(图3)。对这143个基因进行GO BP富集分析,发现其富集于表皮生长因子(epidermal growth factor,EGF)受体信号通路、细胞外渗及细胞分裂的调控(图4)。
图2 差异表达基因Fig 2 Volcano plot of differentially expressed genes
通过STRING对以上143个基因中的141个蛋白质编码基因构建PPI网络,并通过MCODE筛选出其中相互作用最为紧密的模块。最大的模块包含EGF、TFF1、AGR3、AGR2、SERPINB5、KRT17、SFN、ACE、MDK和SPDEF等10个基因,彼此间存在14个相互作用(图5)。通过GO BP分析,发现这10个基因主要参与了上皮的分化发育、细胞蛋白质定位等生物学过程(图6)。
图3 基因表达量与对应DNA甲基化水平的相关性分析结果Fig 3 Starburst plot for the correlation between DNA methylation and gene expression levels
图4 GO BP富集分析结果Fig 4 Bar plot of enriched GO BP terms
图5 PPI网络图Fig 5 Protein-protein interaction network
本研究利用胆管癌的DNA甲基化及转录组数据,获得了IDH突变型胆管癌的差异甲基化位点和差异表达基因,结合二者筛选出基因表达与DNA甲基化强负相关的143个基因,即IDH突变的潜在靶基因,它们富集于EGF受体信号通路等条目。而后,通过构建PPI网络进一步确定其包含EGF、AGR2、AGR3、TFF1、SFN、ACE、MDK、KRT17、SERPINB5和SPDEF等10个基因的核心模块,这些基因与上皮分化发育、细胞蛋白质定位等过程密切相关。
在以上10个基因中,EGF、AGR2、AGR3、TFF1、SFN、ACE、MDK和KRT17等8个基因已有关于胆管癌的报道,EGF、AGR2、ACE、MDK与胆管癌进展有关,TFF1、SFN则具有抑癌作用,而AGR3、KRT17在胆管癌中的作用尚不明确。SERPINB5是丝氨酸蛋白酶抑制剂超家族的成员,被认为具有肿瘤抑制作用,在多种肿瘤中其异常表达受到DNA甲基化的调控[12]。SPDEF特异性表达于上皮细胞,被认为具有抑癌作用,在晚期肿瘤中表达丧失致使肿瘤转移[13]。可以看到,在胆管癌中,IDH突变导致的DNA高甲基化不仅影响了抑癌基因的表达,而且同样抑制了促癌基因的表达,这可能是IDH突变型胆管癌患者的预后好于IDH野生型患者的原因。在胶质瘤中也存在类似的现象,IDH突变可导致DNA高甲基化,而这种改变可影响包括EGF受体信号通路在内的多条促癌通路[14],IDH突变患者同样预后显著较好。这种现象可能反映了肿瘤发生发展整个过程中调控机制的复杂性。IDH突变可能在肿瘤发生发展不同阶段发挥着不同,甚至截然相反的作用。IDH突变在肿瘤发生阶段发挥促癌作用,而2-HG的大量积累又在之后肿瘤发展过程中通过高甲基化、能量供应等途径制约了肿瘤的发展,这就使得有IDH突变的肿瘤患者预后更好。
图6 核心模块基因参与的生物学过程Fig 6 GO BP terms of core module genes
总之,本研究利用多组学数据通过生物信息学方法筛选出了胆管癌中IDH突变的潜在靶基因及其核心模块的10个基因,由此揭示了IDH突变在胆管癌中潜在的作用途径。但由于纳入样本量较少以及生物信息学方法的局限性,未来仍需通过更多的病例及分子实验进行验证。研究为之后的胆管癌基础研究提供了新的线索,所发现的靶基因作为潜在治疗靶点为IDH突变型胆管癌的精准治疗奠定了基础。