易凤仙 曾淑华 周 容 杨 静 王月君 唐 青 万凤知
(三峡大学 第一临床医学院[宜昌市中心人民医院] 妇科, 湖北 宜昌 443003)
子宫内膜癌(endometrial carcinoma,EC)可分为雌激素依赖型(I型)和非雌激素依赖型(Ⅱ型)。I型EC绝大部分为内膜样癌,少部分为黏液腺癌;Ⅱ型包括浆液性癌和透明细胞癌等[1]。EC是女性生殖系统三大恶性肿瘤之一,占女性生殖系统恶性肿瘤的20%~30%[2,3]。近年来,EC的发病率在全球范围内有所增加[4,5]。据统计,全世界每年有287 000例新增EC病例和74 000例EC相关死亡病例[6]。EC不仅给患者带来痛苦,而且增加了社会和家庭的经济负担。因此,明确其发病机制,寻找有效的分子生物标志物,对实现EC的早发现、早诊断、早治疗具有重要意义。
近年来,全基因组测序和生物信息学技术的发展为癌症研究提供了新方向,例如癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库、基因表达综合谱(Gene Expression Omnibus,GEO)和基因组富集分析(Gene Set Enrichment Analysis,GSEA)。长链非编码RNA(long non-coding RNA,LncRNA)是指长度>200个核苷酸的转录本,根据它们所处的基因组环境大致分为反义LncRNA(antisense LncRNA)、内含子LncRNA(intronic LncRNA)和基因间LncRNA(intergenic LncRNA,LincRNA)等,其中LincRNA是最大的LncRNA分子[7]。LincRNA在肿瘤的发生发展中起重要调控作用。本研究使用生物信息学分析报告EC中的关键LincRNA,拟为EC的诊断和治疗提供新的标志物。
从TCGA(https://portal.gdc.cancer.gov/)下载RNA-Seq、拷贝数变化(copy number variation,CNV)和临床数据。RNA-Seq数据显示为FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)。基于Ensembl数据集(http://asia.ensembl.org/index.html)对基因变异类型进行分类。
使用基因富集分析软件鉴定EC中差异性LincRNA的富集程度[8]。对于功能富集分析,根据目标LincRNA的相关性,将mRNA排列,以Pearson相关系数R值表示相关水平。随后,列出mRNA和相应的R值,并通过clusterProfiler进行GO、KEGG及GSEA富集分析[9,10]。
本研究选择了总体生存(overall survival,OS)作为预后指标,OS定义为从诊断之日至因任何原因死亡之日的时间,研究时间为5年[11]。在TCGA数据集中的浆液性癌样品上建立双变量回归和多元Cox模型,验证浆液性癌中特异性表达LincRNAs在浆液性癌中的预后预测价值。
多组间比较采用单因素方差分析,两两比较采用Bonferroni校正的t检验以评估任意两种类型的样品之间表达水平的差异。交集分析通过在线工具venny 2.1进行。在SPSS 25.0上执行双变量回归和Cox模型。使用GraphPad Prism 8或Rv3.6.1进行其他分析和绘图。以P<0.05为差异有统计学意义。
为了鉴定在EC中差异表达的LncRNA,在521个EC肿瘤样品(包括407个内膜样癌组织和114个浆液性癌组织)和35个正常组织样品中分析它们的表达。与正常组织相比,肿瘤组织中LincRNA表达更高(P<0.05);与内膜样癌组织相比,LincRNAs在浆液性癌组织中表达更高(P<0.05),见图1A。与正常组织相比,肿瘤组织中反义LncRNA表达更低(P<0.05),浆液性癌组织与内膜样癌组织比较差异无统计学意义(P>0.05),见图1B。与正常组织相比,其它类型LncRNA在内膜样癌组织中表达更高(P<0.05),见图1C。筛选出只在浆液性癌中高表达的LincRNA共39个(C2orf48,LINC00839,LINC01993,AL391095.1,AL354707.1,AC109826.1,LINC00954,LINC01508,LINC01814,LINC00958,AC105219.3,MIR9-3HG,AC117498.2,LINC00239,AC012236.1,AL023284.4,LINC01572,AL512274.1,AC010422.2,AC004233.3,AL390719.2,U62317.1,AC099568.2,LINC02012,AL096828.3,AL121906.2,BLACAT1,UCA1,AL121899.1,AL391832.2,AC024230.1,AC016737.1,AL671710.1,LINC01127,AL080250.1,AC025165.4,AC010719.1,AP002360.3,AC253536.6)。未发现只在内膜样癌中高表达的LincRNA。
注:A:LincRNA在不同组织中的表达; B:反义LncRNA在不同组织中的表达; C:其它类型LncRNA在不同组织中的表达;与正常组织相比,*P<0.05;与浆液性癌组织相比,#P<0.05图1 LncRNA在不同组织中的表达
为了鉴定这39种LincRNA在EC中的富集程度,根据它们的表达进行了GSEA分析。这39种LincRNA在EC中富集得分为0.65(P=0.006)(见图2A),在浆液性癌中富集得分为0.66(P=0.010)(见图2B),说明这39种LincRNA在EC和浆液性癌中显著富集。
注:A:LincRNA在EC中的富集分析;B:LincRNA在浆液性癌中的富集分析图2 LincRNA富集分析
密度图显示了每个浆液性癌特异性表达LincRNA的CNV扩增和缺失分布(见图3)。
图3 LincRNA的CNV谱
这39个LincRNA的CNV扩增密度峰值明显大于缺失密度峰值,表明CNV扩增介导了浆液性癌中特异性表达的LincRNA的过表达。在这39种LincRNA中,膀胱癌相关转录本1(bladder cancer-associated transcript 1,BLACAT1)(TCGA编号ENSG00000281406)的表达差异性最大。
通过双变量回归(见图4A)和Cox(见图4B)模型进行ROC分析验证这些LincRNA对OS的预测价值。双变量回归模型(AUC=0.786,P<0.000 1)和多变量Cox模型(AUC=0.704,P=0.001)显示,这些LincRNA均为浆液性癌的预测标志物。
图4 浆液性癌特异性表达LincRNAs预测分析
本研究通过生物信息学方法分析公共数据库中的EC测序数据,首先确定了不同类型的LncRNA在EC不同亚型中的表达水平,接下来鉴定了浆液性癌中特异性过表达的39种LincRNA。这39种LincRNA中,LincRNA BLACAT1的表达差异性最大,且这39种LincRNA可作为浆液性癌预后预测的生物标记物。
LncRNA是指长度>200个核苷酸的转录本,不含蛋白质编码序列[12]。尽管有多项研究报告指出,LincRNA在EC中既有肿瘤抑制作用也有肿瘤促进作用,但尚无研究报道LincRNA与浆液性癌之间的关系。据报道,某些LincRNA与肿瘤进展有关。例如,LincRNA UCA1(ensembl编号ENSG00000214049)可促进胃癌、膀胱癌和乳腺癌的发生[13,14]。本研究发现,39种LincRNA的CNV扩增密度峰值明显大于缺失密度峰值,表明CNV扩增介导了浆液性癌中特异性LincRNA的过表达,可能是LincRNA过表达的重要机制,后续研究中应进一步实验验证。
本研究发现,在这39种LincRNA中,LincRNA BLACAT1表达差异性最大,LincRNA BLACAT1可作为OS的预测指标。据报道,LincRNA BLACAT1可促进肿瘤发生,并与小细胞肺癌和大肠癌的不良预后有关[15,16]。具体机制可能与LincRNA BLACAT1调节Wnt信号通路,促进肿瘤增殖、迁移和侵袭有关[17]。然而,本研究也存在一些不足。首先,本研究缺乏临床标本的收集和进一步实验验证;其次,没有预测和验证LincRNA BLACAT1的下游靶标,后续研究中将通过收集临床标本,结合体内和体外实验进行深入的机制探讨。
综上所述,在浆液性癌中差异表达的39种LincRNAs可作为浆液性癌的预后标志物。这些LincRNA中,LincRNA BLACAT1表达差异最大,有望为EC提供新的预后标志物和治疗靶点。