汤喜,张成瑶,周晓红,辇伟奇,龚靖淋,张玉莲,周迎春,李真华
(重庆大学附属肿瘤医院/重庆市肿瘤研究所/重庆市肿瘤医院 1. 头颈肿瘤中心 2. 肿瘤转移与个体化诊治转化研究重庆市重点实验室,重庆 400030)
甲状腺癌(thyroid cancer)是女性第四大常见的恶性肿瘤[1-2],在2017年,全球范围内有56870例新发甲状腺癌病例,占所有新发肿瘤的3.4%[3]。虽然大部分甲状腺癌倾向于生物学及临床的惰性,拥有较好的预后,但仍有少部分甲状腺癌预后差,生存期短以及出现局部及全身转移等,严重威胁人类生命健康[4-6]。由于疾病过程交错复杂,有众多分子参与其中,临床中仍然难以寻找到有效的生物预测因子。侵袭和转移是癌症的一个标志,主要是导致甲状腺癌的复发和预后不良而导致死亡。对于转移及复发性甲状腺癌患者,目前仍缺乏有效治疗手段。因此,深入了解甲状腺癌疾病发生和发展的分子机制,探索新的潜在治疗靶点,将有助于提高患者的生存水平。本研究通过生物信息学方法分析甲状腺癌发生相关差异表达基因,构建其长链非编码RNA(long non-coding RNA,lncRNA)、微小RNA(microRNA,miRNA)及mRNA之间的竞争性内源RNA(competing endogenous RNA,ceRNA)调控网络,并结合TCGA数据库进行预后分析,以期获取影响甲状腺癌预后的关键非编码RNA与mRNA及相关通路。
在癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库(https://cancergenome.nih.gov)中下载568例甲状腺癌样本并具有完整生存时间的临床数据,使用数据转换工具(GDC Apps提供)下载样本的mRNAseq和miRNAseq的基因表达数据,作为后续核心差异基因的预后分析。
应用R程序语言包(http://bioconductor.org/packages/release/bioc/html/edgeR.html)对TCGA数据库下载的mRNAseq和miRNAseq数据信息进行差异表达分析,筛选出甲状腺癌组织和正常组织中差异表达的lncRNA、miRNA及mRNA。差异基因筛选标准:校正后P值<0.01,差异倍数>2.0。
采用Cytoscape v 3.5.1软件对差异表达基因进行GO功能富集分析参与的生物学过程及KEGG通路富集分析。采用Fisher精确检验的方法,以P<0.05及FDR<0.05为显著性基因富集。
使用Cytoscape v 3.5.1软件构建差异表达lncRNA、miRNA、mRNA的调控网络。使用miRcode(http://www.mircode.org)预测差异表达lncRNA-miRNA关系对,使用miRTarBase(http://mirtarbase.mbc.nctu.edu.tw),miRDB(http://www.mirdb.org)和TargetScan(http://www.targetscan.org/vert_71)预测差异表达miRNA-mRNA关系对的互作关系。
将差异表达lncRNA的表达水平进行单因素及多因素Cox回归分析,并将差异表达lncRNA根据中位值分成高水平组和低水平组,应用Kaplan-Meier生存曲线进行生存分析,筛选出与甲状腺癌总生存期显著相关的基因,分析与基因表达与临床参数的关系。使用受试者工作特征曲线(receiver operating characteristic curve,ROC)和ROC曲线面积(AUC),对生存分析预测的敏感性和特异性进行评价。P<0.05表示差异具有统计学意义。
在TCGA数据库中下载和提取568例样本的lncRNA数据,数据分为2个队列:510例甲状腺癌样本和58例正常样本。下载和提取573例样本的miRNA数据,数据分为2个队列:514例甲状腺癌样本和59例正常样本。筛选出差异表达lncRNA 497个(上调93个,下调404个),差异表达miRNA 72个(上调5个,下调67个),差异表达mRNA 1097个(上调233个,下调864个)。使用R语言分别制作差异表达的lncRNA、miRNA、mRNA的火山图及热图(图1)。
使用Cytoscape v 3.5.1软件对1097个差异基因进行GO生物过程富集分析和KEGG通路分析。GO生物过程富集分析结果显示差异表达基因主要参与单组织过程、单组织细胞过程、刺激反应等生物学过程,受体结合、分子功能调节、钙离子调节等细胞功能,细胞、细胞膜、细胞外组件等细胞构成过程(图2)。KEGG通路分析结果显示差异表达基因主要参与神经反应受体-配体相互作用、细胞因子-细胞因子受体相互作用、肿瘤转录失调等信号通路的调节(图3)。
使用Cytoscape v 3.5.1软件进行lncRNA-miRNA-mRNA的ceRNA互作网络构建(图4),结果显示有lncRNA-miRNA关系对72对,miRNA-mRNA关系对13对,其中共包括差异表达lncRNA 31个,差异表达miRNA 11个和差异表达mRNA 12个(图4)。
在ceRNA互作网络中有2个差异表达lncRNA(MIR181A2HG、OPCML-IT1),1个差异表达miRNA(miRNA-184)和2个差异表达mRNA(E2F1、SALL3)与甲状腺癌的总体生存期明显有关(均P<0.05)。将甲状腺癌样本以中位数值为界值,分成高表达组和低表达组,采用Kaplan-Meier分析两组患者预后相关性,结果表明低表达组具有更长的生存时间(均P<0.05)(图5)。使用ROC曲线和AUC评价5年生存率预测的敏感性和特异性。结果显示,差异表达的lncRNA、miRNA、mRNA的AUC值分别是0.913、0.956、0.955(图6)。
图1 图1 火山图及热图分析 A:差异表达lncRNA;B:差异表达miRNA;C:差异表达mRNAFigure1 XVolcano plot and heat map analysis A: Differentially expressed lncRNAs; B: Differentially expressed miRNAs; C: Differentially expressed mRNAs
图2 GO功能富集分析Figure2 GO functional enrichment analysis
图3 KEGG通路分析Figure3 KEGG pathway analysis
图4 构建LncRNA-miRNA-mRNA(ceRNA)调控网络Figure4 Construction of regulatory network of lncRNA-miRNA-mRNA (ceRNA)
图5 Kaplan-Meier生存曲线 A:差异表达lncRNA;B:差异表达miRNA;C:差异表达mRNAFigure5 Kaplan-Meier survival curves A: Differentially expressed lncRNAs; B: Differentially expressed miRNAs; C: Differentially expressed mRNAs
lncRNA是一类转录本长度超过200 nt,不编码蛋白的RNA,近年的研究[7-10]表明lncRNA位于细胞核和细胞质中,主要通过表观遗传修饰、转录调控(转录后调控)和翻译水平调控(翻译后调控)发挥作用,也可通过与miRNA或其他细胞因子相互作用,间接影响基因表达。广泛参与包括X染色体沉默、染色质修饰、核内运输等多种重要的调控过程。也有研究[11-12]表明lncRNA的表达变化与功能丧失已经与多种恶性肿瘤在内的人类疾病联系在一起。miRNA是一类转录本长度在20~25 nt的小非编码RNA,miRNA可以抑制mRNA的翻译或引起RNA的转录后翻译的降解[13]。ceRNA假说揭示了一种RNA间相互作用的新机制[14]。lncRNA与miRNA及其下游靶基因之间的相互调控模式与肿瘤的发生发展密切相关,成为肿瘤研究领域的热点。miRNA作为一个转录后调控的重要因子,其活性可被lncRNA通过“海绵”吸附的方式调控ceRNA[15]。lncRNA作为ceRNA竞争性地与miRNA结合从而影响miRNA导致的基因沉默,从而调节编码基因的蛋白质水平,参与靶基因的表达调控,在肿瘤的发生发展中发挥重要的作用。ceRNA构建了一个复杂的作用网络,正常生理状态下ceRNA网络中的各种分子之间处于一定的平衡状态,一旦平衡被打破就会导致疾病的发生。目前有研究揭示了ceRNA调控网络在部分肿瘤中的主要作用[16-18]。目前仍缺乏在全基因组范围内,特别是基于高通量检测与大规模样本量的甲状腺癌相关的lncRNA和miRNA及的ceRNA的综合分析。
MIR181A2HG(MIR181A2 host gene,MIR181A2宿主基因)是位于染色体9q33.3的lncRNA,miR-181a 从两条人类染色体的lncRNA转录而来,分别是1号染色体的MIR181A1HG和9号染色体的MIR181A2HG。有报道MIR181A2HG可以促进子宫相关炎症通路的发生[19]。OPCMLIT1(OPCML intronic transcript 1,OPCML内转录1)是位于11号染色体的lncRNA。目前尚无MIR181A2HG和OPCML-IT1在甲状腺癌中的表达及作用的相关报道,有待于我们进一步进行基础实验和临床试验。miR-184近年来作为一个新的miRNA在许多肿瘤中表现出异常的表达,包括肝细胞癌(作为肝细胞癌的致癌调节剂)和肾细胞癌(作为肿瘤抑制因子)等[20-21]。E2F1是炎症控制的关键参与者,它与成视网膜细胞瘤蛋白(pRb)息息相关。pRb通过对E2F家族转录因子的诱导来控制细胞周期。有研究[22]表明变异的pRb通过激活E2F1来抑制甲状腺肿瘤。Sall3(spalt like transcription factor 3)编码C2H2锌指蛋白,这种蛋白质存在于进化保守的基因家族中,包括果蝇、新杆状线虫和脊椎动物[23]。近期有研究[24]表明SALL3的表达与致癌作用之间有关系。研究表明在肝细胞癌中SALL3被DNA甲基化所抑制,其蛋白质与DNA甲基转移酶3α(DNMT3A)相互作用。另一个研究[25]则指出SALL3和HPV感染的异常超甲基化对宫颈癌的致癌作用有促进作用。SALL3在甲状腺癌中是否有促癌作用尚未见报道。
通过对lncRNA和miRNA的靶基因预测和功能分析发现,GO生物过程富集分析结果显示差异表达基因主要参与单组织过程、单组织细胞过程、刺激反应等生物学过程,受体结合、分子功能调节、钙离子调节等细胞功能,细胞、细胞膜、细胞外组件等细胞构成过程。KEGG通路分析结果显示差异表达基因主要参与神经反应受体-配体相互作用、细胞因子-细胞因子受体相互作用、肿瘤转录失调等信号通路的调节。因此,初步探讨与预后相关的lncRNA和miRNA的靶基因生物过程富集和信号通路分析,对于揭示甲状腺癌发生和发展的分子机制以及肿瘤的诊断治疗具有一定的临床意义。
本研究对T C G A数据库中甲状腺癌的lncRNA,miRNA和mRNA测序数据与甲状腺癌的临床信息进行了相关的统计学分析。其优势在于研究样本量大,测试平台统一,结果全面可靠。但其结果具有一定局限性,需要在基础实验和临床试验中进一步验证。
综上所述,通过对甲状腺癌患者的lncRNA,miRNA和mRNA数据进行分析发现,差异表达lncRNA(MIR181A2HG、OPCML-IT1),差异表达miRNA(miRNA-184)和差异表达mRNA(E2F1、SALL3)可能在甲状腺癌的发生发展中发挥作用,具有成为新的预测甲状腺癌预后分子标志物的潜能。对于揭示甲状腺癌发生、发展的分子机制及肿瘤的诊断和分子靶向治疗具有一定的临床意义。