周登莲,刘晓岚,邓 鑫
(西南医科大学:1教务处;2临床医学本科2016级;3药物与功能性食品研究中心,四川泸州 646000)
子宫内膜癌(endometrial carcinoma,EC)是三种主要的妇科恶性肿瘤之一,其发病率随着时间的推移而增加。目前,它在发展中国家妇科癌症中发病率排名第二,紧随宫颈癌[1]。尽管在早期检测和治疗方面取得了进展,但仍有相当多的晚期EC病例被诊断出来。随着基因芯片技术发展,越来越多的研究数据有助于解析EC 复杂的发病机制与监测疾病进程。因此,对EC相关疾病数据进行系统的生物信息学手段分析,可以快速发现肿瘤差异表达基因并通过进一步分析寻找到疾病发生可能的分子靶标。微小RNA(microRNA,miRNA)是一类长度约为22 个核苷酸的内源性非编码RNA分子,其可在转录后水平与mRNA特异性结合下调靶基因的表达。Vasilatou D等[2]综述了EC相关miRNAs表达情况及参与调控上皮间质转化机制,并阐明多个miRNA 在EC 诊断、治疗过程中具有潜在价值。已有研究揭示miR-103a-3p 在非小细胞肺癌[3]、胃癌[4]、膀胱癌[5]中发挥重要作用机制,但尚无研究揭示其在EC中的具体作用机制和临床意义。本研究基于癌症基因组图谱(the cancer genome atlas,TCGA) 数据库探讨miR-103a-3p在EC组织中的表达情况及临床意义,并对靶基因集进行生物信息学分析,以期揭示miR-103a-3p 参与EC 发生发展进程的关键生物学过程和核心靶基因。
癌症基因组图谱数据库包含40 种常见癌症的DNA、RNA 和蛋白质的高通量数据及临床信息。利用TCGA数据库在线分析网站bioinfo[6](http://bioinfo.life.hust.edu.cn/miR_path/index.html)获得多种肿瘤组织与癌旁正常组织的miR-103-3p 表达谱。
Kaplan-Meier plotter 数据库[7](http://kmplot.com/analysis/)整合了TCGA、GEO、EGA 数据库中多种癌症的mRNA 与miRNA 的表达和预后数据。本研究利用Kaplan-Meier plotter 数据库对miRNA 或基因表达与EC患者关系作生存分析。
本研究利用miRWalk 2.0 数据库[8](http://zmf.umm.uni-heidelbe rg.de/apps/zmf/mirwalk2/) 获取miR-103a-3p 的预测和经实验验证的靶基因。
利用DAVID 6.8 在线软件[9](https://david.ncifcrf.gov/)对miR-103a-3p 靶基因进行GO 功能富集与KEGG 通路富集分析。基因数目大于10且P<0.05代表预测结果有统计学意义。
利用在线软件STRING 数据库[10](https://string-db.org)以及Cytoscape3.7.1 软件[11]联合分析构建miR-103a-3p 靶基因蛋白互作网络。利用Cytohubba 插件依据连接度(degree)筛选前10 位关键基因(hub gene)。
利用GEPIA 在线分析工具[12](http://gepia.cancer-pku.cn)分析miR-103a-3p 靶基因PPI 网络中的核心基因在EC和正常组织中的mRNA表达水平。
通过bioinfo 在线分析网站TCGA数据库分析多种肿瘤组织及其邻近正常组织中miR-103a-3p的表达差异。结果显示,与邻近正常组织相比,miR-103-3p 在膀胱尿路上皮癌、乳腺浸润癌、食管癌、皮肤黑色素瘤、胃癌、子宫内膜癌等肿瘤组织中均呈现高表达,见图1,提示miR-103-3p 在这些肿瘤类型中可能发挥促癌基因角色。
图1 TCGA数据库中miR-103a-3p的表达谱
利用Kaplan-Meier plotter 数据库分析EC 患者的总生存时间与miR-103a-3p 表达量的关系,结果显示miR-103a-3p 低表达的EC 患者总生存时间比高表达的患者更长,差异有统计学意义(P=0.0021),见图2。
图2 miR-103a-3p 表达量与EC患者预后的Kaplan-Meier总生存分析
本研究利用miRWalk 2.0 数据库对miR-103a-3p进行靶基因预测,预测结果显示,去除重复基因后,共有1370 个基因被预测到。此外,利用miRWalk 2.0 软件获取经实验验证的靶基因,去除重复基因后,筛选出431个基因。由图3 可见,实验数据支持的靶基因中有131个被预测到。对miR-103a-3p的预测和经验证的靶基因进行整理,取其并集,共得到1670个靶基因,见图3。
图3 miR-103a-3p 的预测与验证的靶基因数目Venn图
对筛选出的1670个靶基因进行GO功能富集分析和KEGG 信号通路富集分析。GO 功能富集分析结果显示:miR-103a-3p 的靶基因显著富集到蛋白质结合、细胞质、细胞质基质、细胞膜、核质、ATP 结合等生物学过程和细胞结构,见图4。KEGG信号通路富集分析显示,miR-103a-3p 的靶基因显著富集于AMPK、Hippo、调节干细胞多能性、磷脂酰肌醇信号系统等关键信号通路,见图5。
图4 miR-103a-3p 靶基因的功能富集分析
基于STRING 数据库构建了miR-103a-3p 靶基因PPI 网络图,并通过Cytoscape 软件将其可视化,利用CytoHubba 插件筛选出PPI 网络中节点度(degree)前10 的核心基因(hub gene),分别是CDC42、BDNF、FBXW7、CDC27、ACTR2、FASN、CDC23、CD40、FLT3、BAIAP2,其中除BAIAP2基因外的其它基因均证实参与了肿瘤疾病进程,见图6。
利用GEPIA在线分析网站,选择两组间方差分析方法,结果显示Top10 Hub gene 中只有CD 40 mRNA 表达水平在EC组织中低于正常组织,差异具有统计学意义(P<0.05),图7。Kaplan-Meier分析结果显示,CD 40 mRNA 低表达的EC患者总生存时间低于CD 40 高表达EC 患者组,差异有统计学意义(P<0.05),见图8。
图5 miR-103a-3p靶基因的KEGG通路富集分析
图6 miR-103a-3p靶基因PPI网络构建及核心基因
图7 EC组织与正常子宫内膜组织中CD 40 mRNA的表达差异(★P<0.05)
图8 CD 40 mRNA 表达量与EC 患者预后的Kaplan-Meier总生存分析
采用miRWalk 2.0[8](http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/)生物信息学预测软件分析预测到hsa-miR-103a-3p 通过7 个碱基互补配对的区域靶向结合到CD40 mRNA的3’-UTR区域,进而参与发挥调控作用,见表1。
子宫内膜癌(EC)是最常见的妇科恶性肿瘤;一份来自中山大学附属第三医院的统计研究显示广州地区EC的平均发病年龄在(52.8±9.3)岁,发病率呈逐年增加趋势[13]。已有较多的研究表明,癌症与正常细胞之间以及子宫内膜癌亚组之间存在显著的miRNA 表达谱差异。Boren 等[14]研究了miRNA 在子宫内膜癌,正常子宫内膜和复杂不典型增生中的表达,发现了13 种与子宫内膜癌相关的miRNA。Chung 等[15]研究了EC 细胞和正常组织中miRNA 的表达,发现30 种差异表达的miRNAs。这些研究表明EC组织与正常组织存在显著的差异表达miRNAs谱。同时,上述两项研究结果均显示miR-103、miR-106a、miR-107、miR-210 在EC 组织中低表达,提示其在疾病进程可能扮演重要作用。
miR-103a-3p,以前被称为 miR-103 或miR-103a,在多种癌症中高表达。在肝癌中,miR-103可通过抑制LATS2的表达而促进肝癌细胞的转移和上皮-间质转化过程[16]。此外,miR-103通过靶向结直肠癌细胞中的DICER和PTEN促进细胞增殖和迁移[17],表明miR-103 在肿瘤中扮演致癌基因角色。基于TCGA数据库的分析显示miR-103a-3p 在EC组织中表达升高,这与Chung等[15]的研究一致。同时,利用Kaplan-Meier 生存分析显示miR-103a-3p高表达患者总生存时间明显低于低表达患者。上述结果提示miR-103a-3p作为一种促癌基因,可能在EC 发生发展发挥重要作用,且其高表达与预后不良显著相关。
为进一步查明miR-103a-3p 表达异常参与EC疾病进程的分子机制,本研究利用生物信息学方法筛选靶基因库中潜在功能分子。通过miRWalk 2.0筛选构建了miR-103a-3p 的靶基因集,将预测所得与实验验证的靶基因集整合,共得到1670个靶基因集,其中交集基因131 个。随后对1670 靶基因集进行GO功能富集分析,结果显示miR-103a-3p可能通过调控蛋白质结合、细胞质、细胞质基质、细胞膜、核质、ATP结合等生物学过程或细胞结构参与EC疾病进程。另外,KEGG 通路富集分析显示miR-103a-3p可能通过调控AMPK、Hippo、干细胞多能性调节、磷脂酰肌醇信号系统通路等发挥生物学功能。已有的研究表明AMPK 信号通路广泛参与了机体细胞能量代谢调节[18]、肿瘤细胞增殖与凋亡调控[19]等。Hippo 信号通路则主要通过其效应分子YAP(Yes-associated protein)的异常活化参与包括EC在内的多种肿瘤发生发展[20]。进一步证实miR-103a-3p 异常表达参与了EC 的疾病进程。另外,通过蛋白互作分析筛选出的10个核心基因中仅CD40 的mRNA 表达在EC 组织中降低,并且Kaplan-Meier 分析CD40 表达水平高的患者总体生存时间更长。CD40 最早由Paulie 在膀胱癌细胞中发现,是一种与T细胞和B细胞功能相关的表面抗原,主要通过CD40/CD40L 途径参与机体免疫、炎症、止血、肿瘤发生发展过程[21]。而已有研究发现miRNAs通过靶向调控CD40表达参与肿瘤进程,如高转移性胰管腺癌中高表达的miR-224和miR-486通过靶向抑制CD40 表达参与调控肿瘤进程[22]。本研究通过数据库预测到miR-103a-3p与CD 40存在靶向调控关系(表1),结合PPI 核心蛋白分析结果推测miR-103a-3p 参与EC 的疾病进程可能与其对核心蛋白CD 40 靶向调控相关。
表1 CD 40 基因3’-UTR 与hsa-miR-103a-3p的结合位点预测
本研究首次通过生物信息学挖掘miR-103a-3p在EC 中的表达情况以及对预后的影响,并构建了miR-103a-3p 的靶基因调控网络,分析了其核心蛋白。研究结果为miR-103a-3p 作为EC 新的诊断和治疗靶点提供了依据,同时也为miRNAs 调控EC 发生复杂作用机制作了进一步的补充。