三种miRNA对肝癌预后预测的生物信息学分析模型

2022-03-09 16:16林思其张泽鑫夏睿琪刘紫凤陈林静陈栩静陈祎琦
医学信息 2022年3期
关键词:靶点标志物因素

林思其,张泽鑫,夏睿琪,刘紫凤,陈林静,陈栩静,陈祎琦

(1.广州中医药大学第二临床医学院,广东 广州 510405;2.广州中医药大学第一临床医学院,广东 广州 510405)

肝细胞癌(hepatocellular carcinoma,HCC)是世界上第5 大常见的恶性肿瘤[1],全球发病率逐步上升[2]。目前,手术治疗是HCC 的主要治疗方法,然而术后5 年复发率已达70%[3],生存质量难以提高。到目前为止,一些生物标志物已被证明与HCC 的发生发展相关,但其可靠性仍存在争议。miRNA 是一种非编码RNA,其失调会导致细胞的异常生长和生物合成,促进肿瘤的发生发展[4]。此外,不同表达谱的miRNA 可以作为肿瘤诊断和预后的分子标志物,如血清miR-122 可以作为HCC 诊断标志物之一[5]。Liu G 等[6]已构建了HCC 的miRNA 特征预后模型,但并没有进行验证和风险评估。本研究构建并验证了一种新的miRNA 预后模型,旨在评估TCGA 数据库中HCC 患者过度生存情况,探究三种miRNA 信号的潜在生物学特征、肿瘤相关功能和信号通路,为了解HCC 模型的分子机制提供依据,现报道如下。

1 资料与方法

1.1 数据下载和处理 miRNA 的表达数据如下:[病例(373):项目(TCGA)、项目(TCGA-LIHC)、基本位点(肝脏)、疾病类型(腺瘤和腺癌);档案(425):数据:类型(亚型表达定量分析)、类别(转录组分析)]。mRNA 表达数据如下:[病例(371):项目(TCGA)、项目(TCGA-LIHC)、基本位点(肝脏)、疾病类型(腺瘤和腺癌);档案(424):数据:类型(基因表达定量分析)、类别(转录组分析)];相关临床信息(377)(数据格式:bcr xml,数据类别:临床)。从癌症基因组图谱(TCGA)的官方网站下载所有数据。miRNA 表达数据包含375 个癌细胞样本和50 个普通细胞样本,而mRNA 表达数据包括374 个癌细胞样本和50 个普通细胞样本。

1.2 数据分析 所有数据分析均使用R 语言的3.6.1版本和相关软件包。

1.2.1 差异表达miRNA、mRNA 的检测及与临床生存时间的联合分析 根据校正后的P值标准(>1 和(FDR)<0.05),检测出差异表达的miRNA 和mRNA 的数据,使用R 语言的边缘包进行标准化。将所有患者生存时间数据与标准化的miRNA 和mRNA 差异表达数据相结合。1.2.2 样本分组、模型构建、评估和验证 使用R 语言v.3.6.1 的“caret”包,将包含总生存时间和差异表达的miRNA 数据样本,以非特异性方式分为测试组和训练组。通过单因素Cox 回归分析对训练组进行检验,P<0.05。检验的结果通过R 语言中的“Coxph”函数和“direction=both”函数进行多因素Cox 回归分析。根据风险评分进行分组后,该模型通过Log-rank检验和Kaplan-Meier 曲线对患者生存预后进行评估,得到中位数。使用“survivalROC”软件包评估miRNA 模型的预测能力,获得3 年依赖的ROC 曲线,并计算曲线下面积(AUC)。

1.2.3 独立预后潜力评估 使用单因素Cox 回归分析确定miRNA 表达数据与HCC 患者总生存时间,以及其他临床信息(年龄、性别、分级、临床分期、肿瘤浸润、淋巴结和远处转移)之间的相关性。满足P<0.05 的变量进一步使用多因素Cox 回归进行分析,证明其为具有独立作为预后因素的潜力。

1.2.4 三种miRNA 的靶基因及潜在活性预测 从miRDB、TargetScan 和miRTarBase 三个数据库中下载miRNA 的相关基因。使用Perl 语言进行搜索,按照满足至少存在于两个数据库中的标准,筛选出目标基因,并绘制韦恩图,利用Cytoscape3.7.2 确认miRNA 与其靶基因的相关性。对靶基因取交集,用差异表达mRNA 进行处理,验证这些靶基因在HCC中的作用。使用R 语言的“org.Hs.eg.db”和“cluster-Profiler”软件包对所有基因进行GO 和KEGG 富集分析,调整后的P<0.05,Q<0.05。

1.2.5 中枢基因、与生存相关基因筛选 在String 数据库中,将中等置信度设置为0.400,构建PPI 网络。使用Cytoscape3.7.2 的CytoHubb 插件计算基因的度值,筛选前10 个中枢基因。同时,采用Kaplan-Meier方法,以P<0.05 为标准,筛选出与生存相关的基因。

2 结果

2.1 miRNA 和mRNA 差异表达的检测 根据以上标准,共鉴定出300 个差异表达miRNA,包括下调40个和上调260 个;6219 个差异表达mRNA,包括上调4870 个和下调1349 个。

2.2 三种miRNA 预后模型的构建 将原始组的miRNA(N=371)结合总生存时间随机分为训练组(184)和测试组(187)。训练组采用单因素Cox 回归(P<0.05)得到12 个miRNA,见表1;对其进行多因素Cox 回归分析,并构建模型。Kaplan-Meier 方法表明hsa-miR-139-5p、hsa-miR-9-5p、hsa-miR-3682-3p 是与患者总生存时间最显著的3 个miRNA(P<0.05),见图1;多因素Cox 回归系数如下:miRNA 特征性风险评分=(-0.3325×hsa-miR-139-5p 表 达)+(0.2717×hsa-miR-3682-3p 表 达)+(0.0929×hsa-miR-9-5p 表达)。

图1 Kaplan-Meier 曲线和Log-rank 检验筛选出的与HCC 患者总生存期相关的miRNA

表1 单因素和多因素回归分析的差异表达miRNA

2.3 三种miRNA 模型在三组中的总体生存预测分组 采用中位数风险评分,Kaplan-Meier 曲线显示,在比较低风险组和高风险组时,三组的P值分别为P=1.274e-06、P=7.728e-04 和P=8.834e-09,见图2A~图2C);此外,训练组的高风险组和低风险组的5 年总生存率分别为33.5%和68.6%;测试组为28.1%和57%;原始组为31.6%和62.7%。

2.4 对三组中的三种miRNA 模型的评估 ROC 曲线结果显示,三组的AUC 分别为0.789、0.730、0.763,见图2D~图2F,说明了该模型预测HCC 患者生存机会的能力。在比较这三组的两个得分时,发现高风险得分比低风险得分的死亡率高。

图2 三种miRNA 预后模型的验证和评估

2.5 考虑其他临床因素时,三种miRNA 模型的独立性 单因素Cox 回归分析表示,三种miRNA 模型与患者总生存时间明显相关;而进一步的多因素Cox回归分析证明了当考虑其他临床信息时,三种miRNA 模型可以独立于总生存时间,其中包括T 分期、临床分期以及远处转移的存在,见表2。

表2 临床特征的单因素和多因素回归分析

2.6 预测这3 种miRNA 的靶基因 结果显示,hsamiR-139-5p、hsa-miR-9-5p、hsa-miR-3682-3p 分别可以检测到642、1314 和397 个重叠基因。其中,筛选出174 个基因作为三种已鉴定的miRNA 的遗传靶点。为了验证这些miRNA 靶基因是否参与了HCC 的进展,对上调miRNA(hsa-miR-9-5p、hsamiR-3682-3p)与下调的靶mRNA,以及下调miRNA(hsa-miR-139-5p)和上调靶mRNA 取交集,并进行结果分析,最终得到了174 个基因,其中包括88 个上调基因和96 个下调基因。

2.7 HCC 相关靶基因的GO 和KEGG 富集分析 通过对与HCC 相关的靶基因的GO 注释,获得了415个结果。在这3 类研究中,BP 分析主要包括对神经元投射发育、轴突发生和中枢神经系统神经元分化的调控。CC 分析主要包括突触膜、突触后特化和突触后膜。MF 分析主要包括磷酸酯水解酶活性、DNA-结合转录激活因子活性、RNA 聚合酶Ⅱ-特异性和酰胺结合。从HCC 相关遗传靶点的KEGG 通路中获得了6 个结果,其中超过5 个基因主要富集在细胞因子-细胞因子受体相互作用的信号通路中。

2.8 来自PPI 网络的中枢基因和与生存相关的基因目标 从174 个遗传靶点中筛选出100 个,构成遗传靶点的蛋白-蛋白相互作用网络复合体,包括114 条边和299 个节点。共筛选10 个中枢基因(ALPL、CXCL12、OIP5、TOP2A、AR、KPNA2、SLC7A2、DBT、HMGB2、MAD2L1);其中174 个基因中有30 个基因(CDC37L、C6、C21orf91、BEND4、CEPB3、DBT、MPDZ、HS3ST3B1、GHR、ENPEP、IL33、GPR65、NSUN6、PCDHGC5、STARD5、PDK4、OGDHL、ST8SIA6、RBMS3、RNASE4、ANXA10、ACADSB、ALPL、ANGPTL1、PDE7B、ANO1、SLC7A2、NDRG2、SELP、WNT1)与生存预后正相关,17 个基因(GPSM2、EME1、COL11A1、HOXD10、LRP12、MAD2L1、KPNA2、CHST4、HMGB2、LAPTM4B、PLCB1、RAD54B、OIP5、TOP2A、TMC7、KLHL23、MEX3A)与生存预后负相关。

3 讨论

肝细胞癌是一种高度恶性的肿瘤,极易发生肺(38.4%)、骨(32.6%)和淋巴结(24.6%)的转移[7],5年生存率仅18%,甚至约20%的患者在6 个月后复发[8]。因此,临床迫切需要寻找具有高敏感性和特异性的生物标志物。研究显示[9],miRNA 可能成为肿瘤生存预后的敏感生物标志物。miR-9-5p 可以通过调控GOT1 的表达来阻碍胰腺癌侵袭、增殖、谷氨酰胺代谢和氧化还原稳态;miR-3682-3p 通过靶向肝癌中的肿瘤抑制基因GAS8,促进HCC 的侵袭和迁移[10];而miR-139-5p 可以通过下调SLITRK4 的表达来影响HCC 细胞的侵袭和增殖能力[11]。这三种miRNA 都参与了各种肿瘤的发展调控过程,可以作为一种新的敏感生物标志物,且多种miRNA 信号比单一的miRNA 表现出更大的优势。本研究通过单因素和多因素Cox 回归分析构建了hsa-miR-3682-3p、hsa-miR-9-5p 和hsa-miR-139-5p 三种miRNA特征模型,与已有的研究不同,通过miRNA 分组来验证模型的可行性。

慢性炎症可以促进癌细胞免疫逃逸,而各种肿瘤细胞分泌的细胞因子与免疫细胞具有协同作用,可以促进肿瘤活性[12]。Han KQ 等[13]发现CXCL1RNAi可抑制肿瘤细胞的凋亡和生长,提示CXCL1 可能是治疗HCC 的靶点。而生长激素可以上调小鼠肝脏中GAL1 的表达[14],并且影响肿瘤血管的生成[15]。Boguszewski CL 等[16]的实验也证明了在一些动物模型和与耐药或生长激素缺乏相关的遗传缺陷患者中,生长激素对肿瘤发生具有一定的保护作用。为了深入研究HCC 中三种miRNA 信号的调控机制,本研究利用3 个数据库对模型中三种miRNA 的靶基因进行了评估。结果显示,靶基因的信号通路结果主要富集于细胞因子-细胞因子受体的相互作用途径以及生长激素的合成、分泌和作用途径中。

为了建立调控连接HCC 的三种miRNA 模型的关键节点,本研究共筛选出10 个中枢基因以及47个与生存预后相关的基因;其中DBT、SLC7A2、ALPL、TOP2A、MAD2L1、OIP5、KPNA2 不 仅 是PPI网络中的中枢基因,而且与患者的生存状态相关。除DBT 基因缺乏相关研究外,SLC7A2 可能成为是乳腺癌的一个新的预后标志物,与强大的生存优势密切相关[17];ALPL 的高表达与前列腺癌生存率较差相关[18];KPNA2[11]和OIP5[19]参与HCC 的进展及其作用机制;TOP2A 可以影响肺腺癌细胞[20];MAD2L1 在淋巴结转移的肺鳞癌患者表达较高,参与细胞周期的调节,可以作为非小细胞肺癌发展的预后生物标志物[21],这6 个基因均可以作为肿瘤的预后标志物。提示这7 个基因可能成为HCC 新的治疗靶点,为肝癌的治疗提供一种新的思路。

综上所述,本研究构建了能够预测HCC 预后的miRNA 模型,分组验证了该模型的预测能力,并且验证了该模型可以作为HCC 中独立预后因素。最后,通过预测miRNA 的遗传靶点进一步了解HCC的发生和进展。

猜你喜欢
靶点标志物因素
维生素D受体或是糖尿病治疗的新靶点
肿瘤免疫治疗发现新潜在靶点
解石三大因素
脓毒症早期诊断标志物的回顾及研究进展
短道速滑运动员非智力因素的培养
心力衰竭的分子重构机制及其潜在的治疗靶点
冠状动脉疾病的生物学标志物
肿瘤标志物在消化系统肿瘤早期诊断中的应用
MR-proANP:一种新型心力衰竭诊断标志物
氯胺酮依赖脑内作用靶点的可视化研究