数据挖掘在胰腺癌中的应用

2023-06-22 07:16夏文韬王筠严鑫平

现代信息科技 2023年5期

夏文韬王筠严鑫平

摘要：胰腺癌（PAAD）是一种发生在胰腺的恶性肿瘤，起病隐匿，早期诊断困难，进展迅速，生存时间短，是预后最差的恶性肿瘤之一，被称为“癌中之王”。胰腺癌的致病因素目前还尚不清楚，但生物标志物的发现为胰腺癌的预后诊断指明了一个方向。文章采用了数据挖掘的方法对多个胰腺癌的RNA基因表达数据进行分析，挖掘出可能用于胰腺癌诊断的生物标志物。最后经生存分析验证，发现NDC80，CDC20，CCNB1，KIF11这四个标志物可能对胰腺癌的治疗起到减轻疼痛和降低病情恶化程度的作用。

关键词：胰腺癌；生物标志物；基因表达；limma；Kaplan-Meier；数据挖掘

中图分类号：TP391 文献标识码：A 文章编号：2096-4706（2023）05-0120-04

Application of Data Mining in Pancreatic Adenocarcinoma

XIA Wentao， WANG Yun， YAN Xinping

（School of Information Engineering， Jingdezhen Ceramic University， Jingdezhen 333403， China）

Abstract： Pancreatic Adenocarcinoma （PAAD） is a malignant tumor that occurs in the pancreas with insidious onset， difficult early diagnosis， rapid progression and short survival time. It is one of the malignant tumors with the worst prognosis. Pancreatic Adenocarcinoma is known as the “king of cancers”. The pathogenic factors of Pancreatic Adenocarcinoma are currently unclear， but the discovery of biomarkers points to another direction for the prognosis and diagnosis of Pancreatic Adenocarcinoma. In this paper， the method of data mining is used to analyze the RNA gene expression data of multiple patients with Pancreatic Adenocarcinoma， and the biomarkers that may be used for the diagnosis of Pancreatic Adenocarcinoma are mined. Finally， after verification by survival analysis， it is found that the four biomarkers of NDC80， CDC20， CCNB1 and KIF11 may play a role in reducing pain and the degree of disease deterioration in the treatment of Pancreatic Adenocarcinoma.

Keywords： Pancreatic Adenocarcinoma; biomarker; gene expression; limma; Kaplan-Meier; data mining

0 引言

胰腺癌（PAAD）是威脅人类健康和生命的恶性肿瘤之一，且五年的总体生存率不到1%，是一个预后非常差的恶性肿瘤。目前，胰腺癌患者最常用的治疗方法是放疗和化疗[1]。近年来，随着生物信息学技术的快速发展，可以方便地收集到各种癌症的高通量组学数据，为癌症的诊断提供了新的方向。通过组学数据了解癌症分子在多个水平上的改变，从而找出具有重要意义的生物标志物。目前，人类也发现了许多与癌症发生、发展的相关标志物，但是关于胰腺癌相关的生物标志物还很少见。本文基于基因表达数据，利用数据挖掘的方法找出可能用于胰腺癌诊断的标志物。

1 数据和方法

1.1 道德规范和知情同意书

由于没有招募患者和收集个人信息，因此不需要伦理批准和患者同意，研究中包含的数据均来自公共数据库（GEO）。

1.2 数据收集

基因表达数据可以按照以下步骤获得。（1）进入GEO数据库主页https：//www.ncbi.nlm.nih.gov/geo/，输入关键词“胰腺癌”并点击搜索。（2）在“研究类型”选项中选择“Expression profiling by array”，在“Top Organisms”中选择“Homo sapiens”。为了扩大样本量，我们选择了两个胰腺癌的数据，根据上述标准，我们获取了基因表达数据GSE16515和GSE91035，剔除异常值后，GSE16515包含了16个正常样本和36个肿瘤样本，GSE91035包含了23个正常样本和25个肿瘤样本，表1显示了数据集的详细信息。

1.3 热图分析和差异基因的鉴定

热图是一个以颜色变化来显示数据的矩阵，可以简单地聚合大量数据，并使用一种渐进的色带直观地展现空间数据的相对大小。生物学中热图经常用于展示多个基因在不同样本中的表达水平。然后可以通过聚类等方式查看不同组（如疾病组和正常组组）特有的形式。热图分析是以各样本中基因的表达量绘制热图，在图中每列表示一个样本，每行表示一个基因，图中的颜色的深浅表示基因在该样本中的表达量[2]。本文将使用R语言中的‘pheatmap包对基因表达数据进行热图分析。

Limma是一种基于广义线性模型的差异表达筛选方法，首先对每个基因的表达拟合一个线性模型，然后用经验贝叶斯（Empirical Bayes）或其他方法进行残差分析获得合适的t统计量，并针对小样本实验的方差估计进行优化，使得分析的结果更加可靠[3]。本文使用R语言中的‘limma包进行差异分析，以获得肿瘤样本与正常样本间的差异基因。对于要识别差异基因的RNA基因表达数据，阈值应满足|logFC|>1.5，p-value<0.05。不同样本中的基因存在差异表达，该基因可能与胰腺癌的发生、发展有潜在的关系，所以我们有理由相信差异基因之间的重叠与胰腺癌的治疗有潜在的关系，本文采用两个基因表达数据差异基因之间的交集[4，5]。

1.4 PPI网络分析和关键基因的筛选

在转录调控相关的文献中，我们经常能够看到蛋白质相互作用网络（protein proteininteraction network， PPI network）用于挖掘核心的调控基因。具体而言，就是蛋白通过彼此之间的相互作用构成一个网络，来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。随后，通过STRING数据库（https：//string-db.org/）检索了编码蛋白间可能的潜在相互作用，并构建了蛋白质相互作用网络并表示出来[6]，目的是描述这些基因或蛋白之间存在怎样的相互关系，例如物理接触、靶向调节等，最终阐述生物体中有意义的分子调节网络，有助于从系统的角度研究疾病分子机制、发现新药靶點等。

根据上述的标准，我们将识别出的重叠的差异基因导入字符串数据库（https：//string-db.org/），获得重叠的DEGs产物之间的相互作用，并利用Cytoscape软件构建和可视化一个PPI网络[7]，最后利用插件cytoHubba从PPI网络中筛选出关键的生物标志物。

1.5 生存分析验证

Kaplan-Meier法简称K-M法，又称乘积极限法（Product-

limit Estimate），由英国科学家Kaplan和Meier于1958年提出，利用概率乘法原理计算存活率，该法为非参数方法，不需要对被估计资料分布进行任何假设，主要用于未分组小样本资料估计生存率，也可用于大样本资料[8]。

通过对数秩检验（log-rank test）的Kaplan-Meier生存分析用于验证筛选出的关键基因，P＜0.05的值被认为具有统计学意义。

2 实证分析

2.1 热图分析和差异分析筛选

为了验证数据的合理性，我们进行了皮尔逊热图分析，显示了样本之间的相关性，以判断数据是否可行。皮尔逊相关系数用于表示样本之间的相关性，相关系数的值介于-1～1之间。当该值接近0时，相关性较低，而该值接近-1或1时，相关性较高。如图1所示，是GSE16515和GSE91035基因表达数据中样本的皮尔逊相关分析图。图中样本之间的相关系数不相等，但这并不意味着样本之间存在因果关系，相关系数为1或-1的样本很少，这表明样本之间的重复性很低。从皮尔逊热图分析的结果可以看出，数据的选择是有一定意义的。

火山图可以帮助我们更加直观地识别变化较大且具有统计意义的基因[9]。如图2（a）、（b）所示，根据基因表达数据绘制的火山图。图中的每个点代表一个检测到的基因，红色点代表上调基因，绿色点代表下调基因，黑色点代表无显著差异的基因。在图2（a）、（b）中，两条黑色垂直线的外侧是具有|logFC|＞1.5的基因，黑色水平线的上侧是p值小于0.05的基因。从垂直轴看，离水平轴越远，p值越小，基因差异越显著。经过差异分析，GSE16515基因表达数据包括2 352个上调基因和935个下调基因，GSE91035基因表达数据包括2 156个上调基因和1 413个下调基因，这些识别出来的上调基因和下调基因，就是我们所需要的差异基因。

最后，将GSE16515和GSE91035筛选出来的差异基因通过绘制维恩图[10]将两个数据的差异基因取交集后（如图3所示），共筛选出1 459个重叠基因为差异基因。

2.2 建立PPI网络并识别关键基因

通过在线网站https：//string-db.org/和Cytoscape软件建立PPI网络（如图4所示），进一步探索DEGs之间的相互作用。本文仅对节点数大于等于8的单个网络进行进一步分析（少于8个节点的网络被排除在外），并计算网络各节点的连通度。然后使用插件cytoHubba从PPI网络中筛选出前8个关键基因MAD2L1，NDC80，CDC20，CCNA2，BUB1，CENPE，KIF11，CCNB1（如图5所示）。

2.3 生存分析验证

为了探索单个差异基因的潜在预后价值，本文对PPI网络筛选出的前8个关键基因进行了生存分析[11]。在这8个关键基因中，共有4个基因与较差的生存显著相关（如图6所示），从而说明这四个基因（NDC80，CDC20，CCNB1，KIF11）对胰腺癌的治疗有潜在的价值（p＜0.05）。

3 结论

GEO数据库的数据挖掘已经广泛应用于癌症的预后预测，因此，在这项研究中我们基于GEO数据库中的多个基因表达数据挖掘出可能影响胰腺癌治疗的相关基因。

根据基因表达数据，我们利用R语言中的‘limma包分析了GSE16515和GSE91035之间的差异基因，并筛选了两者差异基因的重叠基因。最后将得到的重叠基因导入字符串数据库（https：//string-db.org/），经过Cytoscape可视化分析发现8个潜在的生物标志物（MAD2L1，NDC80，CDC20，CCNA2，BUB1，CENPE，KIF11，CCNB1）可能对胰腺癌的治疗有帮助，最后通过Kaplan-Meier生存分析验证，得出4个基因（NDC80，CDC20，CCNB1，KIF11）可以被认为是胰腺癌治疗的生物标志物。

该研究的优点是使用了多个基因表达数据并利用数据挖掘方法来找出潜在的生物标志物。虽然已经做了仔细的生物信息学分析，但仍有一些局限性。在未来，可以继续探索其他方法在其他组学数据中的应用，并且我们也将继续改进本研究的方法。不足之处是，后续还需要在本文研究的基础上，增添一定的临床试验予以验证。

参考文献：

[1] 刘宗超，李哲軒，张阳，等.2020全球癌症统计报告解读 [J].肿瘤综合治疗电子杂志，2021，7（2）：1-14.

[2] YU C，LIN Chang，LIN Y，et al. Clustering heatmap for visualizing and exploring complex and high-dimensional data related to chronic kidney disease [J].J Clin Med，2020，9（2）：403.

[3] LIU S，WANG Z，ZHU R，et al. Three differential expression analysis methods for rna sequencing：limma，edger，deseq2 [J/OL].J Vis Exp，2021（175）：（2022-09-12）.https：//pubmed.ncbi.nlm.nih.gov/34605806/.

[4] QIU W，QI B，LIN W，et al. Predicting the lung adenocarcinoma and its biomarkers by integrating gene expression and dna methylation data [J/OL].Front Genet，2022，13：926927（2022-09-12）.https：//pubmed.ncbi.nlm.nih.gov/35846148/.

[5] 陈玉升，郭杨，申汉威，等.胶质瘤差异表达基因筛选、功能富集和相关信号通路生物信息学分析 [J].中华医学杂志，2019，99（29）：2311-2314.

[6] ZOU X，AN K，WU Y，et al. PPI network analyses of human WD40 protein family systematically reveal their tendency to assemble complexes and facilitate the complex predictions [J].BMC Syst Biol，2018，12（Suppl 4）：41.

[7] DONCHEVA N T，MORRIS J H，GORODKIN J，et al. Cytoscape stringapp：network analysis and visualization of proteomics data [J].J Proteome Res，2019，18（2）：623-632.

[8] SCHOBER P，VETTER T R. Kaplan-meier curves，log-rank tests，and cox regression for time-to-event data [J].Anesthesia & Analgesia，2021，132（4）：969-970.

[9] 陈亮.基于多种生物数据的miRNA簇进化与miRNA肿瘤标志物研究 [D].长春：吉林大学，2016.

[10] 鲍宗博，高莹，刘建伟.从Venn图看信息论中各信息量之间的关系 [J].高等数学研究，2020，23（1）：69-72+75.

[11] 郑建清，黄碧芬.基于Kaplan-Meier plotter数据库分析CD（44）基因表达状态对卵巢癌生存结局的影响 [J].吉林医学，2022，43（1）：5-7.

作者简介：夏文韬（1996—），男，汉族，江苏宜兴人，硕士研究生在读，主要研究方向：数据挖掘和生物大数据处理；通讯作者：王筠（1992—），女，汉族，江西景德镇人，助教，主要研究方向：统计学理论与应用研究。

收稿日期：2022-11-02