卵巢癌相关特征基因探索及人工神经网络诊断模型构建*

2023-09-07 08:35:34李志标刘潇涵曾立帆吴秀君何丽敏李晨曦黄柳旋
现代妇产科进展 2023年8期
关键词:嘌呤卵巢癌通路

陈 颖,李志标,刘潇涵,曾立帆,王 茹,吴秀君,何丽敏,李晨曦,黄柳旋

(1.中山大学附属第八医院 a.妇科;b.泌尿外科,深圳 518033;2.广州医科大学第三临床学院,广州 511436;3.广州医科大学第二临床学院,广州 511436;4.广州医科大学儿科学院,广州 511436;5.广州医科大学第六临床学院,广州 511436)

卵巢癌是妇科常见肿瘤,死亡率居高不下[1]。早期缺少症状,且目前筛查的作用有限,早期诊断较困难[2-3]。因此,如何提高卵巢癌患者的早期诊断率是目前解决问题的关键所在。过去几十年中,计算机辅助诊断模型包括Cox风险回归模型和人工神经网络(artificial neural network,ANN),已广泛应用于癌症的预测中[4-5]。ANN使用归纳学习算法学习大量数据,使其预测误差最小化,并达到预期的预测精度[6]。因此,结合ANN模型进行卵巢癌患者的早期预测具有良好的应用前景。人类肿瘤相关的基因表达汇编(gene expression omnibus,GEO)是目前最大的公共组学数据库之一。近年来,国内外学者通过生物信息学的方法对这两个数据库的数据进行了多项研究[7-8]。生物信息学是目前自然科学的研究重点之一,它以计算机作为工具,从核酸和蛋白质序列进行研究,分析序列中蕴含的结构功能信息。本研究结合GEO数据库的基因数据集,筛选差异表达基因,并通过随机森林算法构建卵巢癌患者的ANN模型,为卵巢癌的发生机制与早期诊断提供研究依据。

1 材料与方法

1.1 数据下载与处理 从GEO数据库中(www.ncbi.nlm.nih.gov/geo)中下载人类卵巢癌患者的基因表达数据,经数据初步筛选并剔除数据缺失样本,共得到GSE18520、GSE27651、GSE54388、GSE40595、GSE66957共5个数据集,将GSE18520、GSE27651和GSE54388数据集共22个正常样本和112个卵巢癌样本合并作为建模数据集。将GSE40595和GSE66957数据集共18个正常样本和89个卵巢癌样本作为验证数据集。运用R语言中的“sva包”对合并数据集进行去批次化处理。

1.2 差异表达基因的分析 利用R语言的“limma”包进行差异表达基因(differentially expressed genes,DEGs)的筛选[9],以|logFC|≥1、P<0.05作为DEGs的鉴别标准。用“pheatmap”包将|logFC|前15的基因做可视化处理。

1.3 GO功能与KEGG通路富集分析 利用R语言的的“clusterProfiler包”[10-12]对DEGs进行GO功能富集和KEGG通路富集分析,利用“ggplot2”包对结果进行可视化,以P<0.05为阈值筛查DEGs的主要富集功能和通路。

1.4 蛋白互作网络分析 在STRING网站(https://cn.string-db.org/)中导入DEGs并进行蛋白质互作网络(protein-protein interaction,PPI)分析,以揭示相互作用蛋白质之间的潜在关系。利用cytoscape软件对PPI网络进行可视化操作,并利用软件中的“cytohubba”插件计算PPI网络中各蛋白的重要程度。

1.5 特征基因的筛选 随机森林算法由“randomForest”R包执行。运用“randomForest”函数进行DEGs的筛选,计算差异基因的重要性评分,评分>1.5的基因被视为是疾病特征基因,使用R语言中的“heatmap”包对提取的特征基因绘制热图。

1.6 ANN的构建与验证 根据特征基因的基因表达水平,对样本中的特征基因进行基因评分,若基因的表达水平高于基因表达中值,基因得分记为1,否则记为0,最后输出所有基因得分的结果。将基因评分结果导入ANN算法中,运用“neuralnet”和“neuralnetECTools”包构建ANN模型,输出ANN模型在建模组和验证组中的预测结果。运用“pROC”包对建模组构建的ANN分组结果进行ROC曲线验证,评估ROC曲线的曲线下面积(area under curve,AUC),通过AUC评估该模型在卵巢癌患者中预测性能。

2 结 果

2.1 卵巢癌差异表达基因的筛选 利用R语言的“sva”包进行去批次化处理并合并GEO数据集GSE18520、GSE27651和GSE54388作为建模组,通过差异表达基因分析,共得到75个DEGs,其中上调基因22个,下调基因53个。前15个显著DEGs利用R软件的“pheatmap”包绘制热图(图1A),并利用火山图将DEGs进行可视化(图1B)。

图1 DEGs的基因表达热图和火山图

2.2 差异表达基因的通路和功能富集 为了进一步了解差异基因相关的功能和代谢途径,运用R语言“clusterProfiler”包对75个DEGs进行GO功能和KEGG通路富集分析。GO功能富集分析在生物过程(biological process,BP)、细胞成分(cell constitudent,CC)和分子功能(molecular function,MF)3个层面各展示了前5的富集GO功能(图2A),结果显示,在BP中,DEGs主要与嘌呤核糖核苷酸的分解代谢过程等相关;在CC中,主要与基于肌动蛋白的细胞投射等功能相关;在MF方面,DEGs在磷酸酯水解酶功能显著富集。此外,KEGG通路富集分析表明DEGs主要参与嘌呤代谢等代谢相关通路(图2B)。

图2 GO功能与KEGG通路富集分析

2.3 PPI网络构建 将DEGs上传至STRING网站分析并构建PPI网络,剔除网络中没有互作调节作用的蛋白节点,并利用cytoscape软件进行PPI网络的可视化处理,得到由18个具有相互调节作用的蛋白的PPI网络图,其中包括14种下调的蛋白质(绿色显示)和4种上调的蛋白质(红色显示),节点连线越多,则表明蛋白质的相互作用越强(图3A)。运用cytohubba插件计算PPI网络中各节点的Degree得分,筛选出前10的Degree蛋白(NT5E、LYZ、CDC25A、FCER1G、RBL1、CDKN3、CLEC12A、CD79A、PDE8B、TLR4)(图3B)。

图3 蛋白质互相作用网络

2.4 随机森林的建立及特征基因的评分 运用“randomForest”的算法筛选特征基因,交叉验证将错误减少到最小(图4A),计算DEGs的基因重要性评分,对评分>0的基因可视化处理(图4B),而评分>1.5的基因被视为是特征基因,最终共筛选出9个特征基因(PDE8B、HELQ、BNC1、SVEP1、CLDN15、YPEL2、NEK4、CFI、SH3YL1),并以热图的形式展现(图4C)。其中BNC1、PDE8B、CLDN15、CFI、YPEL2、SVEP1、HELQ为下调基因,SH3YL1、NEK4为上调基因。

图4 随机森林分析和特征基因筛选

2.5 ANN模型的构建与验证 基于9个特征基因的基因评分构建ANN模型,该模型由输入层的9个神经元、隐藏层的5个神经元和输出层的2个神经元组成(图5)。构建的ANN模型对建模组和验证组的样本输出预测诊断结果,以此验证模型的准确性。结果显示,模型在建模组中识别正常和肿瘤样本的准确率分别为0.955和0.991,而在验证组分别为0.333和0.989(表1)。ROC曲线用于进一步验证ANN模型的可行性。建模组的AUC为0.995(图6A),验证组的AUC为0.811(图6B),这表明建模组和验证组的卵巢癌ANN模型具有较高的可靠性。

表1 ANN模型在正常和肿瘤患者中的预测准确性分析

图5 人工神经网络模型构建

图6 ROC曲线验证

3 讨 论

卵巢癌患者早期没有明显的临床症状,高达70%的患者确诊时已进入晚期,其5年生存率仅有57%。卵巢癌的生存期与诊断阶段密切相关[13],如何提高早期诊断率从而增加患者生存期是临床研究的重要内容。一项2015年的调查显示[14],我国卵巢癌患者新增超过5万例,死亡人数接近3.2万例,且逐年上升。因此,筛选和发现卵巢癌的特异性生物标志物对其早期诊断和预后预测具有重要意义。随着卵巢癌的治疗已逐渐进入个性化医学阶段,能否确定癌症易感基因中存在遗传突变越来越重要。目前研究中检测最多的是关于BRCA1和BRCA2基因的种系突变,这些基因突变是遗传性上皮性卵巢癌的主要原因[15]。近年来,随着基因靶向治疗和肿瘤免疫治疗的快速发展,作用于肿瘤的治疗更精确,从而避免了化疗、放疗等产生的副作用和耐受性。同时肿瘤早期筛查和快速诊断也随着更多生物标志物的发现而快速发展[16],因此结合靶向基因建立卵巢癌早期预测模型具有良好的临床应用前景。

本研究基于对GEO数据库中的基因表达数据集的挖掘,结合生物信息学分析,筛选出75个DEGs,并对DEGs进行GO功能富集和KEGG通路富集分析以探究它们的潜在机制。DEGs的富集分析结果表明,嘌呤代谢与卵巢癌的发生发展机制有密切联系。相关研究表明[17-18],嘌呤代谢通路在癌症发生发展中起着重要作用。嘌呤是细胞增殖的重要原料之一,在正常细胞中,嘌呤的补救合成和从头合成途径受到多种酶的严格调控,其总量处于动态平衡,而肿瘤细胞大量增殖会增加其对多种物质的需求并上调代谢水平,因此嘌呤的合成代谢也会出现显著提升。目前嘌呤抗代谢物等抑制嘌呤代谢的药物已广泛应用于临床化疗中,这些药物能作用于嘌呤合成的途径中,竞争性抑制嘌呤核苷酸的合成,从而抑制肿瘤细胞的增殖。现阶段许多研究发现[19],嘌呤代谢酶参与了肿瘤的免疫调节、细胞周期调控、DNA修复等通路,其中具体相互作用途径还有待更深入的研究。本研究也发现了一致的结果,DEGs显著富集在嘌呤代谢通路、嘌呤核苷酸分解代谢过程等多个生物过程。这表明卵巢癌组织中嘌呤代谢与正常细胞存在显著差异,但嘌呤代谢相关通路的异常在多种肿瘤中均有发现,这是肿瘤细胞自身特性所带来的,因此这些差异是否对卵巢癌具有特异性还待进一步研究,同时进一步分析其嘌呤代谢的特征模式可能有助于从嘌呤代谢的生物学角度对卵巢癌加以鉴别区分。中性粒细胞是人类循环系统中最丰富的白细胞,其最独特的生物学行为是以“中性粒细胞胞外陷阱”的形式进行细胞死亡,于中性粒细胞胞体内释放出一系列的染色质和颗粒蛋白。成熟中性粒细胞中含有3种不同的颗粒,即初级、二级和三级颗粒,这些颗粒中包含杀菌和组织破坏因子以及各种中性粒细胞受体。肿瘤中通常含有大量的肿瘤相关中性粒细胞,分为抗肿瘤(N1)和促肿瘤(N2)表型[20],由此可见中性粒细胞参与介导了肿瘤的发生和发展,而这也与本研究结果一致。

同时,研究对DEGs进行了PPI网络分析,结果提示TLR4、NT5E、CDC25A、FCER1G、LYZ、PDE8B、CD79A、CLEC12A、CDKN3及RBL1可能在卵巢癌的蛋白调控机制中发挥重要作用。利用随机森林分析法以进一步筛选差异基因,并将评分>1.5的基因视为特征基因,结果共筛选出9个特征基因,BNC1、PDE8B、CLDN15、CFI、YPEL2、SVEP1及HELQ为下调基因,SH3YL1和NEK4为上调基因。其中PDE8B、HELQ、BNC1这3个下调基因评分最高,与卵巢癌的出现有密切联系。

HELQ,又称POLQ Like,是一种超家族2 DNA解旋酶,主要参与DNA双链断裂的修复过程[21]。Adelman等[22]研究发现,HELQ的缺乏能提高小鼠卵巢肿瘤和垂体肿瘤的患病率,并影响生殖细胞的形成和卵巢的发育,表明HELQ可能成为癌症筛查的重要基因。相关研究表明HELQ在卵巢癌的治疗和预后预测方面也发挥了重要作用。Long等[23]研究发现,HELQ表达与卵巢癌患者的生存时间呈负相关,高表达的HELQ患者往往对顺铂等化疗表现出耐药性。Zhu等[24]进一步研究发现,HELQ在肿瘤细胞中的高表达通过HR或NER通路提高了其DNA损伤修复的能力,由此减少肿瘤细胞凋亡,产生对铂类化疗药物的耐受性。因此HELQ基因在卵巢癌的预后预测及药物靶点等研究中具有重要意义。本研究中,HELQ基因在卵巢癌组织中的表达显著下调,与上述研究中DNA修复能力下降导致的卵巢癌高患病率相一致。综合上述研究,HELQ在卵巢肿瘤中具有特征性的表达,因此进一步研究探讨具有十分重要的意义。BNC1是一种锌指蛋白,主要存在于角质形成细胞和生殖细胞中,通过调节细胞的转录过程,在生殖细胞的生长发育过程中发挥重要作用[25]。Wang等[26]研究发现,BNC1在卵泡发育过程、卵母细胞的卵巢储备、维持脂质代谢和氧化还原稳态中发挥着关键作用,BNC1的缺乏会触发卵母细胞的铁死亡,并导致卵泡的过早激活和过度闭锁,进一步引发原发性卵巢功能不全。Liang等[27]研究发现,卵巢癌患者的BNC1蛋白和mRNA表达均显著下调,这一趋势可能表明BNC1基因对卵巢癌的发生具有促进作用,同时研究还发现BNC1是卵巢癌患者无进展生存期的一个保护因子,因此其可能成为卵巢癌诊断的重要生物标志物,BNC1有望成为卵巢癌预后预测的重点基因之一。本研究中,BNC1基因在卵巢癌组织中的表达显著下调,与以往研究结果相一致。BNC1作为一个保护因子,其对卵巢癌患者的保护作用也可能成为开发新型卵巢癌基因治疗方法的切入点,但具体分子生物学机制仍待进一步的研究验证。

将这9个基因的表达评分作为输入构建ANN模型,以预测样本是否来源于卵巢癌。ANN与当前常用的logistic回归模型和Cox风险评估模型相比,是一种更优越的疾病预测工具[28-30]。ANN模型能充分分析转录组数据,在多种恶性肿瘤的诊断中取得了初步成效,其中包括膀胱癌[31]、前列腺癌[32]和结直肠癌[33]等。研究表明,ANN模型在识别卵巢癌样本中准确率较高,在建模组和验证组都高达98%以上,但在预测正常样本中准确率相对不稳定,验证组中仅有33%,这提示建立的ANN模型假阳性可能较大,后续仍需进一步研究纠正。而ROC曲线结果中建模组和验证组的AUC均>0.8,ANN模型可靠性较高,这也为卵巢癌的临床诊断提供了一种可靠的诊断模型,为卵巢癌患者的争取更多早期诊断的机会,并延长卵巢癌患者的生存期。

本研究存在一些不足之处:(1)发现了许多其他与卵巢癌存在高度的相关性的差异基因,但目前对于此类基因已有的研究甚少,需进一步探究以发现它们在卵巢癌发生发展中的具体分子机制和生物学功能。(2)本研究仅基于GEO数据库的数据集进行分析,尽管设置了验证集来验证我们的模型,但较小的数据集仍可能导致预测的不稳定性,因此还需要更多的临床数据进一步确定模型的可行性。(3)假阳性率较高仍是现存的问题之一,下一步应继续着手于在保证准确率前提下尽可能降低假阳性率,以求ANN模型将来的现实应用能尽可能提高精准度,降低医疗资料的浪费。

综上所述,本研究基于对卵巢癌基因表达数据集的挖掘,结合生物信息学分析,筛选出卵巢癌的特征基因,并利用这些特征基因构建ANN模型用于确定卵巢癌的早期诊断,为卵巢癌发生机制的研究以及早期诊断提供理论依据和可靠的诊断模型。

猜你喜欢
嘌呤卵巢癌通路
卵巢癌:被遗忘的女性“沉默杀手”
痛风不是风湿 罪魁祸首在嘌呤
基层中医药(2018年8期)2018-11-10 05:32:00
别忽略素食中的嘌呤
益寿宝典(2018年17期)2018-01-26 15:44:57
Wnt3 a和TCF4在人卵巢癌中的表达及临床意义
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
microRNA与卵巢癌转移的研究进展
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
创业家(2015年1期)2015-02-27 07:52:02
啤酒酵母对嘌呤类化合物吸收特征的研究
Hippo/YAP和Wnt/β-catenin通路的对话
遗传(2014年2期)2014-02-28 20:58:11