机器学习在卵巢癌诊断与预后中应用的研究进展

2021-09-03 09:37:28王瀚苑赵之滢宫婷婷赵玉虹吴琪俊
肿瘤防治研究 2021年8期
关键词:卵巢癌分类器机器

王瀚苑,赵之滢,宫婷婷,赵玉虹,吴琪俊

0 引言

妇科恶性肿瘤之一的卵巢癌(ovarian cancer,OC)对女性健康存在严重威胁,在2019年全美女性癌症死亡病例中排名第五[1]。但因其早期临床症状不明显且无特异性,多数患者在晚期才被诊断。OC患者预后差,五年生存率仅为43%[2-3]。现阶段,OC临床治疗方案通常取决于癌症类型和进展阶段[4],所以早期诊断和判断肿瘤分型非常重要。影像学特征和癌胚抗原125(CA-125)水平是最常使用的两种方法,但在OC临床诊断时缺乏特异性[5]。研究人员期望通过分析多组学信息、综合各项临床指标、深度挖掘影像信息等手段,研究出准确、快捷、无创的方法,帮助临床医生诊断OC,为患者提供个性化治疗方案,从而改善患者预后。

机器学习(maohine learning,ML)是一门研究计算机从海量数据中学习的学科,是统计学与计算机学交叉融合的产物,按照学习方式可分为有监督学习和无监督学习。

近年来,研究人员着眼于将机器学习技术与基因组学、蛋白质组学、代谢组学、放射组学等相结合,期望为OC的临床诊断治疗提供新思路。本文将对机器学习在OC诊断和预后中的应用作一综述,见表1。

表1 机器学习在卵巢癌多个方面的应用Table 1 Application of machine learning in diagnosis,relapse and prognosis of ovarian cancer

1 机器学习简介

常见的机器学习方法有贝叶斯分类(naïve bayes)、随机森林(random forests,RF)、决策树(decision trees)、k均值聚类(clustering with k-means)、支持向量机(support vector machines,SVM)和神经网络(neural networks,NN)。SVM是最经典的监督学习算法之一,可在有限的训练样本中管理多维数据并进行多类别分类[6]。RF属于无监督学习,通过随机抽样和减小方差降低异常值对结果的影响。NN由神经元组成,利用获取的数据特性解决复杂任务,其中模糊神经网络(fuzzy neural network,FNN)能够自动生成直观的模糊规则,避免了传统统计学运算中的“黑匣子”问题;人工神经网络(artificial neuronal network,ANN)最大的优势是通过迭代提高模型性能;卷积神经网络(convolutional neural network,CNN)能够发掘出肉眼无法识别的图像细节,更适用于图像和语音的识别、分割工作。然而当神经网络过于复杂时需引入深度学习(deep learning,DL)改善性能,通过编码器网络进行信息转换和重建,利用较少的特征包含大量信息,以此来消除冗杂信息。

2 机器学习在OC诊断方面的应用

目前,机器学习在OC诊断研究中的运用文献仅两篇。2005年,Tan等[7]对OC的DNA微阵列基因表达数据集进行研究,结果显示FNN表现出训练速度快、规则生成简单、准确度高的特点,尤其能够生成模糊规则以支持其推理过程,因此可以潜在性地降低用药错误,减少从大数据中获取信息造成的时间损耗。2009年Amonkar等[8]采用RF来进行建模,用于区分研究对象患卵巢癌的可能,模型初步测试结果为敏感度91.3%,特异性88.5%。但因为测试集来源一致,研究仅针对上皮性卵巢癌患者,故该模型初步评估的结果可能过于乐观。

将机器学习应用于卵巢癌临床诊断的这两项研究时间较早,在训练过程中体现出算法的优越性能,但是由于研究对象数量少且较单一,不具有代表性,故无法进一步应用于临床,未来需要更多的试验验证。

3 机器学习在区分OC组织亚型方面的应用

目前,关于机器学习在区分OC组织学亚型分类中的研究有3篇,均在2016年以后。2016年BenTaieb等[9]运用SVM对组织进行分类,分类精度达到95.0%。研究结果提示分类器对OC亚型的自动分析可能为临床医生的诊断提供有价值的意见。同年,Park等[10]基于DNA微阵列技术,首次针对卵巢癌细胞构建多分类诊断模型,对3种SVM方法和3种非SVM方法进行测试,结果显示该模型对OC的分类诊断可能帮助医生减少因初次减瘤手术不成功导致的二次手术,减少了对冰冻切片诊断的依赖,还提高了浆液性交界性卵巢肿瘤整体诊断的准确性,但由于可使用标本量少、基因芯片与PCR分析相对表达量有差异、所有纳入病例均未进行冰冻切片分析等局限性,无法证实该模型可以在临床实践中使用。2019年Klein等[11]应用5种机器算法共同完成了对上皮性卵巢癌(epithelial ovarian cancer,EOC)组织的亚型区分,研究结果初步表明基质辅助激光解析/电离(matrix-assisted laser desorption/ionization,MALDI)成像数据结合机器学习可以作为EOC亚型组织学评估的一个补充诊断工具,但该研究使用的是单一的肿瘤组织微阵列,未来的研究需要在更大的队列基础上调查哪些技术变量可能对分类稳健性产生影响。

OC组织分型的本质是对已确诊的OC进行多类别分类,已有的三项研究主要采用了善于分类的SVM、NN及其衍生算法,各项研究结果均表现出良好的分类性能,但是对模型分类的稳健性、广泛性和准确性仍存在质疑,未来需要在大数据研究中进行验证。

4 机器学习在OC预后方面的应用

当前,机器学习在OC复发预测中的研究有6篇,集中于2018年和2019年。机器学习在OC预后方面的相关研究有3篇,分别发表于2015、2016和2018年。

4.1 机器学习在OC复发预测中的应用

在一项前瞻性研究中,Zhang等[12]利用35例EOC患者细胞减灭手术前后的标本进行代谢图谱

分析,创建SVM模型用于预测EOC复发。研究结果表明机器学习方法与代谢组学结合用于预测EOC复发前景良好,但需要大型队列来验证该结论。Zhou等[13]建立了一个由39个基因组成的SVM分类器预测OC的复发,分类器仅使用39个基因且预测精度高,与基因测序相比更经济有效,然而需要对未复发和复发的OC患者独立队列进一步开展研究,以验证该研究的结果。Shinagare等[14]采用SVM模型预测OC的腹部复发,结果表明CA125的变化可能有助于优化腹盆腔CT在OC患者中的应用,但需要在更大规模的研究中证实。Cheng等[15]通过识别出的16个子网节点基因构建了一个RF分类器,用于预测OC的复发情况,研究结果提示这些子网节点在预测OC预后中具有重要意义。但考虑到RF分类器的预测精度受样本量差异、平台差异和数据异质性的影响,模型的预测能力受到患者数量少和分析方法限制,且研究只进行了生物信息学分析,没有直接的实验验证,因此需要进一步的分析来验证结果。Dong等[16]筛选出最优miRNA集合(包含19个miRNA)构建SVM分类器,结果显示基于19个miRNA的SVM分类器可以准确地判断OC样本的复发类型,但由于可利用的重复信息样本量很小且缺乏验证实验,SVM分类器的准确性在OC患者中的临床应用价值有待进一步检验。Wang等[17]提取高级别浆液性卵巢癌(high-grade serous ovarian cancer,HGSOC)的预后生物标志物作为DL特征,然后结合DL特征和Cox比例风险(Cox proportional hazards,CPH)回归建立DL-CPH模型来预测患者的复发风险和3年复发概率,研究结果表明DL可以从CT影像中提取与HGSOC复发相关的新的预后生物标志物且预后价值高于临床特征,未来可以进一步结合患者的遗传图谱从基因水平解释DL特征,同时需要进一步探索DL-CPH模型与CPH模型的更优结合。

基于病理切片、血清学结果、miRNA、CT影像等信息的OC复发预测结果较理想,尤其是SVM和DL模型表现良好,但各项研究仍存在局限性,未来可以考虑从研究对象数量、预测信息种类、算法模型等方面进行改进和探索。

4.2 机器学习在构建OC预后模型中的应用

2015年Enshaei等[18]构建了一个人工智能(artificial intelligence,AI)模型,并与Logistic回归等传统统计方法进行比较。结果显示AI模型与传统统计模型相比预测存活率的准确度更高,更重要的是在未来随着数据集数量和相关性的提高,AI模型的性能会大大提升。Sun等[19]开发了一个SVM化疗耐药分类器来预测HGSOC患者的化疗反应,结果表明SVM分类器能更好地预测患者的化疗反应、无进展生存(progression-free survival,PFS)和总生存(overall survival,OS)情况。但没有在全基因组中分析,可能会存在某些相关分子生物标志物无法纳入模型,因此需要利用更多的前瞻性多中心样本来验证分类器预测结果,未来有可能帮助针对潜在的化疗耐药患者做出更好的临床决策来改善预后。2018年Bogani等[20]利用ANN评估不同因素对二次细胞减灭术的影响,最主要的影响因素有无病间隔、仅腹膜后复发、初次手术后残余病变和FIGO分期,影响总生存率的最重要因素是无病间隔。然而该研究采用的是单中心回顾性研究设计,故研究结果不能运用到整体卵巢癌患者中。

此外有研究显示机器学习被运用于卵巢癌预后影响因素的筛选,2016年Wang等[21]运用马尔可夫聚类和主成分分析识别出与卵巢癌预后有关的14个基因网络模块。2019年Lu等[22]利用机器学习,从4类放射性描述特征中推导出原发性卵巢肿瘤预后相关的非侵入性汇总统计量。

研究人员在构建OC预后模型时,不仅需要对患者生存情况进行预测和评估,更重要的是能够筛选出可能影响OC预后的因素,进一步帮助医生采取更好的临床决策,提升潜在化疗耐药患者的预后情况。在现有的研究基础上,未来需要结合多方面信息进行多中心研究,以期早日将模型应用于临床造福患者。

各类机器学习模型在OC诊断及预后研究中的表现明显优于传统统计模型,但同样存在许多局限性。第一,纳入样本量小,样本来源单一,限制了异质性人群的适用性;第二,OC分型较多,每种亚型的发病机制、分子变化、临床行为、化疗敏感度和预后均不同,针对某种单一亚型建立的模型预测能力受到限制,难以推广;第三,回顾性研究设计存在信息偏倚;第四,无法对未发表的影响因素进行分析;第五,不同机器学习模型均存在优缺点,仅利用单一模型存在无法规避的算法缺陷。

5 总结

总的来说,机器学习在OC临床诊断和预后方面的研究均表现出较强的预测能力,其前景良好,为临床治疗提供新的思路,但目前无法推广至临床,仍面临数据的可及性、模型鲁棒性和泛化性、结果的可解释性等挑战[23],未来需要大规模的前瞻性研究对各类模型的结果进行测试和验证。

猜你喜欢
卵巢癌分类器机器
机器狗
环球时报(2022-07-13)2022-07-13 17:18:39
机器狗
环球时报(2022-03-14)2022-03-14 18:19:44
卵巢癌:被遗忘的女性“沉默杀手”
未来机器城
电影(2018年8期)2018-09-21 08:00:06
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
Wnt3 a和TCF4在人卵巢癌中的表达及临床意义
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
microRNA与卵巢癌转移的研究进展
无敌机器蛛