机器学习在子宫内膜异位症诊断中的应用

2023-01-05 15:57罗忆张丹丹
国际生殖健康/计划生育杂志 2022年1期
关键词:诊断模型组学标志物

罗忆,张丹丹

子宫内膜异位症(endometriosis,EMs)是子宫内膜样组织存在于子宫以外部位,多见于卵巢、盆腔腹膜和韧带,可引起进行性痛经加重和不孕等症状,影响着5%~10%的育龄期妇女,在不孕妇女中患病率高达50%[1-2]。2018年《EMs长期管理中国专家共识》提议将EMs作为慢性病进行长期管理的诊治新理念[3],但由于缺乏有效的早期诊断方法及对不良妊娠结局的预测,常导致诊断及治疗延迟,故及时发现并干预疾病进展对优化三早原则、指导治疗和提高诊治效率有积极作用。传统统计学用于EMs数据分析已有诸多探索,但面对数据量不断增大、数据结构日益复杂的现今社会,传统统计学已显现出不足。机器学习可将繁复的数据转化为可量化的深层次特征性信息,极大地提高了数据分析的精确度和效率,将机器学习应用于医学数据处理已经有了较多的成功试验。因此,利用机器学习挖掘EMs相关数据、构建诊断及预测模型具有相当的可行性。本文主要是对机器学习在EMs诊断及预测中的应用进行梳理及评价,并对基于统计学的EMs诊断和相关预测模型与基于机器学习的EMs诊断和相关预测模型进行归纳和比较。

1 机器学习概述

机器学习是一种多学科交叉下产生的人工智能学科,其涵盖了概率论、统计学和逻辑学等多种学科知识。机器学习在多学科理论的支撑下,在计算机上构建了类似于人类的具有自我学习能力的算法[4]。目前的机器学习研究中,已经形成了多种较为成熟的算法工具,如贝叶斯、逻辑回归和神经网络等。由于不同的算法工具适合不同的应用场景,如递归神经网络擅长处理具有先后逻辑顺序特点的文本数据,卷积神经网络应用于处理图像识别[5],一些回归、聚类算法适用于数据拟合和分类问题。因此,应用不同方法进行EMs诊断及预测得到的效果不同也是正常现象,选择合适的机器学习算法应用于EMs诊断及预测十分重要。

2 机器学习与传统统计学的比较

针对机器学习算法和传统统计学方法对诊断和预测的性能优劣问题,目前说法各异。统计学方法已经比较成熟,依靠其简便灵活的特点,先筛选出相关指标,然后构建多元逻辑回归或线性回归模型等用于EMs的辅助诊断。然而,机器学习作为新兴的集合了统计学及其他学科优势的科学方法,其应对大数据、非线性、复杂问题的归纳和分析能力也已有所证实。所以,应用场景对于机器学习与传统统计学尤其关键。

在输入信息体量较大、来源不同、高度复杂的情况下,大数据处理能力和数据关系的高维解析能力对于诊断模型十分重要。但目前机器学习模型用于EMs的辅助诊断尚处于研究阶段,尤其这两种数据分析模式分析出来的诊断模型或诊断指标对疾病的诊断价值的对比研究较少,这是由于机器学习还处于研究中,很少用于临床,所以尚少评价,这是今后的研究方向。因此,本文通过参考其他相似妇科疾病中的应用,分析两种模型应用效果对比。有研究在卵巢癌术前诊断和预后预测方面,基于血清标志物对梯度增强机(GBM)、支持向量机(SVM)、随机森林(RF)、条件随机森林(CRF)、朴素贝叶斯(NB)、神经网络和弹性网络(EN)7种机器学习模型与传统的多元逻辑回归分析(multiple logistic regression analysis)统计学模型进行比较,发现多元逻辑回归分析模型的预测准确度为86.7%,受试者工作特征曲线下面积(AUC)为0.897,各机器学习模型的准确度和AUC均高于该值,其中GBM、RF和CRF(预测准确度分别为93.7%、92.4%和93.7%;AUC分别为0.976、0.968和0.978)表现最好,表明机器学习建模在卵巢癌相关预测方面的表现优于传统统计学[6]。可见,在变量之间具有高度复杂性的大数据应用场景中,传统统计学在数据处理能力等方面显示出了劣势。

有研究构建了多个机器学习模型来探索深部浸润型EMs(deep infiltrating endometriosis,DIE)与持久性有机污染物混合物暴露之间的关联,发现八氯二苯并呋喃、顺式七氯环氧化物、多氯联苯77和反式九氯是EMs最相关的持久性有机污染物[7]。由于化学混合物数量众多、复杂、高度相关且不稳定,线性和逻辑回归模型等传统统计学无法用于模型的构建,因此,该研究使用机器学习模型展现出的高分类性能证实,机器学习可能是对这类复杂的有机污染物混合物与EMs之间的关联进行建模的一种有潜力的补充方法。

除EMs诊断外,也有研究对比了机器学习模型和传统统计学模型在宫颈癌预后预测、辅助生殖结果预测、产妇产后出血风险预测及妊娠期糖尿病风险预测等方面的表现,发现机器学习的准确度、AUC等均优于传统统计学[8-11],在众多研究文献中都表明机器学习比传统统计学在处理大数据、复杂数据、非线性应用场景和构建多功能诊断模型方面更具优势,在未来应用前景广泛。

3 用于机器学习建模的EMs生物标志物

近年EMs相关生物标志物的研究热点主要集中于血清生物标志物及高通量组学生物标志物两个方面。用于机器学习建模的EMs高敏感度及高特异度生物标志物的探索也主要是围绕这两部分展开的。

3.1 血清标志物血清标志物具有非侵入性、采集简便、结果易量化和性价比高的优点,目前辅助诊断EMs常用的是糖类抗原125(carbohydrate antigen 125,CA125)和CA19-9[12-13],但由于其具有特异度和敏感度不高的缺点,且指标升高主要见于严重病例,其对早期诊断及独立诊断的意义不大。因此,迫切需要利用大数据信息通过机器学习方法进一步挖掘更有意义的指标。

有研究利用拉曼光谱获取血清样本化学键信息,用以构建多种机器学习模型,发现EMs患者血清中β-胡萝卜素相关化学键与健康女性相比有明显减少,表明β-胡萝卜素可能对诊断EMs具有一定的潜力,K最近邻(k-nearest neighbor,KNN)表现最好,敏感度和特异度分别为80.5%和89.7%[14]。该研究正是应用了机器学习建模的方式,实现了从单一生物标志物分析到多分子角度分析,构建血清样本成分的化学键数据库,完成非侵入性诊断模型的建立。通过机器学习建模,筛选EMs相关生物标志物在许多研究中都有所应用,例如,有研究利用支持向量机对CA125、水通道蛋白1(aquaporin-1,AQP1)、血管内皮生长因子(vascular endothelial growth factor,VEGF)、肿瘤坏死因子α(tumor necrosis factor α,TNF-α)、白细胞介素6(interleukin-6,IL-6)、IL-8、IL-4、程序性死亡受体14(programmed cell death-14,PD-14)、人附睾蛋白4(human epididymisprotein 4,HE4)、转化生长因子β(transforming growth factor-β,TGF-β)、调节活化正常T细胞表达和分泌因子(regulated on activation normal T cell expressed and secreted,RANTES)和 基 质 金 属 蛋 白 酶9(matrix metalloprotein-9,MMP-9)这12种血清标志物建立辅助诊断模型,模型的准确度、敏感度和特异度均较高[15],表明特定的血清标志物结合机器学习对EMs的辅助诊断具有较为理想的效果。同时,不恰当的血清标志物的选择将使模型的辅助诊断作用下降,有研究利用细胞因子构建多种机器学习模型,发现模型不能区分EMs患者与健康人群[16]。

上述研究表明,利用特定的血清标志物构建基于机器学习的数据分析模型在EMs诊断及预测方面能显示出积极作用,故选择合适的生物标志物进行建模十分重要。虽然目前尚未在临床工作中帮助医师进行辅助诊断,但机器学习在EMs中的应用潜力是明确的。

3.2 高通量组学近年来,高通量组学技术在医学领域的应用越来越广泛、成熟,虽然目前在检测EMs相关生物标志物方面仍存在操作难度大、检查费用高和有创性的缺点,但其具有数据规模大、无需预选参考指标和不偏倚的优点,因此将该技术应用于EMs同样具有相当的可行性。

有研究利用表面增强激光解析/电离飞行时间质谱(surface-enhancedlaserdesorption/ionizationtimeof-flight mass spectrometry,SELDI-TOF-MS)技术联合人工神经网络,发现蛋白质质荷比(mass to charge ratios,m/z)峰主要集中于5 640~6 440[17-19],这表明机器学习建模有助于寻找到诊断EMs可能的蛋白质组学标志物区间,也可以利用其建模方式构建以高通量组学因素为依据的EMs诊断模型。有研究利用加权基因共表达网络分析筛选基因来构建机器学习诊断模型,发现SCAF11、KIF3A、KRAS和MDM2中枢基因影响EMs进展,4个中枢基因诊断EMs的敏感度分别为83.80%、69.01%、86.62%和50.00%,特异度分别为71.83%、69.01%、50.70%和81.69%[20],提示利用中枢基因构建机器学习模型对临床诊断具有重要价值。有研究利用转录组学和甲基化组学数据构建诊断EMs的集成机器学习分类器,发现转录组F1分数(F1 Score)为0.968,甲基组F1分数为0.918[21],获益良好。有研究表明在机器学习建模时,适当的标准化输入方式也会影响对EMs的诊断精准度,其使用M值的加权截尾均值(trimmed mean of M-values,TMM)标准化处理转录组数据,使用分位数或容积标准化处理甲基组数据,使用广义线性模型来减少特征空间和最大化分类性能[22],这些标准化处理更有助于构建EMs诊断模型。增加输入机器学习模型的有效高通量组学参数也同样起到提高精准度的作用,有研究显示微小RNA(microRNA,miRNA)与EMs相关,其中单个miRNA的随机森林分类器AUC为0.68~0.92,组合miRNAs的随机森林分类器AUC为0.94[23]。可见,高通量组学在基于机器学习模型的EMs诊断中表现良好,但目前尚处于起步阶段,未能独立进行诊断,且取材及技术操作困难,使其难以在早期诊断及临床初步诊断中进行,这将限制高通量组学技术在EMs早期诊断和预测中的应用,需要进一步的研究简化技术性操作,将诊断模型理论转化为兼具实用性、准确性和易操作性的诊断工具,最终在临床诊治中应用。

综上,目前基于生物标志物的EMs机器学习诊断模型的研究,在敏感度、特异度等方面表现良好,已初见成果,但尚处于科学研究阶段,目前未能将EMs机器学习诊断模型转化到临床应用。但作为探索过程中必不可少的一个阶段,我们有理由对基于机器学习的生物标志物在EMs早期诊断及指导治疗中的潜力表示肯定。

4 机器学习在EMs中的应用

4.1 EMs的诊断机器学习在诊断EMs中的应用已经开始初步探索阶段,相关研究、文献尝试应用一些简单的机器学习工具证明研究中的问题。前文在阐述可用于机器学习建模的生物标志物和高通量组学因素时,已经引用了较多较为成功的应用,如用支持向量机对12种血清标志物建立辅助诊断模型[15],其准确度、敏感度和特异度可达到91.67%、93.33%和90%;基于组合miRNAs的随机森林分类器准确度可达94%[23]。

机器学习建模诊断EMs的意义不仅局限于已发病例的鉴别,同时也有助于疾病易感性的挖掘与验证,这对于早期进行预防性治疗、阻止疾病恶化或减轻不良并发症具有重大意义[24-27]。有研究通过使用机器学习的文本挖掘功能,构建了EMs基因数据库,发现与EMs最相关的6个基因是CDKNB2、MAPK1、WNT4、ILA、AKT1和KRAS[28],一方面这些与EMs高度相关的基因对探索新的治疗靶点具有极大意义,另一方面,也提示着这些基因携带人群EMs患病易感性增加,这有助于对健康人群的EMs患病风险进行预测,从而采取预防性治疗措施。

4.2 EMs的分期疾病的分期是继诊断之后的进一步细化,有利于对不同人群采取适合的治疗方案。有研究对EMs患者建立了卵泡期和月经期微生物群随机森林分类模型,表明阴道微生物组可以预测EMs所处的修订后的美国生殖医学学会分期系统(rASRM分期)中的1、2期和3、4期[29]。另有研究利用超声图像构建了识别肠道DIE病灶的神经网络模型,准确度为73%[30]。以上研究表明机器学习能够做到深一层次的分期工作,对于优化治疗方案和针对性治疗有积极作用。

4.3 EMs的术后评估有研究利用无线传感设备捕获EMs患者手术前后5周在家中运动和睡眠的客观数据,利用机器学习进行分析,发现从开始睡眠到深度睡眠的时间,与受试者次日疼痛评分呈正相关(P<0.01),这种对患者手术前后独特客观数据的采集分析,可以解决患者回顾病情时出现的记忆偏差,有助于帮助患者更清楚地向医生传达对于疾病的感受,从而有利于更好地制定术后管理决策[31]。

5 结语

综上,一方面,机器学习模型若仅依靠单一的生物标志物或影响因素,在构建EMs模型上难以表现出预测多样性,想要获得更多方面的预测多样性,更主要是利用人口学、病史信息和手术信息等综合信息进行模型构建。其次,目前关于机器学习在EMs中的应用还处于初步探索阶段,在诊断模型构建方面虽有一定成果,但准确度还有待进一步验证,并且将理论研究转化为实用性更高的临床诊断工具还有难度。另一方面,对于机器学习在EMs相关预测模型的构建,选取的研究角度也比较单一,许多有价值的预后结局都值得进一步研究,如EMs的不孕风险预测、治疗后复发风险预测、妊娠情况预测和恶变率预测等。此外,传统统计学分析在数据处理方面表现良好,但通过传统统计学和机器学习模型的对比,发现在大数据时代处理数据时,传统统计学的适用性有限,表明机器学习在EMs中的未来发展是大势所趋。同时生物标志物、影响因素探索与数据分析并不是完全割裂的,统计学与机器学习也并不是完全割裂的,它们相互联系,彼此借鉴,以此探索EMs早期诊断及预测模型的构建。

目前机器学习在数据处理和结局预测方面都展现出强大的性能,在医学领域的诸多应用也证实了这一观点。后续应顺应时代趋势作出改变,构建基于机器学习的EMs诊断和预测模型是必然的发展。现阶段,基于机器学习模型的EMs诊断方法完全代替临床医师诊断是难以实现的,但是应用其诊断能力进行患者自测、预检分诊等方面是具有一定可行性的,这也可能将是未来研究方向之一。

猜你喜欢
诊断模型组学标志物
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
影像组学在肾上腺肿瘤中的研究进展
多项肿瘤标志物联合检测在健康体检中的应用价值
东莨菪碱中毒大鼠的代谢组学
基于TCGA数据库分析、筛选并验证前列腺癌诊断或预后标志物
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
冠状动脉疾病的生物学标志物
基于模糊优选反问题的电机电气故障诊断模型
对于电站锅炉燃烧经济性诊断模型的研究