基于机器学习法构建异位妊娠发生风险预测模型▲

2022-03-29 13:02余永燕叶纪平
广西医学 2022年1期
关键词:线图病史异位

冯 强 余永燕 叶纪平

(海南省儋州市中医医院妇产科,儋州市 571700,电子邮箱:345613088@qq.com)

异位妊娠是妇产科常见的急腹症,占所有孕妇疾病的1%~2%,近年来该病的发病率呈现上升趋势;异位妊娠致死率较高,其所导致的死亡病例占产妇死亡病例的10%以上,该病是引起孕妇早期死亡的主要原因[1]。异位妊娠不仅威胁妇女的生命健康,同时还对其造成精神创伤[2]。然而,异位妊娠在早期不易被发现,而随着孕囊的逐渐增大,孕妇会突然出现剧烈腹痛,如未能及时治疗可危及生命。因此异位妊娠的早期诊断尤为重要[3]。目前已有关于异位妊娠发病危险因素的研究[4]。有研究表明吸烟史和感染史是导致异位妊娠的两个重要因素[5],而年龄、流产史、不孕病史也对异位妊娠的发病有影响[6]。近来还有学者指出,异位妊娠与既往手术史、盆腔炎病史和体外受精有关[7]。考虑到异位妊娠的发生与多种因素相关,有必要建立可早期预测异位妊娠发生的工具。然而,国内外有关异位妊娠发生风险的预测模型鲜有研究报告。

机器学习可以通过定义数据属性,借助临床数据和算法来预测各种结果[8]。机器学习通过构建不同的算法并进行评估比较,可以提高临床上对疾病的预测效能[9]。而列线图作为一种备受关注的预测模型,能够通过逻辑回归算法,获得每个预测因子的相对风险评分,从而计算该预测因子的贡献度并进行评分,通过各种临床数据和生物学检测数据预测各种临床事件(死亡或发病)发生的可能性。由于列线图能够通过计算来量化相关因素,提高预测的准确性,因此,通过列线图构建预测模型,这有利于提高临床诊断和治疗的准确性[10]。

本研究通过机器学习建立异位妊娠发生风险的预测模型,评估不同模型的预测效能,并绘制列线图,探讨患者发生异位妊娠的影响因素,以为临床筛选和早期诊断异位妊娠的高危患者提供参考。

1 资料与方法

1.1 研究对象 选择2010年1月至2018年6月期间在我院经临床检查和妊娠结局观察确诊为异位妊娠的308例患者作为异位妊娠组;另选取经超声确认为宫内妊娠,或者在刮宫术后的刮出物中发现绒毛组织、病理检查检出滋养细胞的605例孕妇作为宫内妊娠组。回顾性分析两组的临床资料。异位妊娠组纳入标准:(1)确诊异位妊娠,停经时间≤60 d;(2)一般情况好,生命体征平稳,轻微腹痛;(3)血常规基本正常,血清人绒毛膜促性腺激素(放射免疫法)检测结果为(240~3 000)mIU/mL(正常值为0~1 mIU/mL)。宫内妊娠组纳入标准:经超声诊断为宫内妊娠,或刮宫术后的刮出物中发现绒毛组织且病理检查检出滋养细胞。两组排除标准:(1)本次妊娠后曾采用雌激素、孕激素等药物治疗;(2)有多胎妊娠史;(3)恶性疾病和肿瘤患者;(4)怀疑为异位妊娠时行药物治疗者。

1.2 研究方法

1.2.1 一般资料收集:收集研究对象的临床资料及既往病史资料,包括年龄、既往异位妊娠史,既往腹腔或盆腔疾病手术史、外阴炎病史、子宫内膜异位症史、宫颈柱状上皮异位史、阴道非炎性疾患史、月经推迟情况、月经不调史、子宫和阴道异常出血史、排卵性腹痛史、痛经史、抑郁症和焦虑症等精神疾病史。使用R软件中的createDataPartition函数,根据913例研究对象的异位妊娠情况进行等比例划分,其中70%的数据(共639例,其中异位妊娠组216例,宫内妊娠组423例)设置为训练集用于构建模型,其余30%的数据集(共274例,其中异位妊娠组92例,宫内妊娠组182例)作为测试数据用于模型的评估和比较。

1.2.2 机器学习算法构建预测模型:使用R软件Caret包中的train函数,通过逻辑回归(Logistic回归)、线性判别分析、多元自适应回归、K近邻算法和支持向量机算法构建5个机器学习预测模型。均以1.2.1中描述的13个因素作为自变量。

1.2.2.1 逻辑回归:逻辑回归是常用的算法,常被当作对照算法用于与其他机器学习算法的比较。逻辑回归通过寻找自变量与因变量的关系来构建预测模型,本研究纳入所有临床上认为可能影响异位妊娠发生的因素用于构建逻辑回归模型,以评估异位妊娠发生的可能性。

1.2.2.2 线性判别分析:线性判别分析是机器学习领域中最常用的算法。线性判别分析时,首先学习数据的分布,随后创建决策边界并构建最佳加权线性函数。该函数用于判别当阈值最小时模型下预期错误分类,从而识别异位妊娠的高危人群。

1.2.2.3 多元自适应回归:多元自适应回归主要处理高维度(待回归项较多时)回归问题。与线性回归、线性判别相比,该模型学习精度高且具有较好的泛化能力,能取得较好的预测效果。由于本研究涉及多个自变量,采用多元自适应回归能够减少高维度数据对分类结果的影响。

1.2.2.4 K近邻算法:K近邻算法是通过现有数据,结合K个临近数据共同预测新数据的方法,其使用实例进行分类,通过寻找最相近的点(最近邻)来确定正确的数据分类。本研究通过构建基于最相近的点的模型,可协助提高异位妊娠早期预测的准确性。

1.2.2.5 支持向量机算法:支持向量机是稀疏内核机器算法,是一种仅依赖数据子集(支持向量)来预测未知类标签的模型,其主要使用适合的超平面分离输入数据。本研究选择线性支持向量机对数据进行划分,以期通过超平面提高异位妊娠的诊断准确性。

1.2.3 预测模型的验证与效能评估:使用测试组的数据验证各个机器学习模型,绘制所有模型的受试者工作特征(receiver operating characteristic,ROC)曲线以判断模型的预测效能,评估指标包括曲线下面积(area under the curve,AUC)、准确率、召回率和F1得分。其中,AUC值在0.9~1.0之间为优秀,在0.7~<0.9之间为良好,在0.6~<0.7之间为一般,在0.5~<0.6之间为差。ROC曲线的绘制与AUC的计算均通过R软件中的“pROC”包进行。准确率指在所有样本中预测正确的概率,即分类正确的正样本个数占分类器判定为正样本个数的比例;召回率指分类正确的正样本个数占真正的正样本个数的比例;F1得分是结合准确率和召回率的综合指标,F1=2×(准确率×召回率)÷(准确率+召回率),其最大值是1,最小值是0。通过上述指标选取最佳算法构建的模型用于下一步研究。

1.2.4 列线图的构建:基于机器学习验证的结果,逻辑回归模型被认为预测效能最佳,因此本研究基于逻辑回归分析法建立列线图。(1)使用R软件中的“glmnet”包进行LASSO回归分析,从13个临床因素中筛选最佳风险预测因子子集。LASSO回归通过控制参数λ进行变量筛选和复杂度调整。(2)将筛选出的预测因素导入到多变量逻辑回归分析中,用于构建异位妊娠风险的预测模型并通过列线图进行可视化。(3)绘制校准曲线用于评估列线图的校准度,校准曲线与理想曲线越一致,说明预测结果与实际结果越符合。计算一致性指数(concordance index,C-index)以评估列线图预测模型的区分度,其中C-index≤0.5表示没有区分度,0.50.9 表示区分度较高。(4)使用R软件中的DCA包进行决策曲线分析,通过量化验证队列中不同阈值概率下的净收益来确定列线图的临床实用性。该方法基于假阳性和假阴性的相对值判断,采用阈值概率表示;净收益是指从真阳性的结果中减去假阳性的结果,然后权衡假阳性和假阴性结果的相对危害而获得阈值概率。

1.3 统计学分析 采用R 3.6.3软件进行统计分析和基于机器学习法的模型构建、列线图构建。计量资料以(x±s)表示,组间比较采用独立样本t检验;计数资料以例数和百分比表示,组间差异比较采用χ2检验。以P<0.05为差异具有统计学意义。

2 结 果

2.1 异位妊娠患者与宫内妊娠研究对象临床资料的比较 异位妊娠组和宫内妊娠组研究对象的年龄、宫颈柱状上皮异位史、阴道非炎性疾患史、子宫和阴道异常出血史和痛经史比较,差异均无统计学意义(均P>0.05);而两组的异位妊娠史、既往腹腔或盆腔手术史、精神病史、子宫内膜异位史、外阴炎病史、月经推迟、月经不调史和排卵性腹痛的比例比较,差异均有统计学意义(均P<0.05)。见表1。

表1 异位妊娠患者与宫内妊娠研究对象临床资料的比较

组别n外阴炎病史[n(%)]阴道非炎性疾患史[n(%)]月经推迟[n(%)]月经不调史[n(%)]子宫和阴道异常出血[n(%)]排卵性腹痛[n(%)]痛经史[n(%)]异位妊娠组30827(8.77)33(10.71)27(8.77)39(12.66)10(3.25)21(6.81)17 (5.52)宫内妊娠组60523(3.80)59(9.75)31(5.12)35(5.79)14(2.31)026(4.30) t/χ2值4.3220.3222.12116.2200.43917.3850.679P值0.0030.7340.047<0.0010.539<0.0010.410

2.2 机器学习模型的评估 不同模型之间的性能存在差异:其中逻辑回归算法的AUC最大,其次为线性判别分析模型,多元自适应回归和支持向量机算法的AUC相同,K近邻算法在所有模型中AUC最小;同时,逻辑回归的准确率和F1得分最高;所有模型的召回率相同。见表2和图1。综上,相较于其他模型,逻辑回归算法是有效预测工具。因此,我们下一步将逻辑回归算法用于构建预测模型。

表2 不同模型的评估

图1 10倍交叉验证后的ROC曲线

2.3 特征选择 纳入639个样本用于筛选特征变量。在LASSO回归分析中,随着λ值增加,变量回归系数逐步归零(λ越大对变量较多的线性模型的惩罚力度就越大,最终获得一个变量较少的模型),从模型中逐步选出特征变量。当lg(λ)= -3.489时模型表现最佳(图2A),此时的最佳变量数为7,最终选择了这7个特征变量用于构建模型(图2B),包括异位妊娠史、既往腹腔或盆腔手术史、精神病史、子宫内膜异位史、外阴炎病史、月经推迟、月经不调史,见表3。

表3 筛选的预测因子

图2 LASSO回归模型及系数分布图

2.4 列线图的构建和验证 通过LASSO回归获得7个预测因子,使用这些因子构建多因素逻辑回归模型,并通过列线图进行可视化(见图3)。基于列线图,可获得每个预测指标的评分,将所有点的评分相加即为该患者的总分,对应于总分的预测概率即为该患者出现异位妊娠的预测概率。预测异位妊娠发生的C-index为0.719(95%CI:0.755,0.682),提示模型具有中等区分度。校准曲线斜率为1,提示预测曲线与标准曲线走势基本一致,表明预测发生率与实际发生率具有较为良好的一致性,预测模型具有良好识别力和预测能力,见图4。

图3 预测异位妊娠的发生风险列线图

图4 预测模型的校准曲线

2.5 临床收益和实用性评估 决策曲线基于连续的潜在风险阈值(X轴)和使用该模型对患者进行风险分层的净收益(Y轴)展示该模型的临床实用性。决策曲线分析结果显示,当阈值概率大于0.18时(即患者使用以上列线图进行预测,当预测的风险大于18%时),采用该列线图预测异位妊娠风险将会获得更多的收益,并具有更好的实用性。见图5。

图5 预测模型的决策曲线

3 讨 论

异位妊娠起病急,患者病情重,如处理不当可危及生命。虽然临床上可以通过病史和临床表现诊断典型病例,但对于未破裂型异位妊娠病例较难提前诊断,常易误诊或漏诊。而危重患者病情急,且同时伴有腹腔内急性出血及剧烈腹痛,可出现晕厥与休克。因此,如何明确诊断甚至提前预测以及时给予合理救治,对挽救患者生命和保存其生育功能至关重要。目前临床上使用超声、血清人绒毛膜促性腺激素、孕酮和雌二醇协助早期诊断,但这不能排查高风险人群,而仅通过临床医生的主观经验评估患者的发病风险或提前诊断,其精确度有限。因此,构建能够早期预测异位妊娠患者发病风险的预测模型对于临床工作至关重要。本研究通过构建临床预测模型,以期能够根据相关既往病史,迅速发现高危人群,进一步提高筛查高危人群的准确性。

在大数据时代,随着临床数据的增多,运用机器学习对数据进行算法处理和开发程序化的预测模型成为临床提高诊疗效果的一种新方法。机器学习算法可以构建复杂的模型,并通过模型提供的相关数据做出决策。当有足够的数据量时,机器学习算法的准确性较高。为了确保所建模型的有效性,我们共建立了5个机器学习模型并进行了评估和比较,结果显示逻辑回归算法的评估效果最佳。除了逻辑回归算法,其他模型的AUC均在0.61~0.67之间。这可能是因为所有异位妊娠预测模型都是通过相同的13个影响因素进行开发,未能去除冗长的数据,从而使得这些预测模型保持较高的一致性。但逻辑回归分析是评估临床因素与疾病之间的因果关系的代表性方法,使用具有典型医学特征的数据和逻辑回归算法开发预测模型,可以显示逻辑回归模型的优势。最终我们采用逻辑回归算法进一步构建预测模型。

本研究通过LASSO回归分析对数据进行降维,共获得7个与既往病史相关的因素(异位妊娠史、既往腹腔或盆腔手术史、精神病史、子宫内膜异位史、外阴炎病史、月经推迟和月经不调史)用于预测异位妊娠发生的风险。列线图通过可视化的界面、更高的准确性和易于理解的计算方式帮助医生更好地进行临床决策,被广泛应用于临床疾病的预后和预测分析中[11]。因此,我们基于上述7个因素采用逻辑回归算法构建模型后,通过列线图进行可视化。校正曲线、C-index和决策曲线分析结果显示,基于逻辑回归算法构建的列线图具有良好的识别和校准能力。同时,由于本研究的模型是基于较大的样本构建的,或可广泛应用于临床。

既往的研究显示,流产患者在终止妊娠1个月后分别有32%和16%的患者出现焦虑和抑郁,而产妇的压力、焦虑和抑郁会增加异位妊娠的发生率[2]。Bouyer等[5]的研究证实既往异位妊娠史与异位妊娠的再次发生密切相关。美国的一项病例对照研究显示,异位妊娠的发生概率随着既往异位妊娠次数的增加而增高[12]。既往腹腔或盆腔手术与异位妊娠的发生密切相关[13-14]。Clayton等[15]对使用辅助生殖技术助孕的孕妇进行回顾分析,发现既往有子宫内膜异位症病史的患者,出现异位妊娠的风险较无相关病史的患者升高1.3倍。本研究结果显示,异位妊娠史、既往腹腔或盆腔手术史、精神病史、子宫内膜异位史、外阴炎病史、月经推迟和月经不调史均与异位妊娠的发生相关(均P<0.05),与上述研究结果相似。因此,基于上述因素构建的异位妊娠预测模型具有较好的实用性和准确性。但是,本研究的研究对象来自同一个医院,且为回顾性研究,存在一定局限性。今后需扩大样本来源进行前瞻性研究,进一步证实该模型预测孕妇发生异位妊娠的能力。

综上所述,相较于其他4个机器学习算法,逻辑回归算法是预测异位妊娠发生风险的最佳算法。构建包含异位妊娠史、既往腹腔或盆腔手术史、精神病史、子宫内膜异位史、外阴炎病史、月经推迟、月经不调史的列线图,有助于根据早期病史筛选异位妊娠的高风险人群。今后需纳入更大样本量进行外部验证试验,以期进一步改善并提高该模型的准确性。

猜你喜欢
线图病史异位
非典型内脏异位综合征1例
甲氨蝶呤联合米非司酮保守治疗异位妊娠疗效分析
超声造影与MRI增强扫描对不确定性盆腔肿块良恶性判断的比较研究
一些图运算的调和指标与调和多项式的线图∗
预测瘢痕子宫阴道试产失败的风险列线图模型建立
经阴道超声在异位妊娠诊断及治疗中的应用价值
基于深度学习的甲状腺病史结构化研究与实现
Being accompanied to liver discharge clinic: An easy measure to identify potential liver transplant candidates among those previously considered ineligible
超声评分联合病史预测凶险型前置胎盘凶险程度的价值
一类图及其线图的Wiener指数