基于3 种机器学习算法构建宫颈癌术后尿潴留风险预测模型

2024-01-22 11:12宇,江
护理研究 2024年1期
关键词:决策树尿潴留机器

陆 宇,江 会

同济大学附属妇产科医院,上海200040

近年来,宫颈癌的发病率逐渐上升,发病对象呈年 轻化趋势[1]。宫颈癌根治性切除术是治疗宫颈癌的主要方式[2]。然而,由于术中操作时易损伤周围神经与膀胱组织,影响膀胱功能从而导致尿潴留的发生。据研究报道,尿潴留在妇科恶性肿瘤术后的发生率较高[3]。确定尿潴留的危险因素对于病人的长期预后至关重要[4]。机器学习技术在疾病风险预测方面已有广泛的应用。利用机器学习算法,可以从大量的临床数据中提取与疾病相关的特征,进而构建预测模型,预测个体的疾病发生风险[5]。常用的机器学习方法包括决策树、支持向量机、逻辑回归等[6]。

当前对于宫颈癌根治性切除术后尿潴留的研究多集中在护理措施上,鲜少有建立宫颈癌根治性切除术后尿潴留风险预测模型研究。本研究通过收集宫颈癌根治性切除术后病人临床病例资料,基于机器学习算法,分别采用支持向量机、决策树和逻辑回归3 种机器学习方法构建宫颈癌术后尿潴留风险预测模型,并比较3 种风险预测模型的性能,以期为后续建立更加完善的宫颈癌术后尿潴留风险预测模型提供借鉴。

1 资料与方法

1.1 研究对象

回顾性收集2018 年1 月—2021 年12 月行宫颈癌根治性切除术的485 例病人的资料。纳入标准:符合宫颈癌诊断标准[7],且资料完整;年龄≥18 岁;意识清楚,宫颈癌根治术完成顺利。排除标准:既往诊断为排尿功能障碍者;患其他严重基础疾病者。本研究已通过我院伦理委员会批准(批准号:KS22352)。尿潴留诊断标准:膀胱内充满着尿液不能自行排出或虽可以排出尿液,但是膀胱内的尿液残余量≥100 mL 需要且重新留置导尿管。本研究通过残余尿B 超判断病人膀胱内残余尿量,病人拔除导尿管后膀胱的残余尿<100 mL就表示其功能恢复良好,若>100 mL 时诊断为尿潴留[8-9]。

1.2 资料收集方法

通过医院病案系统导入病人的基础信息和手术期间信息。包括:年龄(世界卫生组织对于年龄的界定标准:≤44 岁为青年人群,>44~<60岁为中年人群,≥60岁为老年人群)、身高、体重、体质指数(BMI,分类:<18.5 kg/m2为体重过低、18.5~<24.0 kg/m2为体重正常、24.0~<28.0 kg/m2为超重、≥28.0 kg/m2为肥胖[10])、术后第1 次尿常规中白细胞数、术后是否出现尿路感染(尿路感染判断依据我国原国家卫生和计划生育委员会颁布的现行尿路感染的病原学诊断标准[11])、临床分期、手术方式(腹腔镜、开腹)、术后留置导尿留置时间、是否进行化疗、术后护理方案(膀胱冲洗方案[12])等。

1.3 统计学方法

使用SPSS 25.0 软件对资料进行统计分析,定性资料采用频数、百分比(%)描述,使用Python 3.11 分别构建基于机器学习方法的决策树、支持向量机和逻辑回归的3 种宫颈癌术后尿潴留风险预测模型。

2 宫颈癌术后尿潴留风险预测模型的构建

在构建模型前,先对所收集的数据进行预处理,包括数据清洗、特征选择和特征编码。

2.1 数据建模

2.1.1 数据采集

数据采集阶段,回顾性收集2018—2021 年在我院行宫颈癌根治性切除术的485 例病人的病例报告,其中1 例发生尿潴留和1 例未发生尿潴留病人的详细资料见表1。每个病例有14 个特性,特征的数据类型有字符型、整型和浮点型,所以将原始数据直接输入到分类算法模型中不可行,因为机器不能直接理解字符型特征的含义,从而难以对病例进行准确的疾病判断。基于此问题,原始数据需要预处理,以便将其输入机器学习模型中进行训练。

表1 1 例发生尿潴留和1 例未发生尿潴留病人的资料

2.1.2 数据清洗

统计每个特征的缺失值情况,并设定阈值,若超过阈值,则剔除该特征,否则保留并填充缺失值。数据清洗后保留了459 份资料作为构建模型的数据集。

2.1.3 特征选择

本研究最终纳入BMI、手术方式、术后尿管留置时间、术后是否发生尿路感染、疾病分期、有无术后护理方案、是否进行化疗以及年龄这8 个特征作为决策树、逻辑回归和支持向量机的输入特征,以更好地构建分类模型。8 个特征之间的相关性见图1。

Pearson 相关系数是用来衡量两个变量之间的线性相关程度[13]。图1 中,8 个特征之间的相关性减弱。比如,术后护理方案与年龄的相关系数是0.001,为正相关,但相关性很小。术后护理方案与术后尿管留置时间的相关系数是0.370,为正相关,但没有呈现较大的相关性。这与临床护理的特点和实践经验是相符的,有研究显示,无论是否进行膀胱冲洗,病人泌尿系感染发生率都随着尿管留置时间的延长而增加,然而,给予膀胱冲洗者泌尿系感染发生率明显偏低,而且尿潴留改善时间明显缩短[14]。

2.1.4 特征编码

在经过特征选择后,对其进行逻辑回归、支持向量机和决策树算法分析的离散型变量赋值,如BMI、年龄,连续变量以原始值输入,不同指标的划分方式与数值化方式见表2。

表2 经过特征编码后的病人数据

本研究通过随机数字表法抽取其中80%的宫颈癌术后病人(367 例)作为训练集,用于构建尿潴留风险预测模型;余20%宫颈癌术后病人(92 例)作为验证集测试模型的表现。训练集和验证集病人的临床资料见表3 和表4。

表3 训练集病人的临床资料

表4 验证集病人的临床资料

2.2 3 种机器学习模型的建模与性能比较

3 种预测模型的混淆矩阵见图2 和图3。3 种预测模型的混淆矩阵展示了不同预测模型在本研究数据集中训练集和验证集下的混淆矩阵,从混淆矩阵上看,不管是在训练集还是验证集,真阳性(TP)和真阴性(TN)都是占了数据集的大多数,表明本研究所用机器学习的预测模型对于预测宫颈癌术后尿潴留是比较高效的。

图2 训练集模型的混淆矩阵

图3 验证集模型的混淆矩阵

3 种机器学习预测模型在训练集和验证集的受试者工作特征(ROC)曲线见图4。决策树的ROC 曲线不管在训练集还是验证集,效果都是最优的。尤其是在训练集中,决策树的ROC 曲线下面积(AUC)为1,但是在验证集中,决策树的AUC 为0.91,说明决策树的训练存在一定的过拟合现象。尽管如此,决策树在训练集和验证集中的效果依然是最优的。支持向量机和逻辑回归的ROC 曲线不管在训练集中还是在验证集中,AUC 都相差不大,性能都不如决策树。

图4 ROC 曲线(A 为训练集;B 为验证集)

通过混淆矩阵可得到3 种预测模型的准确率、召回率、精确率、F1 值和AUC,具体见表5。训练集用于训练模型,验证集用于测试模型的泛化能力。在训练集和验证集中,决策树模型的评估值都是最高的。决策树不管在训练集中还是在验证集中,准确率、召回率、精确率、F1 值和AUC 都比支持向量机和逻辑回归更优,这说明决策树在构建宫颈癌术后尿潴留风险预测模型中具有较高的准确率及较好的泛化性能。支持向量机在训练集中准确率、召回率、精确率、F1 值和AUC 都比逻辑回归更优。同时,在验证集中,支持向量机的召回率和F1 值比逻辑回归更优,但是支持向量机精确率和AUC 却比逻辑回归差。说明支持向量机在宫颈癌术后尿潴留数据集中的泛化能力比逻辑回归差。

表5 3 种机器学习模型的对比结果

3 讨论

随着大数据的出现以及人们对大数据分析能力的提升,科技发展的各领域都在不断革新,其中以人工智能发展最为突出,这也意味着人类社会将走向智能时代[15]。大数据时代的到来,直接产生了机器学习这一新的科学领域,机器学习主要是为人工智能技术在大数据时代提供一种实用性技术[16]。对医院信息系统所积累的医疗大数据进行汇集、建模分析,运用机器学习技术可以合理预测和判定未知数据的已知类型[5]。

在医学上,疾病风险预测模型用于辅助医疗决策,疾病风险预测模型可以结合两项或多项病人的相关数据来预测临床结果。机器学习是用计算机来模拟或实现人类学习活动的学科。机器学习以其准确性高、可操作性强的特点很大程度提高临床工作效率,也能为复杂多变的疾病研究提供一个新的视角。除此之外,海量的医学数据也为挖掘潜在的危险因素提供了数据支持。杜晨等[17]通过收集经内镜或手术病理证实的炎症性肠病病人的信息后利用6 种模型对数据进行处理,结果表明,灵邻近算法(KNN)模型的稳定性较高,在验证集中准确率最高,准确率为87.9%。

本研究回顾性收集了在我院行宫颈癌根治性切除术病人的病史信息,筛选出8 个危险因素,主要为年龄、术后导尿管留置时间、BMI、术后是否发生尿路感染、有无术后护理方案、疾病分期、手术方式和是否化疗。根治性子宫切除术是治疗宫颈癌的首选治疗方式[18]。受到手术范围的影响,病人术后往往会出现膀胱功能、结直肠蠕动功能和性功能异常等并发症[19]。有研究显示,老年女性病人出现急性尿潴留的原因为逼尿肌收缩功能低下,老年病人术后并发症多,基础疾病多, 术后恢复能力降低,膀胱功能逐渐下降,排尿功能也显著降低[20-21]。有研究显示,腹腔镜手术治疗宫颈癌效果确切,但术后病人手术部位感染发生率高[22]。

在模型构建方面,经过数据的采集、预处理后使用决策树、支持向量机和逻辑回归3 种机器学习方法构建宫颈癌术后尿潴留风险预测模型。通过混淆矩阵计算3 种机器学习算法的准确率、召回率、精准率、F1 指数和AUC 值后,综合预测效能最佳的模型是决策树模型。支持向量机在训练集中准确率、召回率、精确率、F1 值和AUC 都比逻辑回归更优。同时,在验证集中,支持向量机的召回率和F1 值比逻辑回归更优,但是支持向量机的精确率和AUC 却比逻辑回归差。本研究所建立的决策树模型性能最佳,后续可以利用所构建的模型识别宫颈癌术后发生尿潴留的风险;同时,还可以作为医疗决策的支持工具,区分高危人群,并从多种治疗方案中进行针对性指导。

猜你喜欢
决策树尿潴留机器
针灸治疗产后尿潴留的研究进展
机器狗
机器狗
盆底仪在阴道分娩后尿潴留治疗中的应用
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
未来机器城
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
间歇导尿配合温和灸治疗脊髓损伤后尿潴留30例