基于机器学习算法探讨慢性疲劳综合征中疲劳分值与左室舒张功能的相关性

2023-08-24 06:21朱鸿袁羽佳王俊祎刘洋方彦鹏
贵州医药 2023年8期
关键词:决策树分值增益

朱鸿 袁羽佳 王俊祎 刘洋 方彦鹏

(贵州中医药大学第二附属医院超声医学科,贵州 贵阳 550003)

1 资料与方法

1.1一般资料 根据我院2020年01月至2022年03月部分职工的体检数据,随机提取653例,签署知情同意书后,进行疲劳量表问卷填写及心脏超声检查,用于构建模型,变量来源包括职工的性别、年龄、生化指标、心脏超声、疲劳分值等。排除已患有各种基础疾病者。

1.2研究方法 本研究的重要数据包括疲劳量表分值及心脏超声结果。慢性疲劳的症状是难以定义的,尤其在主观感觉上。许多专家于1992年共同研制了疲劳量表-14[1](Fatigue Scale-14,FS-14),以计算疲劳分值的方式来筛选疲劳病例,测定疲劳症状的严重性,并可评估临床疗效。FS-14由14个问题组成,每个问题都与疲劳相关,从不同角度反映疲劳的轻重,其包含躯体疲劳及脑力疲劳两个方面,受试者根据实际情况回答“是”或“否”。躯体疲劳分值最高为8,脑力疲劳分值最高为6,两者之和为疲劳总分值,最高分值为14,分值越高,反映疲劳越严重。而心脏超声检查主要包括各房室腔大小、主动脉及肺动脉内径,左心室的收缩功能及舒张功能、心脏血流动力学等等有关数据。尤其是左室舒张早期血流峰值(E),左室舒张晚期血流峰值(A)及E/A比值等与左室舒张功能相关的数据。通过对653例医务人员的体检数据、心脏超声、疲劳量表相关问卷的采集和数据录入,使用机器学习XGBoost算法,建立人工智能诊断模型,得出受试者工作特征曲线(ROC),计算出AUC(Area Under Curve)值以获取其有效性。

1.3统计学方法 机器学习(machine learning,ML)是应用计算机模拟或实现人类的学习行为,在疾病的诊断、预后中具有较高的准确性。Xtreme Gradient Boosting(XGBoost)[2]是一种专为诊断而设计的机器学习算法,它可将单独预诊断效果很弱的分类器组合成为稳健的估计器,建立诊断模型,通过计算增益(Gain)对变量池中的变量进行选择,由xgboost自动计算并自动选择。

2 结 果

2.1XGBOOST决策树 将收集到的数据按照7:3划分为训练集和测试集,先利用训练集得出决策树。从决策树中可以看出,影响被解释变量左室舒张功能是否降低最重要的解释变量(节点分类依据)为疲劳指数score,其作为根节点,信息增益gain有212.71,信息增益度之和约为251.98。除此之外年龄也为比较重要的影响因素,开始出现在第三级的非终端节点中,共出现了4次,信息增益度gain约为12.96;而性别(男2,女1,>1.5为男性,<1.5为女性)则最晚出现非终端节点分类依据,说明性别对于被解释变量左室舒张功能降低与否影响较小,且在整个决策树中作为非终端节点只出现了1次,信息增益度gain之和约为2.13。根据以上模型可以看出,疲劳指数是最直接可以判定一个人是否会出现左室舒张功能降低情况的解释变量,而随着年龄增大,左室舒张功能降低情况更可能出现,中老年女性比中老年男性更可能出现左室舒张功能降低情况。

2.2XGBOOST模型决策树的混淆矩阵 利用测试集得到的决策树,可以得到以下混淆矩阵。阳性预测值PPV=TP/(TP+FP)=50/(50+17)=0.7463;真阳性率TPR=TP/(TP+FN)=50/(50+9)=0.8475;真阴性率TNR=TN/(TN+FP)=120/(120+17)=0.8759。可以看出该模型的阳性预测值、真阳性率、真阴性率都较高,该模型可信度较高。

2.3XGBOOST模型决策树的ROC曲线 在本文中,选择进一步利用ROC曲线来检测模型的准确性。ROC曲线全称为受试者工作特征曲线 (receiver operating characteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。ROC曲线是研究二分类问题中一种简便、高效的综合性工具,它通过连接真阳率与假阳率在不同切断点或者阈值下的值,构造出一条单调递增曲线,曲线下的面积AUC( receiver operating characteristic curve)即可作为衡量诊断效果的指标,面积数值越大,则代表该分类方法越有效。ROC曲线在算法效度研究、心理测评、临床医学诊断中都有广泛的应用[3]。AUC取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。本模型的AUC值为0.759,较大,说明本模型应用价值较高。

图1 ROC曲线

3 讨 论

慢性疲劳综合征(chronic fatigue sydrome,CSF)是20世纪90年代中期由日本学者Fukuda首次提出[4]。迄今为止,其判定并无金标准。在我国,目前尚无CFS诊治指南,现有诊断主要基于主观问卷调查,少有客观实验室指标。虽然CFS与心血管系统疾病的研究相对较少,但有研究表明CFS与心血管系统功能的降低密切相关[5-7];另有通过心脏磁共振证实CFS患者的心脏容积、心输出量明显降低[8];Hollingsworth KG通过对一百多例CFS患者心脏超声检查发现,CFS患者的左室射血分数、舒张末期容积和心输出量均明显降低,且这种心功能的降低与CFS的病情严重程度呈正相关[5]。换言之,心脏超声指标已被证实与慢性疲劳的发生、严重程度密切相关。

在本研究中,以医护人员作为研究对象并建立相关队列,初步建立了以疲劳分值及心脏超声等客观指标的CFS预测模型,为CFS的进一步诊断和治疗提供了理论依据。

猜你喜欢
决策树分值增益
一起来看看交通违法记分分值有什么变化
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
按病种(病组)分值结算:现状、做法和评价
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
宿迁城镇居民医保按病种分值结算初探