支持向量机模型和Logistic回归模型在肝硬化食管静脉曲张中的预测价值

2022-08-10 06:42冯慧芬
郑州大学学报(医学版) 2022年4期
关键词:中重度门静脉脾脏

徐 晶,张 霞,封 爽,郑 珊,冯慧芬

1)郑州大学第五附属医院消化内科 郑州 450052 2)郑州大学出版社 郑州 450052

食管静脉曲张破裂出血的病死率为15%~20%[1]。《食管胃静脉曲张出血的防治指南》建议对所有肝硬化患者进行食管静脉曲张内镜筛查[2]。有研究[3]表明大多数接受胃镜筛查的肝硬化患者或没有食管静脉曲张,或有无需治疗的轻度食管静脉曲张,而胃镜检查为侵入性操作,反复侵入性检查会导致患者依从性差[4]。采用无创诊断指标预测肝硬化食管静脉曲张是当前的研究热点。研究[4-5]表明谷草转氨酶/血小板比率指数(APRI)、基于4因子的纤维化指数、S指数、血小板/脾脏长径等对肝硬化食管静脉曲张有一定的预测价值,但预测效果差异大或价值较低。近年来,国内外将机器学习、深度学习、人工智能算法等运用于肝脏疾病如肝纤维化、肝硬化、食管静脉曲张的分类预测[6-8]。支持向量机(support vector machine,SVM)作为判别分析中的经典方法,以其优异的分类器作用在各大领域中有着广泛的应用[9-10]。本研究建立了基于无创因素的肝硬化食管静脉曲张SVM预测模型,并与传统的Logistic回归模型进行了比较。

1 对象与方法

1.1 研究对象收集2017年9月至2020年12月于郑州大学第五附属医院住院的肝硬化患者。纳入标准:①住院3 d内接受电子胃镜、肝脾超声、FibroScan、血清生化指标检查。②符合肝硬化诊断标准[11],即内镜、组织学或影像学检查结果提示肝硬化、食管胃静脉曲张或存在门脉高压特征;如无上述检查结果,存在至少2个指标异常(血小板计数<100×109/L;血清白蛋白<35 g/L;国际标准化比值>1.3或凝血酶原时间延长;APRI>2)。排除标准:既往有食管静脉曲张破裂出血史、分流或断流手术史;有内镜下套扎或硬化治疗史;合并血液系统疾病;近期服用影响凝血功能的药物。本研究通过郑州大学第五附属医院医学伦理委员会审核批准(批准号Y2021018)。最终共纳入305例。食管静脉曲张分级:按照《食管胃静脉曲张出血的防治指南》[2],分为无或轻度曲张(n=150)和中重度曲张(n=155)。

1.2 指标筛选根据电子病历资料记录姓名、性别、年龄、病因,查阅相关文献,选择红细胞体积分布宽度、血红蛋白、部分凝血活酶时间、凝血酶时间、总胆红素、白蛋白、门静脉直径、血小板计数/脾脏厚度、肝硬度值、Child-Pugh评分等指标用于建模。

1.3 模型构建使用EpiData 3.1录入数据。将305例按照完全随机分组的方法分为训练样本(70%)和验证样本(30%),训练样本用于模型构建,验证样本用于模型性能分析。

1.3.1Logistic回归分析模型的建立 在训练样本的基础上,以是否是中重度曲张为因变量(Y),无或轻度曲张赋值为0,中重度曲张赋值为1,将两组表达有差异的变量纳入回归分析,应用SPSS 25.0,采用逐步回归法建模。

1.3.2SVM模型的建立 选取两组表达有差异的变量,应用SPSS Modeler 18.0,使用极差法对数据进行标准化处理,使变量取值在[0,1],用过滤器剔除无贡献价值的输入变量。选择专家建模中的径向基核函数。建模时参数选择:停止标准为1.0×10-3,规则化参数为10;Gamma为1,输入设定无或轻度曲张为0,中重度曲张为1,输出时勾选预测变量的重要性。

1.4 模型预测效能评价用验证集数据绘制两个模型预测的ROC曲线,评价预测效能。检验水准α=0.05。

2 结果

2.1 一般情况无或轻度曲张组150例,年龄(56.33±11.29)岁,其中男97例,女53例;中重度曲张组155例,年龄(55.32±11.91)岁,男115例,女40例。两组间年龄(t=0.755,P=0.451)、性别构成(χ2=3.264,P=0.071)均衡可比。

2.2 两组间各指标的比较两组红细胞体积分布宽度、血红蛋白、凝血酶时间、门静脉直径、血小板计数/脾脏厚度、肝硬度值、Child-Pugh评分差异有统计学意义(表1)。

表1 两组患者各项指标的比较

2.3 Logistic回归模型以红细胞体积分布宽度、血红蛋白、凝血酶时间、门静脉直径、血小板计数/脾脏厚度、肝硬度值、Child-Pugh评分为自变量进行Logistic回归分析,最终模型结果见表2。

表2 Logistic回归分析结果

2.4 SVM模型SVM显示影响中重度食管静脉曲张重要性居于前4位的依次是肝硬度值、门静脉直径、血红蛋白、血小板计数/脾脏厚度(图1)。

图1 SVM预测变量的重要性

2.5 两个模型预测效果评价用构建的SVM模型和Logistic回归模型在验证样本(n=91)中进行食管静脉曲张预测,两个模型预测的ROC曲线见图2,预测效果评价结果见表3,SVM模型的AUC、敏感度、特异度、阳性预测值、阴性预测值、正确率均高于Logistic模型。

图2 两个模型预测食管静脉曲张的ROC曲线

表3 SVM与Logistic回归模型预测效果评价

3 讨论

本研究结果显示,SVM输出预测肝硬化食管静脉曲张的变量重要性居前4位的依次为肝硬度值、门静脉直径、血红蛋白、血小板计数/脾脏厚度,与Logistic回归模型一致。肝硬度值反映肝纤维化程度[12],肝纤维化逐渐进展可导致门脉高压性食管胃底静脉曲张。肝硬度增加和食管静脉曲张之间的强相关性得到了证实[13-14]。一项预测食管静脉曲张的Meta分析[15]结果显示肝硬度值检测中/大食管静脉曲张的AUC为0.85,敏感度87%,有较好的预测价值,且在21项无创诊断指标的准确性中排第二位。在本研究中,肝硬度值在SVM模型预测变量的重要性中居第一位。韦仲等[16]发现门静脉直径是食管静脉曲张独立预测因子。单一血小板计数不能预测高风险食管静脉曲张存在或发展,血小板减少可能与门静脉高压性脾功能亢进有关,且肝硬化导致骨髓抑制,减弱了血小板减少与高风险食管胃底静脉曲张的关联性[17-18]。戴戈扬等[19]的研究表明脾厚径结合临床常规血液指标对食管静脉曲张具有良好的诊断性能。所以本研究并未将血小板与脾脏厚度单独分析,而是使用了二者比值,研究结果显示血小板计数/脾脏厚度是中重度食管静脉曲张的预测因素,比值越大,风险越小。Dong等[7]开发了基于机器学习的高风险食管静脉曲张的评分系统,其中血红蛋白是重要的影响因子。本研究中中重度曲张组血红蛋白小于无或轻度曲张组,且回归分析结果表明血红蛋白是中重度食管静脉曲张的独立保护因素,SVM模型也同样证明了它的预测价值。可能原因有:①门脉性胃病的亚临床出血。②肝硬化患者普遍存在脾功能亢进和骨髓抑制。③肝硬化导致贫血。Paternostro等[20]对1 244名肝硬化患者进行了贫血相关指标筛查,证明了慢性贫血在肝硬化中普遍存在。

上述4个变量为两种模型共同筛选的结果,此外,在SVM的输出变量中还有Child-Pugh评分、红细胞体积分布宽度、凝血酶时间。Logistic回归模型与SVM预测的敏感度、特异度及正确率均较高,展现了较好的预测价值,但是SVM的可拓展性更高。

总之,本研究基于SVM算法构建联合无创多指标的肝硬化食管静脉曲张预测模型,在精准分类预测及判别方面较传统的Logistic回归模型表现更佳,具有一定的临床应用价值。但本研究也存在一定的局限性:SVM的变量选择优先选用了更为重要的指标,未入选的变量并不代表与食管静脉曲张无关,因此需要进一步对其他相关变量进行研究,综合分析比较不同的指标,进一步筛选出理想的模型;样本数量相对有限,缺乏外部验证,希望未来能获取多中心数据进一步探讨。

猜你喜欢
中重度门静脉脾脏
肝细胞癌治疗方式对门静脉压力的影响
脑卒中吞咽中重度障碍患者经口/鼻腔间歇置管注食营养的护理体会
CAT、6MWT和肺功能检测在老年中重度COPD稳定期患者病情评估中的意义
Effects of Different Extract of Pseudostellaria Heterophylla on Immunological Function in Mice based on Meta-analysis and Network Meta-analysis
肝癌合并肝硬化门静脉高压行TACE联合TIPS治疗的安全性与疗效
门静脉高压症是什么?
脾脏也会出现钙化
如何预防胃癌手术中的医源性脾损伤
潜水强者
大剂量戊酸雌二醇对中重度宫腔粘连术后再粘连的预防作用