典型机器学习算法在脂肪肝分类预测研究中的实现与比较△

2019-01-14 07:45余秋燕孙继佳邵建华
数理医药学杂志 2019年1期
关键词:贝叶斯决策树脂肪肝

余秋燕 赵 莹 孙继佳 邵建华

(上海中医药大学中药学院数理教研室 上海 201203)

脂肪肝(Fatty Livers)是由多种疾病和病因所导致的肝脏脂肪代谢功能障碍,进而使肝内脂质蓄积过多的一种病理变化,也是一种临床常见病症。现代医学认为,脂肪肝不是一个独立的疾病,常见的一些导致脂肪肝疾病因素有肥胖、酒精中毒、高脂血症等[1],而甘油三酯、体重、舒张压等危险因素指标是形成脂肪肝的主要危险因素[2]。虽然目前针对脂肪肝发生的危险因素研究有很多,但是脂肪肝的发病机制仍然不够完全明确,通过应用数据科学的方法,寻找对脂肪肝影响的因素是科学且有效的。

机器学习可以通过自动学习大量输入的数据样本内在结构和规则,进而对新样本进行智能的辨识,甚至实现对未来的预测[3]。随着机器学习与大数据的结合,如今,越来越多的科研人员运用机器学习方法对医药领域进行探索,推动着疾病诊疗规范化的发展[4]。

本文根据所收集到的实际临床体检数据资料,应用5种典型的机器学习建模方法,对脂肪肝分类辩证进行分类预测和比较分析,旨在为脂肪肝分类辩证提供客观、标准和规范的算法模型。

1 资料与方法

1.1 资料来源

原始临床数据来源于2017年上海市浦东新区某地段医院60岁以上2337例老年人体检的实际临床资料。

1.2 临床数据预处理

首先,对2337例原始数据进行初步筛选,剔除部分有缺失和不完全等模糊的临床记录,通过筛选剩余1956例。研究中选取一些重点关注的临床指标,运用R语言,通过主成分分析(PCA)进行降维并提取主成分,得到:臀围(HIP)、总胆固醇(TC)、谷草转氨酶(AST)、肌酐(CR)、收缩压(SBP)、甘油三酯(TG)、白蛋白(ALB),总共7个主成分。将所有主成分临床指标作为参数自变量,脂肪肝分类判别(FL)作为结果变量建立模型。同时,将脂肪肝分类当中的轻度脂肪、中度脂肪、脂肪归为“有脂肪肝”,将无归为“无脂肪肝”,分别编号1和0。资料显示,有脂肪肝的病例为1044例,无脂肪肝的病例为912例。

数据预处理后,再对数据进行标准化,本文采用“0-1标准化”,即公式(1)所示:

(1)

1.3 5种模型在R语言的应用程序包

本文将通过R语言机器学习相关工具包实现模型构建和预测,分别使用到:C5.0(决策树)、nnet(神经网络)、e1071(支持向量机)、bnlearn(贝叶斯网络)和randomForest(随机森林)等5种R语言包。

2 结果

2.1 5种机器学习模型分类预测结果

本研究通过应用R语言来实现机器学习模型的建立,安装加载“gmodels”添加包以输出混淆矩阵,通过R包中的CrossTable()函数查看结果,例如,决策树(Decision Tree, DT)模型预测结果如表1所示。

表1 决策树DT的预测结果

Actual FLPredicted FL01Row Total0125(25.56%)105(21.47%)230141 (8.38%)218(44.58%)259Column Total166323489

2.2 模型的评估与比较

在1956例临床体检数据中,模型的训练集取75%,即1467例样本用于训练;测试集取25%,即489例样本用于预测,五类机器学习模型的效度评价如表2所示。

观察数据,发现决策树模型的预测准确率最高,达到了70%以上,支持向量机和神经网络模型次之,处于68%左右的水平,而贝叶斯网络模型的预测性能最低,仅有62.17%。由此可见,决策树模型的分类预测效果最优,应用在小样本数据上有优势;同时,观察贝叶斯网络结构图(图1)和重要性评分,发现臀围(HIP)和甘油三酯(TG)对脂肪肝分类的重要性评分最高,关联密切,且对脂肪肝分类预测有直接和间接的影响因素。

表2 5类机器学习模型的效度评价

模型FL预测准确率(%)决策树(Decision Tree, DT)70.14神经网络(Neural Network, NN)68.30支持向量机(Support Vector Machine, SVM)68.71贝叶斯网络(Bayesian Network, BN)62.17随机森林(Random Forest, RF)66.05

图1 贝叶斯网络结构图

3 讨论

在脂肪肝分类预测研究中,机器学习方法的应用是研究的一个重要方向,而且也被广泛应用在临床研究当中。例如,吕航等[5]运用决策树模型来探讨糖尿病伴发非酒精性脂肪肝病的预测作用,构建风险模型;权蔚蔚等[6]将BP神经网络引入到脂肪肝的图形识别中;韩秀芝等[7]使用LBP特征提取肝脏超声图像特征后,采用了支持向量机对脂肪肝等肝病进行了分类;张永媛[8]采用了贝叶斯网络即概率图模型,对非酒精性脂肪肝与代谢综合症之间的潜在双向因果关系进行了推断;白江梁等[9]探讨了随机森林在体检人群糖尿病、脂肪肝的风险预测中的应用等。

本文所运用的5种典型机器学习算法在数据挖掘领域中是比较成熟且稳定的,我们将其模型运用到体检数据研究当中,提取了重要的指标作为参数并进行了比较分析,基于预测结果的准确率,验证了各个模型的有效性和可行性,为脂肪肝疾病预测提供了基于数据科学的研究方法。

猜你喜欢
贝叶斯决策树脂肪肝
瘦人也会得脂肪肝
脂肪肝 不简单
王迎春:非肥胖脂肪肝
脂肪肝治疗误区须谨防
基于贝叶斯解释回应被告人讲述的故事
基于动态贝叶斯估计的疲劳驾驶识别研究
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于互信息的贝叶斯网络结构学习
基于模糊关联规则和决策树的图像自动标注