不同机器学习算法在分类问题中的应用比较

2021-03-05 01:37王亚林陈忍忍
黑龙江科学 2021年4期
关键词:机器精度乳腺癌

王亚林,陈忍忍

(江苏省第二地质工程勘察院,江苏 徐州 221000)

0 引言

随着大数据时代的到来,机器学习成为科学研究和实际应用的重要工具和研究对象,使运用机器学习算法进行分类问题的研究也成为了热门。分类问题可以分为二分类问题和多分类问题,其根本思想是通过一个函数(算法)来判断输入数据的标签,即类别。相较于回归问题,分类问题的输出是一系列离散值,并且分类问题在现实中的应用更为广泛,如人脸识别、语音识别、图像分类、遥感等领域。

梯度提升树(gradient boosting decision tree,GBDT)[1-5]、多层感知机(multi-layer perceptron,MLP)[6-9]和支持向量机(support vector machine,SVM)[10-12]均为经典的机器学习模型。国内外学者对这几种模型在分类问题方面已经有了诸多的研究。Guangzhou[13]等将特征筛选与神经网络、朴素贝叶斯、SVM 和 GBDT等模型相互结合建立分类模型,比较几种模型在分类问题中的表现。Dev[14]等人利用 DGF和HGF的数据,对运用机器学习方法进行地层岩性分类研究,结果表明,GBDT具有良好的分类结果。罗威臻[15]利用遗传算法和MLP模型研究了肌电和脑电的分类问题,结果表明,所提出的方法在分类准确率上已经优于现有的分类方法。

以UCI机器学习数据仓库(Machine Learning Data Repository)中提供的康斯威星乳腺癌数据为研究数据,分别使用GBDT、MLP和SVM算法建立乳腺癌预测模型,比较各种模型的表现,为进一步研究机器学习模型在分类问题中的实际应用提供了思路。

1 研究方法

1.1 梯度提升树

提升(Boosting)方法是一种常用的统计学方法,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高模型的性能,可以看成一种集成方法。Boosting方法主要采用基函数的线性组合与前向分布算法。以决策树为基函数的提升方法称为提升树(booting tree,BD),而梯度提升树(Gradient boosting decision tree,GBDT)则是结合回归树(Regression Decision Tree)和BT的思想并提出利用残差梯度来优化回归树的集成过程。

1.2 多层感知机

神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统靠其状态对外部输入信息的动态响应来处理信息。人工神经网络是一种旨在模仿人脑结构及其功能的信息处理系统。反向传播(Back propagation,BP)是使用多层前馈网络进行监督学习的最广泛使用的算法。

多层感知机(Multi-Layer perceptron,MLP)是神经网络模型的扩展,其基本思想是通过增加隐藏层的数量,构造一种多层神经网络模型。总体而言,深度神经网络模型可以分为输入层、隐藏层和输出层三部分。

1.3 支持向量机

支持向量机是一种二分类模型,其基本模型是定义在特征空间上的线性分类器。SVM的学习策略是间隔最大化,可以形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题[5]:

(1)

Lε为损失函数,C为惩罚系数。一般来说,C的值设置的越大,则模型训练的精度越高。但是,如果C值设置的过高,则会出现过拟合问题。

(2)

1.4 实验及参数设置

基于Pycharm平台,使用Python 3.8.3进行编程,实现GBDT、MLP和SVM算法。实验数据来自南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所。对于GBDT模型,主要需要设置最大迭代次数、树的深度、节点和学习速率4个参数。将最大迭代次数分别设为500、1 000和2 000,树的深度分别设为2、3和4,节点均设为2,学习速率分别设为0.001、0.01和0.1。对于MLP模型的参数,最大迭代次数分别设为500、1 000和2 000,Alpha分别设为0.1、0.25和1。对于SVM模型,分别采用不同的核函数,参数gamma采用网格搜索法寻找最优参数。

2 结果与分析

2.1 样本数据统计分析

表1为部分康斯威星乳腺癌数据的统计信息。该数据集有两大类、9个特征,共286个样本。包括类别(class)分别是乳腺癌复发(recurrence-events)和未复发(no-recurrence-events)。年龄(age)有20~29、30~39、40~49、50~59、60~69和70~79六个区间。绝经期(menopause)分为未绝经(prememo)、40岁之后绝经(ge40)和40岁之前绝经(lt40)。肿瘤大小(tumor-size)、淋巴结个数(inv-nodes)、结节冒有无(node-caps)、肿瘤恶性程度(deg-malig)分为1、2、3三种,3代表恶性程度最高。breast分为left和right。breast-quad是所在象限,irradiate是是否有放射性治疗经历。

表1 样本基本统计特征(部分)Tab.1 Statistical characters of samples (parts)

2.2 GBDT分类结果分析

结果表明(表2),训练集中、模型精度由高至低分别为GBDT3 (预测精度=0.99)、GBDT2(预测精度=0.98)和GBDT1(预测精度=0.98)。验证集中、模型精度由高至低分别为GBDT3 (预测精度=0.97)、GBDT1 (预测精度=0.96)和GBDT2 (预测精度=0.95)。

表2 GBDT模型分类精度Tab.2 Classification accuracy of GBDT model

从模型解释度来看,几种模型中,GBDT3模型具有最高的模型解释度,其他模型的训练集精度均低于该模型,且GBDT3模型的验证分类精度为0.97,预测精度也高于其他模型。从模型稳定性角度,GBDT3模型训练集和验证集相差0.02,与GBDT2相同,但优于GBDT1模型。综合而言,GBDT3在该分类问题中的表现最优。

2.3 多层感知机分类结果分析

结果表明(表3),训练集中、模型精度由高至低分别为MLP3 (预测精度=0.99)、MLP2(预测精度=0.98)和MLP1 (预测精度=0.91)。验证集中、预测精度由高至低分别为MLP3(预测精度=0.99)、MLP2(预测精度=0.99)和MLP1(预测精度=0.94)。

从模型解释度来看,几种模型中,MLP3模型具有最高的模型解释度,其他模型的训练集精度均低于该模型,且该模型的预测精度是三种模型中最高的。但是,MLP2的精度几乎与MLP3一致,仅在训练集中略低于MLP3模型。综合而言,MLP3在该分类问题中的表现最优。

表3 MLP模型分类精度Tab.3 Classification accuracy of MLP model

2.4 支持向量机分类结果分析

结果表明(表4),训练集中,模型精度由高至低分别为linear-svm (预测精度=0.99)、rbf-svm (预测精度=0.98)、poly-svm (预测精度=0.97)和sigmoid-svm(预测精度=0.95)。验证集中,模型精度由高至低分别为linear-svm (预测精度=0.98)、rbf-svm (预测精度=0.97)、poly-svm (预测精度=0.96)和sigmoid-svm(预测精度=0.96)。

表4 SVM模型分类精度Tab.4 Classification accuracy of SVM model

从模型解释度来看,几种模型中,GBDT3模型具有最高的模型解释度,其他模型的训练集精度均低于该模型,且GBDT3模型的验证分类精度为0.97,预测精度也高于其他模型。从模型稳定性角度,GBDT3模型训练集和验证集相差0.02,与GBDT2相同,但优于GBDT1模型。综合而言,GBDT3在该分类问题中的表现最优。

2.5 不同机器学习模型最优预测结果比较

表5为GBDT、MLP和SVM三种机器学习模型的最优分类预测模型的结果。结果表明,三种模型对于威斯康星乳腺癌数据集均可获得较好的分类预测结果。训练集中,GBDT3、MLP3和linear-svm的分类精度一致,均可达到0.99。验证集中,模型精度由高至低分别为MLP3、linear-svm和GBDT3。综合而言,几种模型均有较高的预测精度,但是MLP精度更高,所以可以将MLP3模型视为最优的乳腺癌预测模型。

表5 不同机器学习方法预测精度分析Tab.5 Accuracy analysis of different machine learning methods

3 结论与展望

基于梯度提升树、多层感知机和支持向量机三种机器学模型,分析几种不同机器学习模型的预测精度,结论和展望如下:

三种模型在癌症分类问题中均有良好的表现,无论是建模集还是预测集均有较高的预测精度。相较而言,MLP模型预测精度更好,泛化能力更强,且参数方面更为简单。

相较于MLP和SVM模型,GBDT模型参数较多,需要进行调参。综合而言,几种模型在分类算法中均有较好的表现,研究如何使用两种模型共同解决其他分类问题有一定的意义。

在今后的研究中,可以采用网格搜索法对GBDT和MLP进行调参,并将这几种模型用于更多的分类问题,以进行更广泛的研究。

猜你喜欢
机器精度乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
机器狗
机器狗
热连轧机组粗轧机精度控制
超高精度计时器——原子钟
乳腺癌是吃出来的吗
分析误差提精度
胸大更容易得乳腺癌吗
未来机器城
基于DSPIC33F微处理器的采集精度的提高