基于集成式人工智能算法的分类预测

2020-10-21 04:49徐勇
科学导报·学术 2020年26期
关键词:人工智能

徐勇

摘 要:本文将集成式人工智能算法——梯度提升树算法应用到了特征信息有缺失的带标签样本的分类预测中,通过和其它分类算法比较看出集成式算法在准确度和ROC、AUC等分类性能指标上有着明显的优势。

关键词:人工智能;集成式;分类预测

一、引言

近些年,人工智能技术因所依赖的硬件环境的改善得到了更为广泛的应用。概括地说,人工智能技术是利用计算机软硬件通过程序设计来实现人类智能的技术科学。从应用领域的角度来讲,人工智能技术又可以大致分为模式识别、机器学习、智能算法和数据挖掘等方面。本文关注的就是利用数据挖掘中的集成式算法对样本数据实现分类预测。

集成式的数据挖掘算法比较多。所谓集成是指将多个同类算法进行有机结合实现联合决策的过程。比较经典随机森林算法就是通过随机组合将多课决策树联合通过投票的方式确定样本的类别。以此为基础发展得到一些诸如AdaBoost,GBDT(Gradient Boosting Decision Tree)等集成式算法,尤其是GBDT算法,作为一种迭代的决策树算法,联合多课决策树通过迭代的过程对历次预测产生的残差进行拟合以达到较高的训练精度。它和支持向量机都被认为是泛化能力较强的样本分类算法。本文也将通过实例比较二者的分类性能。

二、基于集成式人工智能算法GBDT的分类预测

以一个确定的带标签的数据集为例。这里选取记录了泰坦尼克号沉没事件中的乘客身份信息以及最终幸存与否的数据表。根据历史记录,泰坦尼克号上共计1316位乘客。每位乘客均带有年龄,性别,座号等信息。另外用标签0标注乘客死亡,1标注乘客生还。这样就个构成了一个包含1316条样本的數据表。表一呈现了部分乘客的信息。可以注意到每位乘客包含座位等级,姓名,年龄,性别等十个特征信息。而“survived”则是幸存与否,用0和1区别。因年代原因不少信息都是残缺的,只能用“NaN”来记录,在实际数据分析中,我们采用该特征的其它记录值的均值来代替这些缺失值。现在目的则是利用集成式的人工智能算法GBDT、随机森林和公认分类学习能力比较出色的支持向量机(SVC)来学习这些样本的信息,从而训练出预测模型。

根据预测模型的构建原理,我们将1316条数据分为训练集和测试集。训练集顾名思义是用于让算法学习数据训练模型的,而测试集则是检验模型的性能。为比较公平,三种分类算法不指定参数,均采用默认设置以让算法自动充分地学习训练集数据。考虑到这些算法在学习数据时某些环节的随机性,我们对每个算法均运行50次,通过平均性能,包括平均准确率、平均AUC等值反映三种算法的性能。

三、模型性能的比较

首先通过比较直观的ROC曲线图反映一次学习后三种算法的性能比较。ROC曲线图的出现是为了解决仅通过模型对测试集样本预测的准确率来反映模型性能不够科学的问题,尤其是在不平衡的数据集中。例如若测试集由199个正类和1个负类样本组成,则即使不用分类算法直接把所有样本都预测为正类,准确率也非常高。所以准确率不足以反映模型的性能,这时需要正类样本被正确归类(真的正类)的比例tpr和正类样本被错误归类(假的正类)的比例fpr来综合反映模型性能。ROC曲线正是反映了tpr和fpr随着算法阈值变化的曲线图。图1是此次预测的ROC曲线图。图中按图例表示的不同形状的曲线是此次预测的三种算法的ROC曲线,它代表模型对正类样本正确分类的比率(tpr)和对正类样本错分的比率(fpr)。在以fpr为横轴tpr为纵轴的ROC曲线图里,显然曲线越靠近左上角表明性能越好。

从图1可以看出整体而言,在不同的阈值下,GBDT算法的整体的性能更好,总体上其ROC曲线是位于其它两种算法之上的。相对而言在阈值较小时,支持向量机SVC性能比拟于GBDT而优于随机森林RF,在阈值较大时,三种算法的性能几乎没有差别。但这仅仅是对测试集一次预测的性能比较,考虑到切分数据集的随机性,这还不够全面。所以我们对每种算法实施50轮预测,对50次预测的准确率和ROC曲线的线下面积AUC都取均值来比较三种算法的预测性能。平均准确率具体结果随机森林,GBDT和SVC分别为0.815,0.824和0.809。结果显示就平均准确率而言,GBDT最优,随机森林次之,SVC稍稍落后。ROC线下面积AUC的具体结果随机森林,GBDT和SVC分别为0.816,0.838和0.822。结果显示就平均AUC而言GBDT最优,SVC次之而随机森林稍稍落后。考虑到数据表本身很多数据都是缺失的,这些算法的准确率和对正负类样本分别正确判断的能力都是令人满意的。

参考文献

[1] 结合随机森林面向对象的森林资源分类 王猛等 测绘学报 2020 第49卷 第2期 P235-244

[2] 采用单类随机森林的异常检测方法及应用 张西宁等 西安交通大学学报 2020 第2期 P1-8

[3] 面向高维特征和多分类的分布式梯度提升树 江佳伟等 软件学报 2019 第30卷 第3期 P784-798

[4] 基于梯度提升树的飞机机身对接状态识别 蔡畅等 浙江大学学报(工学版)2019 第7期 P1274-1281

[5] 定点孪生支持向量机 刘峤等 控制与决策 2020 第35卷 第2期 P272-284

[6] 基于支持向量机的线化简方法 段佩祥等 武汉大学学报(信息科学版) 2020第5期 P744-752

猜你喜欢
人工智能
人工智能AI
人工智能
人工智能之父
2019:人工智能
人工智能
人工智能与就业
China’s Artificial Intelligence Revolution
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!