人工智能

2020-02-29 10:39袁志聪
科技创新与应用 2020年6期
关键词:随机森林决策树

袁志聪

摘  要:文章深入简出的介绍了随机森林体系这一比较常用的人工智能算法,分别从其算法原理进行介绍,列举其决策树的运用技巧以及应用场景。对随机森林技术目前存在的优点以及缺点和现今主流的算法进行对比分析,并着重介绍了其未来应用的构思以及改进空间。同时将随机森林技术运用到电力稽查中的表现,详细分析了其在电力稽查中的运用成果,随机森林体系在电力稽查规则识别以及归类异常问题中有比较突出的表现成果。

关键词:随机森林;决策树;训练样本

中图分类号:TP18        文献标志码:A         文章编号:2095-2945(2020)06-0151-02

Abstract: This paper gives an in-depth and brief introduction of the random forest system, which is a commonly used artificial intelligence algorithm, introduces its algorithm principle respectively, and enumerates the application skills and application scenarios of its decision tree. This paper makes a comparative analysis of the advantages and disadvantages of random forest technology and the current mainstream algorithms, and focuses on the conception of its future application and the space for improvement. At the same time, the random forest technology is applied to electric power inspection, and its application results in electric power inspection are analyzed in detail. Random forest system has more outstanding results in electric power inspection rule identification and classification abnormal problems.

Keywords: random forest; decision tree; training sample

1 概述

随机森林决策树结构是一种用算法进行建模,并且利用枝叶之前的投票进行决策分析。树上每个节点代表一个输入变量(x)与一个基于该变量的分离点(假定这个变量是数字)。叶节点包含了用于预测的输出变量(y)。预测是通过遍历树的分离点开始,直到抵达每一个叶节点,并输出该叶节点的分类值。

决策树算法学习起来很快,预测速度也很快。决策树对于各种各样的问题都能做出准确的预测,并且无需对数据做任何特殊的预处理。

2 算法原理

它的应用原理是根据决策树的算法,然后通过拟合算法,将分散的决策树进行整合,每棵树都是建立在独立抽取样本上的,随机森林中树的类别分布具有共同性,类别的区分来自于单体数的类别区分能力和與之配合的相关性。特征区分用到的算法基础为随机的节点自由组合。单一树的个体能力很小,与随机不规则的大量树体进行融合后,能够通过分类结果进行统计后的运算。随机森林的机器模型运用决策树的随机组合来达到算法目的。决策树是一个分层选择的类型结构。每个点面节点所描述的特征与点边所描述的特征有不同差异。每个点边分类特征代表其在这个区域坐标上的贡献值,每个点边为一个根目录。随机森林算法的运用和决策的流程从根目录开始进行运算,匹配每个子目录的运算值,直到每一个子目录的点值都能够作为最后的变量输出结果。

3 随机森林模型的优缺点

随机森林的优点有:(1)随机森林模型的学习速度是非常迅速的。(2)随机森林模型在产生一定误差时,可以继续根据内部调整完成不偏差的结果输出。(3)可以检测variable interactions。(4)在分类类别时,能够出色的完成归类选择。(5)运用模型中的决策树结构能够计算亲进度,对图像识别,视角识别,残差分析有关键作用。(6)随机森林模型能够运用在检测普通基准误差模型上。

缺点:(1)随机森林模型被证明在某些误差较大,识别不明显的分类或者问题上会产生过拟行为。(2)对于分类类别超出阈值,而且明细划分并不明显的数据,随机森林模型并不能够快速分辨出值的对错。

随机森林算法拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。那么随之而来有几个问题是需要明确的:

(1)为什么要随机抽样训练集?如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的,这样的话完全没有bagging的必要;

(2)为什么要有放回地抽样?按照目前的大部分数据显示:举个例子,如果不是这种形式的放回抽样,根据我们过往的实践经验,这样是毫无意义的,这样每棵树都是“有偏的”,都是绝对“片面的”,也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是“求同”,因此使用完全不同的训练集来训练每棵树对最终分类结果是没有帮助的,这样无异于是“盲人摸象”。

如果每个样本的特征维度为M,指定一个常数m<

每棵树都有自己的生长周期,并且没有能够进行分割的树枝一开始我们提到的随机森林中的“随机”就是指的这里的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并且具有很好的抗噪能力(比如:对缺省值不敏感)。

4 随机森林在电力稽查中的应用

4.1 随机森林模型电力特征分析

(1)群组1(聚类号为0)特征分析

由图1可以看出,对于群组1,平均异常数主要集中在0~40左右,反映该类异常出现次数较小;平均异常斜率集中在-5~-1,反映异常数逐渐下降,管理水平在提升;异常频度集中在0.01%~0.03%之间,反映该类异常出现几率很小。

该类异常在不同用电类别的分布情况如下:

由图1,说明该类异常主要集中在商业,约占65%。从图1可以看出,主要异常点集中在商业,说明商业用电这部分异常内容具有非正常性,并且明显具有不正常的异常特征基因。

(2)群组2(聚类号为1)特征分析

三个特征变量的频率密度图如下:

由图2可以看出,对于群组2,平均异常数主要集中在20~60左右,反映该类异常出现次数较高;平均异常斜率集中在2~6,反映异常数逐渐上升,管理不力;异常频度集中在6%~12%之间,反映该类异常出现几率很高。

(3)群组2(聚类号为1)特征分析

(4)群组3(聚类号为2)特征分析

(5)群组4(聚类号为3)特征分析

(6)群组5(聚类号为4)特征分析

4.2 随机森林模型专家系统

专家系统是一个智能计算机程序系统,通过大量获取数据端采集数据,然后根据机器学习模型,不断升级优化系统所具有的模型,通过学习模型累计不同端的算法操作以及人工经验,不断更新模型,达到拟人化的操作知识水平。 所以这方面的应用就可以利用到随机森林决策树方面的决策能力,把有需求的知识进行决策树分辨,分类成不同的根目录,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题,简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

4.3 随机森林模型与知识图谱结合的运用

运用随机森林模型具有的決策树功能,与知识图谱相结合,产生新的智能稽查模式,在现有稽查创新的探索基础上进行深化应用,将稽查线索采用知识图谱的技术构建稽查知识图谱库,通过图谱方式对稽查样本的多发问题进行全息展现,深度扩线分组,进行对多发问题的根源分析,从而建立起稽查专业的第一个专业知识图谱,实现智能精准稽查。并且运用不断优化的模型系统,全息展示知识图谱的关联构造。

在现有稽查创新的探索基础上进行深化应用,将稽查线索运用随机森林模型进行识别分类,然后通过决策树结构进行深层次的取样识别验证,采用知识图谱的技术构建稽查知识图谱库,通过图谱方式对稽查样本的多发问题进行全息展现,深度扩线分组,进行对多发问题的根源分析,从而建立起稽查专业的第一个专业知识图谱,实现智能精准稽查。

5 结束语

随机森林作为一种快捷有效的机器学习方法,在回归和决策方面起到了强大的作用。其对噪声不敏感,具有较好的容噪能力的特点能够在目前机器学习的数据识别中有很好的引用效果,但它的缺点同样明显,需要我们在不断的实践中进行技术改进以及难题功课,随机森林的机器学习方法会在未来人工智能领域创造其用处。

参考文献:

[1]孙明喆,毕瑶家,孙驰.改进随机森林算法综述[J].现代信息科技,2019,3(20):28-30.

[2]吴青衡.基于大数据时代视角下人工智能实践[J].电子技术与软件工程,2019(01):243.

[3]何晓露.大数据时代的人工智能范式探讨[J].通讯世界,2018(10):14.

猜你喜欢
随机森林决策树
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
决策树学习的剪枝方法
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
决策树在施工项目管理中的应用