任宇轩
摘要:飞机缺材是航材保障部门亟需解决的问题,基于缺材风险现状,提出了一种基于随机森林的分类器,其由多个决策树组成,根据学习结果在之后的学习中选择区分度更高的决策树。最后通过实例验证表明该方法具有一定的可信度。
關键字:随机森林 缺材停飞 风险管理
1 引言
航材保障工作是为飞机提供维修、更换所需器材,而缺材停飞是指飞机因缺航材导致无法执行飞行任务的情况,是航材部门最需要避免的问题。在对缺材停飞进行风险管理中,合理的利用保障数据进行分析十分重要。而缺材停飞属于小概率事件,对于保障数据而言缺材数据样本规模极小,对其进行分析属于处理不平衡数据样本集,容易发生样本集内正样本与负样本比例极不平衡,对这类样本集进行数据分析会导致结果出现偏差,算法会使得分类结果偏向于样本容量大的一类,如何解决不平衡样本集对数据分析结果带来的影响是当前的热点研究方向。
2 基于随机森林的分类器设计
代价敏感的随机森林可以较好的处理不平衡数据同时能够避开过拟合问题,但是代价函数构建的不准确,则达不到处理不平衡数据的目的。传统代价函数的构造没有考虑数据集的实际分布,且采用欧式距离计算样本距离,而特征空间中所有特征的重要性不同,并且同一特征对不同类别的重要性也不同,仅仅计算欧式距离对重要特征不公平,构造的代价函数不准确,导致分类器的整体性能较差。由于随机森林在选择训练样本、特征子空间过程中引入了随机性,导致了基分类器在处理不平衡数据时的性能差异,而传统随机森林算法在最终决策阶段采取平等投票,平等投票会影响分类器的整体性能。
本文根据样本实际分布构造代价因子,将权重距离引入代价函数的计算过程。详细步骤如下:
一是分别计算每个特征列的平均值作为两类数据的数据中心。
二是计算各类别中心到整个数据集中心的权重距离。在数据集中,重要特征相对较少,计算类别中心到整个数据集中心的欧式距离构造代价对重要特征不公平,本算法引入权重距离,利用信息增益衡量每个属性在多数类与少数类中的重要性。
第三步,设多数类 ,少数类 ,其中样本数分别为 ,能够定义 系数如下:
3 实例验证
利用某保障单位数据对随机森林分类器,代价敏感随机森林分类器与决策树算法进行比较。将代价敏感的随机森林算法与普通随机森林算法结果相比较,0表示未发生缺材,1表示发生缺材。下表中1/0表示实际为1算法分类结果为0,以此类推,实验结果如下表。
4 结语
类别分布不平衡的问题给现有算法的分类带来了困难,这是由于现有算法基于类别平衡假设,导致少数类被正确分类的比重较低。基于代价敏感的随机森林算法对于不平衡数据分析有较好的效果,在缺材风险管理中具有一定的现实意义。
参考文献
[1]高聪. 基于随机森林的不平衡大数据分类算法研究[D].东北电力大学,2018.
[2]曹鹏. 不均衡数据分类方法的研究[D].东北大学,2014.
[3]杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.基于代价敏感的随机森林不平衡数据分类算法[J].科学技术与工程,2018,18(06):285-290.