李慧翔 刘 博
(国网丰宁县供电公司)
在信息时代下,各行各业朝向信息化经营模式发展已经成为必然趋势。其中电力行业通过信息集成系统实现了一站式管理,但其中生成的海量数据无法得到充分利用。如何充分挖掘、有效利用这些数据成为目前行业关注焦点话题。电力管理信息系统运行中生成了大量变电站运行信息、销售数据,通过数据挖掘技术可有效获取其中的隐藏、有价值信息,解决数据分析问题,为用户决策提供信息支撑,保障电网运行可靠性。目前数据挖掘的营销效果评价主要采用决策树算法,直接影响整个信息挖掘与分析系统的性能,因此加强改进决策树的电力营销数据挖掘方法研究有着重要意义。本次设计以C5.0决策树为基础,通过引入信息熵的方案,在保障分类精准性的前期下,提高信息分类时间效率,进一步强化电力营销数据挖掘性能,为电力企业管理决策提供高质量数据支撑。
在信息时代下,电力营销数据分析处理对电力企业决策、发展、规避风险有着重要意义。常见电力营销数据处理分析运算方法包括BP神经网络、云计算以及决策树。目前电力系统数据与营销数据挖掘主要是采用决策树算法,并且在多年发展中决策树算法也在不断更迭,如ID3.0决策树、C4.5决策树等。但这些决策树算法均存在一定弊端。如基于C4.5决策树的电力侧大数据挖掘营销效果评价方法,该方法结合BP神经网络系统,可实现对电力营销数据的快速挖掘功能;再如基于C4.5决策树算法的电力客户欠费风险预测模型,可判断电力客户欠费概率和趋势。虽然这些方法在技术层面上实现了突破,但其决策树算法核心依然是ID3,功能上限较低[1]。而C5.0决策树算法作为C4.5决策树的迭代产品,综合性能更高、可用性更强。
因此,为了快速获取高精度电力营销数据,为用户决策提供信息支撑,加强决策树算法改进研究工作十分必要。通过C5.0决策树对电力营销数据进行深层挖掘、分析,在C5.0决策树基础上引入信息熵实现进一步改进,可有效提升信息分类精度和效率,从而更好的满足电力营销中分类预测需求。
C5.0决策树在ID3核心架构决策树算法的基础上实现了升级,之前的C4.5决策树是一种连续型算法,注重各项属性的关联性,并在ID3决策树基础上新增2个属性,即分离信息、信息增益,有助于搭建多分支决策树。C5.0决策树相对于C4.5决策树在内存管理等方面实现了升级,虽然核心算法相同,但在商业领域可用性更强。C5.0决策树算法的核心就是确定分裂属性。
假设某个训练样本集为S,其中包含了s个样本量、m个不同种类xi(i=1,2,…,m)。S中的某个属性D,其取值范围为[1,k]。Vi表示不同种类xi样本总数。S中D属性不同,可将S分成k个子集。si为上述子集中的第i个子集,i=l,2,…/,k,[si]代表子集si样本数量。以此计算信息增益Gain(S,D)以及信息增益比率GainRatio(S,D)[2]。
式中,E(S,D)为D划分出k个子集熵加权和;I(si,s2,…,sk)为S的熵。
式中,Split_Info(S,D)代表分裂信息项。
在选取分裂属性当中,根据C5.0决策树算法,从多个分裂属性中选择增益比率最高的属性,将该属性定义为分裂属性。确定分裂属性后执行最佳分割点的确定步骤,以核心数据为决策树主干,在决策树主干上生成k个分支。随着信息值增加和更新,最佳分裂属性产生连续变量,通过分箱策略设定划分值,划分值以上的样本数据进行二次划分,直到低于划分值为止。通过循环分裂属性即可生成最终的决策树,代表决策树模型建立完成。
分析C5.0决策树算法原理可知,想要实现该决策树的功能,需要在每个属性节点上急性算法运算,并且要先计算信息增益Gain(S,D),再计算信息增益比率GainRatio(S,D),这样才能够确定分裂属性。整个计算过程需要对数据集S以及子集进行多次运算,虽然可以在一定程度上保证计算精度,但是整个计算流程较长,会耗费较多的时间,如果连续多次运算整体性能不够理想。因此,本文通过引入信息熵改进属性选择方式。假设P为正例属性个数、n为反例属性个数,信息量计算公式为[3]:
由于n、p均为常量,在重复循环中,可通过信息熵选取节点属性,期间减少了子集运算量,整个运算过程结构更加简单,可提高计算效率,特别是在连续计算下,其运算效率作用更加明显。但由于本设计结果并非是精准数值而是约等值,因此相比C5.0决策树算法,改进C5.0决策树算法的分类精度可能会略有下降,但不会对整体性能造成明显负面影响[4]。
在电力企业管理系统(电力营销系统)中融入改进C5.0决策树,以售电量为核心,搭建电力企业各部门数据库表格之间的映射关系,从而形成整个数据模型。如基于销售电统计表,可映射出供电局信息、时间、行业信息、电压等级、电价类别。
基于C5.0决策树的电力营销系统数据挖掘流程为:数据库→数据过滤→训练生成决策树→修建决策树、分类规则库→改进算法数据挖掘→结果输出。
为了检验基于C5.0决策树的电力营销数据挖掘方案性能,对该决策树进行分类方法进行验证和分析。试验硬件为:Inerl core i9 3.2GHz中央处理器、GTX1060@8G显存的显卡(图像处理设备)、16G运存。试验软件为:Windows 10操作系统、MATLAB 8.0仿真软件。
针对C5.0决策树算法性能验证试验,本次采用了UCI机器学习数据集通过分类测试方法对比验证。准备数据集20组,每组120个数据,共计2400个样本。从中2400个样本中挑选1000个样本用作训练样本,剩余1400个样本作为测试样本。每组试验开展10次,去除最高值和最低值,剩余8个测试值取均值为最终数据[5]。
随着测试样本数量逐渐增多,C5.0决策树与改进C5.0决策树的准确率十分相近,在时间分类对比中,随着测试样本数量逐渐增多,改进C5.0决策树分类时间明显有缩短趋势,提高了分类效率。
以某电力企业2021年期间电力营销数据为采样对象,设定电力营销测试数据集,通过改进C5.0决策树进行分析运算。整个数据集中包括同一个地区,不同岗位用户、不同年龄用户的用电样本数据。共有100个样本数据,选择其中50个数据作为训练样本,剩余50个数据作为测试样本。通过将训练样本进行改进C5.0决策树运算,将具有最大信息增益属性值作为决策树的叶节点,循环决策树执行步骤,通过重复运算得出该数据样本中的决策树模型和分类规则,通过测试样本所得到的分类决策树进行模型验证[6]。为了能够更加直观的看到改进C5.0决策树的性能优势,本次试验还同时进行了BP神经网络、ID3.0决策树模型建立,对比分析不同模型分类准确率、分类时间的差异性。见下表。
表 不同分类模型结果对比
通过上表可以看到,改进C5.0决策树在分类准确率、分类时间上均优于ID3.0决策树和BP神经网络,即便是标准的C5.0决策树相比前两者也有明显优势。在分类精准率对比阶段,C5.0决策树算法以87.9%准确率排在首位,第二是改进C5.0决策树以87.0%准确率排在次位,BP神经网络、ID3.0决策树分别以83.9%、79.1%分别排列在第三和第四;在分类效率对比阶段,改进C5.0决策树算法以1.85s的分类时间排在首位,第二是C5.0决策树以2.16s分类时间排在次位,ID3.0决策树、BP神经网络分别以2.33s分类时间、2.69s分类时间分别排列在第三和第四。
综合来看,改进C5.0决策树算法虽然在精度上略低于标准改进C5.0决策树算法,但其分类时间非常短,相比标准改进C5.0决策树算法有明显优势,可以更快的速度完成数据分类,提高了电力营销数据挖掘、处理效率,改进C5.0决策树算法的综合分类性能更强,更适用于电力营销工作需求。
综上所述,由于传统的BP神经网络、ID3.0决策树分类精度较低、分类时间较长,而C5.0决策树算法虽然要比C4.5决策树性能更强,但由于核心架构不变,因此在分类时间上提升不大,影响电力营销数据处理分析效率。基于此,本文提出了一种改进C5.0决策树算法的电力营销数据挖掘技术,以C5.0决策树算法为基础,通过引入信息熵的方式改进属性选择方式,在分类准确率不受较大影响下,有效提升了增益比率计算速度,让分类时间进一步缩短。针对改进C5.0决策树算法性能展开实际测试,改进C5.0决策树算法在分类时间上优于C5.0决策树算法,分类精准性相比C5.0决策树算法下降不到1%,综合性能要强于C5.0决策树算法。相比BP神经网络和ID3.0决策树,无论是分类精准度、分类时间均有明显的优势。