吴海洋 缪巍巍 郭 波 丁士长
(国网江苏省电力公司信息通信分公司 南京 210024)
随着我国智能电网规模的持续扩展,作为承载经营管理和生产调度业务的电力通信网络,其通信设备数量和网络覆盖范围都得到了快速增长,电力通信作为电网综合服务基础支撑的作用愈发凸显。因此,进一步提升电力通信网络的运维水平和保障质量,对于电力通信网以及智能电网的安全运行至关重要[1~2]。
当前,电力通信网络的运维主要还是针对通信设备的实时告警信息进行故障的事后处置,这种被动响应式的运维模式已远远无法满足通信网络在线、智能的创新发展需要,难以有效支撑和促进智能电网的蓬勃发展。为提高通信生产运行维护效率,实现电力通信网络的精益化管理,有必要借助信息化手段,综合历史缺陷与检修、当前性能值与状态值等海量历史和实时数据,利用数据挖掘技术实现基于运行状态的通信设备寿命预测分析,为通信网络提供主动维护技术手段,解决运维人员短缺与网络覆盖范围和设备数量不断扩大的问题。
通过多种数据挖掘技术进行设备运行状态的预测分析已成为网络运维研究的发展趋势。决策树学习算法具有分类速度快、算法实现简单等优点,已成为最广泛的状态预测算法之一。然而在实际应用场景中,经典决策树学习算法存在着诸如内在多值偏向、计算效率低下等不足之处,需要进一步改进决策树学习算法,使其能够更适应电力通信网络的实际应用要求[3~6]。本文在对 ID3 决策树算法深入研究的基础上,借助粗糙集理论对决策表属性进行约简、求核、泛化等处理,进而构造出简洁、高效的多变量决策树,从而可以有效避免ID3 算法决策树存在的先天缺陷,有效降低了计算复杂度,提高了预测分析效率,具有较大的实用价值和应用前景。
作为数据挖掘分支中最常用的一种经典算法,决策树学习算法通常用于对未知数据进行分类和预测。自20 世纪60 年代以来,决策树学习在规则提取、数据分类、预测分析等领域有着广泛应用,特别是J.R.Quinlan在引入基于香农的信息论中熵的概念后,提出的ID3(Iterative Dichotomiser 3)算法,因其简洁、高效的决策选择过程使得决策树学习算法在不同新兴应用领域得到了持续应用及巨大发展[7~9]。
在ID3 决策树算法中不需要重复遍历已选的测试属性,而是采用了贪婪算法和深度优先策略自顶向下的搜索遍历所有的测试属性,从而构造出整个决策树。其核心思想是在决策树的各层级节点选择上,以最大信息熵降作为当前节点测试属性的划分标准,即当节点上如果有尚未被划分的、具有最高信息增益的测试属性,则将其作为划分标准。通过不断的搜索遍历,直到获取能够完美分类训练样例的决策树[10~15]。其主要算法如下。
设样本数据集合S,其可划分为不同类别Ci(i=1,2,…,n),其中si为类别Ci的样本数量,则集合S划分为n个类别对应的信息熵为
式(1)中,pi表示集合S 中属于第i 类别Ci的概率,即
假定测试属性A 中所有互斥值的集合为XA,Sν为样本数据集合 S 中由测试属性 A 为 v 的样本子集,即Sν={s∈S|As=ν},在选择测试属性A 后的每一个分枝节点上,对该节点的样本集Sν分类的熵为H(Sν)。选择测试属性A 导致的信息熵定义为每个子集Sν熵的加权平均值,权值为属于Sν的样本占原始样本S的比例由于已知测试属性A而得到的信息熵为
式(2)中,H(Sν)为样本子集Sν的信息熵。
测试属性A 对于数据集合S 的信息增益Gain(S,V)为
Gain(S,V)是指已知测试属性A 值后所导致的信息熵期望值的减少量。若Gain(S,V)值越大,则说明测试属性A 的选择对样本数据集的分类可提供的信息量越大,其分类效果也会越好。
与其他统计模型、神经网络、遗传算法等分类算法相比,ID3 决策树学习算法以实例为基础进行归纳学习,具有实现简单直观、分类速度快、平均深度最小等特点。但同时也存在着生成树效率较低、内在多值偏置、只能检验单一属性等不足。在电力通信网络中,不同通信设备之间的运行状态值可能会存在着强相关性或弱相关性,同时网络拓扑结构比较复杂,因此针对电力通信网络实际的运维管理需要,本文尝试对传统算法进行改进,将其运用到电力通信设备的状态预测分析中,从而为电力通信网络的运行维护提供一种事前状态的预测方法。
针对ID3 决策树学习算法存在的缺陷,本文尝试利用粗糙集理论对传统算法进行改进,即将最小粗糙度作为决策树分枝的校验属性,通过对决策表的一系列处理过程,最终构造出电力通信设备状态预测决策树。
定义一个决策表信息系统S=(U,R,V,F),其中论域U 为一个非空有限对象的集合,R 为所有属性集合,可分为测试属性集A 和决策属性集D,即是属性R 的值域,信息函数F:U×R→V。
在传统算法中一般采用递归方式构造出决策树,本文提出的改进决策树算法则从测试属性集A相对决策属性集D的核开始,逐步构建出整个决策树。其主要算法过程如下:
1)根据样本数据集构造出决策表。
2)计算测试属性集A 相对决策属性集D 的核,记为careD={a1,a2,…,ak} ,若careD=∅ ,则转到步骤3,否则到步骤4)。
3)采用ID3 决策树算法,选择一个最佳属性,以此作为该节点的检验属性。
4)给出合取范式形式P=a1∧a2∧…∧ak,计算P相对决策属性D的泛化GEND(P),并将其作为决策树根节点的检验属性。
5)在当前样本数据集中计算剩下的条件属性集合A/careD(A)A中每个属性对决策属性集D的粗糙度,从中选择出粗糙度最小的属性作为该结点检验属性的最优解。其粗糙度计算公式如下:
利用粗糙度计算方法对传统的ID3 决策树学习算法进行改进,将原来信息熵降替换成最小粗糙度来确定分类的检验属性,有效增强了不同属性之间的结构关联,改善了生成的决策树结构。
因此,在电力通信设备运行状态属性取值之间关联度较强,无冲突数据的状态预测分析时,运用改进的决策树算法可以得到更优化的解,且计算工作量相对较小。
为对电力通信设备的未来状态进行事前评判,在构造用于预测分析的决策树时,需要尽可能收集设备相关的样本数据以供学习。如图1 所示,与通信设备运行状态有相关性的信息包括设备的履历信息、设备的检修信息、设备的缺陷信息等,通过数据抽取、清洗后存放到数据库中,以便后续对这些信息进行数据挖掘。
本文通过对电力通信设备的历史运行与维护信息进行抽取,挖掘设备异常情况下的特征值,分析设备的关联参数值以及它们之间的相关性,结合当前实时监测采集到的设备运行数据,对可能存在的故障隐患进行预测与判断,最终提供给运维人员进行事前检修。
图1 数据来源与处理示意图
电力通信网络作为一种复杂系统,其设备自身的特征值(如光功率、抖动、飘移、误码率、误码秒、信噪比等),以及运行环境的特征值(如机房温度、机房供电等)对通信设备的运行状态有着或多或少的影响。通过数据挖掘与分析,构建出多变量数的预测分析决策树,当设备的运行状态值有逼近标准定义异常状态的趋势时,则可对潜在故障或隐患实现事前预测。
首先,依据收集的电力通信设备相关运行状态的试验数据样本,利用改进的决策树算法构建决策表,如表1所示。
1.2.1 分组 采用随机数字法将90例拟行无痛分娩产妇均分为3组,A组采用生理盐水复合0.10%罗哌卡因硬膜外麻醉、B组采用0.25 mg/L舒芬太尼0.1 mL复合0.10%罗哌卡因5 mL硬膜外麻醉、C组采用0.50 mg/L舒芬太尼0.1 mL复合0.10%罗哌卡因5 mL硬膜外麻醉。
表1 通信设备状态对应的决策表
其中,论域U 对应于收集到的试验数据样本集合为{1,2,…,8}。测试属性A 对应于试验数据样本中的 7 类测试特征集合为{A1,A2,…,A7}。决策属性D 对应的试验数据样本异常类型集合为{Ⅰ,Ⅱ,…,Ⅷ}。
其次,计算测试属性A 对应的决策属性D 的核。定义posIND(A)(D)={1,2,3,4,5,6,7,8}=U。
1)判断测试属性Ai(i=1,2,…,7)在测试属性A 中 对 于 决 策 属 性 D 的 重 要 性 。 若posIND(A-Ai)(D)=posIND(A)(D),则表示该Ai为非必要的,否则表示该Ai为必要的。
2)根据表1计算得知,A2,A3,A4,A5在测试属性A 中对于决策属性D 是非必要的,而A1,A6,A7在测试属性A 中对于决策属性D 是必要的。即coreD(A)={A1,A6,A7} 。
然后,设定合取范式形式P=A1∧A6∧A7,计算出P 对决策属性D 的泛化在论域U 上的等价类划 分 ,可 以 得 到U/IND(P)={{1},{3},{4},{5},{7},{8},{2,6}}。由于构成的泛化GEND(P)将测试属性A 和决策属性D 可划分成惟一的等价映射关系,因此可将GEND(P)作为本决策树的根节点。
表2 决策属性D′的粗糙表
由表2 可知,最小粗糙度为ρA3(X)=ρA5(X)=1,因此测试属性A3和A5可作为D′的校验属性。
以粗糙度最小的属性作为判定依据,不断从剩余的测试属性集中筛选出各层级节点的校验属性,最终可得到的基于改进决策树结构如图2所示。
图2 基于改进决策树的结构图
利用粗糙度的计算进而确定分类检验属性的方法有效改进了传统决策树学习算法的不足,能够对数据不确实、多变量以及数据不完整等分类问题给予妥善处置,优化和简化了决策树结构。
电力通信网络中设备运行状态异常的表现多种各样,其发生机理也是复杂多变,本文提出的改进决策树可从样本数据中学习规则,具有自组织和自适应性。随着实际环境中运行状态信息的不断收集,使得可用的样本数据不断增多,错误样本将逐渐“淹没”在海量的正确样本中,使得决策树的构建越来越准确。同时,粗糙集理论的引入,能够较好地处理实际生产环境中获取的连续量、数值量等不同特征值的样本数据,实现了一种简略、快捷的预测分析分类方法。
本文提出的改进决策树算法对电力通信设备状态的预测分析具有一定的借鉴意义,其实用性需要建立在海量、完备的样本数据基础上,通过自学习不断修正自身的判定规则,使得预测分析决策树不断趋于真实表现。后续工作中,将加大运行状态数据采集的范围与深度,从而使得改进算法对设备状态预测分析更具可行性。