摘 要
结算是根据清单招投标文件、图纸和工程实际,在竣工验收后结合变更、签证等凭证,做出符合实际的审核结果。本文介绍了数据挖掘技的概念,探讨了电网建设项目利用结算数据进行数据挖掘,促进概算编制更加合理。
【关键词】电网建设 竣工结算 数据挖掘 批准概算
合理编制概算能实现成本控制、达到结算较批复概算降低合理的目标。本文探讨了对电网建设项目的竣工结算数据进行数据挖掘,预测概算,促进概算编制合理化,达到结算较概算降低率在合理区间内。
1 数据挖掘概念及方法
1.1 数据挖掘概述
数据挖掘由数据清理、集成、选择、变换、挖掘、模式评估、知识表示等几个步骤组成,通过对大量数据进行提炼、分析与转换,最终获取关键的目标值,其价值在于利用数据挖掘改善预测模型。
1.2 数据挖掘技术
1.2.1 数据分类
通过对样本数据进行分析,确定数据对象的特征,建立合理的分类模型,找出数据对象的共同点,并按分类标准对数据进行分类,常用的分类方法有决策树、统计分析等。
1.2.2 关联分析
关联是指在数据挖掘中找出目标数据的相关关系,其目的是找出每一组数据间隐藏的关联规律,通过置信度、相关系数等参数描述关联性强弱。
1.2.3 聚类分析
聚类分析是将离散、无明显规律数据按一定的规则进行划分,使属于同一类别的数据间的相似性大,不同类别中的数据间的相似性小,发现数据的分布模式及数据属性之间的相互关系,增强了人们对数据的认识能力。
1.2.4 时间序列分析
分析具有时间变化特性的数据集合,挖掘数据变化的规律特征,研究数据序列的周期性、趋势等。
1.2.5 偏差分析
偏差分析是检测数据集中间显著不同于其它数据的对象,寻找观测结果与参照值之间有意义的差别,发现属于背景噪声的数据。偏差分析能发现不满足规则的特例、分类中的反常实例等等。
1.2.6 预测
通过分析数据对象之间的变化规律,建立科学的预测模型,对数据未来变化进行计算分析。常用的预测方法有回归分析、神经网络、模糊逻辑、遗传算法等。
1.3 数据挖掘的一般步骤
数据挖掘的一般过程通常包括3个阶段:数据准备、数据挖掘、结果评价与表达。
数据准备阶段,提取目标数据集,完成数据选择、噪音消除、缺失数据推算、无效数据删除、数据值分类等准备工作,经过预处理数据进行平滑、聚集、概化、规范化、特征构造等方法形成适合数据挖掘的形式。数据挖掘阶段,结合统计分析、决策树、粗糙集、神经网络、遗传算法等常用数据挖掘算法,挖掘数据之间潜在的规律和特征进行建模。结果评价与表达阶段,对模型进行准确性、可理解性、实际性能等进行评估,确定有效模型,利用数据挖掘的结果。
1.4 常用的数据挖掘方法
数据挖掘与统计学、模式识别、数据库和数据仓库、算法、高性能计算等技术相结合形成不同的挖掘技术。常用的数据挖掘技术包括统计分析方法、决策树方法、神经网络方法、模糊逻辑方法、遗传算法、粗糙集方法。
2 基于数据挖掘技术的电网建设结算数据预处理
2.1 结算数据统计、分类
根据地市公司电网建设实际,目前地市供电公司主要负责35kV、110kV和220kV电网建设工程,工程涉及类型较多、数量大。基于决策树方法的结算数据分类模型,能够将大量的结算数据先按照电压等级排列到,然后根据工程类型、建设性质实现逐层划分。
结算数据通过决策树的统计、分类处理,有助于进行有效的样本筛选和分类,准确定位重点分析数据对象的效率,为结算数据分析工作提供全面的数据来源。
2.2 结算数据指标确立
通过对电网建设工程结算数据进行分析,找出对结算数据影响最大的部分指标,构成指标集。
2.2.1 结算数据变化偏差分析
结算变化偏差分析是通过研究多项工程实际结算数据的变化情况,将整体结算费用变化分解为若干指标变化的集合,量化各项指标的变化情况及对整体变化的影响程度。输变电工程结算数据由多个指标在不同程度上反映,各指标之间的相关性很难直观确定,属于高纬度数据,在进行统计分析时具有很大的复杂性。主成分分析法能在尽量减少信息丢失的情况下,对高维数据进行降维,将多项影响指标转化为少数几个关键指标。
2.2.2 数据属性特征选择
(1)变电站工程属性:主变容量、主变台数、各等级电压出线回数、各等级电压出线形式、无功容量、各等级电压母线分段形式、中性点接地方式、短路电流水平、控制电缆长度、电力电缆长度、占地面积、建筑面积、构架形式、各类型场地平整土方量、挡土墙体积、护坡面积、各类地基处理体积等。
(2)架空送电线路工程相属性:单回长度、双回长度、地形系数、导线型号、地线型号、平均档距、各形式基础体积、铁塔数量、接地土石方、各类型跨越情况等。
(3)电缆送电线路工程属性:电缆型号、电缆数量、电缆敷设形式、电缆终端型号、电缆终端数量等。
(4)通信工程属性:光端机设备型号、光端机数量、PCM型号、PCM数量、各型号配线架数量、普通光缆型号、普通光缆数量等。
(5)光缆线路工程属性:光缆型号、光缆长度、地形系数、张力场个数等。
由于大部分与数据挖掘的任务是不相关的,过多的属性将导致数据挖掘过程花费时间长以及计算结果失真,因此首先需要对每种类型工程的属性进行过滤,提高挖掘结果的合理性。对于原始属性中属于同一类性质的属性进行属性转换等方式进行压缩,比如架空送电线路工程中地形属性含有峻岭、山地、丘陵、平地、沼泽、河网等,可以通过各自占比并加权平均来表示。对于属性中非数量的数据需要进行量化处理,在原始数据中如导线型号、光缆型号、电压等级等定性属性,导、地线型号属性以截面积计算,光缆型号属性以芯数考虑。不同的工程类型,取决的属性不存在相关性,不归为一类数据集。电压等级存在三种情况,可设定220kV为1,110kV为2,35kV为3。建设性质存在三种情况,可设定新建为1,扩建为2,改造为3。
2.2.3 数据归一化
采用标准数据格式才能够保证算法的可执行和准确性,因此需对原始数据进行归一化处理,使不同属性值之间具有可比性。
2.2.4 数据去噪
由于电网建设工程本身的特点,积累下来的结算数据记录中存在某些异常,偏离期望值的孤立点,因此必须对这些异常噪声数据进行剔除,一般采用聚类算法对异常数据进行去噪进行训练,否则提取结算数据间的规律将容易导致结果不收敛,模型偏离实际。
3 基于数据挖掘技术的电网建设概算预测
根据结算数据准备、分类、指标建立、数据转换等工作,利用智能算法技术,建立预测模型,将初步设计的新工程的关键指标作为输入量,得到输出概算,为概算编制及评审工作提供参考,促进概算编制更加合理。
对结算数据应用数据挖掘技术,开展电网建设工程概算预测按如下顺序。
结算数据收集、数据分类、数据转换、数据处理、智能算法、模型建立、工程指标、概算预测。
通过分析大量电网建设工程结算数据,挖掘结算变化的内在规律,以结算数据为研究对象,通过统计分析、数据转换、数据去噪等数据预处理技术,结合神经网络技术、模糊数学、遗传算法、支持向量机等预测等方法建立有效的预测模型,对概算进行有效的预测。
4 结论
在电网建设工程的概算预测研究中,由于工程指标多,指标间关系复杂,概算预测比较困难。通过对电网建设工程结算数据进行数据挖掘,将原有指标进行合并降维,得到关键指标,去掉奇异噪声数据,对数据进行清洗,利用智能算法建立预测模型,得出合理的概算,控制工程投资在合理范围内,最终达到结算较概算降低率控制在合理区间内。
参考文献
[1]JiaweiHan,MichelineKamber,JianPei,范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2]王明星,刘锋.数据挖掘常用分类算法研究[J].电脑知识与技术,2013(09):7667-7668.
[3]王东坡.基于数据挖掘技术的水利工程管理[J].吉林水利,2014(06):38-39.
[4]牛东晓,刘金朋,许超晨,张宏运.输变电工程造价管理中的数据挖掘技术应用研究[J].华东电力,2012(04):541-542.
[5]丛珅.浅析基于数据挖掘的数字档案信息管理研究[J].民营科技,2014(01):29-30.
[6]秦莉花,李晟,陈晓阳等.数据挖掘的分类、工具及模型的概述[J].现代计算机,2013(11):20.
[7]王颖.数据挖掘技术在电力线路工程造价管理中的应用研究[D].重庆:重庆大学,2008:8-9.
作者简介
艾涛(1985-),男,硕士研究生学历。现为国网湖北省电力公司黄冈供电公司工程师,从事电网建设技术工作。
作者单位
国网湖北省电力公司黄冈供电公司 湖北省黄冈市 438000