探讨数据挖掘和神经网络技术的电力工程造价应用

2013-05-28 05:28王开才

科学时代·上半月 2013年4期

王开才

【摘要】文章讨论采用神经网络方法和数据挖掘技术来对电力工程造价进行预测及审查。神经网络模糊系统确立电力工程造价的预测方法，数据挖掘技术在属性聚类和优选、数据预处理方面得到规则。通过对实例的分析和计算，在电力工程造价的预测和审查方面，该方法达到突出的效果，同时验证了该方法的收敛性以及预测准确性。

【关键词】预测；电力工程造价；神经网络；数据挖掘

对于以往工程项目造价的预测而言，多数情况下都是依靠经验丰富的工作人员根据实际经验的积累来进行推测和分析的。其实工程造价是一个非线性、多变量的复杂过程。人们从现有的数据中挖掘出隐藏在其中未知的、却是有用的知识和信息，并且将它变成最终能够被人们所理解的模式，这个过程就是数据挖掘。通过极其完善和丰富的连接，大量神经元构成了自适应且非线性的动态系统，该系统就是人工神经网络。其具有良好的非线性映射能力，还具备了传统建模方法所没有的许多优点。通过学习评价结果以及方案，就能够得到隐藏在其中的人的知识经验、直觉思维。当评价时，网络可以对复杂问题做出合理的判断，在线这些直觉思维、知识与经验等。这样，既减少了在评价过程中出现的主管因素影响，又充分地利用了以往工程中的知识和经验。为了证实该方法的可行性和有效性，将人工神经网络与数据挖掘相结合，以电力线路工程多指标相互作用影响造价这一特点为基础，对电力工程造价的问题进行研究。

1数据的预处理

在数据挖掘中，有一项重要的技术便是数据预处理。数据的预处理与数据挖掘过程中的可执行性及其合理的结果之间的关系密不可分。在电力线路中，绝缘子、运距、杆塔、档距、地形、电压的等级等存在的差异都会给工程造价带来多个因素的影响。而且，其影响造价的因素都有子因素，我们将其称之为层次数据仓库，如图所示。对工程以往数据进行预处理时，具体方法有：压缩数据集、平滑噪声数据、填补空缺值等等。这些造价因素不但与数据挖掘的任务没有关系，

还会造成将大量时间浪费在数据挖掘的过程中，这种属性间的重复强化会带来失真的计算结果。我们需要选择适合的属性来减少数据存取的时间，与此同时也极大程度上提高了对挖掘结果的可理解性。我们就来看看现在属性的两个步骤。①对原始数据集进行压缩时采用属性转换及属性归约等方式。例如：采用加权平均的方式将平底、丘陵、一般山地、高山大岭等原统计数据对地形的描述属性转换成为地形系数属性。地形系数的计算方法为：{W1×高山大岭比例+W2×一般山地比例+W3×丘陵比例+W4×平地比例}=地形系数。相关领域的专家可以对公式中的W1，W2，W3，W4对应地形的权系数进行设定。②更深层次的属性优选需要恰当的算法，例如：过滤算法、包装算法等的启发式搜索算法。我们可以采用包装算法按照电力线路工程数据的特点，通过两次实验分别离散化截面和电压作为类别属性，截面和电压是对单位工程造价影响最为明显的两个属性。最终的优选子集可以使用两次实验的交集。

2神经网络和数据挖掘的工程造价预测

针对不同的数据结构和类型，作为对象相似性度量标准，K-means聚类方法选择了不同的距离函数。常用的度量方法是基于欧式距离的度量法。工程造价的模糊规则采用聚类方法进行生成。将具备相似性的工程归纳为一组，相似性不是指绝对数值的大小，二十属性之间相对大小。余弦距离反映出向量内部元素的变化状况以及向量之间的相似关系，所以，作为对象相似度的度量标准来说，选用余弦距离符合实验要求。余弦距离的度量形式为，，公式中的和为、的第个属性。选择聚类数目在聚类分析中也是关键，它需要考虑到系统的复杂度和精度。选择适合的聚类数目时，要依据指标所减小的程度，通过观测平方误差和的变化来逐步改变聚类数目。选择2为聚类数目，能使模型的精度得以提高，并使系统保持一定的精度且不过于复杂。

在实际的问题中，输入划分输入空间为非线性的，要使模糊规则数量急剧上升，就需要对细致划分输入空间。因此，以神经网络的模糊系统模型为基础，通过模糊系统训练得到多维的非线性的隶属度函数是该模型的思想。将样本用聚类方式分组，每组都是一条模糊规则。各个样本通过模糊BP网络训练，对于规则的适应度函数进行各类输入、输出神经网络分别训练，最后在系统的输出中合成各网络的输出。

BP算法存在一些缺陷：对已学习完成的样本而言，新加入的样本会对其产生影响；往往需要依靠经验来选取连接权初值和网络隐层神经元数目；能量函数存在局部极小值；反向传播算法需要成千上万次的迭代计算，其收敛的速度较慢。为了弥补上述不足，可以采用计算精度高、收敛速度快的Levenberg-Marquardt规则算法来进行对前向网络的训练。Levenberg-Marquardt算法步骤为：选取初始权值；将样本指标信息输入所有样本，包括：a.对隐节点输出的计算。b.对输出节点输出进行计算。c.对期望输出与所有样本实际输出的误差之和进行计算；如果误差没有达到期望误差，标量增加，且向增大方向。如果误差没有达到期望值，则标量减小，且向减小的方向。

3分析实例

我们分析了实际线路，来验证模型的计算精度以及可靠性。训练两个BP网络，并且将每组中的数据分为测试集和训练集。通过实验的结果我们可以得出：经过改进的BP算法比传统的BP算法更具良好的收敛性。预测值与改进后的BP算法实际值估算误差比较，负值为预测值小于实际值，正值为预测值大于实际值，如表所示。由此得知，通过改进后，神经网络在对各项造价指标的估算上，已达到较高的精度。尤其是单位静态投资，结果很令人满意，最小误差绝对值为百分之1.15，而最大误差的绝对值为百分之3.46。说明在对于送电线路工程造价的快速估算中，运用改进后的神经网络模型的效果非常好，该神经网络具备较高泛化能力。工程预算的快速审查也可运用该

模型。对比设计预算书，把神经网络的快速造价估算值设置为基准值，对各个单位工程造价的预算准确性进行判断，可实现审查目的。通过审查结果得出，工程单位公里造价、杆塔工程、基础工程、土石方工程、预算的工地运输的造价较为准确。

4结束语

文中探讨神经网络技术和数据挖掘在电力工程造价预测中的应用，利用模糊神经网络建立工程造价模型，对原始数据利用数据挖掘技术进行预处理，得到了适合的数据格式及规模。神经网络技术和数据挖掘在电力工程造价中的应用使评价的结果更客观、更有效，且减小了工程项目审查、预算过程中人为因素的片面性和主观性。

参考文献：

[1]杜尔登，郭迎庆，孙悦，高乃云，王利平.三维荧光结合自组织映射神经网络考察自来水厂有机物去除效果[J].光谱学与光谱分析，2012（7）.

[2]孙宇，曾卫东，赵永庆，张学敏，马雄，韩远飞.基于BP神经网络的置氢TC21合金力学性能预测[J].稀有金属材料与工程，2012（6）.