基于高斯分布模型的数据去噪算法

2015-05-30 16:27刘涛高慧
中国新通信 2015年17期
关键词:数据分布高斯分布数据挖掘

刘涛 高慧

【摘要】 为了预测未来某时刻风力发电功率的情况,论文提出了一种高斯分布模型,并以此模型为基础利用高斯分布的特点对每一区域进行去噪处理,进而拟合出一条合适的预测曲线。通过对实验数据的分析验证了高斯分布模型的可行性。

【关键词】 高斯分布 去噪

数据预处理是指在主要的处理以前对数据进行的一些处理。现实世界中的数据大体上都是不完整、不一致的噪声数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据规约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

论文主要采用了一种新型的基于正态分布模型的去噪方法,在数据挖掘前进行预处理,使数据挖掘得到的效果更加令人满意。

一、改进的数据去噪算法

目前的数据去噪算法有很多种,例如K-近临点云去噪算法、散乱点云去噪算法、基于几何关系的数据点云去噪算法等等,但是各种各样的数据去噪算法都存在着一定的问题。

本文所采用的方法是基于高斯分布模型的数据去噪算法,在研究原有算法的基础上加以分析,进一步优化数据去噪算法,弥补了多种去噪算法的缺点,进而更好的进行去噪处理,得到理想的结果。

1.1算法基本思想

通过高斯分布模型对整体数据进行收缩进而求得数据分布的中心点,直到中心点小于某一误差。每一步用正态分布去拟合,求得方差,按比例去掉方差之外的点,直至收敛。

1.2算法具体内容

A、将原始数据在X轴上分成N等份区间,对于每一个区间内的数据分布都看成是一个正态分布模型,然后求出正态分布的均值μ和标准差σ。由于有大量噪声数据的影响,所以之前求出的均值μ和标准差σ并不是最准确最理想的数值,进而对剩下的数据进行迭代操作。

σ越大,数据分布越分散,σ越小,数据分布越集中在μ附近。对每个区间的数据进行有限次迭代直至σ逐渐趋向收敛。

B、对每个区间进行完如上操作之后,根据数据挖掘需求者的误差允许范围设置一个理想的误差参数,使得到的数据都处于理想误差范围之内。

初始化理想的误差参数为m%,对每个区间随机取样20个数据,将这20个随机样本看作是一个小的正态分布模型,进行同样的操作求出随机样本的均值μi和标准差σi。将随机样本的均值μi和标准差σi和整个区间的均值μ和标准差σ进行比较,若误差在m%以为,则本区间去噪成功,若误差在m%以外,则对本区间的所有数据继续进行迭代操作,直至误差范围在m%以内或者达到设定的最大迭代次数为止。

C、最后将所有区间的数据处理完之后利用matlab拟合出一条分布曲线,求出数据分布曲线的函数,然后对数据进行进一步分析处理,通过求得的分布函数进行风力发电预测。

二、风力发电预测问题

本文主要针对风电预测问题进行分析,并应用实例分析去噪算法,进而对结果加以分析,从而验证算法的可行性。

根据电力调度部门的安排,风电功率预测分为日前预测和实时预测。

实例:某风电场由N台风电机组构成,每台机组的额定输出功率固定。附件中给出了2006年6月10日至2013年8月15日时间段内该风电场中指定的风电机组输出功率数据记为W,另有测得实时的风速为V,表中仅列出其中一部分数据,请利用Matlab程序拟合出风速与功率之间的关系。由于测得数据量较大,下面仅给出原始数据分布图。

三、基于改进的数据去噪算法的实验研究

风力发电原始数据分布图如图1所示:

首先根据改进算法的第一步对原始数据进行处理,将X轴分成N等份,然后对每个区间的数据进行预处理求得均值和方差,将误差之外的噪声点全部删除,最后将得到的处理后的数据导入Matlab中进行曲线拟合,进而对发电功率进行实时预测,处理后的数据拟合曲线效果图如图2所示:

利用三次方的高斯公式拟合得到预测函数:

f(x) =a1*exp(-((x-b1)/c1)^2) + a2*exp(-((x-b2)/c2)^2)+a3*exp(-((x-b3)/c3)^2)

a1 = 1450 b1 = 22.27 c1 = 6.832 a2 = 6.371e+005 b2 = 15.24

c2 = 7.614e-005 a3 = 1181 b3 = 12.96 c3 = 5.477

通过随机取样验证了模型的可行性和合理性。

四、总结

本论文提出的正态分布模型通过简单的区间划分和数据迭代,对原始数据进行了预处理,去除了对数据挖掘有影响的噪声数据,进而使得数据挖掘的精确性更高,得到的数据更有价值性。实验通过正反对比检验,验证了模型的可行性及正确性。最后通过matlab拟合得到预测函数,从而可以对未来某一时刻的风力发电功率进行精确预测。这一模型不仅可以用于本实验的数据,对于大多数数据分布集中且有线性规律的数据都可以应用。同时该模型更是为以后数据挖掘预处理提供了一种好的思想,会在未来更好的发展利用。

参 考 文 献

[1] 董明晓,郑康平.一种点云数据噪声点的随机滤波处理方法[J].中国图像图形学报,2004,9(2):246-248.

[2] 刘大峰,廖文和,戴宁,等.散乱点云去噪算法的研究与实现[J].东南大学学报,2007,37(6).

[3] 王丽辉,袁保宗.鲁棒的模糊C均值和点云双边滤波去噪[J].北京交通大学学报,2008,32(2).

[4] 顾亚芳.高斯模糊图像的盲复原[D].南京:东南大学,2005

猜你喜欢
数据分布高斯分布数据挖掘
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
探讨人工智能与数据挖掘发展趋势
改进的云存储系统数据分布策略
2种非对称广义高斯分布模型的构造
基于并行计算的大数据挖掘在电网中的应用
一种基于改进混合高斯模型的前景检测
一种基于给定标准对数据进行正态修正的算法
试论大数据之“大”
一种基于Hadoop的大数据挖掘云服务及应用
对数据分布特征测度的分析