数据流聚类算法在数据处理中的应用

2015-12-18 11:40楠,徐
电子科技 2015年1期
关键词:数据量降维数据流

江 楠,徐 秦

(中国人民解放军92124部队,辽宁大连 116023)

随着计算机技术的发展与应用,数据流处理也逐渐成为数据库领域的研究热点,目前数据流研究的方向主要是数据流分类、数据流聚类以及频繁模式。但由于数据流的变化趋势可能会影响系统的正常运行,尤其是对于实体工程项目而言更需要其作出实时反应,例如对桥梁健康检测的数据而言,数据变化趋势代表着桥梁的变化,为早期预警提供依据,利用数据流相关技术与趋势相结合的方法来分析系统中产生的数据流,可满足实时处理的需求[1-5]。本文主要研究了基于特殊投影和拟合的数据流聚类算法在数据处理中的应用。

1 数据流处理模型

研究以桥梁检测的海量数据为例,依照影响应阙值及评估方法来对桥梁结构健康状况进行评估。桥梁结构的健康状况有测试的数据进行评估与监测,其主要结构参数包括静应变、形变以及震动等[6-7]。数据库在这些参数中由于静应变及形变周期较长,因此周期以小时计算,其他参数24小时不间断测定[8]。但由于数据量过大,因此在同一台服务器上传统的DBMS无法承载,结合数据流的滑动窗口建立基于该窗口的数据处理及存储模型,如图1所示。

图1 数据处理模型

因桥梁相应结构参数的变化值不确定,因此无法存储数据流中的所有数据,故采用基于滑动窗口的数据流处理模型,使每个传感器实时监测数据形成一个数据流,并按照传感器的位置编号进行分类,异常数据保存到数据库中。而在模型中需设置滑动周期,在完成周期内数据的计算后便保存数据开始下一周期,同时抛弃前一周期的数据。

2 特殊投影和拟合的数据流聚类算法

聚类分析在应用中通常是作为预处理步骤,在实际的应用工程中,处理的数据一般具有多维性质,且受到外界环境的影响原始数据与获取的数据之间也着一定的存在误差。文中采用基于特殊投影和拟合的聚类算法(HpFitStream)包括处理异常数据及高维数据流的降维处理两部分。给定数据集X由m个数据集Xi组成,数据n为数据流,通过滑动窗口将数据流分为M段,滑动窗口有N条n维数据流,采集时间为T1,T2,…,Tn,滑动窗口对应时间为 t1,t2,…,tn。

对进入滑动窗口内的数据x(tp)检测,大于异常阙值ξ,存入数据库si中,计数器加1;否则就存在数据库si+1中。若是计算器等于滑动窗口长度,则进入到下一个窗口检测;反之若不相等,则将 p+1,继续检测x(tp),异常存入到si中,计数器加1,正常i+1,并存入到si+1中,重复此步骤,直至滑动窗口中的最后一个数。对非异常数据进行多项数拟合,到存多项式系数,还原异常数据,可得

式中,R2越接近1,拟合精度越高。

为方便后期数据流的分析,根据测量数据点和时间求得多项式系数,再求得 a1j,a2j,…,anj,其中 j=1,2,3,…,n,j表示属性。特殊向量矩阵公式如式(3)所示,若矩阵中n=N,便直接利用=0求解特征值λ,根据式(X+λE)b=0求解特殊向量矩阵;若n与N不相等,则需要采用SVD分解法求解设XN×n是N×n矩阵,使,T代表矩阵共轭转置

由求得的特殊矩阵得出B在时间T上的最后一维数据P,若是矩阵行数与列数不相等,则根据式(4)做投影变换,得出结果为 PN×1={P1,P2,…,PN}

若是矩阵行数与矩阵列数相同,便根据公式BN×NTN×1=PN×1做投影变换进而得出投影结果 PN×1={P1,P2,…,PN}。

3 仿真实验分析

结合滑动窗口技术对每个监测点测得的数据进行处理,文中主要针对5种传感器收集的数据进行仿真实验。静力水准仪每个监测点数据集由18维数据组成;光纤光缆传感器检测数据集由9维数据组成;测缝计传感器数据集由3维数据组成;拾振器数据集由3维数据组成;倾角仪采集x、y反向的数据,均组成2维数据。仿真实验均在WinXP平台上进行,比较降维效率、处理时间及占用内存大小等。

纵向位移测点的数据得到的仿真结果分别进行达拉依法、肖维勒法及一阶差分法的比较,执行效率由执行时间决定,占有内存由占用CPU的时间决定,执行时间和占用CPU时间单位为s,仿真结果如表1所示,实时错误数仅为1个,且当处理数据量不同时,数据量占有内存变大,执行速率降低。

表1 错误值剔除法结果比较

对数据还原采用多项式拟合,以纵向位移点11的3 300条数据为例,滑动窗口大小设置为1 000。在进行计算时,异常数据会转换为对应的数值,原始数据分为6段,采用滑动窗口拟合数据能同时降低拟合数据量和占用内存。此外,多项数拟合的分段数据不仅提高了拟合数据量,7阶R2=0.918 4接近1,拟合精度高。在降维过程中比较4组3、9、18位数据,降维结果如表2所示。从表中可看出,HpFitStream降维效果较好,但效率提高却不相等。

表2 数据降维效率比较

4 结束语

聚类分析方法目前已被广泛应用于多个领域,随着各领域所需处理数据量的不断增加,传统数据处理方法已无法满足需求。故本文提出了基于特殊投影和拟合的数据流聚类算法,即处理高维数据流。通过仿真实验表明,该算法可有效降低存储空间的占用率,缩短处理时间,并可大幅提高执行效率。

[1]汪成亮,陆志坚,庞栩.一种数据流趋势分析方法的研究与应用[J].计算机系统应用,2010,19(1):152 -155.

[2]黄树成,曲亚辉.数据流分类技术研究综述[J].计算机应用研究,2009,26(10):3604 -3609.

[3]陈铭,吉根林.一种基于相似维的高维子空间聚类算法[J].南京师大学报:自然科学版,2010,33(4):119 -122.

[4]任家尔,周玮玮,何海涛.高维数据流的白适应子空间聚类算法[J].计算机科学与探索,2010,4(9):859 -964.

[5]李子杰,郑诚.流数据和传统数据存储及管理方法[J].计算机技术与发展,2009,19(4):101 -104.

[6]汪长娥,赵曙光,付新林.一种模糊核聚类算法的改进[J].电子科技,2008,21(10):54 -55.

[7]徐晚成,王刚.机载雷达坐标转换及数据处理的建模与仿真[J].电子科技,2012,25(6):67 -70.

[8]方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2):87-92.

猜你喜欢
数据量降维数据流
混动成为降维打击的实力 东风风神皓极
基于大数据量的初至层析成像算法优化
汽车维修数据流基础(上)
高刷新率不容易显示器需求与接口标准带宽
汽车维修数据流基础(下)
降维打击
宽带信号采集与大数据量传输系统设计与研究
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于数据流聚类的多目标跟踪算法
北医三院 数据流疏通就诊量