基于压缩感知的互联网数据采集技术研究

2023-11-14 02:24赵艳平胡乃红
关键词:字典重构观测

赵艳平,胡乃红

(安徽水利水电职业技术学院,合肥 231603)

0 引言

计算机、互联网技术的成熟与发展对各行各业均产生了巨大的影响,同时也产生了大量的数据。通过采集互联网数据可及时了解企业生产运营状况,但数据采集关系到网络的安全。由于互联网数据种类多且数据量大,采用传统数据采集的方法已经无法满足要求。压缩感知作为一种新的采样理论,在信息处理、模式识别等领域得到了广泛的应用[1]。吕公河等[2]将压缩感知应用于地震数据采集中,通过分析观测矩阵和稀疏变换矩阵之间存在的不相关性来确定观测系统的性能,提出了采用“节点仪器+压缩感知+可控震源”的采集方法,具有良好的效益与效果。刘潇潇等[3]针对电网系统中大规模电力数据传输导致的开销过大的问题,提出了基于压缩感知的低开销电力数据采集方法,即利用电力数据的稀疏性特点,将变换系数线性投影为低维观测向量,并通过求解稀疏最优化精准地重构原始信号。于华楠等[4]采用压缩感知对综合能源数据进行处理,提出了可以处理综合能源数据的压缩感知重构算法,并通过仿真试验验证了综合能源数据处理的有效性。赵玥等[5]对林区监测数据的采集方法进行研究后,将K-SVD字典学习压缩感知技术应用于数据采集中,该数据采集方法能够使得数据传输量大大减少,降低了监测站的能源消耗,使得监测站的使用寿命延长。互联网数据种类多、数据量大,将压缩感知技术应用于互联网数据的采集中,可降低数据采集的成本和难度。

1 压缩感知理论及数据采集

1.1 压缩感知理论

压缩感知(Compressed Sensing,CS)也称之为压缩采样,其有别于Nyquist采样定律,通过开发所要采集的信号数据所具备的稀疏性特征,使得在远小于Nyquist所规定的采样频率情况下依旧能够完美重构信号。基于压缩感知理论进行互联网信号的采集能够节省大量的采样成本与空间,在实际中具有广泛的应用。压缩感知主要包括3步,分别为信号的稀疏表示、压缩测量和信号重构。

一个离散信号中非零元素的个数是有限的,那么信号就具备稀疏性,满足只含有k个非零元素特征的离散信号定义为k-稀疏信号,压缩感知理论正是基于信号的稀疏性提出来的。现实生活中的信号在时域内往往并不是稀疏的,但是信号也存在很大的冗余和压缩空间。对采集的时域信号进行变换,如小波域、频域等,只有相对比较少的点不为0,而其他的点为0或者近似为0,这样保留不多的点就包含了原信号中绝大部分的信息。设样本信号为x,在字典矩阵D中选择一组正交基{ψi},i=1,2,…,N。将信号表示为所选择正交基的线性组合,那么信号x的稀疏表示为[6]

(1)

式中ki为稀疏系数。

稀疏就是信号x在正交基下的变换系数向量,压缩感知是基于测量矩阵的线性测量。获取数据的过程是通过测量矩阵将原始信号x投影为线性测量值,同时线性测量值的长度要远小于原始信号x的长度。信号x=[x1x2…xM]T通过测量矩阵Φ进行压缩测量,从而获得测量向量y=[y1y2…yM]T,令

(2)

那么

y=Φx。

(3)

随机线性投影过程能够获取足够的有用信息,这直接关系到数据的重构结果。要想使采集到的数据信息不丢失、不被破坏,随机线性投影所选择的测量矩阵Φ要约束等距,即确保信号不同系数被映射在不同集合。测量矩阵Φ与稀疏基的最大相关性为相干度,其数学表达式为

(4)

测量矩阵与稀疏基的相干度越大,其越不满足有限等距性;测量矩阵与稀疏基的相干度越小,其越满足有限等距性,即对数据高精度重构需要的观测次数也就越少[7]。一般而言,构造与稀疏基相对的满足有限等距性的测量矩阵是比较困难的。

贝努利随机矩阵是常用的测量矩阵,以该矩阵为例对互联网数据采集到的每一个节点构造观察矩阵,即

(5)

在一次互联网数据采集过程中,每一个节点均执行同样的压缩采集行为。不妨假定互联网中共包含有J个节点,那么就可以获取J个观测数据,即

(6)

在接收到互联网上各个节点所上传的观测数据后,由各个节点的观测率可以生成相应的观测矩阵。同时为了重构数据采集范围内的L×L个目标数据,必须对各个节点的观测矩阵进行整合处理,具体过程如图1所示。

信号压缩测量是采用测量矩阵Φ对信号x进行压缩测量,就是将所采集到的信号进行测量矩阵线性投影。对信号重构就是要获得信号最优的稀疏系数θ,寻找最优稀疏系数θ的过程可以表示为l1范数下的优化问题,即

θ=argmin‖θ‖1,s.t.y=Θθ,

(7)

式中Θ为感知矩阵。

求解得到最优稀疏系数θ之后,就可以得到原始信号的最佳重构。

1.2 数据信号采集

计算机互联网技术的快速发展产生了大量不同类型的数据,在数据采集的过程中包含有许多节点,这使得观测数据的维度比较高。在互联网数据采集的过程中引入压缩感知技术能够将数据采集变得更加高效。按照奈奎斯特采样定理,要实现对信号的完全重构,采样频率不能低于信号最高频率的2倍,基于奈奎斯特采样的信号压缩处理流程如图2所示[8]。

图1 观测矩阵整合过程示意图

图2 基于奈奎斯特采样的信号压缩处理流程

压缩感知的基础是构造采集信息的稀疏性,以此完成对采集数据的低纬度压缩与高精度恢复。图3为基于压缩感知理论的数据采集流程。

图3 基于压缩感知理论的信号采集流程

由图3可知,压缩感知技术在信号采集处理中的应用突破了奈奎斯特采样定理所规定的采样频率不能够低于信号最高频率的2倍,这给数据的获取、储存、传输和处理都带来了很大的便利,使得数据采集的性能大幅度提升。另外,基于压缩感知的互联网数据采集过程增加了同域观测和信号恢复。同域观测使得监控量并非其自身,而是监控量的压缩投影值。恢复信号利用的是监控量的特征信息,最终获得的是原始的互联网数据。由于互联网数据采集采用的是信息采样,这使得数据传输的安全性明显提升。

2 互联网数据稀疏的表示及传输

2.1 互联网数据稀疏的表示

互联网数据具有数量大、种类多和高度冗余等特点,这能够在某个特定变换域内将数据的冗余性消除,表现出稀疏性的特点,这是压缩感知的基本思想。在互联网数据采集的过程中,可借助压缩感知原理进行数据的压缩处理。K-SVD字典学习是压缩感知中最常使用的自适应数据稀疏表示方法,其所具备的自适应特性使得字典学习对互联网数据的采集能够自适应。K-SVD字典学习的数学表达式为[9]

(8)

式中:T0为稀疏系数中非零系数个数的最大值;D为字典,其由原子dk所构成,即

D=[d1,d2,…,dk]。

(9)

互联网数据x稀疏表示流程如图4所示。

图4 互联网数据稀疏表示流程

从互联网数据x中随机选择K个样本,将其作为字典初始原子,对字典初始化。固定初始字典,采用正交匹配追踪算法求解优化模型,得到互联网数据x的稀疏系数θ。对字典的每一列进行更新,同时定义Ek为去掉原子dk所造成的误差,即

(10)

对误差Ek进行奇异值分解,获得更新后的原子dk和稀疏系数θ。再次对信号进行稀疏编码,采用同样的方法进行字典更新,直到满足终止条件。

2.2 互联网数据传输

(11)

(12)

3 实例分析

3.1 能源互联网

能源互联网数据类型多、数据量大,常规的数据采集方法无法满足实时性、有效性和准确性的要求。选择能源互联网作为案例进行分析,构建包含19个节点的电网系统,具体如图5所示。

图5 构建的电网系统示意图

3.2 结果分析

能源互联网对数据精度的要求比较高,从两个角度来分析对能源互联网数据重构的效果。图6为采集获得的原始试验数据。

不同的字典对数据的稀疏表示差别比较大,常用的字典有DCT字典、FFT字典[10]。对不同字典下能源互联网数据重构的结果进行对比,结果如图7所示。

图6 采集的原始实验数据

图7 不同字典能源互联网数据重构结果对比

由图7可知,对比K-SVD字典、FFT字典和DCT字典,采用K-SVD字典数据的重构结果和原始数据基本一致,但是采用FFT字典和DCT字典得到的重构结果与原始数据之间差别比较大,不能够满足实际的工程需求。对监控数据中分量的最大相对误差进行计算,FFT字典、DCT字典、K-SVD字典的最大相对误差分别为546.7%、269.6%和5.6%。由此可见,采用K-SVD字典对能源互联网数据稀疏表示精度更高。

不同的间隔周期也会对能源互联网数据重构的结果产生一定的影响,对比不同间隔周期下能源互联网数据重构结果,如图8所示。

图8 不同间隔周期能源互联网数据重构结果对比

由图8可知,伴随着间隔周期的增加,重构导致的最大误差也在持续增加,这是由累计误差所导致的。从整体上看,尽管间隔周期使得重构的最大误差增大,但是数据的重构误差依旧在比较小的范围之内,即采用K-SVD对能源互联网数据采集具有比较高的数据恢复精度。

4 结论

针对传统数据采集技术不能够满足互联网数据采集需求的问题,提出了基于压缩感知理论的数据采集方法。采用K-SVD字典对数据量大、数据种类多的互联网数据进行稀疏表示,在此基础上进行数据的压缩与传输。基于有限等距性条件实施数据重构,获得高精度的互联网数据。通过将K-SVD字典、DCT字典和FFT字典分别应用于能源互联网数据采集中,经对比分析,验证了K-SVD字典对能源互联网数据的重构精度更高,能够满足实际的使用需求。

猜你喜欢
字典重构观测
开心字典
观测到恒星死亡瞬间
开心字典
长城叙事的重构
北方大陆 重构未来
北京的重构与再造
天测与测地VLBI 测地站周围地形观测遮掩的讨论
我是小字典
论中止行为及其对中止犯的重构
可观测宇宙