基于压缩感知的数字档案信息存储优化策略研究

2018-10-16 02:28郭佳琪
太原学院学报(自然科学版) 2018年1期
关键词:原子重构观测

郭佳琪

(运城广播电视大学,山西 运城 044099)

1 数字档案信息服务概述

随着计算机数据处理技术与存储技术的不断发展,现代档案信息的管理模式已逐步由纸质档案向数字化档案过渡。在这个转换过程中,大量的纸质档案信息将通过无线传感、电子扫描、摄像等方式进行信息的采集与存储[1]。特别是在互联网、云存储、大数据等概念被广泛应用到各行各业中的今天,数字化信息呈井喷式爆发,海量的数据充斥在网络存储空间中,这些都对数字化档案信息服务系统的存储性能提出了非常高的要求。压缩感知理论将数字信息的采集与压缩有效的结合在一起,将其应用到数字档案信息的管理策略当中,不仅可以提高数字信息的采集质量,还可以提升与优化档案系统存储空间的有效利用率[2]。

1.1 数字档案信息的采集

数字化档案信息的采集是指利用计算机的数字处理技术对档案信息进行收集[3],可以用视频、图像、声音、文字等多种形式表示信息,并以数字编码的形式进行存储与管理。例如通过扫描技术将文本类信息转换为数字档案,通过摄像技术获取视频信息与图像信息等。基于数字档案信息采集的多样性,在更加直观和完整的反映信息内容的同时,也会引起一系列新的问题。例如信息采集过程中信号的传输问题、信息转换时的图像失真问题、视频和图像类信息的存储开销过大等问题,都会对数字档案管理系统的工作效能产生很大的影响。

1.2 数字档案信息的存储策略研究

数字档案中信息的构成有很大一部分都属于图像类信息,这些信息的采集常常会受到外部环境的限制和影响。例如纸质档案的数字扫描,由于纸质档案大都会存放很久,长时间的放置使得档案的纸质老化,字迹、图像等信息变得模糊不清,如果直接进行扫描转换,很多信息是很难准确识别的。再比如视频类信息的采集与采集设备的性能、光线环境等都有很大关系,如果光线不够或采集设备分辨率较低的话,图像就会出现很多噪声。因此,数字档案信息的采集还需要经过校正、降噪、滤波、细节强化等多个处理细节,才能得到一个较好的结果,同时这类信息的传输、存储开销较大也是常见问题,还需进行文件的压缩存储以提高存储空间与网络带宽资源的利用率。针对上述问题,数字档案信息存储策略的构建主要涉及到两个方面:一是信息质量的优化处理,包括扫描档案后的成像处理、图像的噪点处理等;二是信息长度的压缩,包括信号的采样、压缩、数字编码的简化等。但这两个方面的功能实现是相悖的,要提高档案信息的图像质量,就会增加文件的信息量,压缩文件又是以牺牲部分的图像细节信息为代价的。如何能够兼顾两者,以达到最大限度的资源利用,这是数字档案信息存储策略研究的难点之一,为了能够有效地解决这一难点问题,借助图像处理技术当中压缩感知理论的存储优化算法,对档案信息进行采集、重构和压缩,在保证图像质量的基础上最大限度地减少其在存储与传输时的资源开销。

2 压缩感知理论概述

传统的数字信息采集都是先进行图像信息的完整采集,再进行压缩。在采集时要求采样频率至少可以达到模拟信号最高频率的两倍以上,才能获取到质量较好的图像信息。在采集完成之后,再通过去除冗余信号,减少图像细节处理的方式进行长度压缩,且这种压缩是不可逆的,图像损失的细节部分将无法再进行还原。

相比传统的数字信息处理方式,压缩感知理论提出了一种全新的信息采集和压缩的优化方式,就是在信息采集的同时对信号进行压缩。该理论验证了信号处在稀疏域时,可以采用不相关矩阵的表示方式将高纬度信号投影在低维度空间进行压缩传输,并且还可通过低纬度空间存储的少量关键信息对图像原信号进行重构和还原[4]。这一理论的实现主要包含三个步骤:图像的信号的稀疏度判断、稀疏信号的不相关观测矩阵建立和图像完整信号的重构。

2.1 稀疏表示

图像信号的稀疏表示主要是通过稀疏域字典的建立来实现[5]。首先要确定最佳的稀疏域,采用小波分析法将图像信号数字化,并将具有相关性的一系列信号组合为基函数并记录在字典当中。每组基函数作为一个原子项进行冗余信号的压缩处理,然后在原子项之间进行多种线性组合的比较,选择出与原信号最为匹配的原子项组合投影在不相关观测矩阵当中。图像信号的稀疏表示过程如图1所示。

图1 图像信号的稀疏表示过程

假设图像R中有一原始信号Y∈Fm,稀疏字典X中存在N个原子项,稀疏系数为b,对图像R进行稀疏表示,可表示为:

b*=argmi‖b‖0s.t.R=Xb

(1)

其中稀疏字典的设计是否完备,决定了图像的稀疏表示程度是否合理,稀疏字典中获取的原子项与图像原信号匹配度越高,对压缩后图像的还原度就越高,压缩效率也就越高。采用单一的几何分析方式无法对复杂结构的自然图像建立完备的字典表示信息,例如小波单节点变换字典虽然能够很好的匹配图像的纹理信息,却不能有效匹配轮廓边缘信息;双正交叠式变换字典可以较好地匹配图像边缘轮廓信息,却不能很好地表示震荡纹理样式。因此,稀疏字典的性能设计要充分考虑到图像的各向同性与各向异性结构的性能匹配。

2.2 投影矩阵的测量

由稀疏表示获取到的最为匹配的原子项组合经过压缩和降维处理就可以得到相应的测量值[6],该值会被存储在投影矩阵当中,用于实现对图像原信号的重建。因此,测量矩阵的建立对之后图像重建的质量会有非常直接的影响。

投影矩阵是图像完整信息经过采样与压缩后再投影到低纬度空间当中的测量值所构成的。测量值保存了图像中的关键信息,在对图像进行重构时,测量值所表示的关键信息可以用于还原图像的完整信息。由于压缩后的测量值大小要小于图像原信号的大小,用测量值来还原图像的完整信号。针对图像信号特性,需符合一定的约束条件,才能够实现图像的重构。这些约束条件包括零空间约束、等距性约束、最小线性相关列数约束等条件。其中零空间约束与最小线性相关列数约束条件在不考虑噪声的前提下所构造的观测矩阵可以较好地满足图像重构所需的关键信息提取。在含有噪声的情况下,等距性约束条件下所构建的观测矩阵可以较好地实现图像信号重建。

2.3 图像信号的重构算法

图像重构是指通过投影在低纬度空间的观测值所构成的观测矩阵对图像的完整信号进行近似还原的过程。稀疏表示为图像信号的还原提供了必要的先验条件,重构信号的计算模型较为复杂,并以此为代价以达到高度还原图像信号的目的。图像信号的重构以求解欠定方程式为算法的核心思路,构建了贪婪算法模型。假设观测矩阵所提供的某一测量值为A,通过对A的稀疏逼近和反复迭代获取到最为匹配的原子K,可用公式2表示:

argminK0s.t.A=ΦK

s.t.

(2)

其中ε为信号的还原误差值。式中以穷举法列出所有的非零原子项,对所有的非零原子项近似求解、逼近匹配。经过多次迭代收敛,获取到最为近似的原子项。

采用该算法模型,可以得到较好的图像还原效果,与原图像信号的近似度可达90%以上,但多次的迭代运算会造成较大的时间开销。为了减少运算的迭代次数,有效降低运算开销,在图像信号的追踪匹配过程中进一步引入了回退筛选思路。在迭代筛选前先建立预选集合,经过简单的预筛选后再进行迭代,如此便可缩小追踪匹配的运算范围,从而减少迭代次数,同时预筛选的算法设计应兼顾到复杂度与有效性两个方面的诉求,才能达到算法更加优化的目的。

3 基于压缩感知理论的数字档案信息优化存储策略

压缩感知理论目前已在多个领域得到了良好的应用与拓展,尤其是在医疗成像和无线传感的数模转换领域中的应用都可以很好地借鉴到数字档案的图像信息处理技术当中。基于上述研究,对于压缩感知理论在数字档案信息的优化存储策略中的应用,可以从数字信息的成像、重构和压缩三个方面进行研究与实现。

3.1 数字档案信息的成像

数字档案信息的成像采用压缩感知技术进行存储优化,主要有串行与并行两种方式。串行方式是采用单孔径成像方式获取图像信息,并对图像进行分块压缩。完整图像的稀释表示与观测矩阵的构建是一个非常复杂的计算过程,一个高分辨率的图像其原子项数量甚至可以达到106,这大大增加了档案管理系统的存储负担。为了简化这个计算过程,将图像按照一定的分块原则进行划分,将划分后的图像块作为独立的数据块串行完成信号的零空间压缩与传输,这可以有效减轻系统的存储负担,以及后期图像重构过程的运算负担。

假设图像R的分辨率为B×B,划分为j个等大小的图像块X,每个图像块的大小均为K×K。那么图像块的观测矩阵可以表示

ΦK=M×K2

(3)

第Xj块图像的观测值为:

Aj=ΦKXj

(4)

在对图像进行相似还原时,只需按图像块进行重构,并按照原图的分块顺序进行排序即可。

并行方式采用多孔径成像方式,在焦平面上阵列多个相同的原图像,原图像带有多通道模式下,一次即可对多个相同原图像实现分块压缩与传输。两种方式中,前者适用于静态图像,后者适用于的动态图像,例如视频类图像信息。但不论哪种方式,对图像进行分块时都可能产生分块重叠效应如图2所示。

图2 档案照原图与块重叠效应图像对比

为避免图像的分块重叠效应,先在图像块与相邻图像块之间划分出一个可能重叠的区域,并隔离这段区域,对各个图像块完成压缩感知处理后,再对公共重叠区域采用均值分配的方式进行处理。

3.2 数字档案信息的图像重构

鉴于档案信息的特殊性,数字档案中的信息内容显示要足够清晰和准确,以确保档案信息的有效性。由于大量图像类档案信息在存储过程中都会经过压缩处理,为了不影响后期对档案信息的准确查询,图像信息的高度还原也是档案管理系统中非常重要的一个处理环节,也就是图像的重构。

图像重构的过程是通过观测值与感知矩阵反向求解稀释值的过程,这种信号的恢复不是100%的完全还原,而是尽可能近似的还原。重构模型的设计思路如图3所示。

图3 基于逆向观测矩阵的图像重构实现过程

从图中可以看出,相比传统的图像重建过程,压缩感知图像的重建过程包括一个逆向观测的过程,在这一过程中通过已知的观测值、感知矩阵、稀释度等条件求解与原子索引集合中相近的原子值,最终获取到重构信号并输出。这一观测过程将经过反复迭代,直到对原子索引集合当中所有的原子项匹配完成。

采用压缩感知技术实现图像重构,通过较少的稀疏表示即可获得较好的视觉呈现效果,但是对于轮廓边缘的过渡处理效果较差,如何能够在迭代次数没有明显增加的情况下进一步改善图像信息的边缘去模糊效果还有待进一步的研究和实践。

3.3 数字档案信息的压缩

数字档案信息在存储时会涉及到大量的图像类信息,这类信息往往会占用更多的存储资源,为系统管理造成较大的负担,特别是高纬度空间图像从采样到传输和存储,都需要占用极高的带宽资源与存储空间,因此通常会采用压缩的方式对这类信息进行存储优化。同时在高光谱图像信号压缩中,压缩感知技术对于噪声和图像信号部分缺失的信息压缩具有非常高的效率,能够有效避免采样资源的浪费,因此更加适用于高维度空间的图像信息压缩。

传统的图像压缩技术主要包括三种经典的压缩变换模式:小波变换、DCT变换和LBT变换。这三种变换模式对于图像块的重叠效应处理效果较好,但不能充分利用原信号的采样资源,压缩效率较低。

基于压缩感知理论的优化存储策略,以二阶锥优化算法为数学基础构建了一种针对高维空间图像压缩的高维线框压缩模型。通过二阶锥优化算法对稀释字典中的原子进行均衡优化组合,所构成的原子项可具有明显的稀释特性。在此基础上通过随机矩阵对三维线框中用于表示图形边界与外部轮廓的深度轴投影在低纬度空间中,并对其二维结构完成抽样压缩。该种方式对高纬度图像的压缩处理效率高、速度快,缺点是会造成一定程度的图像失真,为避免过渡的失真,对于图像边缘轮廓的观测矩阵设计还有待进一步的优化研究。

4 总结

随着数字化档案信息系统的广泛应用,很多档案信息都需要通过数字采集的方式进行存储和管理,这对数字档案信息管理系统的海量数据处理带来了极大的存储负担。针对数字档案信息服务发展的这一现状,本文对最新的图像处理技术——压缩感知进行了深入的研究与分析,包括压缩感知理论的基本实现原理、数学模型的构成、核心算法的运算思路等,探讨了压缩感知理论在数字化档案信息优化存储策略中应用的可行性,并在数字档案信息的成像、重构、压缩三个方面的优化存储策略中依次提出了基于压缩感知理论的图像分块、重构图像的逆向观测、二阶锥优化高维线框压缩等优化设计思路,为大型数字档案系统的设计与升级提供了有益的理论参考。

猜你喜欢
原子重构观测
视频压缩感知采样率自适应的帧间片匹配重构
长城叙事的重构
原子究竟有多小?
原子可以结合吗?
带你认识原子
高盐肥胖心肌重构防治有新策略
天文动手做——观测活动(21) 软件模拟观测星空
北京的重构与再造
2018年18个值得观测的营销趋势
可观测宇宙