包翔 汪满容 刘桂锋
(江苏大学科技信息研究所,镇江 212013)
数字化已经成为实体文博职能的拓展和延伸[1]。图像作为数字图书馆的重要信息来源,是表示和检索视频等多媒体信息资源的基本要素[2],与文本资源相比具有复杂、分散、多样化、来源广等特征。图书馆中很多资源呈现形式是图像,如电子图书;还有一些图书馆的特色馆藏也包含丰富的图像数据,如国家图书馆的馆藏精品大展[3],上海图书馆的上海地理图片收藏、抗战图片库[4],以及南京图书馆的古籍文献、民国文献数据库[5]等。这些图像资源对我们了解、研究相应的历史与文化具有非常高的价值。因此,图像的保存、检索、分析等研究十分必要。
当前数字图书馆图像资源建设的研究热点主要集中在图像元数据格式、图像检索技术、图像压缩算法、图像资料库建设等方面[6]。其中,图像压缩由于其应用领域广泛和实用价值较高,一直是国内外学者关注的热点和难点问题。
当今图书馆存储了海量数据,为保证高质量的存储和利用,有必要对图书馆的数据进行压缩。数据压缩就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间,即在给定的空间内增加数据的存储量或对给定的数据量减少存储空间的方法[7]。数据压缩能够减少数据传输时间,使得快速的信息获取与应用成为可能;还可以节省频带宽度,即在相同的通信时间内,压缩后的数据所占的频带宽度要小得多[7]。因此,对海量的图像数据进行压缩对于图书馆的建设来说非常有必要。
图书馆的数据压缩方法主要分为冗余压缩法(无损压缩法、熵编码)和熵压缩法(有损压缩法)两类[7]。冗余压缩是一个可逆过程,其编码主要包括Huffman编码、算术编码、行程编码等。熵压缩是利用某些变换去掉数据中尤其是相邻数据之间的相关性而实现的压缩。图像压缩就是属于熵压缩法,如图像中常常有色彩均匀的背影,相邻两帧视频间可能只有少量变化,但这种变换有时会带来不可恢复的损失和误差,因此叫作不可逆压缩[7]。数字图书馆的图像处理都采用压缩比更高但实际有损的熵压缩技术,只要终端用户觉察不出或能够容忍这些失真,就允许对数字音像信号进一步压缩以换取更高的编码效率。
图像压缩技术最近发展迅速,除经典的行程编码压缩算法、Huffman编码压缩算法、LZW压缩算法及离散余弦变换[8]外,还有很多新方法,曲海成等[9]利用多尺度图像进行深度特征检测,并结合编码压缩技术实现图像压缩;杨俊[10]、王亚鸽[11]等对图像进行边缘检测,并基于提取的边缘图像进行压缩;人工智能也用在图像压缩技术中,主要包括基于马尔科夫随机场方法[12]、稀疏表示方法[13]、BP神经网络方法[14]、主成分分析方法[15]等。而图像压缩的评价主要有压缩时间、压缩比例[8]等指标。
小波分析源于多分辨分析,其基本思想是将函数表示为一系列逐次逼近表达式,其中每一个都是原函数经过平滑后的形式,它们分别对应不同的分辨率[16]。图像压缩是小波分析应用的一个重要方面,它主要利用小波分解方法的思想,特点是压缩比高、压缩速度快,压缩后能保持信号与图像的特征不变,且在传递中抗干扰。基于小波分解的图像压缩实验过程涵盖图像采集、小波分解参数选择以及图像压缩效果评价等。
图书馆的图像采集需要融合传统光学照相与数码照相来提高信息图像的分辨率。在传统影像采集技术中,要具备主体突出、影像信息量高、色彩还原准确等特点;在实际拍摄中,要选择干净摄影背景,重视视点调节,以减少影像透视误差[17]。选择主要代表画面,布光要保持均匀,降低画面亮度差别,尽量保证一个画面就可以记录书籍的基础信息,并且需要减少对书籍的损坏。
图像采集模块一般可以使用扫描仪进行图形采集,可以选择不同的扫描精度;也可以使用数码相机进行图形采集,直接产生数字化图形,再通过接口及配套软件完成图形输入工作;还可以利用视频卡进行图形采集,和摄像头、视频展示台等相连,采集单帧图形,抓拍成功率高。
通过小波分解对图像进行压缩时,主要应考虑小波基函数的选取和分解层数。小波基函数的选取涉及小波基的平滑性和图像数据压缩效果的关系。一般来说平滑性越强,数据压缩的效果越好。常见的小波基函数包括harr小波、db小波、Mexihat小波、Morlet小波、Meyer小波[18],图书馆可以根据实际情况选择不同的小波基。
此外,小波分解层数也是一个关键参数,选择合适的分解层数可有效地将图像噪音或冗余分布分解到高频部分,同时使图像关键信息主要集中在低频部分,并将低频部分作为压缩后的图像,能够兼顾图像的质量和存储大小。
图像压缩主要从两个方面进行评价。一方面是压缩图像本身的性质,即压缩后的图像所占存储空间大小以及压缩所需时间,也包含人眼观察的主观评价;另一方面是判断压缩后的图像在图像检索过程中的表现,选取的评价指标主要是图像平均检索精度(mean Average Precision,mAP)[19]以及图像标引效率、图像检索效率等。mAP是衡量图像检索准确性的重要指标,取决于图像自身的质量,同时也与图像数据库的标引结果息息相关;图像标引效率主要指标引图像所用时间,标引相同数量图像的时间越短,标引效率越高;图像检索效率与读者相关,主要考察读者搜索某个特定图像所需要的时间,检索时间越短,检索效率越高,读者的使用评价也会越高。
学术界一致认为db小波基函数具有良好的平滑性[20]。db小波基函数可以写成dbN(N表示小波阶次,N=2~10,不同的N对应不同的小波基函数)[21],广泛应用在图像信号处理以及信号压缩中[22-25]。夏俊芳等[26]指出在信号去噪处理中,效果最好的小波基函数是db5,因此本文选择基于db5小波基函数进行图像压缩实验,根据db5小波基函数具有的多分辨率分析特性,选择合适的分解层数,并在此基础上对图像进行压缩。
本文实验主要包括图像的采集、压缩、检索等流程,从图书馆和读者两方面来研究图像压缩算法的应用。为验证本文算法的有效性,本文拟以图书馆的书籍封面图像为实验对象,既研究图像压缩方法对图书馆的数据存储带来的优势,也研究图像压缩方法对读者检索图像资源带来的便利。
实验分为两部分,第一部分是图书馆图像资源基于小波分解的压缩研究,第二部分是基于小波分解后的压缩图像资源的检索研究。本文实验所用处理器参数为Intel(R)Core(TM)i5-7500 CPU@3.40GHz,内存4GB,64位操作系统,基于x64处理器。
本文选取56张图片进行压缩实验(见图1),压缩之前的大小为2.77mb,小波基函数选db5,并按照不同层数进行小波分解得到对应的压缩图像,层数分别选取1、2、3,结果见表1。
图1 图书封面数据
表1 原图及经过不同层数小波分解后压缩图像的大小
可以发现,一层小波分解后压缩图像的大小占原图的31.62%,二层小波分解后压缩图像的大小占原图的14.15%,三层小波分解后压缩图像的大小占原图的8.09%。因此可以得出,通过小波分解后的压缩图像的存储大小有了较大程度的降低,同时也意味着图像数据的传输速度在不断加快,而且随着分解层数的增加,图像所占的存储空间越来越小。
此外,实验也对小波分解中不同层数的压缩时间进行分析,通过一层、二层、三层小波分解得到压缩图像所需的时间分别为27.97s、28.32s、28.39s,可以看出通过不同层数小波分解得到压缩图像所需的时间大致相同,层数越大所需时间稍有延长的原因在于高层小波分解是基于低层小波分解的系数计算得到的,本实验中的每一幅图像数据大小约为640*480像素,所占存储空间大小约为50kb,可以推算出压缩一幅图像所用时间约为0.5s。
本实验也选取一幅图书封面图像作为示例,各个层数小波分解后的压缩图像见图2。随着压缩层数的不断增加,压缩后的图像清晰度越来越低。经过一层、二层小波分解后的压缩图像,人眼可能觉察不出或可以认为能够容忍失真,而三层小波分解后的压缩图像则失真比较明显。
图2 原始图像及不同层数小波分解后的压缩图像示例
为了确定小波分解的合适压缩层数,本文将图1中的56张图片分别进行不同层数的压缩,并对压缩后的图像进行标引与检索。其中,图像标引模块本质就是对图像进行特征提取,并在此基础上建立图像的特征库,该模块也是数字图书馆图像检索的核心。本文根据图1中图像的实际情况,选择基于特征包[27]的数字图书馆图像检索系统,其中图像的特征选取SURF[28],该特征提取速度快,尺度不变性,对光照变化、仿射、透视变化具有较强的鲁棒性。
基于特征包的图像标引过程主要包括视觉单词的提取、视觉词典的构建、图像的直方图特征表示等步骤[20]。该过程中的图像标引主要依据图像的SURF特征,经过一系列的操作使得每一幅图像都拥有一个相同维度的直方图来表示,该直方图就是该图像在视觉字典上的映射,每幅图像的直方图唯一且维度相同。图像的标引过程一般都比较长,因此标引时间也是检索评价中的一个重要指标。
图像检索过程主要包括:用户输入待检索图像后,提取待检索图像的SURF特征点,将该图像的特征映射到视觉词典中,产生该图像的直方图,在计算出待检索图像与图像库所有图像直方图的相似度后,输出相似 度较高直方图对应图像作为检索结果呈现给用户,完成图像检索过程。
本实验在压缩后的图像数据库中进行检索实验以及对其进行评价分析。检索实验主要包括:选择一幅待检索图像,在经过不同层数小波分解后的压缩图像数据库中进行检索,检索出该数据库中与其相似的图像。具体的,本文选取图2中的原始图像作为待检索图像,在经过不同层数小波分解后压缩图像数据库中找出与其相似的图像,实验结果见图3~图5。
图3 在第一层小波分解后的压缩图像数据库中的检索结果
图4 在第二层小波分解后的压缩图像数据库中的检索结果
图5 在第三层小波分解后的压缩图像数据库中的检索结果
图3~图5显示的是在经过不同层数小波分解后的压缩图像数据库中的检索结果,实验设置检索结果按照相似程度从左到右、从上到下依次显示,与图2中原始图像的相似度是排列的依据,具体数值见表2。
表2 检索结果与原始图像的相似度
不同层数小波分解后压缩图像数据库中的检索结果与原始图像的相似度显示,第一幅检索结果都是正确的,但从相似度数值来看,一层小波分解后和二层小波分解后数据库中的第一幅检索结果与原始图像的相似度非常接近,它们的第一幅检索结果与原始图像的相似度远远大于其他的检索结果;而三层小波分解后的结果则不是很理想,第一幅检索结果与原始图像的相似度并未明显优于其他出现的检索结果。因此,可以推测出在三层小波分解后压缩图像数据库中进行检索时,其检索结果并不令人非常满意,而在一、二层小波分解后压缩图像数据库中的检索结果则较好。
本实验还进行检索评价分析,具体实验数值如表3所示。
表3 未压缩以及压缩后的图像检索性能分析
从表3可以发现,随着逐层压缩后图像所占内存大小的不断减少,图像的标引效率越来越高,不同层数分解后压缩图像的标引效率依次提升了73.61%、92.19%、94.71%。而不同层数分解后压缩图像的检索效率之间相差不大,比原图的检索效率依次提升了86.84%、84.21%、90.98%。但是,mAP在二层小波分解后的压缩图像的图像检索实验中达到最佳(0.733 3),甚至比未压缩图像的平均检索精度还要高。
综上所述,本实验中,选择二层db5小波分解能使得压缩后图像的标引、检索效率都得到提高,并且平均检索精度达到最优。除此之外,压缩图像存储空间大小显著减小,图像压缩所需的时间并未明显增加,压缩后的图像也没有出现明显失真。
在数字资源的长期保存特别是图像资源保存方面,图书馆有着无可推卸的责任。随着信息技术的发展,海量数据需要合理保存,传统数据存储空间与大容量信息间的矛盾日益凸显,图书馆需要在保证图像质量和检索精度的情况下对图像数据进行合理压缩,以提升图书馆的存储效率与数据资源的传输效率。
本文提出的图像压缩方法可以改进图书馆的工作流程,体现在如下方面。
(1)图像压缩比例较大,如基于二层db5小波分解后压缩图像大小仅占原图的14.15%,压缩比例达到85.85%,使得数据库中图像的存储空间大大减少,从而使图书馆资源的高密度存储成为可能,这样可以很大程度节约图书馆电子资源的建库成本,而且平均压缩一幅图像的时间仅为0.5s。
(2)图书馆存储的海量数字资源面临海量读者的查询、检索需求,为了尽可能满足读者的使用体验,图书馆应该更加注重读者检索的效率和精度。本文提出的基于二层db5小波分解后的压缩图像的检索效率提升了84.21%,使得读者使用该图像检索资源的时候有了更好的用户体验,而且检索精度并没有因为图像压缩而降低。
(3)图书馆图像数据库的建设核心之一就是图像标引,一般的图像标引费时费力,即使是运用人工智能相关技术也需要较长的时间,这对于图书馆的图像数据库建设来说是一个比较大的挑战。本文提出的基于二层db5小波分解后的压缩图像标引效率提升了92.19%,使得大规模的图书馆图像数据库的标引成为可能。
为了增强该图像检索系统的适用性,该系统也可以根据工作需求进行对应的技术改进,具体建议如下。①实践中图书馆可以根据实际工作需要选择不同的层数进行图像压缩,具体的可以按照上文第3部分提出的方法在经过不同层数小波分解后压缩图像的数据库中进行检索,选择对应有较高的检索精度和检索效率的层数进行压缩,同时也要考虑图书馆用户能否容忍这些图像失真等人为判断。当然若一幅图像占有的存储空间非常大,则可以选择较大的层数进行压缩。②图书馆可以根据图像类别的不同,选择不同的小波基,并可以进行不同小波分解后的压缩图像的检索测试,选择对应有较高的检索精度和检索效率的小波基函数。③随着人工智能技术的不断普及,可以将小波分解与人工智能相关技术结合,助力图书馆图像的高质量标引与精准快速检索,这也是相关研究的方向之一。