王佳婧, 朱媛媛, 杜欣, 王笑梅
基于CBAM-ResNet50的民国纸币图像检索系统
王佳婧, 朱媛媛, 杜欣, 王笑梅*
(上海师范大学 信息与机电工程学院,上海 201418)
利用残差网络(ResNet)50,结合卷积块注意力模块(CBAM)机制,提出了一种基于CBAM-ResNet50的民国纸币图像检索技术,提升了对相似纸币的检索能力.设计并实现了基于Windows和Ubuntu系统环境下的民国纸币图像检索系统,并搭建了基于Flask的Web应用服务.所提取的民国纸币图像特征具有更强的辨识度,大幅提高了检索速度,在图形处理器(GPU)上可达毫秒级.使用缩略图搜索民国纸币图片,对相似度排名第1的图像的检索准确率可以达76.3%,相似度排名前6的图像检索准确率可以达92.5%.
深度学习; 残差网络(ResNet); 民国纸币; 图像检索; 卷积块注意力模块(CBAM)
民国纸币流通量大,种类和样式也各不相同.然而,现阶段对于民国纸币的图像检索研究寥寥无几.传统的图像检索技术将颜色、纹理和形状等属性作为基础,例如传统尺度不变特征变换(SIFT)和方向梯度直方图(HOG)方法[1-5],但这些方法所指定的属性与高级语义属性之间存在“语义差距”,限制了检索效率[6-7].近年来,通过卷积神经网络(CNN),特征图保留了更丰富的空间信息,实现了更高的检索精度[8].YE等[9]利用微调的CNN模型,提取图像特征并分配权重,以便于对图片类别进行排序.RADENOVIĆ等[10]提出了一种可训练的Generalized-meanpooling(GeM)池化层,提高检索性能.BHANDI等[11]从Visual Geometry Group(VGG)和残差网络(ResNet)的预训练模型中学习特征,并创建特征融合.虽然可以通过调整、完善或特征融合网络特征来提高图像检索的准确性,但这会占用特征的存储空间,降低检索系统的性能.
为了进一步提高图像检索的精度,GUO等[12]提出了端到端的全局-局部注意力网络来获取全局和局部信息.NOH等[13]提出了一种局部特征描述符(DELF),使用注意力机制提取密集的局部特征,获得更准确的特征匹配.NIE等[14]提出了无需边界框的端到端注意力块Attention Based Image Retrieval(ABIR)方法.NG等[15]结合二阶相似性损失与二阶空间注意力重新加权特征来强调用于描述的显著图像位置.
提取具有辨识力的民国纸币特征的难点在于:(1) 民国纸币图像在采集的过程中,其平面的大小、方向和位置会发生改变;(2) 许多纸币的类间差异性较小,如不同种类纸币的主景图和颜色等都十分相似.为了提升检索的精度,本文作者结合卷积块注意力模块(CBAM)机制,基于深度学习残差网络,提出一种民国纸币图像检索技术,可自由定义查询图片及检索图片集的条件,利用提取缩略图的方法,有效抽取了民国纸币的特征,使得特征描述符具有较强的辨识度,相较于传统手工图像提取的方法,性能更优.
早期的基于特征提取的算法对于特征的表述能力有限,检索效果存在较大局限性.随着神经网络日益复杂,计算成本也大幅增长.利用ResNet,可减轻训练的负担,增加神经网络的深度,加快其收敛速度,提升检索民国纸币图像的速度与精度.残差映射定义为:
ResNet由残差块堆叠而成,使用短路机制,避免了梯度消失和梯度爆炸的情况;使用恒等映射,解决了因持续增加网络深度所导致的过拟合问题,并且不会降低系统性能.ResNet根据网络深度可以分为:ResNet18,ResNet34,ResNet50,ResNet101和ResNet152,选用ResNet50作为民国纸币图像检索的模型框架.
单一的CNN缺少对于纸币结构的针对性,区分相似纸币的能力有所欠缺.卷积块注意力模块是一种轻量级的、用于前馈CNN的通用注意力模块.该模块依次从通道和空间两个不同维度得出注意图,将注意图与输入的特征图相乘,进行自适应特征优化.通道注意力通过了解图像各个特征的重要性,根据输入特征图进行特征分配;空间注意力定位目标并调整或获取权重.
CBAM由通道和空间注意力模块串行排列构成,其计算公式如下:
如图1所示,CBAM机制附加在ResNet50的最后一层卷积层与池化层之间,增加的模型参数量较少,提取了纸币图像的整体特征与局部细节,增强了网络的稳健性,获取纸币图像的关键特征信息,提升了检索精度.
图1 CBAM-ResNet50结构图
如图2所示,采用深度学习技术对民国纸币图像数据集进行特征提取.在Flask框架下搭建的图像检索页面中,将缩略图输入到系统中,提取搜索图片的特征值,与数据集中所有民国纸币特征进行对比,并将所得的图像相似度进行排序,选取相似度排名前6的图片.具体流程可以分为在线和离线2个部分,离线部分提取民国纸币图像数据库中的特征,生成图像特征库;在线部分实时提取检索的民国纸币图像特征,并与离线部分提取的图像特征匹配相似度,进行图像检索.
图2 民国纸币图像检索系统流程图
通过数据增强技术,对民国纸币图像进行图形变换.如图3所示,对图像进行裁剪、旋转、缩放、中心切割以及高斯滤波去噪等处理,去除图像的灰色边缘,降低复杂度,提高收敛度.加强图像的稳健性,突出民国纸币图像的核心特征,提高特征提取的准确性.
图3 图像预处理前后效果对比.
(a) 处理前;(b) 处理后
民国纸币图像的大小不一致,图像尺寸太大会影响系统性能,图像尺寸太小会影响识别准确性,因此应对图像尺寸进行标准化处理.在保持图像本身的特征不变的情况下,采用高度优先的缩略图算法,将缩减后的民国纸币图像的高度固定为200 pixels,图像宽度按照原图与缩略图成比例缩放.
深度学习模型的训练环境是Windows 10家庭中文版,Intel(R)Core(TM) i7-5500U处理器,8.00 GB内存,虚拟机操作系统Ubuntu版本为18.04.5 LTS.采用PyCharm 2021.1.1(Professional Edition)进行实验,Pytorch作为深度学习工具,Web框架为Flask.
为了验证所提出的模型在民国纸币数据集上的有效性,将241张预处理后的民国纸币图像逐一输入所搭建的图像检索系统,提取图像的深度特征,并与图像特征库的纸币特征进行比较,计算相似度,降序输出结果,获取第1位和前位命中结果.设计消融实验分析各部分的优化功效,具体设置为:(1) ResNet50,仅使用ResNet50作为特征提取器;(2) ResNet50+CA,在ResNet50的基础上,增加了通道注意力模块;(3) ResNet50+SA,在ResNet50的基础上,增加了空间注意力模块;(4) ResNet50+CBAM,在ResNet50的基础上,增加了串行的通道和空间注意力模块;(5) CBAM+ResNet50+CBAM,在ResNet50的前后各增加了串行的通道和空间注意力模块.实验结果如表1所示.
表1 基于ResNet50模型的检索精度 %
从表1可以看出,所提出的CBAM-ResNet50民国纸币检索方法效果优于其他方法,证明了CBAM-ResNet50模型的有效性.
为了进一步验证模型的效果,利用不同的CNN模型进行测试,对比模型分别是AlexetNet,VGG-16,GoogLeNet,ResNet50,ResNet-101以及EfficientNet-B0,测试结果如表2所示.
表2 基于CNN模型的检索精度 %
由表2可知:本模型对于相似度排名前6位的图像检索精度高于其他模型,最适合作为主干网络进行特征提取.相较于其他模型,AlexNet网络层数很浅,性能较差;具有Inception结构的GooLeNet模型可以对输入的图像并行执行卷积和池化操作,得到输入图像的其他信息,并结合所有结果,以便获得更准确的图像特征;与自然图像相比,缩略图不需要利用更高层次的语义信息,ResNet-101和EfficientNet-B0网络层数过深,容易造成过拟合现象,ResNet50网络层数适中,提取纸币图像特征能力更强.
图4是本模型的检索效果,检索出的前5张民国纸币图片是同一版纸币,有相同的版型和发行银行.可以进一步建立相关纸币图像之间的语义关系,有助于各个博物馆和研究院之间的信息知识共享,建立文物资料库,挖掘文物之间的内在联系.
图4 本模型的检索效果
241张图像中,有18张未被检索出来,这是因为:(1) 光线等客观因素使纸币背面图像透射到正面,对纸币的检索结果造成了一定的干扰;(2) 本研究以牺牲部分缩略图检索精度的代价,换取了检索速度的降低.
通过图像的预处理、特征提取及相似度匹配等操作,提出了一种基于CBAM-ResNet50的图像检索系统.所提出的缩略图提取方法有效地抽取了民国纸币的特征,使得特征描述符具有强大的辨识能力;在ResNet50网络中引入CBAM机制,使图像检索系统在识别图像时,可以对检索特征分配注意力权重,提高了模型的识别率,缩短了检索时间;在检索算法的基础上设计并实现了一套性能稳定、响应时间少、支持多种图片文件格式,并且可在Web网站平台使用,能自由定义查询图片及检索图片集的识别系统.之后的研究可以将纸币的冠字号、主景图、角花,以及签名等与图像的检索功能相结合,构建关于民国纸币的知识图谱.
[1] ZHANG X, XIANG J, ZHANG N, et al. Image retrieval of colored spunfabrics using modified wavelet transform meththod and color moments [J]. Journal of Slik, 2021,58(12):34-39.
[2] CHENG G, ZHOU P C, YAO X W, et al. Object detection in VHR optical remote sensing images via learning rotation-invariant HOG feature [C]// 4th International Workshop on Earth Observation and Remote Sensing Applications (EORSA). Guangzhou: IEEE, 2016:1-4.
[3] PARASHIVAMURTHY R, NAVEENA C, KUMAR Y H S. SIFT and HOG features for the retrieval of ancient Kannada epigraphs [J]. IET Image Processing, 2020,14:4657-4662.
[4] LIU H, ZHAO Q J, ZHANG C, et al. Boosting VLAD with weighted fusion of local descriptors for image retrieval [J]. Multimedia Tools and Applications, 2019,78(9):11835-11855.
[5] MALIK N U R, AIRIJ A G, MEMON S A, et al. Performance comparison between SURF and SIFT for content-based image retrieval [C]// IEEE International Conference on Signal and Image Processing Applications (ICSIPA). Kuala Lumpur:IEEE, 2019:214-218.
[6] XIANG J, ZHANG N, PAN R R, et al. Fabric image retrieval system using hierarchical search based on deep convolutional neural network [J]. IEEE Access, 2019,7:35405-35417.
[7] ZHENG L, YANG Y, TIAN Q. SIFT meets CNN: a decade survey of instance retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018,40(5):1224-1244.
[8] YANNIS K, CLAYTON M, SIMON O. Cross-dimensional weighting for aggregated deep convolutional features [J/OL][2021-11-18]. https://arxiv.org/abs/1512.04065.
[9] YE F M, ZHAO X Q, LUO W, et al. Query-adaptive remote sensing image retrieval based on image rank similarity and image-to-query class similarity [J]. IEEE Access, 2020,8:116824-116839.
[10] RADENOVIĆ F, TOLIAS C, CHUM O. Fine-tuning CNN image retrieval with no human annotation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019,41(7):1655-1668.
[11] BHANDI V, DEVI K A S. Image retrieval by fusion of features from pre-trained deep convolution neural networks [C]// 1st International Conference on Advanced Technologies in Intelligent Control, Environment, Computing & Communication Engineering (ICATIECE). Bangalore: IEEE, 2019:35-40 .
[12] GUO Y Y, JI J S, LU X K, et al. Global-local attention network for aerial scene classification [J]. IEEE Access, 2019,7:67200-67212.
[13] NOH H, ARAUJO A, SIM J, et al. Large-scale image retrieval with attentive deep local features [C]// IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017:3476-3485.
[14] NIE X Y, LU H, WANG Z J, et al. Weakly supervised image retrieval via coarse-scale feature fusion and multi-level attention blocks [C]// International Conference on Multimedia Retrieval. Ottawa: ACM, 2019:48-52.
[15] NG T, BALNTASV, TIAN Y R, et al. SOLAR: second-order loss and attention for image retrieval [C]// European Conference on Computer Vision. Glasgow: Conference Partners Ltd., 2020:253-270.
Image retrieval system of the Republic of China banknotes based on CBAM-ResNet50
WANGJiajing, ZHUYuanyuan, DUXin, WANGXiaomei*
(College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China)
Using the residual network (ResNet) 50 backbone network,and combining convolutional block attention module(CBAM) mechanism,we propose a kind of technique for image retrieval of banknotes based on CBAM-ResNet50. We improve the retrieval of similar banknotes. After building a Flask-based web application service,an image retrieval system for banknotes based on Windows and Ubuntu system environment is designed and implemented. The extracted image features of banknotes are more recognizable,and the retrieval speed is improved greatly,which can reach millisecond-level on graphics processing unit(GPU). Using thumbnails to search banknotes image,the image accuracy with the first similarity ranking can reach 76.3%. The image accuracy of the top 6 in similarity ranking can reach 92.5%.
deep learning; residual network(ResNet); banknotes of the Republic of China; image retrieval; convolutional block attention module(CBAM)
10.3969/J.ISSN.1000-5137.2022.04.004
2022-05-03
王佳婧(1998—), 女, 硕士研究生, 主要从事图像处理方面的研究. E-mail: christinewong98@163.com
王笑梅(1970—), 女, 副教授, 主要从事图像处理、 计算机网络方面的研究. E-mail: xiaomei@shnu.edu.cn
王佳婧, 朱媛媛, 杜欣, 等. 基于CBAM‒ResNet50的民国纸币图像检索系统 [J]. 上海师范大学学报(自然科学版), 2022,51(4):414‒419.
WANG J J, ZHU Y Y, DU X, et al. Image retrieval system of the Republic of China banknotes based on CBAM‒ResNet50 [J]. Journal of Shanghai Normal University(Natural Sciences), 2022,51(4):414‒419.
TP391.41; TP183
文章编号: 1000-5137(2022)04-0414-06
(责任编辑:包震宇)