谷 迁, 袁 理, 杨亚莉, 刘军平
(1. 武汉纺织大学 电子与电气工程学院, 湖北 武汉 430200; 2. 武汉纺织大学 湖北省功能纤维加工及检测 工程技术研究中心, 湖北 武汉 430200; 3. 武汉纺织大学 数学与计算机学院, 湖北 武汉 430200)
随着信息化技术的发展,图像数据量随之增加。如何利用数字图像处理技术对大量的纺织品图像进行高效地检索与数字化管理,是目前纺织企业亟待解决的问题。
图像检索可分为基于文本和基于内容的2种检索方法。其中,基于内容的图像检索方法是当前研究的主流方向。方珍红等[1]提出了利用模糊C均值聚类的方式构造加权主颜色直方图实现图像检索方法,在Corel图像库上的实验结果表明,该算法检索性能优于基于传统颜色直方图的检索方法;崔红静等[2]提出基于分块颜色直方图和边缘方向直方图的检索算法,该算法对织物图像的检索准确率达80.83%;向忠等[3]针对织物印花花型存在同形不同色和同形异构的特点,提出了一种融合花型边缘和颜色特征的图像检索算法,结果表明,该算法对图片的平移、缩放、旋转具有鲁棒性,平均准确率可达93.17%。上述图像检索算法均是基于图像的浅层视觉特征进行相似性度量从而进行图像检索,但根据浅层视觉特征无法完整地表征纺织品的图像信息;同时,由于这种检索方式缺少自主学习能力,且非常依赖特征提取模型的架构设计和优化[4],因此,当图像语义属性和样本数量增加时,检索效果不佳。
近年来利用深度学习的方式能够克服浅层特征的局限性,消除图像特征与高级语义特征之间存在的“语义鸿沟”[5],并广泛应用于复杂模型的表征与图像检索。孙洁等[6]对浅层特征以及高级语义特征在织物图像检索中的应用进行了对比分析,指出深度卷积神经网络可以克服浅层视觉特征在大样本数据集检索中存在的局限性,具有理想的鲁棒性;徐慧等[7]提出了基于多尺度特征融合的服装款式检索与推荐系统,该系统在图像语义分割的基础上,利用深度卷积神经网络(CNN)提取服装款式语义信息,并结合空洞空间金字塔池化(ASPP)对图像进行多尺度特征提取,很大程度上提高了服装相似性语义推荐的效率。上述基于深度学习的方式在一定程度上提升了图像检索的效果,但缺失了对于图像浅层视觉特征的描述。
值得注意的是,色纺织物因其特殊的织造工艺[8-9],同时具备表征色纺织物颜色、形状以及纹理等特性的浅层视觉特征和描述色纺织物宏观风格等特性的高级语义特征。为全面表征色纺织物所具备的多层特征,本文提出一种融合浅层视觉特征和高级语义特征的图像检索算法;同时,为提高检索系统的时效性,采用二进制哈希编码对高级语义特征进行降维处理。在此基础上,构建层次化特征分类器,充分利用2类特征的描述特性对织物图像进行检索,以期为色纺织物图像数字化管理以及产品开发提供技术支持。
局部二值模式(LBP)[10]是描述图像局部纹理特征的经典算法,其基本原理是比较中心像素与其邻域像素的灰度值大小,邻域像素值大于或等于中心像素值则编码为1,小于则编码为0,具体定义为:
(1)
(2)
式中:LP,R为编码后的二进制值;gc为中心像素点的灰度值;gi为其邻域像素点的灰度值;P为邻域像素点个数;R为邻域半径;s(x)为符号函数。通过调整LBP的参数及编码规则可以获得不同的纹理特征。
与此同时,提取织物的方向梯度直方图(HOG)特征。具体过程为:首先将图像转化为灰度图,对整个图像进行Gamma压缩来降低图像局部的阴影和光照变化;然后,将织物图像分割为若干个像素的单元,并按照梯度方向平均划分为9个区间进行直方图统计,每相邻的若干个单元构成1个块。色纺织物典型浅层特征如图1所示。
图1 色纺织物浅层特征Fig.1 Low order characteristics of colored spun fabrics.(a) Original image of fabric; (b) LBP pseudo gray spectrum; (c) HOG feature map
卷积神经网络(CNN)具备理想的高级语义特征提取能力,被广泛应用于图像分类与目标检测等复杂模式识别场景。本文采用经典的AlexNet网络提取色纺织物图像的高级语义特征。需要指出的是,该网络含65万个神经元,数千万个参数,模型收敛过程很慢。针对此问题,采用迁移学习策略[11-12],将预训练的网络作为一个特征提取器,指定AlexNet网络的第2个全连接层fc7的输出结果作为输入图片的特征向量,实现CNN网络结构的优化。
在此基础上,使用深度学习二进制哈希(DLBH)算法对提取的高级语义特征进行降维,从而提高检索效率。高级语义特征提取过程如图2所示。
网络模型的损失函数为SoftMax损失函数,见下式:
(3)
注:fc6、fc7、fc8均为卷积神经网络的全连接层。图2 高级语义特征提取过程Fig.2 Advanced semantic feature extraction
检索流程分为2个阶段:第1阶段为初步检索,使用深度哈希网络得到查询样本和数据库图像的哈希编码,并按照汉明距离查找最相似的图像得到Top-20;第2阶段将分别提取查询样本和Top-20的浅层特征和高级语义特征,进行特征融合后排序,得到最终的检索结果Top-10。
同时,为了保证特征间的有效融合,需要对Top-20样本特征进行归一化处理,见下式:
(4)
在此基础上,根据式(5)进行特征相似度融合:
(5)
式中:ωi为3种特征的权重;sij为Top-20图像中第j张图像与样本第i种特征之间的相似度。
(6)
最后根据式(5)得到Top-20中第j张图像与样本的最终距离,排序得到Top-10,见下式:
(7)
式中,Dj表示Top-20中第j张图像与样本的最终距离。
委托合作企业提供了684份色纺针织物样本用于测试分析,织造过程中的工艺参数和样本具体数量如表1所示。
表1 样本参数Tab.1 Sample parameter
全部样本在相对湿度为65%状态下平衡后,通过DigiEye Digital Imaging System系统进行图像采集,并在采集前通过白板和标准色卡对DigiEye系统相机进行白平衡和颜色校正。每份织物样本获取其不同区域的3张标准图像;同时,对采集到的图像进行水平镜像翻转,得到4 104张色纺织物图像,其中3 800张图像作为训练集,304张图像作为测试集。部分样本图像如图3所示。
图3 部分色纺织物样本图Fig.3 Sample drawing of colored spun fabrics.(a)Budding heather yarn;(b)Home spun heather yarn;(c)Mirage mini heather yarn;(d)Siro heather yarn
实验测试系统为Windows10操作系统;算法开发环境为Python3.7与MATLAB2016a,并安装Tensor Flow-gpu1.14.0、CUDA Toolkit10.0与cuDNN7.4。
本文选择查全率与平均准确率(mAP)对检索结果进行评估。查全率定义如下:
(8)
式中:P为查全率,%;b为检索结果中正确查询到的图片数量;a为相似的图片数量。查全率只能反映有多少正确的结果被检索出,而平均准确率能补充对检索位置信息的评估,计算公式为
(9)
式中:Q1为平均准确率,%;m为检索样本的数量;i表示第i张;Q2为每次查询的检索精度,其计算公式为
(10)
式中:ni表示第i张图像的返回结果中正确查询到的图片总数;x为正确查询到的图片在相似图片中的位置;y为正确查询到的图片在返回的检索结果中的位置。
能够影响检索系统性能的参数很多,包括哈希码的长度、LBP算子以及HOG算子参数等。以训练集为基础,对检索系统核心参数进行优化,结果如表2~4所示。
表2 哈希码长度与Top-10检索结果Tab.2 Hash codes length and Top-10 search results
表3 LBP算子参数与Top-10检索结果Tab.3 LBP operator parameters and Top-10 search results
从表2可以看出,哈希码的长度越大,其检索效果越好。但考虑到系统的实时性要求,本文将fc7层的特征映射为128位二进制哈希码,可以兼顾其查全率与执行效率。
表4 HOG算子参数与Top-10检索结果Tab.4 HOG operator parameters and Top-10 search results
由表3可知,旋转不变统一模式的LBP算子参数R和P,即算子的领域像素点数量与可变区域大小会对识别结果产生影响。当P=8,R=2时,算子的纹理表征能力可以达到最优。
从表4可以看出,当c=64,b=4时,检索系统的查全率和平均准确率都为最高。
综上分析,检索系统的关键参数设定为哈希码长度128位;LBP算子P=8,R=2;HOG算子c=64,b=4。
对304张具有不同风格类型的色纺织物图像进行检索测试,结果如表5所示。可以看出,对于9种不同风格的色纺织物图像,本文检索方法的查全率均能达到95%及以上,平均准确率均在85%以上,说明本文融合浅层视觉特征和高级语义特征的算法能够对具有复杂颜色和纹理特性的色纺织物图像进行有效检索。
表5 检索实验结果Tab.5 Search experimental results
迷你幻影纱Top-10检索结果如图4所示,编号越小说明与原图越相似。可以看出,与检索样本相似的待检图片均已返回,且排名均靠前。
需要指出的是,在上述Top-10检索结果中,第5号样本图像(水纹蝇带纱)与检测样本不属于同一类,属于异常结果。经过对比分析,发现该样本存在大量的褶皱区域,从而导致特征提取出现偏差,如图5所示。
图4 相似色纺织物检索结果Fig.4 Retrieval results of similar colored spun fabrics.(a) Retrieval image; (b) Similarity Top-10 result image
图5 色纺织物褶皱图像Fig.5 Colored spun fabric wrinkle image
为进一步验证织物褶皱对检索结果的影响,对褶皱样本进行检索测试,结果如图6所示。可以看出,在返回的Top-10结果中,只有Top-3、Top-6、Top-7与检索样本较为相似,其他返回结果差异较大。说明褶皱影响了图像本身的平整度,进而导致图像的特征发生改变,影响了最终的实验结果。
为充分验证融合高级语义特征检索方法的有效性与实用性,建立对比实验Ⅰ。其中:将未微调的AlexNet卷积神经网络,记为方法1;将使用迁移学习并微调AlexNet卷积神经网络模型参数,记为方法2;将直接提取图像HOG特征进行检索,记为方法3;将利用LBP与HOG融合特征进行检索,记为方法4。对比实验结果如表6所示。
图6 异常色纺织物检索结果Fig.6 Retrieval results of abnormal colored spun fabrics.(a) Retrieval image; (b) Similarity Top-10 result image
从表6可以看出,本文检索方法查全率和平均准确率分别为97.37%,87.54%。相较于单一浅层特征,对多特征进行融合能提高系统的检索性能,但由于缺乏对织物图像风格属性的语义表征,检索结果还有待提高。与其他方法对比,本文将浅层特征与高级语义特征相融合能有效提高检索系统的查全率和平均准确率。
表6 对比实验Ⅰ结果Tab.6 Contrast experiment Ⅰ results
同时,为验证本文系统的实时性,结合对比方法建立对比实验Ⅱ。其中,对比方法为在图像数据库中直接提取图像的浅层视觉特征及高级语义特征,并将2种特征融合后进行图像检索。结果发现,本文方法的检索时间为0.8 ms,对比方法的检索时间为605 ms,执行效率提升约750倍。可以看出,本文将高维特征量化为二进制哈希码,能有效提高检索系统的执行效率,具有显著优势。
为提高色纺织图像检索系统的有效性与实时性,本文建立了一种融合浅层纹理特征与高级语义特征的检索系统。该系统利用深度卷积神经网络对色纺织物图像的花型风格等语义特征进行表征,同时融合图像的局部二值模式与方向梯度直方图等浅层纹理特征,从而构建层次化检索系统。在此基础上,通过二进制哈希编码对高维特征向量进行降维,降低检索特征的匹配时间。对具有9种不同纹理风格的色纺织物样本图像进行检索发现,该检索系统的Top-10查全率与平均准确率分别达到了97.37%和87.54%;同时,执行效率提升约750倍,能够满足实时性要求。但该检索系统对织物图片褶皱区域的抗干扰能力较弱,如何提升其抗干扰能力将是下一步研究的重点内容。