李珍 亢洁 刘兆邦 陆千琦 谢璟
摘要:针对特征复杂的皮肤病受损区域图像难以用单个特征准确表达,且低层视觉特征与高层语义空间之间存在语义鸿沟,造成皮肤病受损区域图像检索困难的问题,提出了一种基于多特征组合和SVM相关反馈的皮肤病图像检索方法。首先对预处理之后的皮肤病受损区域的图像进行多特征提取并进行组合,然后采用欧式距离相似度模型对皮肤病受损区域图像初步检索,最后引入了带有衰减系数的SVM相关反馈算法,提高皮肤病受损区域图像的检索准确率。实验结果表明,引入带有衰减系数SVM相关反馈的方法可以检索到更多的相关图像,明显提高了检索的查准率。
关键词: 皮肤病受损区域; 多特征组合; 图像检索; SVM相关反馈; 衰减系数
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2019)05-0178-04
An Algorithm for Skin Disease Image Retrieval Based on Multi-feature Combination and SVM Relevance Feedback
LI Zhen1, KANG Jie1, LIU Zhao-Bang2* , LU Qian-Qi3 , XIE Jing3
(1.College of Electrical & Information Engineering, Shaanxi University of Science & Technology, Xi'an 710021, China; 2.Suzhou Institute Of Biomedical Engineering And Technology, Chinese Academy Of Sciences, Suzhou 215163,China;3.Wenzhou People's Hospital, Wenzhou 325099 , China)
Abstract:Aiming at the problem that the image of damaged area with complex features can not be accurately expressed by a single feature, and there is a semantic gap between low-level visual features and high-level semantic space, which makes it difficult to retrieve the image of damaged area of skin diseases, a skin disease image retrieval method based on multi-feature combination and SVM relevance feedback is proposed. Firstly, the multi-feature extraction and combination of the images of the skin lesions after preprocessing are carried out. And then the Euclidean distance similarity model was used to search the images of the damaged areas of the skin disease. Finally, an SVM relevance feedback algorithm with attenuation coefficient is introduced to improve the retrieval accuracy of images in damaged areas of skin diseases. The experimental results show that the introduction of the SVM relevance feedback method can retrieve more related images ,it is concluded that which signi ficantly improves the precision of the search.
Key words:skin disease damaged area; multi-feature combination; image retrieval; SVM relevance feedback; attenuation coefficient
1 引 言
隨着生活水平的提高,皮肤的健康问题也越来越成为人们关注的话题,然而皮肤病逐渐成了高发常见病,如血管瘤、恶性黑毒瘤等皮肤疾病严重威胁人类的皮肤健康甚至生命[1-3],如何将多种典型的皮肤病图像运用图像处理、计算机视觉等理论将用普通摄像机、相机,手机等移动设备采集的皮肤病图像应用在图像检索中,使医生或用户快速有效地检索到有价值的目标图像,建立一个高效、准确的皮肤病图像检索系统成为一个迫切需要解决的问题[4-5]。
文献[6]提取图像的颜色和形状特征对待查询图像进行初步图像检索,通过对检索结果进行正例和负例标注获得训练样本,并用 SVM 对获得的累计的训练样本构造线性分类器,捕获用户的检索意图,但在反馈过程中缺少图像本身的视觉特征信息;文献[7]采用相关反馈算法对遥感图像检索时,将图像的多特征相似性度量函数和 SVM 分类器函数进行线性加权,作为相关反馈中的相似性度量准则.然而图像相似性度量函数中,图像特征分量并没有对应的权重值,这样的遥感图像相似性度量模型并不能充分表达丰富的图像内容;文献[8-12]提出基于语义的图像检索算法,通过建立一种低层视觉特征和高层语义特征的映射,如语义模型、相关反馈等,提高了图像检索的准确率,但基于语义的图像检索算法如果反馈次数多,图像检索的实时性较差。
針对传统的图像检索模型存在内容描述不充分,且在计算相似度时缺乏语义信息,造成低层视觉特征与高层语义空间之间存在严重的语义鸿沟问题,本文根据皮肤病图像的复杂多变的背景,采用基于内容的图像检索的方法来检索与目标图像相同或类似的皮肤病类型,对传统的检索模型加入了预处理过程、多特征组合和引入带有衰减系数的SVM相关反馈过程,可以检索到更多的相关图像,提高检索的查准率。
2 基于多特征组合的SVM相关反馈检索模型
本文采用了多特征组合和SVM相关反馈的检索方法,对所选取的皮肤病图像进行相似性检索并及时捕捉用户的意图,从而获得符合用户意图的正确的皮损图像。本文中的基于多特征组合的支持向量机相关反馈的皮肤病图像检索系统的算法流程图如图1所示。
本文主要的步骤如下:
Step1:对采集的皮损图像进行预处理,首先对图像大小、格式、命名统一后,再进行小波阈值去噪、直方图均衡化,拉普拉斯变换(Laplace Transform)锐化后增强边缘细节的等处理,增强图像中的皮肤病图像的受损(以下简称皮损)区域的相关特征信息。
Step2: 对经过预处理之后的皮损图像库进行颜色相关图特征、LBP纹理特征、HU矩形状特征提取,在经过特征归一化后,进行权重赋予初值后进行多特征组合,获取皮损图像的综合性特征信息。
Step3: 对查询图像执行Step1~Step2步骤后,采用欧式距离公式计算查询图像与皮损库图像的相似性大小,并按照相似性大小进行倒排索引,输出最相似的Top-N张图像作为该张查询图像的初步检索结果。
Step4: 用户对前Top-N张图像进行标记,并进行引入衰减系数的SVM相关反馈,按照Step3中的计算出的每张图像的权值大小进行降序排序,并输出Top-N张检索图像。
Step5: 若用户对检索结果不满意则继续返回Step4,满意则结束,最后输出用户令满意的Top-N张图像。
2.1 皮肤病图像预处理
由于采集皮肤病的客观条件复杂多变,为了提高皮损检索的效率,将图像库与待查询图像进行相同的预处理后,进行后面的图像检索工作。
图像预处理的目的是提高图像质量,尽可能消除图像的冗余信息,增强图像中的相关特征信息。本文先对图像库中的图像进行小波阈值去噪,并对去噪后的图像进行直方图均衡化,再进行拉普拉斯变换锐化后增强边缘细节。
2.1.1 图像小波阈值去噪
由于在采集、编码或传输过程中,既遭受了信号噪声,皮肤病图像自身也包含噪声,因此图像去噪过程十分重要。对于图像而言,噪声多是高斯白噪声,将含噪声的图像数学模式描述为式(1)所述形式:
[f(i,j)=G(i,j)+Z(i,j)] (1)
其中,[f(i,j)]是含噪声图像,[G(i,j)]是不含噪声图像,[Z(i,j)]是高斯白噪声,[i]与[j]表示图像像素位置,[Z(i,j)]服从正态分布[N(0,δ2)]。
本文利用小波阈值去噪,即选取合适的阈值对小波系数进行处理,把小波系数大于阈值的信号系数保留,使小波系数小于阈值的噪声系数去除,达到去噪的目的。小波去噪的流程框图如图2所示,其中的阈值的选取和阈值的量化处理是小波阈值去噪的关键,合理选择正确的阈值和量化才能够有效地对信号进行去噪。
在对采集的图像进行小波去噪之后,本文选取软阈值去噪图像进行处理,图3中的(b)图是软阈值去噪去噪图。然后将去噪后的图像进行直方图均衡化后将像素值调整在0-255范围内,并采用变换后进行细节增强。进行直方图均衡化和Laplace变换后的效果图分别如图3皮损预处理算法效果图中的(c)图与(d)图所示。
3 多特征组合
由于皮损图像的颜色、皮损的肌理、皮损的形状的特征明显,视觉上可以直接获取到皮损的主要信息,因此本文主要在皮损的颜色、纹理、形状特征上进行描述。单一特征并不能很好地对皮肤病图像进行检索,综合特征更符合人的视觉要求,同时提取颜色、纹理、形状,并融合这三类特征的相似性测度构建总体相似性测度,能够提升整体检索结果的查准率和查全率,较为全面地描述图像,增强检索结果的准确性和可靠性。
本文根据皮损图像所包含的图像内容信息,对皮损的颜色相关图特征、局部二值模式(LBP)纹理特征以及Hu形状特征进行特征提取。
3.1 颜色相关图、LBP纹理特征、Hu形状特征提取
本文采用颜色相关图特征对皮损区域的颜色以及皮损区域其他区域的渐变信息进行描述,统计皮损区域的像素在一定距离内的颜色变化程度,其中用距离集合来描述颜色的变化程度,设距离集[d={d0,d1,d2,d3}],颜色相关图描述距离为[d],则生成的直方图Bin的大小根据式(2)计算:
[Bin(Ci,Cj)=x,y{I(x,y,Ci)-I(x,y,Cj)=d}] (2)
其中,[*]表示像素值为[Ci,Cj]的两个像素的空间距离,然后统计像素个数。本文提取64维颜色相关图特征。
由于皮肤表面的凹凸不平、甚至有些皮损明显突起高于周围区域,皮损的沟纹在视觉上形成纹理,本文采用Ojala定义的均值局部二值模式(uniform local binary patterns)提取59维的皮损纹理特征。
同样的,皮损的形状信息能够对皮损的形状进行描述,本文根据式(3)进行计算并提取7维Hu矩形状特征:
[Φ1=(η2,0+η0,2)Φ2=(η2,0-η0,2)2+4η1,12Φ3=(η3,0-3η1,2)2+(3η1,2-η0,3)2Φ4=(η3,0+η1,2)2+(η2,1+η0,3)2Φ5=(η3,0-3η1,2)(η3,0+η1,2)[(η3,0+η1,2)2-(3η2,1+η3,0)2]+(3η2,1-η0,3)(η2,1+η0,3)[3(η3,0+η1,2)2-(η2,1+η0,3)2]Φ6=(η2,0-η0,2)[(η3,0+η1,2)2-(η2,1+η0,3)2]+4η11(η3,0+η1,2)(η2,1+η0,3)Φ7=(3η2,1-η0,3)(η1,2+η3,0)[(η3,0+η1,2)2-3(η1,2+η3,0)2]-(η3,0-3η1,2)(η2,1+η0,3)+[3(η3,0+η1,2)2-(η2,1+η0,3)2]] (3)
3.2 多特征组合
由于本文提取的颜色、纹理、形状特征中各特征的维数不同,且描述不同的皮损特性,无法直接进行比较和分析,因此需要对这些特征进行特征归一化,使得各特征处于同一数量级别进行综合性衡量。在对提取出的各特征归一化后,进行相似度测度层面的特征组合,首先要计算待查询图像与图像特征库的相似度距离,本文使用了欧式距离测度,根据式(4)计算,其中A为待查询图像特征向量,B为图像特征库在N维空间的特征向量。
[EMD(A,B)=i=1N(Ai-Bi)2] (4)
在计算出待查询的皮损图像与库中的皮损图像的欧式距离后,然后依据相似度测度的线性融合规律,数学公式描述如式(5),n是提取的特征数目:
[Sfusion=α1S1(F1)+α2S2(F2)+...αnSn(Fn)] (5)
[Sfusion]是融合后的相似度测度,[αi]是相似度测度分量[ Si]在融合后的相似测度[Sfusion]所占据的比重,由于不同种类图像的相似度距离所占比例不同,因此赋予的每个特征的相似度距离相同的初始权重。
4 SVM相关反馈
为了缩小底层视觉信息与高层抽象描述存在的语义差异,本文采用SVM相关反馈算法对皮损样本进行学习与检索,算法的主要步骤为:
Step1:对多特征的相似度进行加权组合后,按照相似度大小进行检索,检索结果返回前Top-N张最相似皮损图像记为[U]。
Step2:对初步皮损检索结果进行相关皮损样本数据集[I+1(I+1∈U)]和不相关皮损样本数据集[I-1(I-1∈U)]标记,且其中[I+1?I-1=?]。
Step3: 皮损样本集更新。更新历次返回的累积相关皮损样本集[I+=(I+?I+1)-I-1],不相关皮损样本集[I-=(I-?I-1)-I+1]。
Step4: 准备相关反馈学习的训练样本集[(xi,yi)]
[xi∈(I+?I-)],[yi=1xi∈I+-1xi∈I-],并利用SVM分类器对样本集进行训练 ,构建的分类器为式(6):
[f(x)=iαiyiK(x,y)+b] (6)
Step5: 对待查询皮损图像[Q(xi)],计算[w(Qi)=-f(xi)],并引入衰减系数[β] 来进一步更新每一张图像的权值,权值根据式(7)计算
[w(Qi)=(1-β)w(Qi)+f(xi)] (7)
其中[β]为衰减系数,[β∈[0,1]]
Step6: 按照Step5中的每张图像的权值大小进行降序排序,并返回检索图像,若用户对检索结果不满意则继续返回Step3,满意则结束。
4 仿真与分析
4.1 数据准备
本文采用的皮肤病的皮损数据集由温州市人民医院使用相机采集,经过多次的辨别、筛选之后,选择10种类型皮肤病作为待检索皮肤病类型,将每种病中的一种皮损形态的皮损图像作为实验数据,包括恶性黑性黑毒瘤,草莓状血管瘤,黑棘皮病,白癜风等,每一类选取50张,共500张图像作为皮损图像数据库,格式为bmp,大小为256*256。选择每一类皮损图像中较为典型的5张,共50张作为待查询图像库。选择查准率(precision)与查全率(recall)作为评价指标,如式(8):
[precision=NrT] (8)
其中的[Nr]是返回检索图像中与待查询图像相关图像的数目,[T]是检索时返回的图像总数,[R]是图像库中与待查询图像相关的图像总数。
4.2 实验结果
本文选择的研究对象是皮损图像库的500幅图像。采用综合特征进行皮损图像的检索后,将返回的20张图像作为初始检索结果,并采用引入衰减系数的SVM相关反馈算法进行相关反馈。
(1)多特征提取实验。为了分析多特征组合的优势,本文提取表征皮损特点明显的颜色、纹理以及形状特征的单一特征,并分析了单一的各特征对检索结果以及组合特征对检索结果的影响,图4是10种皮损图像的平均查准率,由图可知红皮病、寻常性鱼鳞病、恶性黑毒瘤皮损图像纹理特征的平均查准率比颜色、形状要高,离心环状红斑、银屑病、草莓状血管瘤等皮损图像的组合特征的皮损检索的查准率得到较大提高。
(2)SVM相关反馈实验。实验选取衰减系数参数为[β=0,0.25,0.5.0.75,1],其中衰减系数[β∈[0,1]],经过多次实验,当衰减系数在[β∈[0,0.25]] 时10类皮损检索均能够均能够稳定,选择[β=0.2]较为合适。设定每次检索后选定返回20张图像作为检索结果,图5是10类皮肤病在引入相关反馈后,检索系统的查准率与反馈次数的关系图,由图可知随着反馈次数的增加,查准率快速提高,查准率在小范围内变化,基本趋于稳定,其中恶性黑毒瘤由于该皮损图像的特征明显,初始检索效果明显且经过1次SVM相关反馈之后查准率基本稳定且趋近于1,而银屑病由于皮损的形状不规则,在多次检索后查准率较低,但仍逐渐趋于稳定的状态,侧面说明了系统具有较好的稳定性。表格1是统计返回20张图像检索稳定时的查准率与反馈次数,可以明显看出[β=0.2]时9种皮损图像在反馈1-3次查准率趋于稳定。如图6是本文晕痣类皮损图像相关反馈2次后检索结果界面。
5 结论
针对皮损图像检索存在的问题,本文提出了一种多特征组合和SVM相关反馈的皮肤病图像检索的方法。该方法对采集的皮损图像进行小波去噪、直方图均衡化、Laplace变换的预处理之后,提取其多特征组合成综合特征,并采用欧式距离进行相似度计算后完成初步检索过程,在一定程度上提高了初步检索过程的查准率;以及引入带有衰减系数[β]的SVM相关反馈的算法后,随着反馈次数的增加,查准率也越来越高,减少SVM相关反馈次数最终趋于平衡,有效地提高皮肤病图像检索的准确度。但目前由于缺少皮损图像的公开数据集,在皮损数据集上进行实验效果研究还需要进一步研究,另外,如何将基于内容的皮损图像检索与包含皮损图像症状描述的文本检索有效结合起来以提高检索效果,还需要进一步研究。这些将是未来皮损图像研究的主要方向。
参考文献:
[1] 蒲晓蓉,王之骢,宋帅领. 基于朴素贝叶斯分类器的皮肤病图像颜色特征提取方法[P].四川:CN106557771A,2017-04-05.
[2] 王兴旺, 杨慧兰. 人工智能实现专业级皮肤癌诊断:未来医学发展动向[J]. 实用皮肤病学杂志, 2017(3):141-141.
[3] 于凡, 万艳丽, 胡红濮. 医学图像检索技术发展现状[J]. 中华医学图书情报杂志, 2017, 26(7):31-35.
[4]孙银辉. 色素性皮肤病图像预处理与内容检索研究[D]. 2016.
[5] 宋帅领. 色素性皮肤病图像的特征提取与识别[D]. 2016.
[6] 白婧文, 赵志诚. 一种新的基于SVM相关反馈的图像检索算法[J]. 软件导刊, 2010, 09(10):49-51.
[7] 赵理君, 唐家奎, 于新菊,等. 综合视觉特征度量与SVM的遥感图像检索方法[J]. 中国科学院大学学报, 2013, 30(3):347-352.
[8] 顾晓东, 杨诚. 新的颜色相似度衡量方法在图像检索中的应用[J]. 仪器仪表学报, 2014, 35(10):2286-2292.
[9] 闫允一, 姜帅, 郭宝龙. 结合稳定兴趣点和Gabor小波的图像检索[J]. 西安电子科技大学学报(自然科学版), 2014, 41(5):118-123.
[10] 劉胜蓝, 冯林, 孙木鑫,等. 分组排序多特征融合的图像检索方法[J]. 计算机研究与发展, 2017(5).
[11] 孙树亮, 林雪云. 基于记忆的SVM相关反馈算法[J]. 计算机科学, 2011, 38(10):256-258.
[12] 朱红斌. 综合颜色和纹理及SVM相关反馈的图像检索[J]. 计算机工程与应用, 2009, 45(5):183-185.
【通联编辑:唐一东】