一种基于深度特征和KNN 随机森林的无失真图嵌入方法

2020-12-28 01:46:40占善华黄少丽
现代计算机 2020年31期
关键词:框架图形距离

占善华,黄少丽

(广东司法警官职业学院信息管理系,广州 510520)

0 引言

基于图嵌入的图像分类已在许多框架中得到了深入研究,例如文献[1-3]。传统上,这些方法使用手工设计的特征来表示图像并构造图形,其中顶点显示特征,而边缘对特征之间的关系进行编码。然后,这些方法将图嵌入到某些几何空间中,以使相似的图位于附近,而相异的图则位于更远的位置。文献[4-5]使用AlexNet 数据集图像分类任务以来,诸如VGG[6]、Inception[7]、ResNet[8]、DenseNet[9]之 类 的 深 度 神 经 网 络(DNN)成为了主导方法。而且,DNN 已显示出学习更多具有代表性和区分性的图像分类功能。因此,图嵌入方法利用深层特征而不是手工设计特征来进行图形构建。

在本文中,我们提出了一种使用具有深层特征的无失真图嵌入的新颖图像分类方法。具体来说,从图像中提取深层特征后,我们基于这些深层特征构建了一个完整的图,以使其顶点表示特征,其边缘显示相应特征之间的距离。然后,我们在l∞下执行无失真图嵌入,以将输入图表示为几何空间中的一组点。最后,我们使用KNN-Random Forest 进行图像分类。我们对所提方法的进行了相应的实验评估(包括与以前的图形嵌入框架的比较),并证明该方法的有效性。简单来说,我们提出了一种基于深度特征和KNN 随机森林的无失真图嵌入的新颖框架。

1 相关工作介绍

ImageNet 这样的大型图像数据集的可用性以及GPU 的计算能力的增长为我们提供了使用深度学习技术进行图像分类的可能性。研究表明,这种方法优于传统方法。深度学习技术可以以端到端的方式很好地学习图像的辨别表示。使用预训练的迁移学习模型,可以获得性能较好的基于深度学习的图像分类模型。一直以来,提取区分性和代表性特征一直是计算机视觉的一项基本任务。常见的特征提取方法之一是使用尺度不变特征变换(SIFT)[10],该变换已成功应用于许多问题,例如对象识别、全景拼接和3D 建模。诸如CNN之类的深度学习体系结构可以通过使用挤压函数和编码来用作自动特征提取器。

在不同的实际应用程序中,大多数问题都可以转换为基于图形的问题。图表示的一种可能方法是将一个或多个图节点转换为向量空间。由于图形表示法的盛行,这种类型的转换在获得了普及。根据嵌入空间的复杂性和维度等特征,图嵌入技术可分为三类:基于分解的、基于随机游走以及基于深度学习。近些年,有很多的方法在提取步骤都容易出错,这就限制了在实践中的适用性。通过使用深度学习功能,可以一定程度解决解决步骤出错的问题。

2 本文方法

本文所提框架包括6 个主要步骤。第一步,对框架中使用的数据集进行预训练,并将深度学习模型进行微调;第二步,通过在深度学习模型中计算稳定性值,为每个图像及其降序提取深度特征;第三步,创建一个完整的图,使每个节点代表一个特征,并且每个边的权重反映相应特征值之间的绝对差;第四步,将每个图形嵌入到l∞且无失真的几何空间中;第五步,应用混合算法KNN-Random 森林进行图像分类;第六步,最后生成分类输出。

本文使用VGG19 模型对ImageNet 数据集及其类别的子集进行了相关实验。我们知道,在没有对VGG19 进行微调的情况下提取特征,这些特征并不是一组具有代表性的特征,因为原始的VGG19 模型已经过1000 次训练。因此,对于这种情况,可以应用迁移学习技术进行处理。在我们的方法中,我们具有针对性地、选择性地训练了最后一层,而不仅仅是替换了最后一层。这样做的好处显而易见,其与VGG19 方法相比,这可以表示具有较少深度特征的图像。更准确地说,我们锁住了VGG19 的最后两层,并分别添加了200和150 个节点的层。从计算复杂角度看,这种变化极大地弱化了计算深度,因为我们不需要存储所有4096个VGG19 深度特征,而只需存储150 个特征即可正确表示图像。职业当我们构造完一个完整的图后,该图的节点表示较深的特征,并且其边缘反映了相应特征之间的距离,使用切比雪夫距离作为距离值,最后进行无失真图嵌入。需要提到的是,从图像中获得150 个深层特征后,我们将根据它们的值按降序对它们进行排序,并以此构建完全连接的图形。这些节点之间的距离的计算方法为要素之间的绝对差。计算出的该距离也称为Chebyshev,具体的方法,即点X 和Y 之间的距离计算为:

其中,i 是相应坐标的索引。

无失真图嵌入包括几个步骤。令G=(V,E)为输入图,令 V={v0,v1,v2,v3,v4}为节点集。该图中一个节点的嵌入是集合Ω={d0,d1,d2,d3,d4},其中 di是到图中相应节点的最短距离。例如,图1 中v0的矢量表示为{0.0,2.0,3.5,2.0,1.0},其中集合中的每个元素都是到相应节点的最短距离。以此类推,我们计算并获得v3 的嵌入,该嵌入给出值序列为{2.0,2.5,4.0,0.0,1.5}。通过这样的方法,可以找到每个节点的坐标。特征排序是嵌入过程中最重要的部分之一,因为该嵌入对特征的顺序非常敏感。先前的工作通过特征相对于其邻居的相对位置来对特征进行排序,这既昂贵又容易出错。在提出的框架中,我们仅使用深度学习模型中计算出的值。这样可以确保稳定性。另外,由于对于输入图像始终获得相同数量的特征,本次工作不处理均等化问题。

图1 带有边缘权重的样本连接图

在先前的很多工作中,有很多研究者使用混合算法,基于这些受混合算法用于分类任务的启发,SVMKNN 组合已成功用作图像分类器[11]。KNN 存在高方差问题,而SVM 在计算上却很昂贵。研究表明,SVMKNN[11]应用的大型多类数据集的实验效果优于KNN 和SVM。该算法的主要原理是通过以下方式使用混合SVM-KNN:

计算从查询到所有其他训练图像的距离。

●如果所有K 个邻居都具有相同的标签,相应地进行标记查询。

●如果不是,将距离矩阵转换为内核矩阵之后应用多类SVM。

●使用SVM 获取查询标签。

基于上述方法,本文采用KNN-Random 森林作为图像分类器。在这里,随机森林被用作SVM 的替代。之所以进行此替换的关键原因是由于SVM 的计算要求,尤其是对于具有多个类的大型数据集。

图2 图像示例

3 实验

ImageNet 是图像数据集,它是根据“WordNet”层次结构进行组织的,在文献[4]中有详细介绍。WordNet中所有有意义的概念都可以用多个单词或一个称为“同义词集”的单词来描述。WordNet 中的同义词集总数超过100000,其中80000+是名词。每个类别用1000-1500 张图像表示。为了增加数据集中的图像数量,我们使用了数据增强功能,该功能通过创建数据集中所有图像的修改版本来人为地扩展训练和测试数据集的大小。通过提供新的图像变体,此技术提高了对模型进行概括的能力。特别是,我们为每张图片使用20 度旋转和水平翻转,从而在数据集中为每张图片创建了另外5 个变体。图2 显示了这种数据增强,其中每行中的第一张图像是原始图像,其余的分别显示了针对“紫罗兰”、“狼蛛”和“猎豹”类别的变换图像。我们使用ImageNet 的子集,使得图像总数为71326。训练和测试的拆分比例为80%到20%,其中57000 幅图像用于训练,其余14260 幅图像用于测试。结果显示,基于K=3 的KNN-Random Forest 提出的框架在5 个类的ImageNet 子集上获得了96.1%的图像分类精度,在10 个类中获得了92.3%的图像分类精度,这证明了所提出框架提高了图像分类的准确性。

4 结语

图嵌入技术已被几种不同的框架采用,用于解决许多问题,例如图像分类、特征对应和图像索引。在本文中,我们提出了一种基于具有深层特征的无失真图嵌入的图像分类框架。尽管以前已经提出了具有手工特征的无失真图形嵌入方法,但是我们使用深度特征来应用这种嵌入方法来克服替代技术所面临的一些问题的方法是新颖的。我们已经在ImageNet 的子集中显示了所提出框架的有效性。但是,我们的未来目标是在更大的数据集中执行更全面的评估,并将其与更多替代方法进行比较。

猜你喜欢
框架图形距离
框架
广义框架的不相交性
算距离
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
分图形
找图形
每次失败都会距离成功更近一步
山东青年(2016年3期)2016-02-28 14:25:55
一种基于OpenStack的云应用开发框架
图形变变变
爱的距离
母子健康(2015年1期)2015-02-28 11:21:33