加入皮尔逊相关系数的局部保持投影方法

2016-11-30 21:37于颜儒
中国科技纵横 2016年17期

于颜儒

【摘 要】随着多媒体技术的不断发展,基于内容的图像检索技术发展迅猛。本篇文章提供一种面向多媒体信息检索领域的特征维数约简技术,它针对多媒体图像、视频数据特征维数很高、容易引起“维数灾难”的特点,利用检索结果与查询之间的相关程度信息,加入皮尔逊相关系数,对传统的局部保持投影(Local Preserving Projection, LPP)[1]进行了改进,达到了提高维数约简效果的目的。

【关键词】维数约简 LPP 皮尔逊相关系数

1 研究背景

随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信息的重要途径之一。然而,这些数据通常具有高维特性,直接其进行分析和处理会出现如下重要问题:(1)计算复杂度高;(2)存储代价高昂;(3)维数灾难。这些问题严重制约多媒体内容分析和检索。维数约简是有效解决这些问题的重要方法,其目标是通过对原始数据进行变换而得到的有效的低维表示。维数约简的定义为给定一批观察样本,记作,即包含n个样本,每个样本均是D维,根据某个准则,找到数据的低维表示,同时保持数据的几何结构。

局部保持投影方法能较好解决数据处理中的“维数灾难”问题,保持原始数据的拓扑结构不变[2],作为拉普拉斯特征映射的一种线性逼近可以较好的反映样本的流形结构,已经被广泛的应用到图像检索和图像修复中。局部保持投影方法有着非常重要的一步是构建所有点的邻接图,距离定义为欧氏距离,即相似度的计算。有时在做相似度计算的时候经常会用到皮尔逊相关系数[3],它描述了两个定距变量间联系的紧密程度(线性关系)。在欧式距离的基础之上加入皮尔逊相关系数,能够得到更加准确的邻接图。

2 加入皮尔逊相关系数的局部保持算法

LPP是一种最近提出的能够较好保持非线性局部数据特征的线性流形学习算法,它是Laplace-Beltrami算子[4]特征函数的一个线性估计,其目的是保持数据之间原有的相似关系,即原始数据空间上相邻的数据点在投影后的空间上也保持相应的相邻关系。LPP算法中的无向图构造和相似矩阵的建立都需要计算任意两点之间的距离,最经典的距离计算方式是欧式距离[5],但是欧式距离只是从数据的角度,并没有考虑到数据本身的结构,不能准确的体现数据间的关系。所以引入了皮尔逊相关系数,提出了加入皮尔逊相关系数的局部保持算法(PCC-LPP)。PCC-LPP能够更加准确保持每个数据点的近邻关系,使维数约简之后的数据更加接近原始数据特征。

皮尔逊相关系数是一种度量两个变量间相关程度的方法。样本之间的相关系数一般用表示,计算公式为:

的取值在-1与+1之间,若,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大,为1时,为完全正相关;若,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小,为-1时,为完全负相关。在这里我们认为值越大表示两个样本的相似程度越高[6][7]。

在计算两点距离时将皮尔逊相关系数加入到原始的欧式距离中,新的距离计算公式为:

PCC-LPP能够更加准确的体现数据之间的关系,使得维数约简算法更加准确。PCC-LPP是对LPP算法的改进,没有加入其他标注信息,所以依然是一个无监督的线性降维算法。

3 实验结果

从Google搜索引擎上搜索10个查询主题,包括 “Bike”、“Greet Wall”、“White House”、“Ice cream”、“Football”、“Fish”、“Baby”、“Tree”、“Summer”、“Stars”。分别涉及动物,人物,运动,景物。下载每个主题查询结果的前500幅图像,并且为每幅图像人工标注相关性等级。相关性等级分为三个级:非常相关、一般相关、不相关。实验前为每个查询主题选择一少部分图像作为训练图像,非常相关、一般相关、不相关每组选出若干图像组成标注样本集合,其余样本作为未标注样本集合。

实验首先提取图像的特征向量,然后用不同的维数约简方法处理图像特征向量,再用降维之后得到的数据和部分标注的相关性等级进行排序训练得到排序模型,利用排序模型对所有样本进行排序,最后评价各个维数约简算法在重排序中的效果。(如图1所示)为查询的初始结果和重排序之后的结果。

参考文献:

[1]Niyogi X. Locality preserving projections[C]//Neural information processing systems. 2004,16:153.

[2]林晟.人脸图像特征提取和识别算法研究[D].哈尔滨理工大学,2009.

[3]Derrick T R,Bates B T, Dufek J S. Evaluation of time-series data sets using the Pearson product-moment correlation coefficient[J].Medicine and science in sports and exercise, 1994,26(7):919.

[4]Andreotti A,Vesentini E.Carleman estimates for the Laplace-Beltrami equation on complex manifolds[J].Publications Mathématiques de lIH?S,1965,25(1):81-130.

[5]张忠林,曹志字,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报:工学版, 2010,31(1):89-92.

[6]王翠茹,田振清.两随机变量简单相关系数图式的算法设计[J].中国教育技术装备,2011(006):69-70.

[7]郭洪燕.工业企业安全投入与产出模型研究[D].兰州理工大学,2011.