模式识别现状的简要分析

2019-09-10 17:08李星星
学习与科普 2019年36期
关键词:特征选择模式识别

摘要:模式识别(Pattern recognition)是上世纪七八十年代的流行术语。它是对原始数据信号(图像、语音、文字、视频等)进行分析、解释,从而得到其类别属性,甚至对其特征进行选择,继而进行判断分类的过程。模式识别相关的方法有很多,它们之间有很多的不同,当然也和传统的模式识别方法也有很大出入。

关键词:模式识别;类别属性;特征选择

一、国内外研究发展现状类比

传统的模式识别特征选择策略主要应用于单标记学习,单标记特征选择算法有很多,比如说传统的主成分分析法(principal component analysis ,PCA),以及它的演变算法——快速PCA算法[2,3]。主成分分析(PCA)是一种统计程序, 是作为一个在探索性数据分析上的工具而且可以用来预测模型。它使用一个正交变换将一组观测可能相关的变量转化为一组线性不相关的变量。PCA方法是一种基于图像转化的分析处理方法,其本质则是将一些图像矩阵所转换成的图像向量作为原始的特征,不过这样会导致特征维数较高,使得特征提取过程变得复杂;除此之外,在同类内部之间,高维的特征向量也会导致散布矩阵奇异性的一些问题。另外,目前比较推崇的逐步判别分析方法(Stepwise Discriminant Analysis,SDA)。判别分析:在研究过程中,研究对象已经按某种方法划分成了若干个类型,当得到一组新的样本数据时,确定这些样本属于哪一种类型,这类问题就属于判别分析,逐步判别分析就是逐步地选择满意的变量(特征)来进行判别分析,分析出输入数据样本类别的一个过程。

近年来,多标记学习也已经获得来自国内外广泛的关注,并且已经应用于大量的研究领域内。比如说,在语义场景分类中,一幅图片可能被注释为河流和山脉,也许另一幅图片却被注释为沙滩和城市。在音乐情感分类中,一首音乐可能包含不同的情感,比如说喜、怒、哀、乐。在文本分类中,一个文件可能具有几个不同的主题,例如健康与政府。在生物信息学领域,每一个基因可能具有一套功能类标,比如说新陈代谢、转录以及蛋白质合成等。以上所有的这些案例,每个样本都具一套类标,均属于多标记学习数据样本。多标记学习的任务就是为了构造出一个多标记分类模型,从而为每一个未知的样本(对象)获得一个预测的类标子集。

二、与传统的模式识别类比

多标记特征选择(Multi-label feature selection)相对来说是一个比较全新的研究领域。随着多标记问题的提出,多标记学习问题也受到越来越多的关注。根据调查发现,在过去的几年里,大量的多标记学习方法被提出。这些多标记学习方法可大致分为两个主要的类别:(1)、问题转化法(problem transformation);(2)、算法自适应方法(algorithm adaptation)。在问题转化方法中,转换的核心就是改造原始的样本数据以便适应于现有的学习算法。转化的任务就是将原始的多标记学习问题转化为一个或若干个相应的单标记学习问题,然后再通过传统的单标记学习方法来逐一解决这些问题。几种著名的问题转换方法,包括二元关联法binary relevance (BR)、类标能量子集法label power set (LP)以及它的变体,修剪的问题转换法pruned problem transformation (PPT)。BR方法则是将多类问题转换为L个二类分类问题,再训练出L个二类分类器。那么对于第m个类别来说,所有属于第m个类的样本均为正样本(positive instance),其他的样本则为负样本(negative instance)。但是这类方法有着一个缺点,那就是其忽略了类别之间的关联性。LP方法虽然考虑了类别之间关联性,但是它将具有多个类标的样本作为一组新的类别,这必将会引起一些新的问题:1)随着新类别的增加,时间消耗越来越大;2)由于只有少量的样本被归属于新的类标,使其易于趋向过拟合;3)由于新的类标只具有少量的样本数目,则可能会导致类标不平衡的问题。PPT方法,其是LP方法的一个变体,这种方法抛弃了那些只具有少量样本数目的新类标,相对于LP方法而言,这种方法就减轻了LP方法的缺陷,但是却引发了一个新的问题,即当抛弃那些只有少量样本的新类标的时候,则会导致信息损失。图2则直观地展示了BR和LP方法的转换过程。

对于算法自适应方法,其主要思想:通過修正一些约束条件,以便扩展某种单标记学算法从而直接处理多标记问题,在这期间并不涉及任何的转换过程。基于这类方法的思想,类标排名支持向量机方法(Label rank support vector machine,LaRankSVM), 基于k近邻的多标记学习算法(Multi-label based on k-Nearst Neighbor algorithm,ML-kNN), 以及多类标朴素贝叶斯特征选择方法(Multi-label Naive Bayes feature selection method,MLNB)依次被提出。

尽管以上的这些方法的性能都很好,但是他们都是在不同的类标中基于同样的特征空间下来实现学习的目的。然而实际上,在多标记学习算法中,不同的类标可能拥有他们自己独特的特征。例如:当判断一个学生是计算机系的学生还是艺术系的学生时,可以通过像代码和艺术作品这类的特性就可以大致区别该学生的身份来;像这类特征就可以看作是对应类标下的特异性特征(label-specific features)。然而,随着特异性特征的构建,特征维度将会急剧地增加,从而导致在所构建的特征空间中有大量的冗余信息存在的现象,尤其是在多样本分类数据集或者是在高维特征空间中,这种现象极为明显。因此,为了适应时代的发展,为了有效地避免维度灾难问题,还需要研究人员进行大量的实验探究,这种情况就刻不容缓了。

参考文献

[1]杨淑莹, 张桦. 模式识别与智能计算:MATLAB技术实现[M]. City: 电子工业出版社, 2015.

[2]余映, 王斌, 张立明. 一种面向数据学习的快速PCA算法[J]. 模式识别与人工智能, 2009, 22(4): 000567-000573.

[3]Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification ☆[J]. Pattern Recognition, 2004, 37(9): 1757-1771.

作者简介:李星星,1991.4,男,江西九江,广州工商学院,无,模式识别与图像处理

猜你喜欢
特征选择模式识别
文本分类中TF-IDF算法的改进研究
轻身调脂消渴片的指纹图谱建立、化学模式识别及含量测定
基于MBP算法和深度学习的人脸识别
基于视频的带电作业中组合间隙的智能检测
基于智能优化算法选择特征的网络入侵检测
汽车外观造型创新设计遗传算法的应用
故障诊断中的数据建模与特征选择
自动洁地机器人的设计
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法