摘要:在模式识别领域内,随着科技的不断发展,数据压缩技术的不断成熟,海量信息特征的时代也随之到来。这些信息特征中却包含着大量的冗余信息特征,极大地影响了对分类模型的架构及其分类性能。因此,极大地需要在模式识别中采用特征选择技术,选择出对分类判别分析有用的信息特征。
关键词:模式识别;冗余信息特征;特征选择
一、 前言
随着科学技术的不断发展,信息时代也随之而来。在面对海量而且又复杂的样本数据信息时,人类不得不去对相关的信息进行处理。然而实际上,在信息处理的过程中有一个极其重要的形式,就是生命体对客体或者说是所处的环境的识别,我们把环境或者客体之类的统称为模式。模式识别(Pattern recognition)则是通过利用各种数学工具、技术方法来对事物进行表示,从而对事物进行描述、辨别、解释以及分类的一个信息处理过程。模式识别包括很多,有语音模式识别、光学字符识别以及声学信息识别等很多方面。由于具有海量的数据信息,而这些数据信息中,有很多信息都是“多余的”。所谓的多余是指这些信息包括很多冗余的信息或是对研究目的地辨别、分类无关的一些信息特征,所以我们在信息处理的过程中,需要对这些信息进行加工处理,这里我们就要用到特征选择技术。特征选择(feature selection)又叫属性选择(attribute selection)是指从原始的信息特征中选择出一些最有效的信息特征以便能够降低特征的维度的过程,其也是模式识别体系的基本流程中的一个关键技术所在。经过特征选择技术,我们可以降低特征的維度,去除那些复杂信息中所包含的冗余特征(redundant features)和不相关的特征(unrelated features),还可以降低计算过程中的复杂性以及分类模型的复杂性,改善分类判别性能。因此,特征选择技术对于模式识别来说是一个极其重要也是必不可少的关键步骤。
二、 特征选择技术的评价函数
在模式识别系统中,我们需要对特征子集进行评价从而判断所选择的特征子集是否有效,是否能够改善最终的分类判别的分类精度,这里就需要用到相应的评价函数。在经过不同的评价函数所选择出的特征子集的最优性或是次优性也是不同的。依据特征评价函数与学习方法之间的关系,我们可以将评价函数分为独立的评价函数以及非独立的评价函数。
独立的评价函数,顾名思义,它是和学习方法无关的,它只是依据训练样本本身所具有的信息特征来对特征子集的判别分类性能进行评价。一般而言,在模式识别过程中,我们经常用到的独立的评价函数包括信息评价函数(信息熵、信息增益等,若某个信息特征A的信息增益要高于信息特征B的信息增益,则我们可以优先选择信息特征A)、距离评价函数(其中常用到的距离准则有欧氏距离、马氏距离、余弦距离等)、以及相关性评价函数(其中常用到相关系数来衡量某一特征与类别之间的相关程度)。非独立评价函数,它与学习方法是密切相关的,其是根据学习方法的分类性能来对所有的特征集合进行的评价(其中常用到的非独立函数就是正确分类率)。
三、 特征选择技术的分类
在模式识别系统中,在对所提取的特征进行选择时,我们有不同的选择方法。依据评价函数与学习方法之间的关系,我们可以将特征选择技术分为滤波式(filters)、封装式(wrappers)、混合式(hybrid)以及嵌入式(embedded)特征选择方法。
滤波式特征选择技术是与分类算法相独立的,它也和分类算法中所涉及到的参数以及分类过程中的分类性能时完全无关的。一般而言,滤波式特征选择技术经常采用独立的评价函数。因此,当我们改变评价函数的时候,我们就可以得到各种各样的滤波式特征选择方法。滤波式特征选择方法具备通用性的特性,正是由于它的通用性,我们才可以凭借这种方法来解决各种各样的有关特征选择的问题。但是这类方法也有其缺点,即由于与分类算法是相互独立的,所以通过该类方法所选择出的特征子集的分类性能一般都要劣于其他的分类方法。
封装式特征选择技术与滤波式特征选择技术不同,其所采用的评价函数是非独立的评价函数,它是通过利用特征集合的分类性能来得到最优的特征子集或者是次优的特征子集。其中,对特征子集评价的评价函数是与学习方法紧密相关的。该类方法是将特征选择的过程与学习方法结合起来,从而寻求对判别分类性能最好的特征子集。与滤波式特征选择技术类似,我们通过改变学习的算法,也可以得到各种各样的封装式特征选择技术方法。但是该算法也有其缺点,即复杂程度高,运算量极大。
对于混合式特征选择方法而言,其充分地利用了滤波式及封装式各自的优点,来提供一种特征选择思路。在特征选择的过程中,该类方法同时地使用了独立的评价函数以及学习算法来对特征子集进行评价,其步骤是首先通过独立的评价函数来选择出一系列的最优特征集合,再通过使用学习算法来对这些候选的特征集合一一分析处理,从而挑选出最终的最优特征集合。
对于嵌入式特征选择方法而言,它是充分考虑了学习算法固有的一些结构,这类方法的思想就是将特征选择技术嵌入到学习算法中,从而架构出一系列的嵌入式特征选择方法。比如说,经典的决策树算法(decision tree algorithm),该算法是一种预测模型,是一种树形结构,算法中的基元—节点有着选择的作用,通过每个节点,我们可以选择出那些对分类判别能力好的信息特征。
四、 结语
特征选择技术方法多种多样,具体问题可具体分析,也可以根据自己的需求,结合本身的条件来选择出适合的分类方法。
参考文献:
[1]杨宏晖,戴健,孙进才,等.用于水声目标识别的自适应免疫特征选择算法[J].西安交通大学学报,2011,45(12):28-32.
[2]李玲,刘华文,徐晓丹,等.基于信息增益的多标签特征选择算法[J].计算机科学,2015,42(7):52-56.
[3]王力波,王耀力,常青.生物信息学中的特征选择[J].太原理工大学学报,2017,48(3):458-468.
作者简介:
李星星,江西省南昌市,江西科技师范大学。