范会敏,王 浩
(西安工业大学 计算机科学与工程学院,陕西 西安 710032)
模式识别是人类的一项基本技能,日常生活中,人们经常在进行“模式识别”,比如人们能够认出周围的房子、街道,能认出不同的人以及他们的说话声音,人脑的这种能力就构成了“模式识别”的概念。随着计算机的出现以及人工智能的兴起,将人类识别技能赋予计算机成为一项新兴课题。
当人们看到某物或现象时,人们首先会收集该物体或现象的所有信息,然后将其行为特征与头脑中己有的相关信息相比较,如果找到一个相同或相似的匹配,人们就可以将该物体或现象识别出来。因此,某物体或现象的相关信息,如空间信息、时间信息等,就构成了该物体或现象的模式。广义的说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式。Watanable定义模式“与混沌相对立,是一个可以命名的模糊定义的实体”[1]。比如,一个模式可以是指纹图像、手写草字、人脸、或语言符号等。“广义的说,存在于时间和空间中可观察的事物,如果我们可以区别他们是否相同或相似,都可以称之为模式”。而将观察目标与己有模式相比较、配准,判断其类属的过程就是模式识别。模式以及模式识别是和类别(集合)的概念分小开的,只要认识某类事物或现象中的几个,人们就可以识别该类中的许多事物或现象。为了强调能从具体的事物或现象中推断出总体,“我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,而把模式所属的类别或同一类模式的总体称为模式类(我们下面进行的模式识别的讨论都是基于该定义的)。也有人习惯上把模式类称为模式,把个别具体的模式称为样本”。如“字符”、“植物”、“动物”等等都是模式,而“A”、“松树”、“狗”则是相应模式中的一个样本。在此意义上,人们可以认为把具体的样本归类到某一个模式,就叫做模式识别,或模式分类[2]。
人类具有很强的模式识别能力。通过视觉信息识别文字、图片和周围的环境,通过听觉信息识别与理解语言等。模式识别是人类的一种基本认知能力或智能,是人类智能的重要组成部分,在各种人类活动中都有着重要作用。在现实生活中,几乎每个人都会在不经意间轻而易举地完成模式识别的过程。但是,如果要让机器做同样的事情,恐怕决非这么轻松。本文将从人工智能的角度,更深层次地分析什么是模式识别,以及如何用机器进行模式识别。
要让机器具有人的模式识别能力,人们首先需要研究人类的识别能力,因此模式识别是研究人类识别能力的数学模型,并借助于计算机技术让计算机模拟人类识别行为的科学。换言之,模式识别是研究如何让机器观察周围环境,学会从背景中识别感兴趣的模式,并对该模式的类属作出准确合理的判断。模式识别研究主要集中在两方面,即研究生物体(包括人)如何感知对象,以及研究在给定的任务下,如何用计算机实现模式识别的理论和方法。前者属于认知科学的范畴,是生理学家、心理学家、生物学家和神经生理学家的研究内容,后者属于信息科学的范畴,是数学家、信息学专家和计算机科学工作者的研究内容。识别行为可以分为两大类:识别具体事物和识别抽象事物。具体事物的识别涉及到时空信息的识别。空间信息的例子,如指纹、气象图和照片等:时间信息的例子,如波形、信号等。抽象事物的识别涉及到某一问题解决办法的识别、一个古老的话题或论点等。换言之,抽象事物的识别是识别那些不以物质形式存在的现象,属于概念识别研究的范畴。笔者所指的模式识别主要是对具体事物的识别,如语音波形、地震波、心电图、脑电图、图片、文字、符号、三维物体和景物以及各种可以用物理的、化学的、生物的传感器进行测量的具体模式等。要识别的数据有:一维数据,如语音、心电图、地震数据等;二维数据,如文字图片、医学图像、卫星图像等;三维数据,如图像序列、结晶学或X图像断层摄影术等。
一个完整的模式识别系统由数据获取、数据处理、特征提取和选择、分类决策4部分组成[3-4],如图1所示。
图1 模式识别系统Fig.1 Pattern recognition system
在设计模式识别系统时,需要注意模式类的定义、应用场合、模式表示、特征提取和选择、聚类分析、分类器的设计和学习、训练和测试样本的选取、性能评价等。针对不同的应用目的,模式识别系统各部分的内容可以有很大的差异,特别是在数据处理和模式分类这两部分,为了提高识别结果的可靠性往往需要加入知识库(规则)以对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量。在某些具体应用中,如机器视觉,除了要给出被识别对象是什么物体外,还要求出该物体所处的位置和姿态以引导机器人的工作。下面分别简单介绍模式识别系统这4部分的工作原理。
1)数据获取
数据获取是指利用各种传感器把被研究对象的各种信息转换为计算机可以接受的数值或符号(串)集合。习惯上,称这种数值或符号(串)所组成的空间为模式空间。这一步的关键是传感器的选取。为了从这些数字或符号(串)中抽取出对识别有效的信息,必须进行数据处理,包括数字滤波和特征提取。
2)数据处理
数据处理是为了消除输入数据或信息中的噪声,排除不相干的信号,只留下与被研究对象的性质和采用的识别方法密切相关的特征(如表征物体的形状、周长、面积等等)。举例来说,在进行指纹识别时,指纹扫描设备每次输出的指纹图像会随着图像的对比度、亮度或背景等的不同而不同,有时可能还会产生变形,而人们感兴趣的仅仅是图像中的指纹线、指纹分叉点、端点等,而不需要指纹的其它部分或背景。因此,需要采用合适的滤波算法,如基于块方图的方向滤波、二值滤波等,过滤掉指纹图像中这些不必要的部分。
3)特征提取
特征提取是指从滤波数据中衍生出有用的信息,从许多特征中寻找出最有效的特征,以降低后续处理过程的难度。我们对滤波后的这些特征进行必要的计算后,通过特征选择和提取形成模式的特征空间。人类很容易获取的特征,对于机器来说就很难获取了,特征选择和提取是模式识别的一个关键问题。一般情况下,候选特征种类越多,得到的结果应该越好。但是,由此可能会引发维数灾害,即特征维数过高,计算机难以求解。因此,数据处理阶段的关键是滤波算法和特征提取方法的选取。不同的应用场合,采用的滤波算法和特征提取方法以及提取出来的特征也会不同。
4)分类决策或模型匹配
基于数据处理生成的模式特征空间,人们就可以进行模式识别的最后一部分:模式分类或模型匹配。该阶段最后输出的可能是对象所属的类型,也可能是模型数据库中与对象最相似的模式编号。模式分类或描述通常是基于己经得到分类或描述的模式集合而进行的。人们称这个模式集合为训练集,由此产生的学习策略称为监督学习。学习也可以是非监督性学习,在此意义下产生的系统不需要提供模式类的先验知识,而是基于模式的统计规律或模式的相似性学习判断模式的类别。模式分类或模式匹配的方法有很多,主要是基于以下思想设计的:
成员表:即模板匹配。基于该思想,分类系统中会预先存储属于同一模式类的模式集,然后将输入的未知模式与系统中己有的模式相比较,具有相同或相似匹配的模式类即为该未知模式的所属类型。
一般特征:这里模式的一般特征被存储在一个分类系统中,当有一个未知模式进入该系统时,系统会将其一般特征与系统中现有类的一般特征相比较,并将其归入到与其有相似特征的类中。
聚类:文中笔者用实数向量来表示目标类的模式,这样,利用其聚类特性,可以轻易地将未知模式进行分类。如果目标向量在几何位置上相距很远,就容易确定未知模式的类别。但是如果目标向量相距较近,或甚至有重叠,人们就需要采用比较复杂的算法来确定未知模式的类别。最小距离分类法就是一个基于聚类概念的简单算法。该算法通过计算未知模式与希望的己知模式集之间的距离,来决定哪一个己知模式与该未知模式最近,并最终将该未知模式归入到与其相距最短的己知模式类中。该算法对于目标向量在几何位置上相距很远的模式分类很有效。
神经元:上而的模式分类思想都是基于机器的直接计算,而直接计算则是基于数学相关的技术。仿生学是指将生物学知识应用到电子机器中。神经系统方法就是将生物知识应用于机器中来进行模式识别,从而引进了人工神经元网络。
一个神经元网络是一个信息处理系统,由大量简单的数据处理单元组成,这些单元互相连接,协同工作,从而实现大规模并行分布处理。神经元网络的设计和功能是模仿了生物的脑部和神经系统的功能而设计的。神经元网络具有自适应学习、自组织和容错力等优点。由于神经元网络的这些突出特点,人们可以应用神经元网络进行模式识别。一些最好的神经元网络模型是后向传播网络、高阶网络、时延和周期性网络。
通常,人们利用前向传播网络进行模式识别。前向传播也就是没有回到输入端的反馈信息。与人类从错误中得到教训相似,神经元网络也能通过向输入端反馈信息,从其错误中得到教训。通过反馈可以重建输入模式,避免产生错误,从而提高神经元网络的性能。当然,构造这样的神经元网非常复杂。这类神经元网络要用到后向传播算法(BP)。后向传播算法的主要问题之一是局部极小问题。另外,神经元网络在学习速度、结构选择、特征表示、模块性、缩放性等方而也都存在一些问题。虽然神经元网络存在这样那样的问题和困难,但是其发展潜力还是巨大的。
统计模式识别方法是受数学中的决策理论启发而产生的一种识别方法。其基本思想是将特征提取阶段得到的特征向量定义在一个特征空间中,这个空间包含了所有的特征矢量。不同的特征向量,或者说不同类别的对象,都对应于此空间中的一点。在分类阶段,则利用统计决策的原理对特征空间进行划分,从而达到识别不同特征对象的目的。统计识别中应用的统计决策分类理论相对比较成熟,研究的重点是特征提取[5-6]。
统计模式识别方法适用于在给定的有限数量样本集,已知研究对象统计模型或已知判别函数类条件下,根据一定的准则通过学习算法能够把d维特征空间划分为c个区域,每一个区域与每一类别相对应,模式识别系统在进行工作时只要判断被识别的对象落入哪一个区域,就能确定出它所属的类别。
句法识别是对统计识别方法的补充。统计方法用数值来描述图像的特征,句法方法则是用符号来描述图像特征的。它模仿了语言学中句法的层次结构,采用分层描述的方法,把复杂图像分解为单层或多层的简单子图像,主要突出了识别对象的结构信息。图像识别是从统计方法发展起来的,而句法方法扩大了识别的能力,使其不仅限于对象物的分类,而且还用于景物的分析与物体结构的识别。
句法结构模式识别主要用于文字识别、遥感图形的识别与分析、纹理图像的分析中。该方法的特点是识别方便,能够反映模式的结构特征,能够描述模式的性质,对图像畸变的抗干扰能力较强。如何选择机缘是本方法的一个关键问题,尤其是当存在干扰及噪声时,抽取基元更困难,且易失误。
模糊模式识别的理论基础是模糊数学。它根据人辨识事物的思维逻辑,吸取人脑的识别特点,将计算机中常用的二值逻辑转向连续逻辑。模糊识别的结果是用被识别对象隶属于某一类别的程度即隶属度来表示的,一个对象可以在某种程度上属于某一类别,而在另一种程度上属于另一类别。一般常规识别方法则要求一个对象只能属于某一类别。基于模糊集理论的识别方法有:最大隶属原则识别法、择近原则识别法和模糊聚类法。
伴随着各门学科,尤其是人文、社会学科及其他“软科学”的不断发展,数学化、定量化的趋势也开始在这些领域中显现。模糊模式识别不再简单局限于自然科学的应用,同时也被应用到社会科学,特别是经济管理学科方面。
人工神经网络的研究起源于对生物神经系统的研究。它将若干处理单元(即神经元)通过一定的互连模型连结成一个网络,这个网络通过一定的机制可以模仿人的神经系统的动作过程,以达到识别分类的目的。人工神经网络区别于其他识别方法的最大特点是它对待识别的对象不要求有太多的分析与了解,具有一定的智能化处理的特点。神经网络侧重于模拟和实现人认知过程中的感知觉过程、形象思维、分布式记忆、自学习和自组织过程,与符号处理是一种互补的关系。但神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习的能力,特别适用于处理需要同时考虑许多因索和条件的、不精确和模糊的信息处理问题。
模板匹配的原理是选择己知的对象作为模板,与图像中选择的区域进行比较,从而识别目标。模板匹配依据模板选择的小同,可以分为两类:1)以某一己知目标为模板,在一幅图像中进行模板匹配,找出与模板相近的区域,从而识别图像中的物体,如点、线、几何图形、文字以及其他物体;2)以一幅图像为模板,与待处理的图像进行比较,识别物体的存在和运动情况。模板匹配的计算量很大,相应的数据的存储量也很大,而且随着图像模板的增大,运算量和存储量以几何数增长。如果图像和模板大到一定程度,就会导致计算机无法处理,随之也就失去了图像识别的意义。模板匹配的另一个缺点是由于匹配的点很多,理论上最终可以达到最优解,但在实际中却很难做到。
模板匹配主要应用于对图像中对象物位置的检测,运动物体的跟踪,不同光谱或者不同摄影时间所得的图像之间位置的配准等。
支持向量机(Support Vector Machine,SVM)是由 Vapnik领导的AT&Bell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术,其基本思想是:先在样本空间或特征空间,构造出最优超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力。支持向量机结构简单,并且具有全局最优性和较好的泛化能力,自提出以来得到了广泛的研究。
支持向量机方法是求解模式识别和函数估计问题的有效工具。SVM在数字图像处理方面的应用是:寻找图像像素之间的特征的差别,即从像素点本身的特征和周围的环境(临近的像素点)出发,寻找差异,然后将各类像素点区分出来。
模式识别是一个交叉、综合的科学技术领域,不仅与其他信息学科而且和包括数理科学、生命科学、地球科学、工程与材料科学、管理科学、环境科学的相互作用和渗透愈来愈高,其科学界线很可能随着发展而逐渐模糊[7]。其发展离不开应用和工程,离不开国家目标。因此,其科学技术内涵与外延应该与时俱进、更新和扩展,研究的方向与内容应该更具有综合性、交叉性,更强调国家目标的实现,解决国家急需的重大问题、重大关键技术攻关和社会发展中的科学技术难题和基础理论问题。
[1]边肇棋,张学工.模式识别[M].2版.北京:清华大学出版社,2007.
[2]Duda R O,Hart P E,Stork D G.模式分类[M].李宏东,姚天翔,译.机械工业出版社,2003.
[3]孙即祥,等.现代模式识别[M].长沙:国防科技大学出版社,2002.
[4]邵美珍,黄洁,等.模式识别原理与应用[M].西安:西安电子科技大学出版社,2008.
[5]靳富丽.模式识别理论及其应用[J].湖北广播电视大学学报,2007(12):159-160.JIN Fu-li.Pattern recognition theory and its applications[J].Journal of Hubei Radio and TV University,2007(12):159-160.
[6]严红平,潘春洪.模式识别简述[J].自动化博览,2006(1):22-26.YAN Hong-ping,PAN Chun-hong.A brief introduction to pattern recognition[J].Automation panorama,2006(1):22-26.
[7]杨合超,宋海歌,周雪梅.模式识别的主要方法及其应用[J].电脑知识与技术,2008(S2):156-157.YANG He-chao,SONG Hai-ge,ZHOU Xue-mei.The main methods and applications of pattern recognition[J].Computer knowledge and technology,2008(S2):156-157.