李晓丽,马龙龙
(1.防灾科技学院应急管理学院,河北三河 065201;2.中科院软件研究所,北京 100190)
本文提出一种基于多分类融合的文本分类方法引入到防震减灾领域,从现有的科普宣传材料入手,围绕地震监测预报 、震害防御和紧急救援几个方面进行筛选甄别,充分保证电子宣传材料内容的科学性和规范性。
文本分类是指通过一定的规则,将一篇或多篇文本划分为不同的类别,并根据这些类别进一步地使用或处理文本,比如发现用户潜在兴趣、信息推送、信息过滤、搜索引擎、信息整合、网站导航及数字图书馆等。文本分类方法主要包括词匹配法、基于规则的方法和基于统计学习的方法。
词匹配法是根据某些关键词是否在文本中来判断该文本是否属于特定的一类,而这个检索与匹配的过程可以使用一些常见的字符串匹配算法来进行,例如 Knuth-Moris-Pratt 算法[1]。对于字或者字符组成的模式的严格匹配,这种分类法相对比较简单且易于实现,在垃圾邮件过滤领域[2-3]比较常见,但是对于关键词及其变体的识别需要实行额外的策略进行判断,影响了其效率。
基于规则的方法是由专业人员为每个类别根据通用的原则和自身的经验,定义大量的规则,如果待分类的文本满足某个类别的部分或者全部规则,则可以判断它属于这一类别[4]。然而,基于规则的方法有着自身的弊端——过于依赖专家对于规则的定义。首先,聘用专家来编写分类规则意味着高昂的人力成本;其次,规则的编写依赖于专家个人的经验,有可能会掺入个人的好恶成分而影响精确性;第三,文本分类的知识工程法可能需要语法分析和词法分析,并且有的句子语句会根据上下文的内容有所差别,这反过来要求知识工程中规则必须准确且充分,导致了规则数目的庞大,无可避免地增加了开发和使用时的开销,提高了对计算机性能的要求;第四,根据特定规则搭建的文本分类器只能解决预设领域的分类问题,移植性较差,变相增加了开发成本。
基于统计学习的方法是计算机系统使用统计方法对数据进行处理并适当地作出调整,从而改善系统表现的机器学习。现在提及机器学习时,往往是指统计机器学习[5]。常见的可以用于文本分类的统计学习方法有支持向量机、贝叶斯、神经网路、决策树以及隐马尔科夫模型等。运用统计学习中的分类方法,处理待分类的文本,就可以解决文本分类问题。
本文根据防震减灾科普知识的文本特点和应用,利用基于统计学习中的不同方法对文本内容进行分类,并融合不同的分类结果来提高科普知识文本分类的精度,从而有助于科普知识的高效宣传。
面向防震减灾科普知识的文本分类框架如图1所示,包括四个主要过程。首先对输入的科普知识相关文本进行预处理。文本预处理主要是进行文本分词,科普文档中的文本语言为中文,中文文本的词与词之间没有明显的切分标志。若想对科普知识文本进行研究,就必须先对科普知识文本进行分词预处理,我们采用基于规则的分词方法[6]。文本表示将预处理后得到的中文词语以特征向量的形式表示,采用最常用的向量空间模型(VSM)表示文本词语。文本特征提取采用主成分分析PCA方法将表示的高维特征向量进行降维,去除冗余特征信息。基于多分类融合的文本分类模型是本文的重点,把不同分类器的处理结果进行有效融合,从而提高文本分类的性能。
经研究发现,实验组脑卒中偏瘫患者的治疗效果和患者的生活质量明显好于对照组患者。根据统计学分析,差异具有统计学意义,P<0.05。详情见表1。
图1 面向防震减灾科普知识的文本分类框架
通常采用单个分类器的方法往往只是从单一的角度对科普知识的文本进行分类,如果能够将不同特性的分类器进行有效的融合,则能够从更全面的角度认识待分类的科普知识的文本,从而得到更好的分类效果。我们采用基于多个分类器融合的方法对科普知识的文本进行分类。
不同分类器选择的目的就是使每个分类器能互补优势,从而构造出最佳分类器。本文选择支持向量机SVM、贝叶斯网络和神经网络作为待融合的分类器。
3.3.1 支持向量机
支持向量机是 Vapnik等[7]提出的一种新型机器学习算法,其理论基础是统计学习理论。与传统学习算法相比,SVM为解决有限样本学习提供了较好的方法,其基本思想是:通过某种非线性映射,将输入向量x映射到一个高维的特征空间,在这个高维的特征空间Z中,构造最优分离超平面。与传统基于经验风险最小化原则方法不同,SVM运用结构风险最小化原则来实现分类,将分类问题简化成为一个风险最小化问题。
3.3.2 径向基RBF神经网络
径向基RBF神经网络是一种局部逼近的多层前向神经网络,具有算法简单、收敛快、逼近效果好以及泛化能力强的特点。RBF是通过非线性基函数的线性组合实现从输入空间到输出空间的非线性转换。RBF神经网络是一个3层网络,其中输入输出由线性神经元组成,隐层节点是高斯核函数。该函数能对输入产生局部响应,从而将输入空间划分为若干小的局部区间,以达到分类的目的。
3.3.3 贝叶斯网络
基于概率推理的贝叶斯网络是为了解决不定性和不完整性问题而提出的,它是一种概率网络,而贝叶斯公式是这个概率网络的基础。一个贝叶斯网络是一个有向无环图,由代表变量节点及连接这些节点的有向边构成。通过对节点的抽象便可以应用于各种问题,广泛用于不确定性决策、数据分析以及智能推理等领域。
3.4.1 D-S证据理论
D-S证据理论是由Dempster[8]首先提出,并由Shafer[9]进一步发展起来的一种不确定性推理理论,它为不确定信息的表达和合成提供了自然而强有力的方法,因而在不确定推理和数据融合中获得了广泛的应用。
在证据理论中,称一个样本空间为辨识框架,并用Θ表示。Θ由一系列两两互斥的对象θi构成。Θ包含当前要识别的全体对象,即:Θ=θ1,θ2,…,θn,其中θi称为Θ的一个单子(singleton),只含一个单子的集合称为单子集合。在数据融合系统中,这种单子就是系统要做出决策或判断的结论。证据理论的基本问题是:在已知辨识框架Θ的条件下,判明Θ中一个先验的未知元素属于Θ中某一个子集A的程度。定义2θ为Θ中所有子集构成的集合,对于Θ的每个子集,可以指派一个概率,我们称之为基本概率分配(basic probability assignment,BPA)。基本概率分配定义为:m:2θ→0,1,它满足如下公理:
(1)
其中,mA表示支持命题A发生的程度,且满足0mA1。若有mA>0,则称A为焦元。证据是由证据体A,mA组成的,利用证据体可以定义2θ上的信任函数Bel(Belief function)和似真函数Pl(Plausibility function),它们与BPA存在如下关系:
(2)
(3)
BelA表示全部给予命题A的支持程度,似真函数PlA表示不反对命题A的程度。
设Bel1和Bel2为同一辨识框架下的两个信任函数,m1和m2为相应的BPA函数,其焦元分别为A1,A2,…,Ap和B1,B2,…,Bq,那么对于给定的命题A⊆Θ,这两个证据可以通过D-S证据理论组合如下:
(4)
其中K反映了证据之间的冲突程度,系数1/1-K称为归一化因子,它的作用就是避免在合成时将非0的概率赋给空集∅。
基于证据理论的合成公式满足交换率和结合率。在同一辨识框架下的M个信任函数组合规则如下:
(5)
3.4.2 基于权重的融合方法
(6)
(7)
其中mΦall表示其中一个分类器给出的前n个候选类别之外的概率估计,mΦsub表示另一个分类器给出的前m个候选类别之外的类别估计。根据D-S证据理论我们就可以得到融合后各类的概率。
实验数据来源于20组防震减灾科普知识数据(经典的文本分类数据集)。样本数据为10 000,其中8 000为训练集,2 000为测试集,数据分为地震监测预报、震害防御和紧急救援三类。实验中采用向量空间模型将文本表示为200维特征向量,然后通过PCA方法降维到60维。单一分类器和融合分类器的训练集和测试集完全一样。
实验中影响分类器性能的因素很多,但在测试过程中本文以准确率作为评估文本分类器性能的方法。表1给出了不同分类器的分类准确率,从表中可看出本文融合方法的准确率对于每个单一分类器的准确率都有着显著的提高,说明本方法能够达到综合各个分类器特点的作用,从而弥补了单一分类器可能存在的片面性问题。
表1 不同分类器的分类准确率
本文采用基于多分类器融合的方法对防震减灾科普知识文本进行自动分类。SVM、径向基RBF神经网络以及贝叶斯网络作为文本分类器有着自身不同的特点,通过D-S证据理论将这3种分类器进行了有效的融合,得到了单一分类器之间的性能互补,从而使文本分类结果有了显著提升。结果表明,基于多分类器融合的文本分类方法用于防震减灾科普知识文本分类是有效的。