基于主题本体扩展特征的短文本分类

2014-07-24 05:51:40湛燕陈昊

河北大学学报（自然科学版） 2014年3期

湛燕，陈昊

（河北大学数学与计算机学院，河北省机器学习与计算智能重点实验室，河北保定 071002）

自动文本分类有着悠久的历史，可以追溯到至少20世纪60年代，直到20世纪80年代末，作为知识工程自动分类的一个重要分支问题，即构建一套规则来编码专家知识从而用于文档分类.在20世纪90年代，随着蓬勃发展的在线文档的广泛应用，自动文本分类增加和扩展了新的研究范围［1］.

文本分类是信息组织和信息管理任务中非常重要的组成成分.而短文本分类指的是一些短小文章（通常少于100字）的分类.国际上对于文本分类已经有了很多年的研究［1－2］，但是对于短文本分类问题的研究相对较少［3－4］.

短文本分类问题是文本分类的一个分支，除了在某种程度上与传统文本分类类似，但是仍然需要面临一些特殊问题需要解决，因为文本长度短、特征稀疏，很难衡量文章之间的相似性，常见的文本分类相似度测量方法应用在短文本分类中，通常并不能得到一个好的结果.

目前较为常用的传统文本分类算法有贝叶斯、支持向量机、近邻方法、神经网络方法、决策树法等［2］.根据不同的文本表示形式的特点，这些方法可以分为2 种：一种是传统的基于向量空间模型（vector space mode，VSM）的分类，另一个是基于语义信息的分类［5］.一般来说，传统的基于向量空间模型的分类方法，不使用语义信息来提高分类性能；同时，由于文档比较短，描述特征词信息的能力弱，在测试文档中出现的词不一定出现在训练文档中，所以第2种方法也不能直接应用于短文本的分类.

使用互信息［1］（mutual information，MI）特征选择，通过单词测量文档之间的相关性，但是短文本提供更少的单词相关信息，因此有必要考虑其他语义关系（如：同义关系或近义关系等等）.传统的贝叶斯分类器（Naive Bayes）在知识储备的不足的情况下，容易发生分类分错的情况，如果分错了文本过早加入分类器中，会降低其分类性能［6］.除了文章短小的原因外，概念描述信息弱.单词数量的缺少等特点，使得在短文本分类中很难准确衡量文本的相似性.由于本体理论强调相关领域的概念，但也强调这些概念之间的联系.但是由于特征数量较少的缺陷，所以有必要强调语义之间的联系，这和本体理论的表示一致.

1 基于主题本体的扩展特征

1.1 本体

本体论（ontology）原是哲学的分支，研究客观事物存在的本质，它与认识论（epistemology）相对，认识论研究人类知识的本质和来源，也就是说，本体论研究客观存在，认识论研究主观认知.而本体的含义是形成现象的根本实体（常与“现象”相对）.在人工智能领域，知识建模必须在知识库和2个子系统之间建立联系：agent行为（问题求解技能）和环境（问题存在的领域）.而长期以来，人工智能领域的研究者较为注重前一个子系统，而领域知识的表达依赖于特定的任务，这样做的好处是只需要考虑相关的领域知识，但是，大规模的模型共享、系统集成、知识获取和重用依赖于领域的知识结构分析，因此，进入20世纪90年代以来，与任务独立的知识库（本体）的价值被发现，并受到广泛关注〔7－8〕.

本体的目标是抓住相关的领域知识，提供领域知识中共同的认识，使用通用的字词来定义领域知识，并且定义不同模式的领域词之间的联系.本体一方面属于认知概念集的领域，这些概念有很多相关的语义，这些语义反映了概念之间的联系.本体描述了概念和上下文之间内在的语义.总之，本体强调了相关领域间的重要性，同时也强调了这些重要概念的联系.

1.2 基于主题本体的扩展特征

定义主题本体主题本体意味着最重要的核心和最必要的组合，可以对概念特征给出正式的描述，这些概念在其他领域很少出现，所以可以确定一个领域.

在特定的应用程序有许多不同的方式来表示本体，可以使用自然语言、框架和语义网络或逻辑语言描述本体.在现有的本体模型中，对于不同的问题领域和不同的工程考虑，结构和过程在本体方法也不同.语言的逻辑表达式可以很强大，但其推理过程比较复杂，所以很难完成本体模型的创建.鉴于这个原因，本文提出了一种命名为主题本体扩展特征的分类.

在主题本体中主要有两方面的内容：

第一，得到高频域词，指的是在某些领域高频率域和其他场域的几率很小的词（即是在本领域中区分能力强的词），这些高频词只能确定一个领域，所以可以使用它们作为高频词用于分类.

第二，通过概念来扩展高频词，使用主题本体对概念特征给出正式的描述，使原来的特征词汇不是孤立的，所以这些特征词语可以看作一种概念的集合以及相关词汇.普通词汇和特征词的区别在于，它可以把概念进行比较，这样可以更准确地确定2个领域之间的相似性.

通过以下详细步骤得到主题本体的特征扩展.

1）对训练文本进行预处理：通过词性分析，保留名词、动词和形容词，通过词特征的选择，过滤掉不适合用于分类的词，从而减少计算的复杂度.

2）计算单词的频率，计算每个单词在不同的类别中出现的次数，过滤掉出现频率较少的单词，同时对词频可以进行归一化处理，如下公式：

其中TFij表示单词i在文档j 中出现次数，DFi表示所有文档集合中出现单词i的文档数目.

3）提取出现频率比较高的单词作为一个主题本体的高频词汇，过滤掉和本主题本体不相关的单词，得到初始词汇.

4）运用同义词来扩展特征词汇，通过概念来扩展高频词，例如“程序”，“编程”，“网页设计”，“动画设计”都可以属于电脑编程方面的近义词汇.使用主题本体对概念扩充以扩展其特征词汇，从而可以解决在短文本分类中特征词少的问题.

1.3 CBM（Case－base Maintenance）方法

本文使用了CBM（case－base maintenance）方法，它可以在K－近邻算法中减少样本个数，从而可以提高搜索近邻的检索效率.首先，本文介绍了一个概念叫做样本的扩展能力.基于这个概念，提出了一种减少样本个数的方法.样本的扩展能力（generalization capability）表明了样本解决分类问题的能力.根据这种方法，具有更好扩展能力的样本会保留下来作为样本的代表，其他多余的在其覆盖范围内的样本就可以删除了，从而减少了样本个数.实验表明这种方法在分类算法中，可以大大减少多余样本或者对于分类用处不大的样本，从而获得更高的分类效率.

这种启发式算法介绍如下（称为GC算法）：

1）集合R 被初始化为空集，其中S＝X∪Y.

2）对于集合X 中的每一个样本x，根据公式（2）计算Coverage（x）.

3）找到这样的样本x＊，其中｜Coverage（x＊）｜＝maxx∈S｜Coverage（x）｜.如果存在多于1个样本的覆盖范围等于这个最大值，那么从中选择rx最大的那个样本x＊＊.如果这时有很多样本达到了这个最大值，那么可以随机选择1个即可.

4）置R＝R∪｛x＊｝和S＝S－Coverage（x＊），如果｜S｜＝0那么停止，否则转到2）.

因此，集合R 就是最后选择的有代表性的样本集合，完整的正例集合是集合X.实际上，被选择的样本已经排除了负例样本集合Y.

其中，样本x 的覆盖范围Coverage（x）定义如下：

接着本文定义2个样本之间的距离.对于每个样本x＝｛x1，x2，…，xn｝和y＝｛y1，y2，…，yn｝，它们之间的距离定义为

这里的距离测试ρj（xj，yj）依赖于特定的域，M 是位于0～1之间的一个正数.通常，参数M 是这样确定的

假设X∪Y 没有交集，也就是不存在2个样本x∈Xand y∈Y，即x＝y.

对于每一个正例x＝（x1，x2，…，xn）∈X，正例样本x 到负例样本集合Y 的最短距离为

因此，保证了rx＞0.

本文定义了一个正例的覆盖范围.如果x是一个正例，q是任意一个样例，如果满足公式（6）就说x覆盖q

其中rx根据公式（5）进行计算.

一个正例覆盖范围有负例是不可能的，所以，换句话说，一个正例的覆盖范围一定是样本集合X 的子集.一个样本的覆盖范围表示了这个样本的扩展能力.样本覆盖范围包括的样本个数越多，说明这个样本的扩展能力越强.从公式（2）中，可以定义每个正例的覆盖范围.主要目标就是选择正例样本的一个子集，它们的覆盖范围可以代表整个正例集合X.实际上，所选择的样本已经排除了负例样本集合Y.

把这种方法应用在K－近邻分类算法中，选择扩展能力强的样本进行分类，删除其他样本，从而减少了样本的个数，获得更高的分类效率，这和主题本体的思想是一致的［11］.

2 实验

2.1 性能测试标准

为了评估文本分类系统的有效性，笔者使用召回率、准确率和F1 度量作为评估标准.召回率（recall（R））是定义为所有准确的文档有多少被检索出来.准确率（precision（P））是检索出来的文档正确的数量.F1度量结合了以上两者的加权调和平均

2.2 实验及其分析

笔者在人民日报选择了1 000篇文章，分别属于计算机编程、国际新闻、妇女、军事和体育新闻等.在训练样本中使用基于主题本体的特征扩展方法，并对测试样本进行预处理，只保留名词、动词和形容词，使用K－近邻分类算法进行文本分类.

在实验中，每个数据集都被随机分成2个独立的集合，90%的文章作为训练数据和10%的文章作为测试数据.

表1 准确率、召回率和F1度量Tab.1 Comparison of precision，recall and F1

实验1使用传统的互信息进行特征选择和进行K－近邻文本分类.实验2使用基于主题本体的特征扩展以及通过CBM 进行K－近邻文本分类.从表1中可以看到实验2的基于主题本体的特征扩展学习提高了准确率，召回率和F1值.因此，由于考虑到了语义联系，可以得到比传统方法更好的分类性能.

3 结论

由于短文本的独有特点，例如文本长度较短，特征选择分散不一，词语测量较困难，使得短文本文类需要处理这些特殊的问题.基于本体理论涉及到了领域概念，但是对于短文本分析而言，难以处理短文本特征稀少的问题，所以需要重点强调文本特征之间的语义联系.本文使用了基于主题本体的特征扩展方法，考虑了特征之间的语义关联，达到了较好的分类性能.本文通过基于CBM 方法的K－近邻分类应用在短文本分类算法中，并且使用了基于主题本体的特征扩展方法.由于考虑了语义关系，可以得到比传统的方法更好的分类性能.自从近邻分类算法应用了特征扩展方法，可以提高分类性能，通过优化该算法使其广泛的应用在文本分类中.

［1］ SEBASTIANI F.A tutorial on automated text categorisation［Z］.Proceedings of ASAI－99，1st Argentinian Symposium on Artificial Intelligence，Buenos Aires，AR，1999.

［2］ SEBASTIANI F.Machine learning in automated text categorization［J］.ACM Computing Surveys，2002，34（1）：1－47.

［3］ FAN Xinghua，SUN Maosong.A high－performance text categorization of two classes［J］.Chinese Journal of Computer，2006，29（1）：124－131.

［4］ ZELIKOVITZ S，TRANSDUCTIVE M F.Learning for short－text classification problem using latent semantic indexing international［J］.Journal of Pattern Recognition and Artificial Intelligence，2005，19（2）：143－163.

［5］翟延冬，王康平，张东娜，等.一种基于WordNet的短文本语义相似性算法［J］.电子学报，2012，40（3）：617－620.ZHAI Yandong，WANG Kangping，ZHANG Dongna，et al.An algorithm for semantic similarity of short text based on wordnet［J］.Chinese Journal of Electronics，2012，40（3）：617－620.

［6］王永恒，贾焰，杨树强.基于频繁词集聚类的海量短文分类方法［J］.计算机工程与设计，2007，28（8）：1744－1780.WANG Yongheng，JIA Yan，YANG Shuqiang.Massive short documents classification method based on frequent term set clustering［J］.Computer Engineering and Design，2007，28（8）：1744－1780.

［7］ SONG D，BRUZA P D，HUANG Z，et al.Classifying document titles based on information inference［Z］.Proceedings of the 14th International Symposium on Methodologies for Intelligent Systems，Maebashi City，Japan，2003.

［8］ CHEN Enhong，WU Gaofeng.An ontology learning method enhanced by frame semantics［Z］.Seventh IEEE International Symposium on Multimedia，Irvine，California，2005.

［9］黄九鸣，吴泉源，刘春阳，等.短文本信息流的无监督会话抽取技术［J］.软件学报，2012，23（4）：735－747.HUANG Jiuming，WU Quanyuan，LIU Chunyang，et al.Unsupervised conversation extraction in short text message streams［J］.Journal of Software，2012，23（4）：735－747.

［10］彭泽映，俞晓明，许洪波.大规模短文本的不完全聚类［J］.中文信息学报，2011，25（1）：54－59.PENG Zeying，YU Xiaoming，XU Hongbo.Incomplete clustering for large scale short texts［J］.Journal of Chinese Information Processing，2011，25（1）：54－59.

［11］ ZHAN Yan，CHEN Hao.Chinese text categorization study based on cbm learning［Z］.2010 7th International Conference on Fuzzy Systems and Knowledge Discovery，Yantai，2010.