巴志超 朱世伟 于俊凤 魏墨济
〔摘 要〕针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。
〔关键词〕数字文献;短文本分类;特征选择;语义扩展;分类性能
DOI:10.3969/j.issn.1008-0821.2015.09.013
〔中图分类号〕G2507 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0070-05
〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.
〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance
数字图书馆的主要业务数据是馆藏的各种类型的文献资源,即使在大数据环境下,其核心业务仍然是针对这些种类众多的文献进行组织和安排,使各种类型的文献能够在数字图书馆中统一实现分类与检索。然而,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力。且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的,有必要将信息自动化技术引入图书编目、数字文献元数据的分类或主题标引之中。利用机器学习实现数字文献的自动分类已成为数字图书馆建设中亟待解决的关键问题之一[1]。
自动分类技术是指在给定的分类体系情况下,根据文本内容自动判定到相应预定义类别的过程[2]。目前主要采用向量空间模型进行文本信息结构化的表示,然而基于该模型下由于数字文献文本特征缺失会导致向量空间的高维和稀疏,且包含大量无效、冗余的特征,从而降低数字文献分类的精度。另外,基于该词频向量的表示方法忽略了文本中特征词的含义以及词项间潜在语义关系,如同义词、冗余和蕴涵等信息。面对短文本数据集特征缺失带来的问题,相关学者提出借助外部词典/知识库进行特征扩展的方法,以弥补短文本特征不足的缺陷,提高最终的分类性能。如Phan[3]等人通过外部网络数据源扩展短文本的词条信息来解决词特征的稀疏性问题;Ferragina[4]等人借助ODP(Open Directory Project)、WebKB等手工标注的知识库计算查询词、网页片段等短文本的相似度;Wang[5]等人通过将文档词向量中的每个词匹配到维基百科概念,利用上层概念、关联等实现向量语义相关性扩充;Milne[6]等人根据维基百科中文档链接关系对某概念进行语义扩展,并提供给检索引擎实现检索关键词的语义扩展。范云杰[7]等人提出基于维基百科的链接结构和类别体系进行概念的关联度计算对社区问答数据集进行分类;翟延冬[8]等人综合考虑文本的概念、句法等信息,提出一种基于WordNet的短文本语义相似度计算方法;王盛[9]等人利用“知网”词典中的上下位关系扩展文本的特征向量来实现短文本的分类。实验结果表明通过引入外部词典/知识库来对特征向量的语义扩展,一定程度上能有效解决特征的缺失问题,提高短文本的分类性能。为此,本文提出在TF-IDF模型的基础上,采用“知网”语义词典以及维基百科知识库对数据文献的文本特征进行语义扩展,以提高数据文献分类的分类效果。endprint
1 核心特征词选择
对于数字文献等类似的短文本,一旦出现误差或者噪声特征,其产生的负面影响比长文本分类更加明显。因此,需要先对数据文献文本集进行分词、停用词过滤以及词性标注等预处理,以消除无意义词对数字文献文本有效信息的噪声干扰。通过文本预处理后需对文本中的每个特征词进行TF-IDF的计算,并将文本中各特征词的TF-IDF值表示为向量,来进行文本的相似度计算。然而该向量维度较高且极度稀疏,另外,不同词性的特征词对文本的贡献程度不同,因此本文只选取TF-IDF值大于λ阈值(λ为百分比)的名词和动词特征词作为核心特征词,以此核心特征词向量作为文本的特征表示,TF-IDF值通过公式(1)获得。
qTFIDF(w)=log(tf(w,d))·logNdf(t)+001〖〗∑Vt=1log(tf(w,d))·logNdf(w)+0012
(1)
式中V表示总特征词数、N表示总文本数、tf(w,d)表示特征词w在文本d中的词频、df(w)表示特征词w在文本d中的逆向文本频率。根据信息论,IDF的值表示一个特定条件下特征词概率分布的交叉熵,TF则是用来增加特征词的权重,以便更好地描述文本中特征词的信息特征[10]。通过TF-IDF模型可从每一篇文本中挑选出相对重要的特征词来表示文本,这样既保证不影响文本的特征提取,同时又最大可能的减少文本特征向量表示的维度,提高特征词对文本的表示能力。
2 数字文献文本特征语义扩展
获取核心特征词后,分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,通过概念作为向量空间模型的特征粒度。基于传统词频向量作为文本表示时,忽略文本中特征词的含义,且假定特征词之间线性无关。而在文本中特征词之间普遍存在同义词、冗余、蕴涵等语义关系,这些语义关系无法保证向量空间特征词线性无关的假设。而且在同一概念有多种表达形式的情况下,将文本特征表示为简单的词频向量,会丢失很多有价值的语义信息。通过将特征词映射到概念层面,将具有同义词、近义词等语义关系的多个特征词映射到同一概念,一定程度上可以消除这种相关性,最大限度地确保特征词之间线性无关,同时还可以避免核心特征词因采用分散的特征词进行表示时而削弱其对文本表示的能力。
21 基于知网的特征语义扩展
知网是一个以汉语和英语词语所代表的概念作为描述对象,以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库[11]。通过知网词典将文本中的关键词映射到概念空间时对应的是一个多对多的关系,一个词语往往具有多个含义,对应于多个“义原”。不同含义在不同的语境中表达的意思可能相差甚远,如针对特征词“专业”有一项描述是:DEF=aValue|属性值,attachment|归属,#occupation|职位,formal|正式;另一项描述为DEF=affairs|事务,education|教育。因此在基于知网进行扩展时需要明确特征词在数字文献文本中的具体含义,即进行词义消歧才能保证语义扩展的有效性[12]。引入的信息要和数字文献文本的内容相关,否则就会成为噪声,降低数字文献文本的分类性能。对于词义消歧方法本文首先借助特征词的词性进行词义判断,然后再根据知网中提供的概念间的关系进行词义消歧。具体消歧方法如下:
(1)根据特征词的词性判定词的概念。读入关键词w,根据关键词w的词性p查询知网概念词典,词典中有此关键词,则获取该词词性为p的义原。若义原的个数为1,则按词性标注即可确定其词义,排歧结束,否则转向(2)。
(2)根据知网词典中的概念关系量化特征词与上下文词汇词义间的关系进行词义消歧。特征词w的词义可根据该词所在句子中的上下文语境来确定,因此可通过考察特征词w与所在句子中其他特征词之间的语义相关度来确定。
特征词与上下文词汇之间的语义相关度实质是考察它们在DEF中义原的关联程度。对于特征词w,假定有n个义原(S1,S2,…,Sn),而该特征词所在句子中其他的特征词w1,w2,…,wj,共有m个义原(S11,S12,…,Sjm),则w和wj的相似度Sim(w,wj)为
Sim(w,wj)=maxi=1,2,…,n,k=1,2,…,mSim(Si,Sjk)
(2)
对于义原的相似度Sim(Si,Sjk)计算方法依据知网概念词典中义原的层次结构(上下位关系)来计算。本文主要基于节点之间的路径长度来计算相似度。假设义原Si和Sjk在知网层次体系中的路径距离为d,可得到这两个义原之间的语义距离:
Sim(Si,Sjk)=αdis tan ce(Si,Sjk)+α
(3)
其中d是Si和Sjk在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。另外,由于《知网》定义的所有义原并不是在一棵树上,本文统一规定:不在同一棵树上的两个义原之间的相似度取较小值δ(参数),存在对义或者反义关系,相似度降为原来的n分之一[13]。
22 基于维基百科的特征语义扩展
维基百科是目前最大的多语种、开放式的在线百科全书,采用群体在线合作编辑的Wiki机制,相比专家编撰的语义词典,具有质量高、覆盖广、实时演化和半结构化维基百科[14]。维基百科中每一个概念都有一篇相应的文章来描述。本文结合维基百科的语义信息:概念解释页面中所包含的各类链接、类别间的体系结构、重定向、消歧页面来获取核心特征词的相关维基百科概念,来实现对特征的语义扩展。本文主要采用链接结构和分类体系分别计算概念间的链接距离和类别距离,来量化概念间的语义关联度。
计算概念间链接距离的方法本文采用Milne[15]等人提出的WLM(Wikipedia Link-based Measure)算法。在维基百科的链接结构中,对于某个概念的一篇描述文章而言,不仅存在链入链接,也有这篇文章包含的其它概念的链接,即为链出链接。WLM算法对这两种链接分别计算相关性后再综合。对于链入这篇文章的链接(链入链接),WLM算法采用修改的Google Distance的方法,其是基于维基百科的链接而不是Google的检索结果,其计算公式如下:endprint
Dlink(w,Ci)=log(maxA,B))-log(A∩B)log(W)-log(min(A,B))
(6)
其中,A和B分别是维基百科中所有含有链接链向特征词w和概念Ci的页面的集合,W是维基百科所有解释页面的集合。由于单个概念的链接数量远远小于维基百科页面的总数量,所以Dlink的值一般在0~1之间。对于维基百科中包含的链接(链出链接),WLM算法采用向量空间模型来进行计算。假如文章s中包含链接t,那么s→t的权值的计算如下:
w(s-t)=logWT, s∈T
0
(7)
其中,W是维基百科中所有文章的集合,T是所有包含链接t的所有文章的集合。
在维基百科的类别体系中,一个分类节点可以包含多个上层分类节点和下层分类节点,因此两节点之间可以找到多条路径。本文借鉴文献[16]提出的深度加权路径法来计算特征词w和概念Ci的类别距离。首先在分类图中定位其类别节点并进行广度优先遍历,直到找到特征词w和概念Ci的最近公共节点,遍历路径长度分别记为len(w)、len(Ci)。根据该路径长度信息,可构建两者的最短路径距离,其计算公式如下:
Dsl(w,Ci)=1len(w)+len(Ci)·log(len(w)+len(Ci))
(8)
基于最短路径方法没有考虑类别的深度信息,在维基百科中,概念的深度能反映当前概念信息内容的丰富程度。为此在考察特征词w和概念Ci的类别深度信息及其最近公共节点类别的深度信息的基础上,得到基于类别体系下特征词w和概念Ci的路径距离,计算公式如下:
Dcat(w,Ci)=Dsl(w,Ci)·2×depth(pub)depth(w)+depth(Ci)
(9)
其中depth(pub)表示最近公共节点的深度,depth(w)、depth(Ci)分别表示特征词w和概念Ci的类别深度信息。两节点的最短路径越小,节点的距离越近,这两者的相关程度也就越高。最后对特征词w与其某个相关的概念Ci之间的概念距离表示为链接距离Dlink和类别距离Dcat的线性组合,计算公式如下:
D(wa,Ci)=αDlink(wa,Ci)+(1-α)Dcat(wa,Ci)
(10)
其中α(0≤α≤1)为一调节参数。经过相关概念的抽取以及语义关系的量化,可以将特征词w构建形如w((C1,D1),(C2,D2),…,(Cn,Dn))相关概念集合的形式,从而实现对特征词的语义扩展。其中Ci是与w具有双向链接关系的相关概念,Di是概念集合中第i个相关概念与特征词w的相关度。
3 实 验
31 实验设置
本文采用以图书和电子期刊数据库中的期刊等信息管理领域的真实文献数据作为实验材料,由笔者取自某大学图书馆的馆藏目录OPAC以及选自《中国知网》的电子期刊数据库,分别选取分类在《中图法》体系下的计算机、军事和体育3个类别中的部分图书和部分期刊文献进行实验。
图书文献中的每一条文本信息主要取其书名、摘要、关键字作为分类实验材料,文本平均长度在60字左右。期刊文献主要取标题、摘要、关键词作为一个文本,每个文本平均长度约为130字。每个类随机抽取200篇作为训练集,100篇作为测试集,且保证训练集和测试集之间无重复文本。为消除实验结果的偶然性,实验中对同一类别的训练集和测试集进行随机抽取调换,进行10次相互独立的训练和分类,最后取平均值作为实验结果。
对分类性能的评估,本文基于通用的分准率、分全率以及综合指标F1值来描述,由于本研究需要分类过程的各环节透明化,以减少中间过程的不可控因素,因而选取KNN、Nave Bayes、MaxEnt以及SVM几种算法构造分类器对数字文献进行分类。
32 实验结果与分析
首先针对图书、期刊文献数据集进行分词、过滤和词性标注等预处理。本文主要采用中科院的ICTCLAS分词系统进行分词和标注,该系统可进行中文分词、词性标注、命名实体识别、新词识别、同时支持用户词典等,分词正确率高达9845%,能够保证较好的分词效果。在获取名词、动词等特征词后,采用TF-IDF计算模型来统计特征词在数字文献文本中的信息,选取TF-IDF值大于λ阈值的名词和动词特征词作为核心特征词,以此核心特征词向量作为文本的特征表示。
为确定最优分类性能时λ的取值,本文采用不同分类算法在不同的Top特征词百分比的情况下针对图书、期刊文献进行分类实验。图1、图2显示不同比例的Top特征词下分类性能的实验结果(图中4种分类算法在图书文献材料上分别命名为B-KNN、B-NB、B-ME、B-SVM,在期刊文献材料上命名为J-KNN、J-NB、J-ME、J-SVM)。从图中可以看出,当λ=06,即取数字文献文本中60%的特征词时能够取得最好的分类效果。低于这个比例,当选取的特征词数较少时,会导致无法有效地提取文本特征信息而使得分类效果较差,当超过这个比例时,由于选取的特征词数过多会引入噪声,不相关的特征词对文本的表示能力较差从而会降低数字文献文本的分类性能。
在获取核心特征词后,分别借助知网语义词典以及开放知识库维基百科对核心特征词集进行语义概念的扩展。表1显示借助知网、维基百科扩展后的特征词集采用4种算法针对图书、期刊文献各类别上的分类效果。从表中可
以看出各分类算法在不同类别上基于维基百科知识库要好于基于知网词典的语义扩展分类效果。这是由于类似知网、WordNet等语义词典是由人工构建,在大小和规模上有一定的限制,很难覆盖到足够丰富的概念以及各种语义关联关系,而维基百科质量高、覆盖广的优势可以更有效地扩展文本的特征,从而获得更好的分类效果。基于语义扩展后4种分类算法在图书、期刊文献上的分类性能相差不大,Nave Bayes算法的分类性能相对较差一些。Nave Bayes算法假设特征词之间是相互独立的,忽略特征词之间的语义关联关系。而4种分类算法在期刊文献上的分类效果要好于在图书文献上的分类效果。从所采用的分类实验材料上来看,期刊文献相对于图书文献材料文本长度较长,类别间相对更加明确、清晰,在专业性质及文本表述上区别明显,从而在各类别上表现出相对较好的分类性能,而基于知网和维基百科语义扩展方法在3个类别上表现出的分类效果相差不大。endprint
为进一步验证基于语义扩展方法的有效性,本文将传统的信息增益(IG)、互信息(MI)、卡方统计(CHI)以及类别区分词(CDW)作为Baseline方法与提出的方法进行对比分析。限于篇幅,图3只显示采用各种方法下基于SVM分类算法在期刊文献3个类别上的平均分类效果。(图中各方法在期刊文献语料上分别命名为J-IG、J-MI、J-CHI、J-CDW,基于知网和维基百科语义扩展方法分别命名为J-Hownet、J-Wiki)。另外,实验中Top特征词百分比λ=06,SVM分类器采用十折交叉验证寻找最优参数,通过迭代获得最优惩罚因子:C=128,RBF核参数g=195×10-3。从图中可以看出,基于知网词典进行语义扩展的分类效果和基于传统的信息增益(IG)、互信息(MI)方法的分类效果相差并不大,说明单纯只依靠知网词典对数字文献文本进行特征的语义扩展,相对于传统的方法并不能非常显著的提高最终的分类性能,这与知网词典的大小和规模有限相关,使得很难有效地扩展数字文献文本的特征。而基于卡方统计(CHI)以及类别区分词方法(CDW)的分类效果在期刊文献材料上的分类效果最差。基于维基百科进行语义扩展的分类效果相对于其他方法分类效果要好一些。
为进一步确定基于知网语义词典对数字文献进行扩展的有效性,本文将基于维基百科以及基于知网词典扩展方法相结合,对核心特征词采用维基百科和知网词典网同时进行语义扩展。表2显示采用该方法针对图书、期刊文献3个类别上的分类效果。(针对图书、期刊文献采用知网、维基百科相结合方法以下简称为B-HWiki、J-HWiki)。从表2中可以看出,采用知网词典和维基百科相结合的方法进行扩展相比于只采用基于知网和维基百科方法的分类效果都有所提高。针对图书文献语料上进行分类,采用B-HWiki方法比B-Hownet和B-Wiki方法分别平均提高469%、104%,针对期刊文献语料进行分类,采用J-HWiki方法比J-Hownet和J-Wiki方法分别平均提高了481%和122%。从提升的幅度可以说明借助知网词典和维基百科对数字文献进行语义扩展方法,使得数字文献最终的分类性能都有所提高,而借助维基百科方法要比借助知网词典方法更加有效。
4 结 语
本文提出在TF-IDF计算模型的基础上通过知网词典和维基百科知识库对文本特征进行语义扩展,并应用于数字文献的自动分类中。实验表明相比于传统的特征选择方法,借助外部词典/知识库进行文本特征的扩展,能有效弥补短文本特征的缺失,改善数字文献最终的分类性能。两种扩展方法不同程度地提高了数字文献的分类效果,通过将两种扩展方法相结合对核心特征词进行扩展,比单独只采用一种扩展方法分类性能又有所提高。
下一步研究工作主要从数字文献的文本结构信息、知网词汇描述的完备性以及维基百科的体系结构入手,对文本的特征选择、概念映射层次选择、概念排歧等方面进行改进,进一步探究数字文献词义消歧和特征扩展的方法,以待提高数字文献最终的分类性能。
参考文献
[1]王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(11):28-39.
[2]程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64.
[3]Phan X H,Nguyen L M,Susumu H.Learn-ning to classify short and sparse text & web with hidden topics from large-scale data collections[C]∥International Confere-nce on World Wide Web,2008:91-100.
[4]Ferragina P,Gulli A.A personalized search engine based on web-snippet hierarchical clustering[C]∥International Conference on the World Wide Web,2005:801-810.
[5]Wang P,Domeniconi C.Building semantic Kernels for text classification using wikipedia[C]∥ACM SIGKDD Internation-nalConference on Knowledge discovery and data mining,2008:713-721.
[6]Milne D,Witten L H,David M N.A knowledge-based search engine powered by wikipedia[C]∥In Proceedings of the sixteenth ACM Conference on Information and Knowledge Management(CIKM),2007:445-454.
[7]范云杰,刘怀亮,左晓飞,等.社区问答中基于维基百科的问题分类方法[J].情报科学,2014,32(10):56-60.
[8]翟延冬,王康平,张东娜,等.一种基于WordNet的短文本语义相似度算法[J].电子学报,2012,(3):617-620.
[9]王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606.
[10]黄承慧,印鉴,侯.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,21(5):856-864.
[11]董振东,董强.知网(Hownet Knowledge Database)[EB/OL].http:∥www.keenage.com/,2014-12-25.
[12]吴志峰,田学东.人名、机构名在基于概念的文本分类中的应用研究[J].河北大学学报:自然科学版,2004,24(6):657-661.
[13]李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105.
[14]张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811.
[15]David Milne,Lan HWitten.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]∥The Workshop on Wikipedia and Artificial Intelligence at AAAI,Chicago,2008:25-30.
[16]谌志群,高飞,曾智军.基于中文维基百科的词语相关度计算[J].情报学报,2012,31(12):1265-1270.
(本文责任编辑:郭沫含)endprint