利用IRF模型丰富文档的语义代表

2010-08-08 06:46成少梅
网络安全技术与应用 2010年9期
关键词:词条文档短语

成少梅

武汉理工大学理学院数学系 湖北 430070

0 引言

互联网上 Web文档的爆炸式增长不可避免的加强了有效获取文档信息的重要程度。Web中99%的可分析信息是以文本形式存在的,为实现基于内容的文本挖掘,把文档简化为以特征项的权重为分量的向量表示,即以特征项作为文档代表。一般情况下,字、词、词组或者更高层次的语言单位都可做为特征项,还可以是相应词语或者短语的语义概念作为特征项。选择能全面覆盖文档信息的特征项能大大提高文档的检索效果。但以前的研究大都集中在优化文本中出现的特征项,局限于作者有限的知识表述,把文档看成是孤立的、不相关的。但Web在发展过程中存在着大量的社区,这些社区帮助Internet/Intranet服务提供者有效地组织门户。社区还代表了Web的社会活动,因此Web就是一个社会性的网络。特别是Web2.0及其相关技术的出现为整个互联网带来了一个新的惊喜,其中最具代表的社会化标注(Social Annotation),特别是以flicker,del.icio.ous(见http://del.icio.ous)等为代表的全民参与的网站,用户用语义浓缩的标签标注自己感兴趣的文章。标签不同于关键词的地方在于其具有灵活性,每个用户可根据自身的喜好对标签进行自由的添加、修改或删除。社区中所有用户的标签极大的丰富了文档的语义信息,并且社区元数据(特别是标签)就成了链接内容相关的Web文档的语义桥梁。这样Web文档就不是孤立的,而是在社区环境下的文档,整个社区都隐藏着与文档相关的信息。但由于标签的自由性,使对同一文章的标注信息存在大量的噪音数据,如果直接把语义标注作为特征项(检索项)无疑降低文档的检索率。据此本文提出IRF模型,很好的组织了具有语义信息的特征词,即丰富了文档的语义代表,同时又增强了文档的检索效果。

1 文档代表模型(向量空间模型)

向量空间模型(VSM)是20世纪60年代末由Salton等人提出来的,它是代数模型的一种,也是目前信息检索领域中广泛采用且效果较好的一种模型。其基本思想是:假设词与词之间是不相关的,以向量来表示文本,从而简化了文本中关键词之间的复杂关系,使得模型具备了可计算性。在VSM中,将文档可表示为相互独立的词条组(T1,T2,T3…,Tn),对于每一个词条 Ti,根据其在文档中的重要程度赋予一定权值Wi,并将(T1,T2,T3…,Tn)看成是一个n维坐标系的坐标轴,(W1,W2,W3,…,Wn)为对应的坐标值。这样由(T1,T2,T3…,Tn)分解得到的正交词条矢量组就构成了一个文档向量空间。

2 特征选择

特征选择就是选择适当粒度并且能表征文本主题的语片。语片的粒度越大,概念越确定,但语片的正确识别和有效计算语片间的相似度也越困难。粒度过小,语片所含信息量不足以覆盖文档信息。所以选取语片粒度要适当,既要保证语片的相对简单又要保证概念确定和完整。根据粒度大小,一般可分为字、短语或者句子。

字是最基本也是最简单的语言单位,并且为了更好的计算英文单个词间的相似度,利用Porter algoritm提取词干作为特征项。短语具有更丰富的语义,并且权威的 TREC会议的评测结果表明,许多系统使用复合索引项(短语)可以显著提高检索性能。短语抽取技术包括:用统计方法抽取短语,利用语言学方法生成短语。上述两种文档代表方法都可采用VSM作为文档代表模型。字,短语可以表达概念,但不能表达知识,句子是表达知识的基本单位,利用BOS(a Bag of Sentences)作为文档代表特征项,并在此基础上提出各种计算文档相似度的方法。但这些特征选择方法都集中研究文本中出现的信息对文档的贡献程度。但在社区环境下,社区元数据(锚文本、查询词、社区注解)和文本内容都能提供文档的语义信息。锚文本是对所指向网页内容最简洁最全面的概括,同一文档的所有历史查询词也表征了文档的语义信息,用户可能会选择语义相关的不同词汇去表述文档的同一话题。在社区中,社区用户用大量浓缩的词标注了同一文档。各类用户对同一文档的注解(包括锚文本,查询词,社区注解)从各个方面补充了文档的内容。但是由于文档标注的自由性和开放性,一些文档可能含有一些不相关的甚至是伪造的社区注解,那么数据的质量不能得到很好的保证,大量的数据属于噪音数据。为了更好的组织这些海量数据,得到丰富且高质量文档内容,并且减少时间和空间复杂度,我们采用单个字作为特征项的粒度,社区标注和文本内容作为语义代表候选项,采用空间向量模型,利用 IRF(Iterative Reinforcement Framework)方法产生文档代表。

我们从一个很流行的社会化标签网站Del.icio.us上获取了被标注的网页和注解词,并且对文档词条和标注词条都进行了低频词和停用词的处理。假设在训练集中,ND:文档数目,NA:注解数,NT:文档词条数,MAT(NA×NT)是注解词与文本词条的关联矩阵。首先我们对文本中出现的词条(词干)t和所有文档注解a用TFIDF计算他们在文中的权重,并作为文档和注解的初始代表 T0和A0,这两个代表向量各分量的权重值分别为Wt,d和Wa,d。

ct,d和ca,d分别是t和a在文中出现的次数,URL(t)和URL(a)是所有训练集中分别包含t和a的文档数目。 Ti和Ai是Web文档的文本词条向量和注解向量。

3 IRF模型

参数α和β在(0,1)之间,用于调整初始向量 T0和新增向量为增强文档代表所作的相对贡献i,并取经验值都等于 0.3。关联矩阵MAT的每个元素描述了注解词a与文本内容词t的关联程度,本文采取典型的概率统计式(卡方统计量χ2)

A:在训练集中共同出现ax和 ty的文档数目;B:出现ax但没有出现 ty的文档数目;C:出现 ty但没有出现ax的文档数目;D:既没有出现ax也没有出现 ty的文档数目。由于本文考虑的是两个词之间的相关度不是独立程度,所以当AD<CB时,就设χ2(ax,ty)为0。为了(1)和(2)的收敛,需对MAT和M'AT进行归一化处理(每一行加起来等于1)变成马尔科夫随机矩阵。从(1)式和(2)式中可以看出文档的代表不局限于文中出现的词,还从其他文档中获取了与文档

下面证明(1)和(2)的收敛性。

URL:http://www.protonotes.com/OT team free browser use design prototype note javaScript service annotate ET annotate collaborate web2.0 dynamic online prototype javaScripe note team develope OA Annotate design frame online use collaborate prototype tool note web2.0 EA api collabotate frame web2.0 annotate ptototype tool javaScripe note ajax

4 结论

[1] 王秀娟.文本检索中若干问题的研究[D].北京邮电大学.2006.

[2] M.F. PORTER An algorithm for suffix stripping, program 14(3) .1980.

[3] E.D. LIDDY.Enhanced text retrieval using natural language processing.[EB] ASIS Bulletin 1998.5 http://www.asis.org/bulletin/apr.98/liddy.html.

[4] 沈斌.基于分词的中文文本相似度计算研究[D].天津财经大学.2006.

[5] S.BRIN AND L.PAGE. The Anatomy of a Large-Scale-Hypertextual Web Search Engine, [J] Computer Networks and ISDN Systems.1998.

[6] G.XUE,H.ZENG,Z.CHEN,Y.YU,W.MA,W.XI,and W.FAN.Optimizing Web Search Using Web Click-through Data[C].ACM Conference on Information and Knowledge Management.2005.

[7] S.BAO,X.WU,B.FEI,G.XUE,Z.SU,and Y.YU. OptimizingWeb Search Using Social Annotations.[C].WWW Conference.2007.

[8] XIAO XUN ZhANG LICHUN YANG AND XIAN WU.sDoc: Exploring Social Wisdom for Document Enhancement in Web Mining,[C].ACM Conference 2009.

[9] C. BROOKS AND N. MONTANEZ. Improved Annotation of theBlogosphere via Autotagging and Hierarchical lustering[C].WWW Conference 2006.

猜你喜欢
词条文档短语
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于变长隐马尔科夫模型的维基词条编辑微过程挖掘
基于RI码计算的Word复制文档鉴别
2016年4月中国直销网络热门词条榜
《健民短语》一则
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
大数据相关词条