基于双向量模型的话题跟踪

2016-04-07 05:59:55刘海娟刘文展
无线电工程 2016年2期

刘海娟,刘文展

(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)



基于双向量模型的话题跟踪

刘海娟,刘文展

(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)

摘要针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名实体识别技术进行了简要介绍,详细描述了基于双向量模型的话题跟踪系统的构建。实验结果表明,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。

关键词话题跟踪;双向量模型;命名实体;文本表示

Topic Tracking Based on Double Vector Model

LIU Hai-juan,LIU Wen-zhan

(The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)

AbstractIn view of the characteristics of topic and topic tracking task,this paper studies the task-oriented text representation technology for improving the tracking performance of topic tracking system.By analyzing the content characteristics of story text,this paper presents a method of representing story text by using double vectors,that is,the named entities in the story form a separate vector.The named entity identification technology is introduced briefly,and the constitution of topic tracking system based on double-vector model is described in detail.The experiment results show that,in topic tracking system,the text representation method of double-vector is more exact than that of single-vector.

Key wordstopic tracking;double-vector model;named entity;text representation

0引言

随着信息传播手段的进步,尤其是互联网的出现,信息急剧膨胀。在这种情况下,如何快捷准确地获取感兴趣的信息成为人们关注的焦点。由于网络信息量太大,与一个事件话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅通过这些孤立的信息,人们对某些事件难以做到全面地把握。因此,人们迫切地希望拥有一种工具,能够自动把与特定事件话题相关的信息汇总组织供人查阅。话题识别与跟踪(Topic Detection and Tracking,TDT)技术就是在这种情况下产生的。话题跟踪(Topic Tracking)任务是TDT的一个子任务,它的目的是监控新闻信息报道(Story)流识别出与预先给定的几个新闻报道所表述的话题相关的后续报道[1,2]。话题跟踪能够帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个话题的全部细节[3]。

在话题跟踪系统中,要有效跟踪出属于同一话题的后继报道,必须寻找出真正具有代表性的特征。本文把报道文本中的特征划分为2种类型:命名实体NE和非命名实体N。命名实体主要包括人名、地名、机构名和时间等。从直觉上来看,当报道2个不同的火车事故时,事故所发生的时间、地点以及涉及到的人物会有比较大的区分能力。但由于命名实体在文本中出现的频率一般都比较低,采用传统的单向量表示文本,往往会使得命名实体所表达的信息被其他无关紧要的高频信息淹没掉。

本文采用了双向量来表示报道文本,该策略的基本思想是对报道文本中的命名实体单独处理,使其单独组成一个向量,文本中的非命名实体组成另外一个向量。在跟踪过程中,使用2个向量来计算已知话题和每个到来报道的相似度,得到2个相似度SimNE和SimN,再将2个相似度加权求和,得到最终的已知话题和报道的相似度Sim。

1命名实体识别

命名实体识别最初是在MUC-6(Message Understanding Conference)上作为一个子任务提出的[4]。命名实体识别任务主要是要识别出文本中的专有名词和有意义的数量短语并加以归类[5]。命名实体识别的方法主要分为2大类:基于规则(Rule-based)的方法和基于统计(Statistic-based)的方法[6,7]。本文在实验中是以分词后的词性标注为依据来进行命名实体识别的,主要识别了时间、人名、地名和机构名。只把这4种类型的词认为是命名实体NE,其余的词都被认为是非命名实体N。

其中,时间信息代表了事件发生的背景,对于话题跟踪来说,是一个非常重要的信息。在分词和词性标注结果中,时间特征是由连续的词性标记为“/t”的特征来表示的[8]。因此,可以将2个或多个连续的词性标记为“/t”的特征合并,实现时间特征的识别。如:“新华社/nt 伊朗/ns 11月/t 6日/t 电/n”,识别出来的时间特征为:“11月6日”。

在分词和词性标注结果中,姓和名都是用词性标记“/nr”来表示的[9],且姓和名分别进行标记。因此,可以将2个或多个连续的词性标记为“/nr”的词合并,实现人名实体特征的识别。如:“山崎/nr 龙/nr 一郎/nr”,识别出来的人名特征为“山崎龙一郎”。在对人名识别时,还有一种情况是指代关系,需要将词还原[10]。在新闻报道的叙述中,主要的事件角色特征词往往出现很少的次数,有的甚至只出现一次,更多的是利用指代词对该特征进行引用。下面举例来说明本文对人名指代关系的处理方法。“王/nr 岳山/nr 目前/t 强调/v…………,/w 王/nr 主任/n 还/c 表示/v……………”,对于“王/nr 主任/n”这样的格式,表达得很明显,同样指的是“王岳山”,如果单独将“王”作为人名特征提取出来,由于两者字面上的表现不同,系统会将其作为2个不同的人名来处理。很显然,这样会丢失一些信息,因此,需要对“王/nr”进行还原。本文采用的方法是将特征提取出来后,按照音标将其进行排序。上面的句子特征经过排序后就成为:表示(1)强调(1)王(1)王岳山(1)主任(1),然后将“王”还原成“王岳山”,结果就成为:表示(1)强调(1)王岳山(2)主任(1)。从而就实现了人名实体特征的识别。其中,括号内的数字表示特征在当前句子中出现的次数。

同人名一样,地名和机构名也是2个重要的信息,在分词结果的词性标注中地名信息是由“/ns”来标记的,机构名是由“/nt”来标记的。按照词性标注进行的命名实体识别虽然不是太准确,但其在实验中也取得了一定的效果。

2系统构建

所谓的双向量模型就是将文本D用命名实体向量和非命名实体向量2个向量来表示。

2.1话题的双向量模型

在话题跟踪任务中,话题T和报道S都可看作文本,使用双向量表示。在对话题构建双向量模型时,需要先对训练样本中Nt篇报道文本分别建双向量模型,得到Nt个双向量模型,即

式中,1≤i≤Nt,wneij(1≤j≤m)和wnih(1≤h≤k)分别表示命名实体fnej和非命名实体fnh在第i篇报道文本中的权重,m表示从训练样本中识别出来的命名实体特征的数目,k表示从训练样本中选择的非命名实体特征的数目;最后,利用中心向量空间模型构建得到话题的双向量模型为:

2.2双向量模型跟踪系统的构建

为了验证双向量模型在话题跟踪任务中的有效性,构建了基于双向量模型的话题跟踪系统。由上几节可知,在构建双向量模型时,其中最关键的一步是命名实体识别,命名实体识别的好坏会直接影响到话题跟踪系统的性能。系统的具体构建步骤如下:

文本预处理:首先对训练样本中的报道进行分词、特征选择、命名实体识别等预处理;最后,利用中心向量空间模型将已知话题表示为双向量。

相似度计算:对每个到来的报道进行双向量表示,采用如下公式计算已知话题和每个到来的报道的相似度:

Sim(S,T)=Sim(SNE,TNE)+αSim(SN,TN)。

式中,Sim(SNE,TNE)表示已知话题的命名实体和后来报道的命名实体之间的相似度;Sim(SN,TN)表示已知话题的非命名实体和后来报道的非命名实体之间的相似度;α(0<α<1)为加权系数,用来实现命名实体和非命名实体的合理组合。

话题跟踪:对于每个到来的报道S,利用相似度计算公式来计算它与已知话题T的相似度Sim(S,T)[11],按照相似度大小降序排列,显示跟踪出来的新闻报道。基于双向量的话题跟踪过程图如图1所示。

图1 基于双向量的话题跟踪过程

3实验说明及结果分析

3.1实验语料

实验所使用的语料是一个含有2 124篇新闻报道文本的文本集合。该文本集合由基础文本和话题文本2部分组成,基础文本部分包含1 987篇文本,这些文本是在数据库-慧科新闻上下载得到的;话题文本部分包含137篇文本,它们分别属于25个话题,这些话题新闻报道文本是从新浪网站的专题新闻下载获取的。

3.2评测机制

在话题识别与跟踪领域,对一个系统性能的评价主要使用归一化识别代价(CDet)Norm这一指标。计算如下[12]:

式中,CDet为系统的错误识别代价,其计算如下:

CDet=CMiss*PMiss*Ptarget+CFA*PFA*Pnon-target。

式中,CMiss和CFA分别为漏报和误报的代价,它们的值通常是根据应用预先给定。目前,大多数TDT评测任务中它们分别取1和0.1,即认为漏报的代价要高得多;Ptarget是一个先验的目标出现概率,表示关于某个话题的新闻报道出现的可能性;Pnon-target=1-Ptarget,它们的值通常也根据具体的应用给出,在TDT评测任务中Ptarget=0.02;Pnon-target=0.98;PMiss和PFA分别是系统跟踪的漏报率和误报率,漏报率是指系统没有跟踪出来的关于某个话题的新闻报道的数目与语料库中描述该话题的新闻报道总数之比,而误报率是指系统对某一话题判断错误的新闻报道的数目与语料库中没有描述该话题的新闻报道的总数之比[13]。

3.3加权系数的选取

加权系数α(0<α<1)是话题的非命名实体向量与每个到来的报道的非命名实体向量之间的相似度的加权值,它是用来实现命名实体向量和非命名实体向量的合理组合的。α取值的不同对采用双向量模型的话题跟踪系统的性能有很大影响。实验中,考察了α取0.05~0.9值时话题跟踪系统性能的变化情况,以0.05为间隔。实验结果如图2所示。

图2 α的不同取值对跟踪系统性能的影响

从图2不难看出,当α取0.15时,基于双向量的话题跟踪系统的性能最好,系统的归一化识别代价为0.217 58。随着α的增大,非命名实体的比重加大,系统的归一化识别代价也呈上升趋势,这表明在报道文本中命名实体比非命名实体更具有代表性,对不同的话题具有较大的区分能力。

3.4结果分析

由于用户耐心阅读文档的最大限额是20篇,所以通过考察前20篇的跟踪结果来评估跟踪系统性能的好坏。本章选取跟踪结果前n(n=2、5、8、10、15、20)篇计算出相应的基于单向量与基于双向量的话题跟踪系统的归一化识别代价。构建的话题跟踪系统是以向量空间模型为基础。实验结果如图3所示。

图3 系统性能比较

从图3中可以看出,当参考文档分别取2、5、8、10、15、20时,基于双向量的跟踪系统的归一化识别代价都小于基于单向量的跟踪系统的归一化识别代价。随着参考文档的增多,2个系统的归一化识别代价的差值越来越大。当参考文档取20时,基于双向量的跟踪系统的归一化识别代价为0.217 58,而基于单向量的跟踪系统的归一化识别代价为0.438 05,采用双向量模型使得话题跟踪系统的性能提高了50.3%。总的来说,图3表明了基于双向量的话题跟踪系统的性能要好于基于单向量的话题跟踪系统的性能。换言之,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。

4结束语

基于双向量模型的话题跟踪,能够突出报道文本的内容信息,大大提高了跟踪系统的性能。但是由于在进行命名实体识别时是根据分词后的词性标注来进行识别提取的,会使得识别出来的命名实体很不准确,而且会导致有些命名实体识别不出来。双向量模型的优点就不能充分体现出来。

目前,话题跟踪研究领域使用的模型还都是在信息检索模型的基础上,通过调整某些参数来使这些技术更适合于话题跟踪。但是话题跟踪有其自身的特点,如面向话题和基于时间等,仅仅利用现有信息检索的方法来进一步提升话题跟踪系统的性能是很有限的,今后将寻求一些新的直接面向话题跟踪的方法,使话题跟踪系统的性能得到一个质的提升。

参考文献

[1]SUNDHEIM B M.Named Entity Task Definition[J].Version 2.1.In:Proc of the Sixth Message Understanding Conf.,1995,31(5):319-332.

[2]陈勇,张佳骥,吴立德,等.基于数据挖掘的面向话题搜索引擎研究[J].无线电通信技术,2011,27(5):38-40.

[3]李保利,俞士汶.话题识别与跟踪研究[J] .计算机工程与应用,2003,39(17):6-10.

[4]YANG Yi-ming,CARBONELL J,BROWN R,et al.

Learning Approaches for Detecting and Tracking News Events [J].IEEE Intelligent Systems:Special Issue on Applications of Intelligent Information Retrieval,1999,14(4):32-43.

[5]骆卫华,刘群,程学旗.话题检测与跟踪技术的研究[C]∥ 哈尔滨:语言计算与基于内容的文本处理,全国第七届计算语言学联合学术会议,2003.

[6]ALLAN J.Topic Detection and Tracking:Event-based Information Organization [M].USA:Kluwer Academic Publishers,2002,1-16.

[7]WAYNE C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C]∥Language Resources and Evaluation Conference(LREC),2000:1487-1494.

[8]谭应伟,莫倩.基于Web的有监督自适应话题跟踪系统的设计与实现[J].郑州大学学报,2007,39(2):25-29.

[9]周强,段慧明.现代汉语语料库加工中的切词与词性标注处理[J].中国计算机报,1994,21(1):85-87.

[10]张鹏飞,李赟,刘建毅,等.基于相对词频的文本特征选择方法[J].计算机应用研究,2005(4):23-26.

[11]张学亮,陈金勇,陈勇.基于Hadoop云计算平台的海量文本处理研究[J].无线电通信技术,2014,40(1):54-57.

[12]黄萱菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-442.

[13]陈勇.一种目标行为序列模式的数据挖掘方法[J].无线电通信技术,2015,41(2):79-81.

刘海娟女,(1981—),硕士研究生。主要研究方向:信号与信息处理。

刘文展男,(1983—),硕士研究生。主要研究方向:地图学与地理信息系统。

作者简介

中图分类号TP311

文献标识码A

文章编号1003-3106(2016)02-0027-04

收稿日期:2015-11-23

doi:10.3969/j.issn.1003-3106.2016.02.07

引用格式:刘海娟,刘文展.基于双向量模型的话题跟踪[J].无线电工程,2016,46(2):27-30.