基于多重增强图和主题分析的社交短文本检索方法

2018-05-04 06:46刘德喜付淇韦亚雄万常选刘喜平钟敏娟邱家洪
中文信息学报 2018年3期
关键词:分值排序短文

刘德喜,付淇,韦亚雄,万常选,刘喜平,钟敏娟,邱家洪

(1. 江西财经大学 信息管理学院,江西 南昌 330013;2. 江西财经大学 数据与知识工程江西省高校重点实验室,江西 南昌 330013;3. 江西科技师范大学,江西 南昌 330013)

0 引言

“短文本”(又称消息或post)存在于以Twitter、微信、微博等为代表的社会网络平台上,内容和形式丰富,包括发表评论、抒发心情、分享趣事、好友互动等,极大地扩展了人们获取信息的渠道,增强了普通民众的参与感,受到用户青睐。同时,社会网络中用户的行为特点和语言特点,使得存在于社会网络平台中的短文本不同于普通文本或网页。短文本之间存在转发、评论、回复等关系,短文本作者之间存在“Friends/Followers”或“朋友圈”等关系,短文本通过链接与Web页面之间存在链接关系。本文统称这些关系为短文本的“社会关系”[1],称来自社会网络平台的有“社会关系”的短文本数据为“社交短文本”数据。

社交短文本数据中除了存在社会关系外,文本短、主题分散等特点也给社交短文本的检索和利用带来巨大挑战。Twitter要求每篇tweet在140个字符以内、新浪微博要求每篇博文不超过140个汉字。与传统长文本或网页不同的是,大部分的词语在短文本中仅出现一次,这就造成无法通过词频(TF)来区分词语的重要程度;另外,逆文档频率(IDF)高的词项可能来自于错误或不规范的拼写,这在社会网络平台中非常常见。因此,数据的稀疏和不规范的拼写导致传统基于TF-IDF的检索模型不能直接用在社交短文本检索中。

普通民众参与是社会网络的一大特点,用户关注的焦点不同、视角不同,使得社会网络上产生了数量庞大的主题,这使得社交短文本检索结果的组织和呈现面临巨大挑战。目前新浪等社会网络平台通常是将短文本检索结果简单地按照短文本发布的时间倒排,效果不甚理想。本文的主要工作是对传统检索模型在社交短文本数据上的检索结果进行主题识别、利用社会关系再排序、过滤重复信息等,使得检索结果更合理、可读性更强,并且减少用户阅读社交短文本的负担,提高用户从社会网络中获取信息的效率。

本文的主要贡献包括: (1)采用多重增强图算法对检索结果再排序,以提升检索效果。多重增强图算法主要通过作者、短文本、词汇三个层面来建模社交短文本及其内容,并充分利用社交短文本中的社会关系来分析各层面中节点的重要性。(2)实验对比了三种常用的文本与查询之间相似度计算方法,包括余弦相似度、LDA主题模型及JS距离,实验证明多重增强图算法对NDCG指标的提高有很明显的效果。

论文的结构安排如下: 引言部分,介绍“社交短文本”的概念及特点;相关研究概述了近几年社交短文本的研究现状和相关成果;第2节介绍基于多重增强图的社交短文本检索方法SSTR,包括数据预处理、主题分析、初步检索、基于多重增强图的社交短文本优化排序、检索结果自动摘要五个步骤;第3节介绍实验数据、实验内容、实验结果及分析,验证SSTR方法的有效性;最后在第4节进行总结。

1 相关研究

社交短文本检索的相关研究近年来得到了专家学者的广泛关注,特别是TREC中引入了Micro-blog任务并公布数据后[2-7]。除了将传统信息检索模型推广到短文本数据上以外,还有大量的研究工作集中在抽取或概括原始文档(集)中的重要或有代表性的内容,以提高信息访问的效率,为用户节省时间和资源。目前这类工作采用的方法可以归纳为基于统计特征、基于图、基于特征和图融合、基于事件抽取等四类方法。

统计特征通常作为判断一篇短文本重要性的依据。文献[8]借助语言模型(其实质是统计特征)分析tweets中的话题,并根据话题将短文本合并、分组,类似于聚类,然后从各个类中选择一条具有代表性的短文本返回给用户。文献[9]基于词频特征判断短文本中概念的重要性,并采用线性规划策略使得短文本检索结果在有限的长度中包含更全面且更重要的概念。文献[10]认为短文本tweets中使用的词或短语是与某主题相关的,并且流行的主题会得到更多的转发,以此来判断短文本中词或短语的重要性。在构建以用户提交的查询词为根、以词在tweets中的位置关系为边的树后,以树中词的重要性为基础,返回权重较大的路径(或tweets)。除上述提到的统计特征外,其他被利用的统计特征还有混合TF-IDF[11]、消息或短文本的频率特征[12]、词频分布特征[13]、时间特征[14]、话题特征[15]、短文档中的超级链接、内容的规范性[9]以及短文本作者的行为特征等[16]。

基于图的方法是以社交短文本中的句子、词项、短文本作者等对象为节点,以其社会关系为边,构建图并分析图中节点的权重。文献[17]采用PageRank方法,同时结合关键词和主题分析对短文本进行排序。文献[18]针对Twitter短文本,采用了增强图算法。考虑了短文本、文本作者、词语三者之间相互的关系以及三者内部的关系,利用类似PageRank的迭代方式考察它们的重要性。

基于特征和图融合的方法是在基于特征考察短文本内容重要性或代表性的基础上,利用图中节点(短文本)之间的关系,将重要性或代表性在节点之间传播、迭代。例如,文献[19]运用基于特征的方法设置图中边的权重,这些特征包括: 短文本之间的相似性、短文本的可读性、作者的粉丝数以及短文本被转发的次数等。

基于事件抽取的方法是以事件为线索,从社交短文本中抽取能还原事件发展动态的信息并合理地组织。文献[20]以来自多个不同微博平台中与某个相同事件相关的短文本数据为对象,利用事件抽取技术,分析事件的结构,结合用户行为模式分析,对短文本打分。文献[21]针对体育赛事相关的Twitter短文本具有较强结构性的特点,采用隐马尔科夫模型对事件建模,抽取短文本作为事件的摘要。文献[22]分析社会网络FlickrGroups中的活动,挖掘包括时间、地点、人物、行为等在内的事件信息。文献[13]首先检测Twitter中的子事件,然后再选择短文本。

社交短文本里隐藏着丰富的主题,一些热门主题往往蕴含了大量有用的信息,而这些主题兼具分散性、多样性的特点。因此,社交短文本的主题分析结果有利于提高检索模型的性能。关于短文本主题分析的相关研究工作比较丰富,但将主题分析方法运用于社交短文本检索或自动摘要的工作相对较少[23]。

社交短文本主题分析的相关工作中,除了利用主题标签和模板分析话题外,LDA模型及其多种扩展是近年来比较流行的基于概率的主题模型。在针对网络论坛的突发话题研究中,文献[24]采用一种频谱划分的方法对时间序列进行分析来发现突发特征,通过衡量时间序列相似性和文本内容重叠性的无监督学习算法发现突发话题。该算法在实现突发话题检测的同时还可以发现与话题相关联的用户社区。文献[25]提出了基于LDA的微博主题生成模型MB-LDA,综合考虑了微博的作者关联关系和文本关联关系,来辅助进行微博的主题挖掘。文献[26]设计的TwitterMonitor系统通过话题检测方法,分析tweets流中的话题趋势。文献[27]提出的Twitter-LDA模型采用蕴含作者社会关系的作者主题模型和传统LDA模型相结合的方法,取得了较好的表现。

在对社交短文本检索或自动摘要时,短文本作者的影响力、短文本的质量等因素也是影响短文本排序或内容选择的重要因素。有研究表明,可信的用户有可能发布信息质量高的短文本,而发布高质量短文本的用户可能有更好的影响力[28]。目前对于短文本内容的代表性或重要性的判断,除了考察短文本的特征外,有研究者还借助于外部资源,如用户评论、社会标签、用户上下文[29]、社区信息[30]、社会网络等。考虑到社会网络平台中的短文本通过链接与Web页面关联,文献[31]在对Web页面自动摘要时,同时对Web页面的内容和短文本的内容统一建模,将二者内容置于同一框架中,其基本思想是短文本的内容有助于Web页面中关键句子的选择。类似地,Pasoi等人设计的Summify*http: //summify.com/系统是通过用户在社会网络平台上发布的短文本来分析社会网络用户的兴趣,并依据用户兴趣对Web页面或站点的内容做自动摘要,为Facebook和Twitter用户提供个性化信息服务。

本文所采用的多重增强图算法框架是受文献[18]的启发。文献[18]提出一个基于时间轴的tweets短文本自动摘要框架,他们将话题按照时间先后及短文本中的主题标签(hashtag)划分成子话题,并根据短文本的重要程度、质量和多样性对各子话题中的短文本排序,并抽取短文本生成摘要。本文与文献[18]不同之处在于以下四个方面: (1)任务不同: 尽管都要考察短文本的重要性,但文献[18]主要是对具有相同或相似主题的社交短文本数据做自动摘要,本文则主要是从社交短文本数据中检索与用户查询相关的信息;(2)选择的数据集不同: 文献[18]通过Twitter API获得的2010年9月至2012年4月1.27亿条包含地震关键词的tweets,本文使用的数据集和查询主题是TREC 2011 Micoblog任务提供的 Tweets数据,数据集的不同导致多重增强图算法框架中数据的预处理及具体的计算方法有较大的不同;(3)核心内容之一的短文本相似度计算方法不同: 文献[18]中短文本的相似度直接用余弦相似度方法,但考虑到社交短文本的特点,本文采用基于主题分析结果的相似度计算方法;(4)实验评测不同: 文献[18]采用自动摘要的评测指标ROUGE,主要评测自动摘要质量,本文采用评测指标NDCG,主要用于评测检索结果的质量。另外,文献[18]对比两个经典的基于图的模型,短语图模型(the phrase graph )和LexRank 模型,而本文重点考察了不同的重排序方法,特别是基于主题模型的相似度计算在重排序中的作用。

2 基于多重增强图的社交短文本检索方法SSTR

2.1 问题定义

对于社交短文本数据集C=,D={d1,d2, …,dN}表示N篇短文本组成的短文本集合,U={u1,u2, …,uM}表示M个作者组成的短文本作者集合,R是作者与短文本之间的关系集合,其中ri,j表示短文本di是由作者uj发表的。本文对社交短文本检索的定义是,给定用户查询q和社交短文本数据集C,在C中检索与查询q相关的短文本集合,并按其相关度排序,最后生成摘要。

基于多重增强图的社交短文本检索方法SSTR(socialized short text retrieval)包括数据预处理、主题分析、初步检索、检索结果重排序、检索结果自动摘要五个模块。其中主题分析是利用LDA主题模型表示文本,进而实现短文本相似度计算;初步检索采用检索平台Indri实现,主要功能包括构建索引和实现查询;重排序是采用多重增强图算法对初步检索结果重新排序,以便取得更好的排序效果;检索结果自动摘要是选取那些与查询密切相关且冗余程度较小的文本展现给用户。最后展现给用户的是主题全面、与查询相关度高且有较好代表性的结果,以此来提高用户在社会网络平台上检索的效率。社交短文本检索系统SSTR的框架如图1所示。

图1 SSTR框架

2.2 数据预处理

预处理工作包括数据过滤、去除停用词、去重、词条化等工作。数据过滤包括: (1)去除非英文的短文本(SSTR系统目前只针对英文数据);(2)去除词语个数不超过三个的过短的短文本;(3)去除只含特殊符号不含有其他词语的短文本。文本去重主要是去除文档集合中相似度极高的文本。由于文档集合中文本数量众多,采用常用的文本相似度计算方法难以完成,本文采用了Simhash*http: //my.oschina.net/leejun2005/blog/ 150086相似度计算方法。

2.3 主题分析

由于社交短文本内容短,传统的向量空间模型中词频TF的影响几乎无效,而微博中各种自创的、错误的拼写使得那些并不是核心内容的词却有着很高的IDF值。因此,传统向量空间模型中的TF-IDF不适合短文本的相似度计算。相对于TF-IDF文本表示模型,主题模型不再单纯地利用本文档中的词频信息来表示文本并进行文本相似度计算,而是在整个文档集合上分析各个文档的主题分布,挖掘文本中潜在的语义信息,直接映射至内部隐含主题,过滤噪声等干扰信息,因此有助于缓解文档短给相似度计算带来的挑战。

本文采用Python第三方库Gensim*http: //radimrehurek.com/gensim/来实现文本LDA主题模型分析。在得到文档属于各个主题的概率分布后,采用两个文档概率分布p1和p2之间的KL(Kullback-Leibler divergence)距离计算文档间的相似程度。由于KL距离不满足对称性,本文使用其对称版本,如式(1)所示。

σλ(p1,p2)=λσKL(p1,λp1+(1-λ)p2)

+(1-λ)σKL(p2,λp1+(1-λ)p2)

(1)

当λ=1/2时,公式(1)转变为JS距离,如式(2)所示。

σjs(p1,p2)=

(2)

2.4 基于多重增强图的社交短文本优化排序

多重增强图算法受文献[18]的启发,主要从三个不同层面分析影响社交短文本排序的因素,包括: 作者层面(描述短文本作者之间的社会关系)、短文本层面(描述短文本之间的相似、转发等关系)、词汇层面(描述短文本中词汇之间的关系)。各个层面内部相互影响,三个层面之间相互作用。图2是三个层面分析示意图。

图2 三个层面分析示意图

作者层面。作者之间的相互关注、互动交流体现了作者之间有多种社会关系,且权威作者发表的短文本、使用的词语往往具有更好的代表性。

词汇层面。与长文本分析类似,去除停用词后仍然频繁出现在短文本中的词是重要的,但由于短文本内容短小,使用的词语在140字之内,词语重要性的衡量不再仅仅依靠词频,同时还考虑词语的文档频率、词语之间存在的关联性、词语所在的短文本特征以及使用该词语的作者特性等。

短文本层面。主要是衡量短文本间的关系和短文本的重要性。短文本的特征包括其作者、词语构成、主题、短文本之间的转发、回复、评论关系等。通常,由重要或权威的作者发表的短文本也是重要或权威的,是值得推荐给用户阅读的。其次,重要的短文本应该包含丰富的信息,而这些信息最直接的表达就是词语,重要的短文本应当含有能表达事件或主题的关键性词语。同时重要的短文本作为信息传播的重要载体或者重要节点,应当在内容上有代表性,即它与其他短文本具有一定的相似性。

通过上述分析可以发现,三个层面以社交短文本中所蕴含的社会信息为纽带,相互联系,相互影响。因此,多重增强图算法分别对作者、短文本、词汇建模,并进行三者间迭代运算,直到最终结果稳定,利用作者、短文本、词汇的各自得分衡量它们的重要性。

一篇短文本的分值受到文本间相似度、文本中的词语、文本质量、短文本的作者四个因素的影响: 短文本与其他短文本的相似度越高,说明该短文本的中心地位越高,给用户呈现的信息越有代表性;短文本包含的词越重要,则短文本的分值越高;短文本质量越高,其分值越高;短文本的作者越权威,该短文本的分值越高。如式(3)所示。

(3)

其中Q(di)表示短文本di的质量,D则表示短文本集。对于社交短文本质量的评价,通常采用基于机器学习的方法,从文本的可读性和内容的丰富性等多个方面考察。由于人工标注工作量过大,本文将视文本质量为统一的定值。Sim(di,dj)表示两文本的相似度,其中R[di] 表示与di相连的短文本集合。本文采用公式(2)中的JS距离计算文本主题相似度。Score(w)表示词语的得分,Score(ui)表示作者的得分。α1、β1、γ1分别表示短文本层、词汇层和作者层的权重,θ1与(1-θ1)表示短文内容和质量的权重,c表示迭代的次数。

作者的分值受到四个因素的影响,包括作者使用的词语、作者发布的短文本、作者的社会关系、作者影响力。作者发布的文本中词的分值越高,说明作者发布的内容质量越高,相应地作者的分值也越高;作者发布了分值越高的短文本,则作者的分值越高;作者的粉丝分值越高,说明该作者越权威,其分值应该越高;作者的影响力越大,其分值会越高。如式(4)所示。

(4)

其中Dui表示由作者ui发布的所有短文本,w则表示作者使用过的词语,Flu(ui)表示作者影响力(uD表示短文本集D中所有作者),Fans[ui]表示作者ui的粉丝集合。作者影响力可以采用基于机器学习的方法获得,可用的特征包括作者的粉丝数量、关注数量、被评论数量、被转发数量等,但由于本文采用了TREC Microblog任务的数据集,作者权威性的特征无法获取,所以本文将作者的权威度设为统一定值。而关注与被关注的粉丝关系,本文是通过提取短文本中的转发和“@”关系来构建的。式(4)中的α2、β2、γ2分别表示短文本层、词汇层和作者层的权重,θ2与(1-θ2)表示作者影响力与粉丝的权重。

一个词语的分值与词语的文档频率、词语所在的短文本、使用该词语的作者、与其他词语的共现情况四个因素相关。类似于TF-IDF,逆文档频率越高,词语的分值越高;短文本分值越高,其中用到的词的分值则越高;词语所在短文本的作者分值越高,该词语的分值也越高;与其他词共现越频繁(停用词已去除),说明该词在表示检索结果内容时代表性越强,分值应该越高。如式(5)所示。

(5)

其中Dwi表示含有词语wi的短文本集合,Score(d)表示该词语所在的短文本d的分值,df(wi)表示词语的文档频率,con(wi)表示与词语wi共同出现的词语集合,Uwi表示所有使用词语wi的作者的集合,Score(u)表示使用该词语的作者的分值。公式(4)中的α3、β3、γ3分别表示短文本层、词汇层和作者层的权重,θ3与(1-θ3)表示词本身的信息含量(用逆文档频率表示)和词对检索结果的代表性(与其他词共现情况,本文基于FP树来计算)两者各自的权重。

类似于PageRank,给定初始值后,根据式(3)~(5),迭代多次,计算短文本、作者、词语的得分,直到收敛,并根据短文本最后的分值进行重排序。

2.5 检索结果自动摘要

社交短文本集合经过排序后,采用MMR(maximal marginal relevance)算法去除重复的信息。该算法的主要思想是选取那些与查询相关性大,同时与其他文本相似度小的文本作为最终的摘要结果。如式(6)所示。

(6)

其中D和S分别表示文本集和已被选取作为摘要内容的文本集合,Sim(di,q)表示文本与查询的相似度,dj∈S表示已被选取作为摘要的文本,Sim(di,dj)表示两文本间的相似度,λ为权重系数。MMR算法在选取作为摘要的文本时,首先计算文本与查询的相似度Sim(di,q),并计算文本与已经被选取作为摘要的所有文本的相似度,选取其中最大值Sim(di,dj),然后计算Sim(di,q)和Sim(di,dj)之间的差值,最终选取差值最大的文本加入摘要集合。

3 实验测评

3.1 实验数据与参数设置

实验数据采用TREC 2011 Microblog任务提供的tweets数据,经过Simhash去重后tweets数量约600万条,并使用这些tweets数据集训练LDA模型,主题数设置为200。实验所用查询同样来自TREC 2011 Microblog任务提供的50个查询,本文选取其中五个查询,相对于其他查询,这些查询初始检索结果较多。选择初始检索结果较多的原因在于,本文的主要目的是对检索结果进行重排,并且为减轻用户阅读负担而对检索结果进行自动摘要。因此,本文提出的方法不太适用于初始检索结果较少的情况。由于本文选择的查询主题数量有限,限制了参数的优化(可能会出现过拟合)。参数设置的主要依据如下:

在计算短文本的分值时,由于是面向信息检索的,因此认为短文本层的影响最大,词汇层次之,作者层对短文本分值的影响最小,所以表示短文本层、词汇层和作者层权重的三个参数α1、β1、γ1按4∶2∶1的比例来设置,分别为4/7、2/7和1/7。由于词汇层介于作者层和短文本层之间,起到链接二者的作用,因此在计算词的得分时,认为词汇层的权重最大,短文本层和作者层次之,但二者权重相同,α2、β2、γ2按1∶2∶1的比例设置为0.25、0.5和0.25。计算作者权重时,认为作者层的权重最大,词汇层次之,文本层最小,α3、β3、γ3按1∶2∶4的比例设置为1/7、2/7和4/7。

由于式(3)中的文本质量和式(4)中作者的影响力本文都未做进一步分析,式(5)中词的信息含量也简单地采用文档频率,所以为了减少该部分的影响,式(3)、式(4)和式(5)中的θ1、θ2、θ3都设置为0.85。由于面向用户查询,在检索结果中需要强调查询与短文本的相似性,因此式(6)中的λ设置为0.9。

3.2 实验内容

本实验设计了四个系统进行对比。

(1) Indri: 在Indri检索系统中,完成查询的初步检索,并对初步检索结果进行人工评价,以对比分析重排序的效果。本系统评价了前20条结果的效果。

(2) reRank-COS: 在Indri检索系统中得到初步检索结果后,将初步检索结果和查询用TF-IDF向量表示,计算检索结果和查询的余弦相似度,并按相似度大小对检索结果重新排序,并评价排序效果。

(3) reRank-LDA: 在Indri检索系统得到初步检索结果后,将初步检索结果和查询都用LDA主题模型表示,计算检索结果与查询的JS距离,并按距离大小对检索结果重新排序,并评价排序效果。

(4) reRank-SSTR: 在Indri检索系统得到初步检索结果后,使用社交短文本排序算法对检索结果重新排序,并评价排序效果。排序算法中tweets间相似度计算方法是采用LDA主题模型表示文本,以JS距离衡量文本相似性。

实验中采用NDCG指标进行评测,检索并计算Top20的NDCG值,并得出文本评价等级。将实验中短文本的分值划分为五个等级:

① 等级4(最高): 语义清晰,含有较丰富相关信息;

② 等级3: 语义清晰,含有一定相关信息;

③ 等级2: 语义不清晰,但可以获取一定信息;

④ 等级1: 与主题的关系不能确定;

⑤ 等级0: 确定与主题无关。

3.3 实验结果及分析

实验中分别以MB004: Mexico drug war、MB009 Toyota recall、MB022 healthcare law unconstitutional、MB036 Moscow airport bombing、MB039 egyptian curfew为查询,得到查询结果,并比较四种算法在各位置处的NDCG值,如图3所示。

比较各组实验结果发现:

(1) 使用多重增强图算法,能够较好地提升检索效果,因为多重增强图算法综合考虑了词、文本、作者等多方面因素。对于tweets文本而言,多重增强图倾向选择较长的tweets文本、同时倾向于那些使用高频词(除停用词外)的tweets(主要是在tweets作者重要性以及tweet文本质量区别不是很明显的情况下)。

(2) 单独采用LDA主题模型和TF-IDF模型来表示文本,利用查询与tweets相似度值的高低作为重排序的依据,反而没有开源搜索引擎Indri获得的原始结果好。这说明SSTR的多重增强图对短文本的重排序起到了有益的帮助。

图3 不同查询上SSTR方法(multi_enhance_rank)与其他方法的性能对比(横坐标为返回的短文本数量,纵坐标为NDCG值)

(3) 对比采用LDA主题模型和TF-IDF模型两种表示文本的方法发现,在文本集主题较为集中时,采用LDA主题模型和TF-IDF模型表示文本得到的效果相近,而在主题较为分散的文本集合中,采用LDA主题模型比采用TF-IDF模型表示文本得到的效果要好,这是由于LDA主题模型可以挖掘tweets文本中的潜在语义信息,可以发现那些采用不同词语描述的具有相同或相近语义信息的tweets。

为了进一步考察SSTR如何受初始检索结果的影响,实验中分别将多个查询词之间用“and”和“or”连接关系作为查询,进行初始检索。检索词之间采用“and”连接进行初步检索时,返回的初始检索结果通常数量较少,召回率较低,对于个别主题,通常没有检索结果返回,但检索结果的精度比较高。这种情况下,多重增强图算法相对于其他算法在多数主题上都有较好的表现。检索词之间采用“or”连接进行初步检索时可以返回较多的结果,通过SSTR对“or”连接的初始检查结果进行重排和去重,结果发现SSTR没能有效地改善初始检索结果的重排序效果。因此,可以认为SSTR的表现与初始检索结果的精度有关,初始检索结果精度越高,SSTR的表现也越好。这一结论是比较直观的,如果初始检索结果中不相关短文本太多,通过多重增强图计算的高分值的短文本就会偏离查询主题。

4 结论

本文提出了一个基于多重增强图的社交短文本检索方法SSTR,利用多重增强图算法对Indri系统的检索结果实现再排序优化。SSTR充分考虑社交短文本中蕴含的文本、作者、词语三个不同层面上不同因素间的关系,通过多次迭代运算,最终寻求多个层面间相互关系所处的稳定状态,以便取得更好的检索效果。SSTR利用LDA主题模型表示文本并实现相似度计算,克服文本短带来的影响。为了减轻阅读负担,本文对检索结果进行自动摘要,选取那些与查询密切相关且冗余程度较小的短文本返回给用户。实验结果表明,基于多重增强图算法的SSTR与Indri、reRank-COS和reRank-LDA相比排序的效果更好,SSTR最后展现给用户的是主题较全面、与用户查询相关度更高且更有代表性的结果。此外,根据论文的分析,如果考虑短文本的质量和短文本作者的权威度,SSTR得到的重排效果会有所提升,这将是我们下一步的工作。

另外,采用TREC 2011 Microblog的检索任务,查询主题和数据都有权威性和代表性。然而实验中发现,TREC 2011 Microblog给定的50个查询主题中,很多查询返回的结果(tweets数量)比较少,对之进行重排意义不大。因此本文从中选择了返回结果数量较多的查询主题,以考察所提出的模型在这种情况下的效果,这导致整个工作使用的查询主题过少。主观地再增加一些新的查询主题,则相关文本(tweets)集合的获取没有权威性。因此,利用其他数据集上更多的查询主题验证本文的模型,也是我们正在着手的工作之一。同时,当查询主题丰富时,本文所提出的模型中的参数也有了进一步优化的可能,相信优化后的参数能进一步改善模型的效果。

[1] 刘德喜, 万常选. 社会化短文本自动摘要研究综述[J]. 小型微型计算机系统, 2013, 34(12): 2764-2771.

[2] Christophe Van Gysel, Evangelos Kanoulas, Maarten de Rijke. Lexical query modeling in session search [C]//Proceedings of the 2016 ACM International Conference on the Theory of Information Retrieval, ACM, 2016: 69-72.

[3] Ben Carterette, Paul Clough, Mark Hall, et al. Evaluating retrieval over sessions: The TREC session track 2011—2014 [C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM. 2016: 685-688.

[4] 韩中元, 杨沐昀, 孔蕾蕾, 等. 基于词汇时间分布的微博查询扩展[J]. 计算机学报, 2016, 39(10): 2031-2044.

[5] 卫冰洁, 王斌. 面向微博搜索的时间感知的混合语言模型[J]. 计算机学报, 2014, 37(1): 229-237.

[6] 王书鑫, 卫冰洁, 鲁骁, 等. 面向微博搜索的时间敏感的排序学习方法[J]. 中文信息学报, 2015, 29(4): 175-182.

[7] 卫冰洁, 史亮, 王斌. 一种融合聚类和时间信息的微博排序新方法[J]. 中文信息学报, 2015, 29(3): 177-189.

[8] Brendan O’Connor, Michel Krieger, DavidAhn. Tweetmotif: Exploratory search and topic summarization for Twitter [C]//Proceedings of the 4th International Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 384-385.

[9] Fei Liu, Yang Liu, Fuliang Weng. Why is “SXSW” trending?: Exploring multiple text sources for Twitter topic Summarization [C]//Proceedings of the ACL 2011 Workshop on Languages in Social Media. Portland, Oregon, USA, 2011: 66-75.

[10] Beaux Sharifi, Mark-Anthony Hutton, Jugal Kalita. Summarizing microblogs automatically [C]//Proceedings of the 2010 Conference of the North American Chapter of the Association for Computational Linguistics-Human Language Technologies, 2010: 685-688.

[11] Kevin Dela Rosa, Rushin Shah, Bo Lin, et al. Topical clustering of Tweets [C]//Proceedings of the ACM SIGIR 3rd Workshop on Social Web Search and Mining, 2011.

[12] Karen Shiells, Omar Alonso, Ho John Lee. Generating document summaries from user annotations [C]//Proceedings of the 3rd Workshop on Exploiting Semantic Annotations in Information Retrieval, 2010: 25-26.

[13] Arkaitz Zubiaga, Damiano Spina, Enrique Amig′o, et al. Towards real-time summarization of scheduled events from Twitter streams [C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media, Milwaukee, WI, USA, 2012: 319-320.

[14] Hiroya Takamura, Hikaru Yokono, Manabu Okumura. Summarizing a document stream [C]//Proceedings of the 2011 European Conference on Information Retrieval,2011: 177-188.

[15] Rui Long, Haofen Wang, Yuqiang Chen, et al. Towards effective event detection, tracking and summarization on microblog data [C]//Proceedings of the 12th International Conference on Web-Age Information Management. Wuhan, China, 2011: 652-663.

[16] Sanda Harabagiu, Andrew Hickl. Relevance modeling for microblog summarization [C]//Proceedings of the 5th International Conference on Weblogs and Social Media. Barcelona, Catalonia, Spain, 2011: 514-517.

[17] WayneXin Zhao, Jing Jiang, Yang Song, et al. Topical keyphrase extraction from Twitte[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 379-388.

[18] Yajuan Duan, Zhumin Chen, Furu Wei, et al. Twitter topic summarization by ranking Tweets using social influence and content quality [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 763-780.

[19] Xiaohua Liu, Yitong Li, Furu Wei, et al. Graph-based multi-tweet summarization using social signals [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 1699-1714.

[20] Sanda Harabagiu, Andrew Hickl. Relevance modeling for micmblog summarization [C]//Proceedings of International Conference on Weblogs and Social Media, 2011: 514-517.

[21] Deepayan Chakrabarti, Kunal Punera. Event summarization using Tweets [C]//Proceedings of International Conference on Weblogs and Social Media, 2011, 66-73.

[22] Yu-ru Lin, Hari Sundaram, Aisling Kelliher. Summarization of large scale social network activity [C]//Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 2009: 3481-3484.

[23] William M Darling,Fei Song. Probabilistic document modeling for syntax removal in text summarization [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 642-647.

[24] 陈友, 程学旗, 杨森. 面向网络论坛的突发话题发现[J]. 中文信息学报, 2010, 24(3): 29-36.

[25] 张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10): 1795-1802.

[26] Michael Mathioudakis, Nick Koudas. TwitterMonitor: Trend detection over the Twitter stream [C]//Proceeding of the Special Interest Group on Management of Data, 2010: 1155-1158.

[27] Eytan Bakshy, Jake M Hofman, Winter A Mason, et al. Everyone’s an influencer: Quantifying influence on Twitter [C]//Proceeding of the 4th International Conference on Web Search and Web Data Mining, 2011: 65-74.

[28] Hongzhao Huang, Arkaitz Zubiaga, Heng Ji. Tweet ranking based on heterogeneous networks [C]//Proceeding of the 24th International Conference on Computational Linguistics, 2012: 1239-1256.

[29] Po Hu, Donghong Ji, Cheng Sun, et al. Improving document summarization by incorporating social contextual information [C]//Proceeding of the Asia Conference on Information Retrieval Technology, 2011: 499-508.

[31] Zhen Yang,Kefeng Fan, Yingxu Lai, et al. Short texts classification through reference document expansion [J]. Chinese Journal of Electronics, 2014, 23(2): 315-321.

猜你喜欢
分值排序短文
芍梅化阴汤对干燥综合征患者生活质量的影响
作者简介
恐怖排序
悄悄告诉你:统计这样考
节日排序
KEYS
Keys
短文改错
短文改错