基于话题集合的中文微博对比话题摘要生成

2017-03-01 04:32:09张旭

计算机应用与软件 2017年1期

关键词：词项代表性消息

张旭

(兰州理工大学计算机与通信学院甘肃兰州 730050)

基于话题集合的中文微博对比话题摘要生成

张旭

(兰州理工大学计算机与通信学院甘肃兰州 730050)

微博作为一种流行的信息交流平台，已经受到人们的广泛关注。如今有关微博搜索结果处理的研究也已经成为热点，其中微博对比话题摘要是一个比较新颖的微博搜索结果处理方法。不同于基于微博消息的对比话题摘要生成算法，基于话题集合的中文微博对比话题摘要生成算法是将话题集合进行对比并生成微博对比话题摘要。实验数据表明，以话题集合为单位生成对比话题摘要可以改善单条微博消息信息量不足的缺点，提高对比话题摘要的代表性。

微博话题集合对比话题摘要

0 引言

微博，如其字面所表达的意义，是一种微型的博客。它与博客的不同之处主要在于微博消息有140字上限并且可以通过转发迅速传播。

微博最早起源于2006年国外推出的推特，而后国内的一些公司也陆续开始提供微博服务，例如新浪微博、腾讯微博等。微博由于其消息内容短小精悍，其消息发布具有一定的随意性，从而降低了使用门槛，让微博拥有大量的草根用户。而微博的转发功能可以让一些热点话题在用户中快速传播，并且用户也可以通过转发参与到话题的评论中。近几年，国内的很多热点话题都是通过微博传播的，同时民众也通过微博参与话题评论，例如“国民老公王思聪”、“有钱就是任性”等话题。

但是随着微博越来越受人们的关注，微博产生的数据量也随之增加，这就导致了用户在对微博消息进行关键词搜索时难以有效获取所需的相关内容。针对这一问题，已经有许多研究提出了一些解决方法，例如对微博搜索结果进行处理以提高用户体验，其中包括对搜索结果进行排序、分类、摘要等。其中对微博的搜索结果自动生成摘要是一种很有效的解决方法，通过对搜索结果抽取摘要，使用户能够在海量数据中获取其所需信息。现有的微博摘要方法很多来自于传统的文本摘要方法，而在文本摘要问题中，对比文本摘要作为文本摘要的一种应用被提出，其目的是为新闻、产品等描述文档生成具有对比性质的摘要。例如表1是对两种电脑笔记本品牌的对比摘要。

表1 对比摘要示例

本文提出的基于话题集合的中文微博对比话题摘要生成算法，是对不同关键词的微博搜索结果生成对比性摘要，让用户可以快速从搜索结果中获取所需的对比性信息，提高用户的搜索体验。

1 相关研究

1.1 对比文本摘要

在对比文本摘要的提取方法中，最常用的是基于对比性、代表性和差异度的方法。在基于文本代表性和对比性的加权和的文本摘要方法中，Kim等[1]通过句子的相似度得出代表性和对比性；Huang等[2]则选择计算词的相似度。文献[3，4]提出基于两个原文本的差异度文本摘要方法，不同的是Wang等[3]采用熵来估计差异度，而Lerman等[4]则采用相对熵。然而微博消息的发布具有一定的随意性，消息内容质量较差，所以仅利用微博的文本特征难以确定其对比性、代表性和差异度。

也有一些研究提出了基于图的对比摘要模型。Wan等[5]利用中英文句子的相似关系和差异关系为文档中的句子建图；黄小江等[6]采用协同图排序方法；Shen等[7]在图上寻找最小支配集对应的句子作为对比摘要；Chitra等[8]将网页表示成超文本标记语言的文档对象模型树。在微博对比话题摘要的研究中，利用其转发关系建图是一个可行的研究方向。

1.2 推特对比话题摘要

在段亚娟[9]提出的推特对比话题摘要算法中，以微博消息之间的关联关系建图后分别利用PageRank与SimRank方法计算每条微博消息的代表性及任意两条微博消息之间的对比性。关联关系具体包括四种关系：第一，内容相似关系：两个关键词搜索结果并集中的两条微博消息内容的余弦相似度超过阈值。第二，共享标签关系：并集中的两条微博消息拥有同一话题标签。第三，共享链接关系：并集中的两条微博消息分享同一链接。第四，转发关系：属于不同关键词搜索结果集合的两条微博消息存在转发关系。

但是在例如新浪微博等中文微博中，包含话题标签及网页链接的比例较小，同样的话题标签及网页链接在不同关键词搜索结果的消息之间更是很少出现。况且由于转发与被转发消息之间大多属于话题演化关系，而在需要对比的两个关键词的搜索结果集合中，其各自所包含的话题之间往往不存在演化关系。所以对于中文微博，需要一种新的对比话题摘要生成算法。

2 基于话题集合的中文微博对比话题摘要生成算法

在对比摘要生成问题中，推特对比话题摘要算法采用的方法是以两个对比对象作为一个对比摘要，计算每个对比摘要的对比性以及所含对比对象的代表性，再根据计算结果进行排序，显示对比性与代表性较高的对比摘要。

由于一条微博消息一般只讨论一个话题，推特对比话题摘要算法是以一条微博消息作为一个对比对象来进行计算并得出对比话题摘要。但是由于单条微博消息所包含的信息质量参差不齐，仅利用关联关系难以筛选出合适的对比对象。所以在本文提出的中文微博对比话题摘要生成算法中，将数据集划分为不同的话题集合，将一个话题集合视为一个对比对象。并且一条微博消息与其所在的转发树中的微博消息之间为话题关联关系，所以需要将微博关键字搜索结果中的微博消息进行转发扩充，划分话题时以转发扩充后的搜索结果集合作为数据集。转发扩充的具体方法是：对于所有包含转发关系的微博消息，将其所在转发树中的其余微博消息加入到搜索结果结合中。

综上所述，本文提出的中文微博对比话题摘要生成算法以转发扩充后的搜索结果集合作为计算对象，通过计算每个对比话题集合的对比性以及所含话题集合的代表性，并根据计算结果进行排序，最后显示每个话题集合在划分话题时所生成的摘要及对比话题摘要。

2.1 划分话题并生成摘要

对于中文微博话题划分问题，国内已经存在一些研究成果。其中赵斌等[10]提出的微博话题摘要生成算法(MTS算法)不仅划分效果良好，而且算法的时间复杂度相对较低。在本文提出的中文微博对比话题摘要生成算法中，对MTS算法进行改进以增强其在对比话题摘要生成问题中的适应性，提高对比话题的划分效果。

在MTS算法中，首先利用微博的转发关系生成微博转发树；然后计算一个节点中的词项在后续节点出现的比例是否超过阈值，如果超过阈值则把该词项加入代表性词项集合；最后基于节点之间代表性词项的相似度对微博转发树分别进行深度与广度归并得到话题树，话题树中的每一个节点分别对应一个不同的话题。

但是在微博对比话题摘要生成的话题划分问题中，主要目的是将微博消息划分为描述不同属性的话题。由于代表性词项在选择时不区分词项的词性，MTS算法不仅将话题描述属性作为划分参照，同时也将话题评论的感情色彩变化作为划分参照。所以在本文提出的算法中，利用分词系统对代表性词项进行过滤，只保留含有名词性质的代表性词项作为划分依据。

并且MTS算法对于许多不含转发关系的微博消息没有进行有效处理，而在对比话题摘要问题中，这部分消息的作用也是不能忽视的。所以需要计算这部分消息集合的词频，筛选出高频名词加入到代表性词项集合中，适当扩展话题集合的描述属性。

根据上述思想，本文提出中文微博对比话题摘要的算法中，具体话题划分方法分为以下几步：

算法1MTS代表词生成算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|vk,i∈VRk∧∈Ek};

}

push(Q,A);

}while(Q!=∅)

(3) 不同于MTS算法，本文提出的算法以划分不同描述属性的话题集合为目标，所以需要对两个代表性词项集合R1、R2进行筛选，挑选出具有名词性质的代表性词项作为一个集合，分别生成RN1、RN2作为转发树归并的依据。具体算法采用ICTALAS分词系统对词性进行划分。

(4) 对于转发树Gk(k=1，2)，利用以MTS归并算法为基础的改进算法进行归并。首先进行深度归并，与MTS算法主要的不同之处是归并时的相似度计算以名词性质的代表性词项为基础，具体算法如下：

算法2 深度归并算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|∈Ek};

forvk,i∈A{

R(v)=R(v)∩R(vk,i);

A=A∪{vk,j|∈Ek};

A=A-{vk,i};

}

push(Q,A);

}while(Q!=∅)

算法3 广度归并算法

Sk=∅;

do{

v=pop(Q);

A={vk,i|∈Ek};

S={sk,i={vk,i}|vk,i∈A};

forsk,i∈S{

R(sk,i)=R({vk,i|vk,i∈sk,i});

}

do{

if(max{φ(sk,i,sk,j)|sk,i,sk,j∈S,i!=j}>θb)then{

S=S∪{v|v∈sk,i∨v∈sk,j}-{si}-{sj};

R({v|v∈sk,i∨v∈sk,j})=R(si)∪R(sj);

}else break;

}while(true)

Sk=Sk∪S;

push(Q,A);

}while(Q!=∅)

其中，Sk为Mk经过话题划分后的结果，Sk={sk,1,sk,2,…,sk,n}，R(sk,i)为第k个关键词搜索结果中的话题集合sk,1的话题摘要，参数θb是取值范围为[0,1]的阈值。如果R(sk,i)包含超过10个代表性词项，则根据词项在话题集合中的出现频率过滤低频词项。φ(sk,i,sk,j)为两个话题集合sk,i、sk,j中的名词性代表词的相似度，计算式为：

(1)

2.2 代表性与对比性计算

代表性在本文提出的算法中是指一个话题集合在关键词搜索结果中的话题代表程度，话题的代表性越高则该话题的关注度越高，更加能够代表用户的需求。

对于一些突发性的热点话题，与其相关的微博消息通过大量转发迅速传播，其话题集合的转发频率在时间线上表现为随事件发生突然增长而后缓慢降低。对于这些突发性的热点话题，可以通过计算话题集合中平均每条消息的转发次数来表现其代表性。

还有一部分话题集合非突发性的热点话题，但是同样对话题属性进行了描述并且有一定的代表性。这些非突发性的热点话题集合虽然很少存在大量而突然的转发关系，但是其集合中的消息数量多，且在时间线上分布较广。对于这一部分话题集合，可以假设其消息发布时间符合均匀分布，以集合中平均每条消息的发布时间的方差表现其代表性

根据上述思想，话题集合s的代表性计算式为：

(2)

其中，Time(v)代表消息v的发布时间，发布时间经过转换后以Unix时间戳表示，并以三十天作为单位，Ret(v)代表消息v的转发次数。

对比性是指两个话题之间的可比较的程度，而对于两个不同搜索结果中的话题集合，其各自所描述的属性之间相似度越高，则认为两个话题集合的对比性越高。

在本文提出的算法中，以话题集合之间相似度作为两个话题集合的对比性，话题集合s1,i、s2,j之间的相似度计算选择含有名词性质的代表性词项集合RN(s1,i)、RN(s2,j)作为计算依据。如果RN(s1,i)与RN(s2,j)之间有n个相同的词项，s1,i、s2,j之间的相似度则为n，即s1,i、s2,j之间的对比性Com(s1,i,s2,j)记为n。

2.3 对比话题摘要对的排序

在本文提出的算法中，选择高代表性、高对比性的对比话题摘要对优先显示，所以将话题摘要对的代表性和对比性作为参考值进行计算，并加入权值调整参数θ，θ的取值范围值为[0,1]，具体计算式为：

θ×(Rep(s1,i)×ρ2+Rep(s2,j)×ρ1)+(1-θ)×Com(s1,i,s2,j)

(3)

由于不同关键词的搜索结果关注度不同，所以在式中引入关键词平衡因子ρ1、ρ2，其中ρi为Si中所有话题集合的代表性之和比上S1、S2中所有话题集合的代表性之和。最后按照计算结果进行排序，排序在前的对比话题摘要对中的话题集合将不会出现在后续的排序结果中，即每个话题集合至多匹配一个对比话题集合。

3 实验结果与分析

实验所需的源数据采用北理工搜索挖掘实验室主任张华平博士提供的500万微博语料，并使用全文检索引擎工具Lucene为500万微博语料建立索引，其中以开源的中文分词工具包IKAnalyzer作为建立索引时的分词工具。参数θt、θd、θb与赵斌等[10]在实验中的设置相同，三个参数均为0.8，参数θ则设置为0.75。停用词过滤则通过ICTALAS挑选出代词、介词等缺乏含义的词项，并向停用词库添加例如“事”、“话”等高频出现的干扰词项。

3.1 评价标准

为评价微博消息话题划分效果，将MTS算法与本文改进后的MTS算法进行对比。由于本文采用大规模语料集合，列举话题摘要的所有相关文档十分困难，所以仅考查话题集合的准确率及可对比性，其中准确率为话题集合中属于该话题摘要的微博消息比例，可对比性为话题摘要的名词性词项数量。

为评价对比话题摘要生成算法的效果，将本文提出的算法与推特对比话题摘要算法进行对比。在推特对比话题摘要的实验中，以实验结果的对比性与代表性作为最后的实验评价标准。其中对比性以对比摘要的准确率评价，准确率具体为对比摘要是否属于对比话题的比例。代表性以对比摘要的覆盖率评价，覆盖率具体为对比属性占标注的对比属性的比例。

但是在具体实验中，由于实验数据量相比推特对比话题摘要的实验数据量较大，难以标注所有对比话题的对比属性，所以在本文的实验中，以覆盖量表示对比摘要的代表性，其中覆盖量为对比属性的个数。

3.2 实验结果

在话题划分效果的实验中，将“华为”作为搜索关键词，以MTS算法与本文改进后的MTS算法分别进行划分并生成摘要，按照式(2)计算得出的代表性将话题集合排序，选取代表性最大的前40个话题集合作为比较对象，并按照评价标准比较划分效果，比较结果如表2所示。

表2 话题划分效果对比

实验结果显示，本文改进后的MTS算法虽然提高了话题集合的可对比性，但是由于在划分话题集合时加入了关键词搜索结果中不含转发关系的微博消息，使得文档集合噪声增加，导致相较MTS算法准确率有所降低。

在对比话题摘要生成算法的实验中，具体以“诺基亚”与“华为”作为对比关键词，将对比关键词的搜索结果作为中文微博对比话题摘要的实验数据。采用本文提出的基于话题集合的中文微博对比话题摘要生成算法，得到的部分对比话题摘要如表3所示。

表3 生成的微博对比话题摘要

实验的比较对象为推特对比话题摘要算法所生成的结果，分别选取前5、10、15、20条结果进行比较，其中准确率的比较结果如图1所示。

图1 准确率对比

覆盖量的比较结果如图2所示。

图2 覆盖量对比

实验结果显示，本文提出的算法提高了对比话题摘要的覆盖量，相较于推特对比话题摘要算法有更多的对比属性。但是随着选取实验结果的对比话题摘要个数增加，两种算法的准确率都有较大幅度的下降。

本文提出的算法以话题集合作为比较对象，相比于以微博消息进行比较，每一个比较对象含有较多的话题相关属性，扩充了比较对象所含的信息量，因此增加了对比话题摘要的代表性。但是由于微博消息文本噪声较大并且缺乏较好的对比性词项词库，所以实验结果的准确率有待提高。

4 结语

本文提出了基于话题集合的中文微博对比话题摘要生成算法，相较于一般方法的主要不同之处在于生成对比话题摘要时的比较对象为话题集合。由于一个话题集合所包含的信息量比一条微博消息大很多，所以本文提出的算法有效地扩充了可对比的相关内容，同时也证明了将微博划分为话题集合进行处理可以在一定程度上解决单条微博消息信息量不足的问题。

但是由于微博消息庞大的数量，其所需的计算时间也不容忽视。所以后续工作的主要内容是研究对比话题摘要的索引建立问题，加快对比话题摘要的生成速度，为微博消息建立高效索引。

[1]KimHD,ZhaiC.GeneratingComparativeSummariesofContradictoryOpinionsinText[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:385-394.

[2]HuangX,WanX,XiaoJ.ComparativeNewsSummarizationUsingLinearProgramming[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies:ShortPapers.Stroudsburg:AssociationforComputationalLinguistics,2011,2:648-653.

[3]WangD,ZhuS,LiT,etal.ComparativeDocumentSummarizationviaDiscriminativeSentenceSelection[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:1963-1966.

[4]LermanK,McDonaldR.ContrastiveSummarization:AnExperimentwithConsumerReviews[C]//ProceedingsofHumanLanguageTechnologies:The2009AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2009:113-116.

[5]WanX,JiaH,HuangS,etal.SummarizingtheDifferencesinMultilingualNews[C]//Proceedingsofthe34thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,2011:735-744.

[6] 黄小江,万小军,肖建国.基于协同图排序的对比新闻自动摘要[J].北京大学学报:自然科学版,2013,49(1):31-38.

[7]ShenC,LiT.Multi-documentSummarizationviatheMinimumDominatingSet[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2010:984-992.

[8]ChitraP,BaskaranR,SarukesiK.Querysensitivecomparativesummarizationofsearchresultusingconceptbasedsegmentation[J].ComputerScience&Engineering:AnInternationalJournal,2011,1(5):31-43.

[9] 段亚娟.微博搜索的关键技术研究[D].合肥:中国科学技术大学,2014.

[10] 赵斌,吉根林,徐伟,等.基于拓扑结构的微博话题摘要生成算法[J].数据采集与处理,2014,29(5):720-729.

CHINESE MICRO-BLOG COMPARATIVE TOPIC SUMMARIZATION BASED ON TOPIC SET

Zhang Xu

(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,Gansu,China)

Nowadays, micro-blog has received wide attention as a popular platform for information exchange, and the research on micro-blog search results reorganization has also become a hot spot. In this research field, micro-blog comparative topic summarization is a relatively new way of search results reorganization. Different from the comparative topic summarization based on messages, Chinese micro-blog comparative topic summarization generates summaries by comparing the topic sets instead of messages. The experimental results show that the method based on topic sets improves the shortcoming of insufficient information in single message and obtains an increase in the representativeness of comparative topic summaries.

Micro-blog Topic sets Comparative topic summaries

2015-09-17。张旭，硕士生，主研领域：智能信息处理。

TP391

10.3969/j.issn.1000-386x.2017.01.011

基于话题集合的中文微博对比话题摘要生成

0 引 言

1 相关研究

2 基于话题集合的中文微博对比话题摘要生成算法

3 实验结果与分析

4 结 语

0 引言

4 结语