罗芳,汪竞航,张宇恒,何道森,蒲秋梅
(1.武汉理工大学计算机科学与技术学院,湖北武汉430063;2.香港恒生大学供应链及资讯管理系,香港999077;3.中央民族大学信息工程学院,北京100081)
社交媒体平台因其信息分享和交流的便捷性成为人们获取信息的重要方式,推动着人们获取资讯方式的变革。当热点事件发生时,社交媒体平台会随即产生大量与之相关的事件文本,然而文本数据量庞大、主观意识强烈及文本质量参差不齐的问题逐渐成为用户理清热点事件发展过程的阻碍。因此,为了生成反映热点事件随时间演化状况的概要,针对热点事件的时序摘要技术研究受到人们的广泛关注。目前,针对社交媒体平台中热点事件的时序摘要技术获得了一定程度的发展,但仍具有较大局限性,主要表现为缺乏对事件发展演化阶段的追踪挖掘,以及对社交媒体文本特性的挖掘利用不够充分,忽视了社交文本所蕴含的时序信息及传播影响力与文本概述信息能力之间的联系等问题。
为了更好地抽取热点事件的时序摘要,本文在充分挖掘社交媒体文本流时序信息及社交传播影响力的基础上,结合传统无向图模型[1],提出了融合社交传播影响力的热点事件时序摘要方法LSTS(Lex Rank summarization with timeline-social influence)。该方法首先挖掘热点事件的发展演化阶段,然后通过文本时间特征捕捉文本内容描述与事件发展演化阶段的关联,同时利用社交传播影响力较高的文本与事件信息相关度更高的特性,进行文本摘要的赋权,最后结合改进的无向图模型分阶段进行时序摘要的提取。相较于其他时序摘要提取方法,本文提出的LSTS方法提取的摘要更能反映事件发展演化概况,且内容描述更为准确、客观。
时序摘要的主要流程是将事件文本集按照时间顺序组织,然后结合时间线特征,抽取符合时间演化规律,能概括事件阶段内容的文本摘要[2]。国内外研究者根据摘要时间演化的特点,提出了不同应用场景下的解决方案,拓展了时序摘要的使用范围及理论深度。
基于时间的演化摘要研究重点在于如何利用时间属性抽取反映事件发展过程的摘要文本,以使摘要抽取满足覆盖性、连续性和差异性要求。Schubotz等[3]介绍了构建在线时间摘要系统的一般流程,强调抽取摘要应符合相关性及新颖性要求;Sarmento等[4]提出了基于滑动窗口及增量的改进TextRank算法,用以对动态文本进行关键词的抽取;Hu等[5]利用主题模型对生成的子话题进行断点分割,然后依据断点组织文本进行摘要的抽取;吴仁守等[6]提出了基于局部—全局主题关系的演化式摘要方法,在考虑时间演化的基础上同时考虑主题之间的演化关系,利用改进的PageRank 算法进行主题与子主题的关联,最后输出基于时间线的新闻标题形成摘要;蒋珊[7]针对Twitter事件的推文数据流,采用重叠社团划分算法挖掘事件发展脉络,并利用社团关键词进行文档聚类,得到演化阶段推文簇,最后依据所提出的基于综合评分的事件摘要抽取方法进行事件摘要的生成。
在针对社交媒体平台的时序摘要抽取任务中,社交传播影响力因素起着至关重要的作用,文本表达事件内容质量的高低与社交传播影响力大小具有紧密的联系。Chang等[8]利用推特评论关系及用户交互关系构建用户图模型,然后结合PageRank算法进行用户权威度排序,以此辅助文本摘要句的选择;于广川等[9]提出了融合语境分析的时序推特摘要方法,利用社交用户权威度及时序热度信息构建了推特摘要模型T2ST,在一定程度上弥补了非结构化文本对内容质量判断的不利影响。
根据分析可知,目前针对时序摘要的研究取得了一定的进展,但针对社交媒体平台中的热点事件时序摘要的研究仍具有较大局限性:一方面,未利用信息生命周期理论对事件发展演化过程进行定性分析,同时缺乏对事件发展演化阶段清晰的量化分析;另一方面,缺乏对社交文本时间特征深层次的理解与运用,忽视了因文本发布时间不同导致的文本描述差异。除此之外,没有很好地利用社交媒体文本特有的传播属性,忽视了社交传播影响力与文本质量的相关性;并且目前的研究通常仅考虑单一特征,未将时序信息和社交属性进行结合运用。针对这些问题,本文在进行热点事件发展阶段挖掘的基础上,提出了融合文本流时序信息及社交传播影响力的时序摘要方法,分别抽取能反映事件各阶段概要的摘要,最终形成能概述热点事件整个发展演化过程的摘要。
热点事件的产生与传播往往伴随着大量事件文本的出现,这些事件文本主要沿时间线集中在事件发生的前后一段时间内。作为信息的一种,热点事件和其他网络信息一样是不断变化的,具有形成、发展直至消退的生命周期,所以学术界通常用信息生命周期理论来理解和研究网络舆情[10]。在理论层面,按照信息生命周期理论,热点事件发展演化具备周期性,并且在一个演化周期内可以划分为多个发展演化阶段,已有学者将其划分为三阶段、四阶段、五阶段等[11]。为了更清晰地反映整个事件发展脉络及阶段性特点,本文首先挖掘热点事件发展演化阶段,并依据挖掘结果进行文本分割以形成事件不同发展阶段的文本集合。
2.1.1 基于时间线的事件文本组织
根据热点事件随时间演化发展的特点,本文采用基于时间线的方法进行事件文本的组织工作。当热点事件产生或进入一个新的演化阶段时,用户或媒体会发布与事件阶段同步的事件文本,由此,事件相关的文本流会出现密集分布的情况。故本文对热点事件的发文情况进行观测,统计一段时间内针对该事件的发文数量,构建反映事件发文量变化的时间序列。
为了充分反映热点事件发展阶段的演化特点,本文采用时间间隔为1小时的采样统计方法进行热点事件时间序列表示,图1展示了微博平台上“山竹台风登陆”事件发文量沿时间线变化的趋势,其中横坐标表示为文本发布时间,纵坐标表示为文本发布数量。
图1 “山竹台风登陆”文本流时间序列
观察发现,热点事件一天内发文量呈现出周期性反复的特点,例如,每日3时至7时,发文量通常处于低位阶段,7时后又逐渐上升,并于10时达到最大值,之后保持在较高水平,在21时后开始呈现下降趋势,于次日3时达到最小值。这种由作息规律引起的噪声波动会干扰事件发展阶段的挖掘结果,由此本文使用移动平均法对发文量时间序列进行平滑计算。
移动平均法的基本思想是按照一定窗口大小计算时间序列观测值的平均值,得到相对平滑且可以反映序列变化趋势的稳定时间序列,本文窗口大小设置为24小时。给定时间序列,假设时间窗口包含w个连续观测值,记作,则窗口内时间序列的中心移动平均值计算如式(1)所示。
其中,中心移动平均值Mi计算为连续过程,随着时间窗口的移动,旧的观测值不断被移除,新的观测值不断加入,计算如式(2)所示。
利用移动平均法对“山竹台风登陆”事件发文量时间序列进行平滑处理,得到如图2虚线部分表示的趋势时间序列。
图2 “山竹台风登陆”文本流趋势时间序列
平滑处理后的趋势时间序列有效排除了噪声波动等干扰因素的影响,得到了相对平稳的反映发文量变化趋势的曲线,可以提高事件阶段挖掘的准确性。
2.1.2 基于EDM 的事件文本分割
在时间序列分析领域,变点通常指两个稳定状态中间的分界点,例如,社交媒体上热点事件进入新的发展演化阶段时,事件相关的发文数量会急剧上升,造成时间序列发生非规律性变化,其状态转折点即为变点。可知,热点事件发文量趋势时间序列存在若干变点,为得到事件各发展阶段的文本集合,采用基于EDM[12](E-Divisive with Medians)的方法对事件发文量趋势时间序列进行变点检测,完成事件发展阶段的挖掘,从而实现事件发展阶段的文本分割。
EDM 算法的基本思想是,迭代计算出分割的时间序列分布的散度值,其中最大散度值对应的索引即为变点。给定,表示有h个独立随机观察点的时间序列。假设τ为观察点,且满足和分别表示以τ时刻为界分成的两个子时间序列。假设独立随机变量X和Y分别服从于和和分别是X和Y的独立同分布拷贝采样,则散度计算如式(3)如示。
Székely[13]证明在的零假设下,随着会收敛于一个非退化随机变量。假设对于时间序列,存在常量,使得和,变点的位置满足式(5):
基于上述方法得到的若干变点,即为热点事件发展演化的转折点,表示事件在转折点处进入了新的发展阶段。根据这些变点,可将热点事件划分为若干阶段,借此对事件文本集进行分割,形成事件发展演化过程的阶段文本集合,为后续的分阶段时序摘要抽取做准备。例如,针对“山竹台风登陆”事件趋势时间序列检测出两个变点2018-09-17 09:00和2018-09-21 04:00,由此将该事件的文本集根据事件发展阶段进行分割,分别是2018-09-16 00:00 至2018-09-17 09:00 的11 459 个文本,2018-09-17 09:00至2018-09-21 04:00 的6 732 个文本,以及2018-09-21 04:00 至2018-09-27 09:00 的487 个文本。
2.2.1 基于Lex Rank的文本重要度评分模型
传统的基于无向图的Lex Rank算法[14]常用于文本句子的重要度评分,其主要思想借鉴了广泛应用于搜索引擎的网页排序PageRank算法。在利用Lex Rank算法进行文本句子的重要度计算时,通常以句子为单位划分文本,以句子为节点构建图模型,并对图模型中所有节点进行中心度迭代打分计算,以获取文本句子的重要度评分。Lex Rank 算法图模型结构如图3所示,其中,图模型节点S1、S2…、S7表示句子,节点间的连线表示两个句子的语义关联程度,通常采用余弦相似度进行计算,两个句子的相似程度越大,节点间的连线就越粗。在对句子重要度进行评分时,要充分考虑与之相关的每个句子的语义关联程度。
图3 LexRank图模型结构
基于Lex Rank算法的文本重要度评分模型具有处理无监督、综合考虑全文语义信息等优点,通过图模型进行迭代打分计算的思想能充分运用全文句子的关联性结构特征,符合摘要抽取任务对全文进行语义理解的需求。基于Lex Rank进行句子节点中心度计算的具体流程为:首先将文本句子看作图模型节点,并根据句子间相似度权重构建有权边,句子节点的中心度得分根据与之相邻的若干节点中心度得分进行计算,并采用随机游走的方式向其他节点进行得分传递,每个节点的随机游走过程迭代多次,收敛后得到最终的节点中心度得分,即文本句子的重要度评分。其中,节点的中心度迭代计算方法如式(6)所示。
其中,u和v表示图模型中节点,N表示节点数目,PR(u)和PR(v)分别表示节点u和节点v的中心度得分;d表示阻尼系数,一般取值0.15;deg(v)表示节点v的度,用以计算节点之间的游走概率。
2.2.2 文本流时序信息分析与度量
时序摘要要求按照时间顺序组织生成能描述事件阶段特点的摘要内容,并且对于整个事件的完整描述,往往需要结合不同时段的多篇事件资讯才能得到,这些事件资讯会因为事件发展阶段的差别形成侧重点不同的文字叙述。通过观察发现,事件资讯往往呈现出明显的时效性特点,在针对同一热点事件的系列报道之中,后发布的资讯内容通常更具新颖性特点,能及时反馈事件最新的发展动态,并且可以对先前事件内容进行总结概括。
基于以上分析可以认为,在事件发展的各阶段中,时间轴越靠后的事件文本越能概括事件内容信息,其中事件文本发布时间反映了文本在阶段内的分布情况。由此,本文根据事件发展时间线赋予阶段内发布时间靠后的事件文本更高权重。定义时间特征权重w计算如式(7)所示。
其中,TW 表示权值随时间惩罚的程度,取值0到1之间;(tN-t)表示当前文本与所属阶段时间线最后一条文本的发布时间跨度,当t接近tN时,表示当前文本发布时间距离阶段内最后一条事件文本发布时间距离越近,相应的时间权重就越大,当t等于tN时,权重为1。
2.2.3 社交传播影响力分析与度量
在社交媒体平台上,热点事件文本的转发、评论和点赞数量不但反映了用户对该事件的关注程度与参与程度,同时还反映了这条资讯信息的重要程度,因此可以通过这些因素来衡量文本的社交传播影响力。而事件文本的社交传播影响力越大,其文本的质量可能越高,更能准确地反映热点事件内容。因而,本文通过对热点事件的传播属性进行分析与度量,赋予传播影响力更大的资讯文本更高权重,以筛选出更能概括事件内容的摘要句。
通过对转发数、评论数和点赞数三个传播影响力特征的分析可知,这三个特征对于事件资讯的传播具有程度不同的影响。本文定义α、β和γ分别表示上述三个传播特征的分配权重,传播特征权重Influence(u)计算如式(8)所示。
其中,R、C和L分别表示热点事件社交文本的转发数、评论数和点赞数;考虑到客观分析法过分依赖样本数据量及特定问题域局限的问题,本文采用主观赋权法中的序关系分析法确定三个传播特征影响权重。
通过定义相邻两个传播特征的重要程度比值ri来衡量评价指标之间的影响权重,比值ri计算如式(9)所示。
其中,i=2,3,…,n,可知,。比值ri的数值含义根据Saaty等人[15]总结的变量间相对重要性等级表定义,如表1所示。
表1 ri值说明表
续表
根据序关系分析赋权方法进行推导,评价指标重要程度impn计算如式(10)所示,然后结合式(9)可依次求得impn-1,impn-2,…,imp1。
据此,本文对转发、评论和点赞三个传播行为进行影响力赋权。经过观察分析发现,转发操作往往在社交媒体热点事件的产生与传播过程中占据主要影响地位,其次为评论操作,最后为点赞操作,因此建立传播特征的序关系序列。同时根据观察分析及参照特征重要程度比值说明表可知,特征R相较于特征C为强烈重要,则r2=α/β=1.6;相应地,特征C相较于特征L为略微重要,则r3=β/γ=1.2。最后代入序关系赋权公式计算特征权值,即得到α=0.46,β=0.30,γ=0.24。
通过2.2节分析可知,文本流时序信息和社交传播影响力分别从不同角度挖掘了社交文本特性,本文基于此融合两者进行热点事件时序摘要抽取。首先利用时序信息改进传统无向图排序算法Lex Rank中的中心度计算方法,以调节阶段内事件文本发布时间对文本句子重要度的影响,然后结合传播影响力定义最终的文本句子权重计算公式。
LSTS方法利用时间特征权重w改进了传统Lex Rank算法中图节点中心度迭代计算方法,改进如式(11)所示。
其中,wv表示节点u的邻接节点v的时间特征权重;deg(v)通过图模型中节点之间传递的句间相似度进行计算。
从最优化的角度出发,权衡时序信息和传播影响力对摘要句权重的影响,从而确定最优的特征权重,计算如式(12)所示。
其中,Influence(u)表示传播特征权重得分,根据2.2.3节中传播属性加权计算得到;PR(u)表示时间特征权重得分,根据改进的Lex Rank中心度计算方法得到;λ取值0到1,表示时间特征及传播特征的权重调整参数,经过实验表明,λ取值为0.4时,本文方法的评测结果达到最佳。
融合传播影响力的热点事件时序摘要方法LSTS的主要流程如下:
输入:事件文本集合S,收敛阈值ε输出:文本句子重要度排序集合S_Sorted 1 d=0.15,N=S.length()2 FOR siin S DO 3 Influence(si)=α·R+β·C+γ·L 4 ENDFOR 5 FOR siin S DO 6 Computer vector Di Diusing TF-IDF;7 ENDFOR 8 FOR i in range(0,N)DO//构建转移矩阵M 9 FOR j in range(0,N)DO 10 Mij=Sim(Di,Dj)/∑j Sim(Di,Dj)11 ENDFOR 12 ENDFOR 13 FOR i in range(0,IT_MAX)DO 14 PR'=PR 15 PR=d/N+(1-d)×wi×M×PR 16 IF PR-PR'<ε 17 BREAK 18 ENDIF 19 ENDFOR 20 FOR i in range(0,N)DO 21 Score(si)=λ·Influence(si)+(1-λ)·PR(si)22 ENDFOR 23 S_Sorted=S.Sort()24 RETUEN S_Sorted
LSTS方法充分挖掘和利用了社交文本的不同特征,通过引入时间特征优化了传统Lex Rank算法中节点的中心度度量方式,同时结合社交文本传播特征定义了最终的文本句子权重计算公式。通过综合利用文本流时序信息、社交传播影响力及文本内含语义特征,使抽取的时序摘要能更客观地反映事件发展演化过程。
知微事见①互联网社会热点聚合平台.http://ef.zhiweidata.com.是一个互联网社会热点事件聚合平台,其数据来源于社交媒体和网络媒体,拥有覆盖互联网资讯平台的海量数据。本文利用该平台提供的2018年9月至2018年10月引起广泛关注的三个热点事件公开微博数据集进行实验,三个热点事件分别为“山竹台风登陆”“重庆公交坠江”和“港珠澳大桥通车”,事件数据集统计信息如表2所示。
表2 微博热点事件数据集信息
实验使用国际通用的文本摘要评测准则ROUGE方法对摘要内容进行评估。ROUGE 方法的基本思想是通过统计生成摘要和参考摘要的重叠单元数目进行摘要质量评估。为了得到客观描述事件的参考摘要,本文以人工标注的方式根据百度百科与权威媒体的报道制作评估标准语料,并组织与课题无关的具有自然语言处理领域研究背景的专业人员进行评估,在得到专业人员一致认可后形成最终的参考摘要。实验选取ROUGE-1、ROUGE-2和ROUGE-S4三个评价指标进行评测。
根据2.1节描述的阶段挖掘过程,对事件趋势时间序列进行变点检测,并依据所得变点对事件文本进行分割,形成不同阶段的文本集合。本节实验分别对“山竹台风登陆”事件的18 678条微博文本数据、“重庆公交坠江”事件的18 892条微博文本数据以及“港珠澳大桥通车”事件的3 316条微博文本数据进行事件文本分割。以上三个事件的发展阶段检测结果分别如图4、图5、图6所示,事件对应的阶段文本划分情况分别如表3、表4、表5所示。
表4 “重庆公交坠江”事件各阶段文本数量
表5 “港珠澳大桥通车”事件各阶段文本数量
图4 “山竹台风登陆”事件发展阶段检测
图5 “重庆公交坠江”事件发展阶段检测
图6 “港珠澳大桥通车”事件发展阶段检测
表3 “山竹台风登陆”事件各阶段文本数量
针对以上检测结果,本文以“山竹台风登陆”事件为例进行说明:采用基于EDM 变点检测的方法,“山竹台风登陆”事件的趋势时间序列得到了两个变点,分别为2018-09-17 09:00 时刻与2018-09-21 04:00时刻,依据这两个变点可将事件划分为三个发展阶段,第一阶段为2018-09-16 00:00 到2018-09-17 09:00之间,此时文本数量急剧上升,对应“山竹”台风登陆广东沿海引起社交平台广泛热议的阶段;第二阶段为2018-09-17 09:00 到2018-09-21 04:00之间,此时文本数量逐渐下降,对应“山竹”台风过境后逐渐减弱、群众情绪逐渐安定的阶段;第三阶段为2018-09-21 04:00 之后,此时文本数量处在低位水平,对应“山竹”台风结束后的后续处理阶段。
3.3.1 对比实验
由于中文文摘的评测系统尚未完全建立,本文将采用设置对比实验的方式验证特征引入前后的摘要评测结果。为了验证引入时间特征与传播特征进行摘要抽取的有效性,首先,重现了MMR(maximal marginal relevance)算法以及Sumbasic算法[9,16]对比实验;鉴于Sumbasic算法的实验性能较好,所以接着基于Sumbasic设置了特征融合的对比实验;最后,基于Lex Rank算法同样融合各种特征进行对比实验,具体实验方案如下:
(1)MMR 算法和SumBasic算法的对比实验:利用比较经典的最大边界法MMR 和公开发表论文中得到认可的SumBasic算法进行摘要抽取对比实验。
(2)基于Lex Rank算法的摘要抽取对比实验:以LexRank算法作为Baseline,设置了引入时间特征的Lex Rank+T 方法、引入传播特征的Lex Rank+I方法的对比实验,以及融合时间、传播两种特征的本文方法LSTS摘要抽取对比实验。
(3)基于SumBasic算法的摘要抽取对比实验:SumBasic方法的主要原理是利用整个微博数据集词语的词频分布,计算微博句子包含词语的词频分布之和,以得到微博句子的重要度评分,同样以SumBasic算法作为Baseline,设置引入时间特征的SumBasic+T 方法、引入传播特征的SumBasic+I方法的对比实验,以及融合时间、传播两种特征的SumBasic+TI摘要抽取对比实验。
分别利用上述方法对“山竹台风登陆”“重庆公交坠江”“港珠澳大桥通车”三个事件数据集进行时序摘要抽取,ROUGE-1、ROUGE-2 以及ROUGE-S4的评测结果分别如表6~表8所示,其中AVE 表示方法的性能平均值、IPR 表示以Baseline为基准性能的提升率。
表6 不同摘要方法的ROUGE-1值对比
表7 不同摘要方法的ROUGE-2值对比
表8 不同摘要方法的ROUGE-S4值对比
根据对比实验的评测结果进行如下观察分析:
(1)融入时间和传播特征的合理性。不论基于SumBasic算法,还是基于Lex Rank 算法开展对比实验,从三个事件数据集的评测结果可以看出,分别加入时间特征和传播特征的改进摘要抽取方法的性能总体上有明显提升。实际上,本文也对基于MMR 算法进行了特征融合实验,同样也得出如上结论。实验结果还显示,融合两者的改进摘要方法相较于加入单一特征的方法,ROUGE 评测值得到进一步地提高,这充分说明时序特征和传播特征针对时序摘要抽取具有积极的参考作用,即本文提出的时间轴靠后的文本概括事件能力更强及文本传播影响力反映文本质量假设的正确性;SumBasic+TI方法的综合ROUGE性能的提升率约为38%,本文提出的LSTS 方法综合ROUGE 性能的提升率约为42%,验证了融入时间和传播影响力对摘要抽取的合理性。
(2)融合传播影响力的热点事件时序摘要方法(LSTS)的可行性和有效性。实验结果显示,在三个事件数据集上,本文方法(LSTS)的各项指标均优于经典的MMR;并且本文基于Lex Rank算法的系列方法相较于基于SumBasic算法的系列方法的评测结果更加稳定,后者在“重庆公交坠江”事件数据集上的评测值出现局部波动,分析可能的原因如下:微博数据集具有数据量庞大、文本篇幅短小且内容口语化等特点,而“重庆公交坠江”事件的突发性和惨烈性更加引发了网友们的情绪化表达,上述特点在该事件数据集上表现得更加突出,所构建的词表十分稀疏,分析SumBasic算法的主要原理可知,SumBasic算法采用词频分布计算句子权重,词表过于稀疏将使得SumBasic算法中句子的词频特征向量的表达能力减弱,进而导致SumBasic算法的稳定性下降,因此可能会出现局部波动。综上所述,本文方法LSTS 在三个事件数据集上的ROUGE 平均评测值和性能提升率均具有最佳的评测结果,充分验证了融合传播影响力的时序摘要方法LSTS的可行性和有效性。
3.3.2 摘要示例
(1)不同方法的摘要结果比较
为了更直观地观察本文提出的LSTS方法的优势,以“山竹台风登陆”事件第一阶段为例,分析不同方法摘要抽取结果的差异,并将其与专家撰写的参考摘要进行对比。参考摘要及不同方法抽取的摘要如表9所示。
表9 “山竹台风登陆”事件不同方法摘要结果(第一阶段)
对所抽取的摘要情况进行分析可知,使用Lex Rank方法抽取的摘要,缺少对事件过程的描述,而引入时间特征抽取的摘要,发布时间更为靠后,包含了更多事件信息;引入传播特征抽取的摘要,虽包含了更多信息,但存在一定的无关描述。相对而言,本文提出的融合时序特征和传播特征的摘要抽取方法LSTS得到的摘要与参考摘要更为吻合,并且与事件第一阶段客观事实相符。
(2)不同阶段的摘要结果示例
为了更清晰地反映事件分阶段进行摘要抽取的效果,再以“重庆公交坠江”事件为例,对该事件四个阶段抽取的摘要进行展示,结果如表10所示。
表10 “重庆公交坠江”事件不同阶段摘要结果
续表
根据“重庆公交坠江”事件抽取的摘要结果,分阶段抽取的摘要符合事件发展演化的阶段性特点,遵循信息传播的生命周期理论,真实地对事件发展演化过程进行了客观概述。第一阶段为事件的形成期,摘要描述了坠江事件发生后事故的基本情况,第二阶段为事件的发展持续期,摘要进一步描述了事件的具体细节,并介绍了后续的救援情况,第三阶段为事件的发展高涨期,摘要介绍了坠江事故的调查结果并进行了描述,第四阶段为事件的结束消退期,摘要是事故过后的总结与评论。
本文在充分分析社交媒体平台中热点事件文本具有的时序性特点的基础上,利用发布时间靠后文本概括事件内容更全面及社交传播影响力较大的文本与事件内容相关度更高的特点,对社交文本的时间及传播特征进行了分析与度量,并据此提出了融合社交传播影响力的热点事件时序摘要方法,在真实微博热点事件数据集上进行了时序摘要抽取实验,取得了良好的结果,验证了本文所提方法的有效性。
下一步研究将进一步挖掘和探索社交影响力的度量方式,以及时间属性的结合利用方法,以提高文本摘要的抽取效果,生成高质量的反映社交媒体热点事件发展演化过程的文本摘要。