面向新闻专题的事件脉络持续跟踪构建方法

2022-04-29 14:08欧伟明翟利志路瑜亮周云苌军红韩彦忠
计算机与网络 2022年20期
关键词:脉络数据流聚类

欧伟明 翟利志 路瑜亮 周云 苌军红 韩彦忠

摘要:通过构建新闻专题的事件脉络,可以辅助读者识别事件演化发展阶段,把控事件的全局性信息。随着专题事件的演化发展,相关新闻会持续不断出现对事件进行报道。为了保障事件脈络的完整性和时效性,需要从最新新闻数据流中追踪相关新闻,对事件脉络进行持续跟踪更新。提出了一种面向新闻的专题事件脉络持续跟踪构建方法,采用K-means聚类和基于凝聚式的层次聚类方法检测事件发展阶段,构建以时间为主线、各发展阶段为分支的事件发展演化脉络,保障事件脉络的完整性和连续性;综合实体、关键词和文本3个维度的相似度特征从新闻数据流中持续跟踪与专题事件相关的新闻数据,将追踪到的新闻事件同时更新到事件文本向量和已构建的事件脉络中,实现对事件脉络的持续跟踪构建。

关键词:事件脉络;新闻专题;事件跟踪;文本聚类

中图分类号:TP319文献标志码:A文章编号:1008-1739(2022)20-61-8

0引言

随着互联网技术的发展,人们很容易获取关于事件详情的新闻信息。海量且纷繁的新闻使读者容易迷失在局部信息中,难以获得总结性的信息,丧失对信息的全局把控。因此,检测新闻事件演化发展的关键阶段,通过事件之间存在的时序以及逻辑关系等特征,形成整个新闻事件在发生与发展全生命周期中的一个完整的多层次事件脉络,是迫切需要解决的问题。Nallapati等[1]提出事件脉络的观点,通过事件模型捕捉新闻主题中事件的丰富结构及其依赖性。随着专题事件的持续演化发展,会持续不断出现对事件的报道。现有的事件脉络构建研究都是基于已有的历史新闻构建事件脉络,没有对新闻数据进行持续跟踪,不能持续跟进事件发展演化动态,构建的事件脉络也不能持续自动更新,事件脉络缺乏时效性和完整性。

针对上述问题,本文提出了一种面向新闻专题的事件脉络持续跟踪构建方法。首先,对已有专题事件的相关新闻文本进行分词等预处理;其次,采用K-means聚类和基于凝聚式的层次聚类方法检测事件发展阶段,构建以时间为主线,各发展阶段为分支的事件发展演化脉络,保障事件脉络的完整性和连续性;然后,综合实体、关键词和文本3个维度的相似度特征,从新闻数据流中持续跟踪与专题事件相关的新闻数据,将追踪到的新闻事件同时更新到事件相似库和已构建的事件脉络中,实现对事件脉络的持续跟踪构建。

1研究现状

针对新闻信息严重过载,使得人们难以掌握事件发展演化关键阶段的问题,国内很多学者开始研究事件脉络构建方法,以便于全局把控事件的发展演化过程。模型按照所用到的算法,可分为2类:基于聚类算法的脉络分析模型和基于图优化算法的脉络分析模型。

Shou等[2]基于聚类算法对推文进行聚类,通过TCV-Rank摘要技术生成任意时间段的在线摘要和历史摘要,并自动生成在线和历史摘要时间轴。Vossen等[3]提出了一种将文本相似度、时间相似度和实体相似度相结合的检索事件相关新闻的相似度计算方法,通过在事件的时间轴上添加与高潮点相关的桥接关系形成事件脉络,提供了一个将事件时间序列表示为故事线的形式化模型,并实现了从大量新闻流中为该模型提取数据。Bin等[4]提出了一种基于多线索的细粒度事件摘要方法,构建一个个细粒度的、进化的、关联丰富的事件脉络。Liu等[5]采用2层文档聚类方法生成故事树,自动将数据流聚集成事件,同时将树中相关的事件连接起来,描述事件的发展脉络。Lin等[6]通过图优化算法从微博数据中提取事件脉络,有效改善脉络不连贯问题。Shen等[7]利用图优化算法对网络新闻多文档摘要建模,建立各摘要之间的联系。付佳兵等[8]提出了一种基于词覆盖的新闻事件脉络链构建方法,利用新闻的评论信息来定位新闻事件的转折点,用主题相似与稀疏差异的思想以及RPCA方法对文档进行逻辑建模,利用随机游走以及图遍历的方法,量化并生成可解释且具有很好逻辑连贯性的脉络链。陈黎明等[9]对相关新闻进行动态追踪时,根据新闻关键词的词频-逆类别频率(TF-ICF)和热度对事件关键词进行反馈更新,采用有主干和分支的故事树结构展现事件发展脉络,利用新闻热词定位事件发展的关键节点,生成故事的主干结构。樊笑冰等[10]提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下充分利用新闻信息构造层次化、多视点的事件脉络。

上述事件脉络构建方法都是面向当前的历史新闻,没有持续跟踪最新相关新闻数据,不能持续跟进事件发展演化动态,构建的事件脉络缺乏完整性。事件追踪作为传统TDT的子任务,对新闻媒体信息流进行已知话题的持续跟踪,被广泛用于获取事件相关的信息。冯军等军[11]提出了基于朴素贝叶斯网络模型的微博话题追踪算法,在改进型DF的文本特征选择方法的基础上,通过构建朴素贝叶斯网络模型,设计并实现对微博话题的追踪系统。陈黎明等[12]提出了一种基于关键词的话题追踪方法,利用有话题倾向性的关键词来表示新闻文本进而提升话题追踪效果,并采用基于词活力的更新策略来动态调整话题关键词。屈庆涛[13]使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪。

相比于以往的事件脉络构建方法,本文综合实体、关键词和文本3个维度的相似度特征对新闻事件持续跟踪,并将追踪到的新闻事件同时更新到事件相似库和事件脉络中,实现对事件脉络的持续跟踪构建,更能体现事件演化发展的完整性。

2术语定义与研究目标

2.1术语定义

陈黎明等[9]对事件脉络相关的术语做了定义,具体如下所示。

4.2事件脉络跟踪更新

构建事件脉络后,从新增新闻数据流中跟踪与该专题事件相关的新闻数据,并将追踪到的新闻数据更新到已构建的事件脉络中。从新闻网站上爬取的32篇新闻数据作为干扰新闻数据,将这些干扰数据与新闻专题的17篇新增新闻数据合并在一起作为新增新闻数据流,进行事件脉络跟踪更新实验。

图4展示了从新增新闻数据流中追踪到相关新闻数据后,对事件脉络的更新结果。实验结果显示,这17篇新闻数据均被追踪到“马来西亚亚航客机失联”新闻专题中,在新事件脉络中增加了2个新的子事件“印尼调查员驳斥亚航客机坠海前爆炸之说”和“亚航客机事故调查将涉及传感器失灵问题”,并将追到的新闻数据更新到已有的子事件中,实现了对事件脉络的持续跟踪构建。

5结束语

针对新闻专题事件脉络的完整性和时效性问题,提出了一种事件脉络持续跟踪构建方法,通过聚类算法将零散的新闻聚合成事件分支和子事件,实现多层次的事件脉络构建。通过综合实体、关键词和文本3个维度的相似度特征从新闻数据流中持续跟踪与专题事件相关的新闻数据,将追踪到的新闻事件同时更新到事件文本向量和已构建的事件脉络中,实现对事件脉络的持续跟踪更新,从而可以辅助读者实时掌握新闻专题的演化、发展、变化的全周期过程。

当前,事件脉络构建方法的聚类效果并不理想,该方法将不同的子事件或事件分支划分为一个子事件或事件分支,导致事件阶段缺失。后续需要针对该问题对事件脉络构建方法进行进一步研究,以构建出一个兼顾低冗余事件阶段和完整事件阶段的事件脉络。

参考文献

[1] NALLAPATI R,FENG A, PENG F C,et al.Event Threading Within News Topics[C]//Proceedings of the Thirteenth ACM on International Conference on Information and Knowledge Management, Washington D.C.: ACM, 2004: 446-453.

[2] SHOU L D,WANG Z H,CHEN K,et al. Sumblr: Continuous Summarization of Evolving Tweet Streams[C]//International ACM SIGIR Conference on Research & Development in Information Retrieval.NewYork:ACM, 2013:546-558.

[3] VOSSEN P,CASELLI T,KONTZOPOULOU Y. Storylines for Structuring Massive Streams of News[C]//First Workshop on Computing News Storylines.Beijing:ACL,2015:40-49.

[4] BIN G,OUYANG Y,ZHANG C,et al. CrowdStory: Fine-grained Event Storyline Generation by Fusion of Multi-modal Crowdsourced Data[C]//Proceedings of ACM Interactive,Mobile,Wearable and Ubiquitous Technologies. Las Vegas:ACM,2017:287-299.

[5] LIU B,NIU D, LAI K F,et al.Growing Story Forest Online from Massive Breaking News[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.New York:ACM,2017:267-279.

[6] LIN C, LIN C, LI J X, et al. Generating Event Storylines from Microblogs[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management.NewYork:ACM, 2012:389-402.

[7] SHEN C,LIT.Multi-document Summarization via the Minimum Dominating Set[C]//The 23rd International Conference on Computational Linguistics.Beijing:Association for Computational Linguistics,2010:467-479.

[8]付佳兵,董守斌.一种基于词覆盖的新闻事件脉络链构建方法[J].北京大学学报(自然科学版),2016,52(1):104-112.

[9]陈黎明,黄瑞章,秦永彬,等.面向新闻事件的故事树构建方法[J].计算机工程与设计,2020,41(7):1910-1919.

[10]樊笑冰,饶元,王硕,等.基于命名实体敏感的分层新闻故事线生成方法[J].中文信息学报,2021,35(1):113-124.

[11]冯军军,贺晓春,王海沛.基于朴素贝叶斯网络的微博话题追踪技术研究[J].计算机与数字工程,2017,45(11): 2244-2247.

[12]陈黎明.面向网络舆情的话题检测与追踪方法研究[D].贵阳:贵州大学,2020.

[13]屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报(工学版), 2018,48(6):37-43.

[14]石劍飞,闫怀志,牛占云.基于凝聚的层次聚类算法的改进[J].北京理工大学学报,2008(1):66-69.

[15]黄瑞章,刘于雷,梁山雪.一种基于标题高频切分的新闻热点短语提取方法:CN107562843A[P].2018-01-09[2022-07-10].

猜你喜欢
脉络数据流聚类
福州吟诵调留存脉络梳理
延安时期的党建“脉络”
汽车维修数据流基础(下)
一种提高TCP与UDP数据流公平性的拥塞控制机制
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
组织场域研究脉络梳理与未来展望
基于数据流聚类的多目标跟踪算法
一种层次初始的聚类个数自适应的聚类方法研究
北医三院 数据流疏通就诊量