微博话题发现技术国内外研究现状

2022-01-01 16:25刘雅筠
科教导刊·电子版 2021年5期
关键词:语料语料库新闻报道

刘雅筠

(长沙南方职业学院 湖南·长沙 410208)

在众多形式的在线社交网络应用中,以微博为代表的社会化新媒体的发展更是举世瞩目。微博类应用以其快速的信息传播能力,广泛的用户参与特性以及显著的自媒体特征,为信息传播掀起了划时代的变革浪潮,形成了深远的社会影响。例如近年来我国频繁发生了多起突发公共事件,这些事件均能在微博中找到对应的第一手信息。另一方面,与及时发布的事件信息同时出现在微博这一平台上的还有汹涌的舆论,即公众对事件的看法、意见、态度等信息。社会舆论在微博上不断汇集,逐渐形成了不可小觑的民意力量,进而又推动事件进一步向前发展,这在近年来发生的事件中屡见不鲜。现实世界中的事件与虚拟世界中的微博信息之间是如何相互作用、相互影响的,逐渐成为了一个重要且富有挑战性的研究课题。

话题发现与跟踪技术在国内外都有着长足的研究。社会的生产生活秩序由各行各业的紧密关联所维系,因而处在社会一环的群体或个体都需要准确把握社会动态,其中尤为重要的是洞察和掌握公共事件的发生与发展。例如政府机构关注于突发的群体性事件以及可能引发它的重大舆情事件;公司企业关注于影响品牌市场的商业行为以及业务领域的最新动态等等。而了解和引导社会舆论的走向更是把握公共事件的重中之重,例如政府关注民生,问政于民,又如企业服务客户,营销品牌等,都离不开对公共事件中的社会舆论进行准确的分析。因此研究和分析公共事件和社会舆论对政治经济生活都有重要的现实意义。

1 国外研究现状

20世纪90年代末,由美国国防高等研究计划署(Defense Advanced Research Projects Agency,DARPA)发起,马萨诸塞大学阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大学(Carnegie Mellon University,CMU),Dragon Systems等研究机构共同参与制定和设计了话题检测与跟踪任务及评测体系(Topic Detection and Tracking,TDT)。

TDT将这些语料按照话题进行标注。为了尽可能消除概念上的歧义,TDT对话题、活动、事件做了如下非形式化的定义:

事件(Event):发生在特定时间、地点的事,有着必要的前提条件和不可避免的结果;

活动(Activity):具有共同焦点或目的,发生在特定时间、地点的相关事件的集合;

话题(Topic):一个事件或活动及直接与其相关的事件和活动。

这一定义明确了话题和事件的结构关系,认为话题是由相互关联的事件构成的。但实际研究中由于话题这一概念的外延很难确定,有时会把话题与事件的概念不加区分地相互替代。例如在TDT的前瞻性研究(Pilot study)中,将话题这一概念进行了狭化,选择了25个事件作为目标话题,因而研究中话题与事件的概念等同。

基于标注好的语料库,TDT提出了多项基本任务。例如1996年基于TDT-Pilot语料库,研究者提出的任务分别是:

(1)报道切分任务(The Segmentation Task):将连续的文本流依报道边界进行切分;(2)事件检测任务(The Detection Task):在目标事件信息未知的情况下检测出事件;(3)回顾事件检测(Retrospective Event Detection):检测出语料库新闻报道中的所有事件,即将新闻报道按事件进行划分;(4)在线新事件检测(On-line New Event Detection):在新闻报道流中检测出新事件,即检测讨论了新事件的首篇新闻报道;(5)事件跟踪任务(The Tracking Task):给定已知事件,检测出所有讨论相同事件的新闻报道。

随着研究的深入,TDT研究任务也发生着变化。一些任务的内容发生微调,一些任务由于需求降低逐渐淡出,而又有一些新的任务被补充进来。例如基于TDT-4语料库,研究任务主要划分为:

(1)新事件检测(New Event Detection):检测报道流中每个话题的首次出现;(2)话题检测(Topic Detection):检测预先未知的话题;(3)话题跟踪(Topic Tracking):在流中检测出讨论目标话题的报道;(4)关联检测(Link Detection):判断两篇报道是否讨论同一话题。

2004年,基于TDT-5语料库,研究者又引入了有监督的自适应话题跟踪(Supervised Adaptive Topic Tracking)与层次式话题检测(Hierarchical Topic Detection)两项实验性任务。前者旨在让话题模型随着话题的演化自动更新,后者则尝试建立层次化的话题模型。

Trieschnigg等定义了层次式话题检测这一任务,提出用XML描述有向无环图的标准,并提出用话题的检测损耗函数和图中迁移边的检测损耗函数二者的加权平均值来度量检测方法的优劣。Allan等基于TDT-3和TDT-5语料库提出了一种可伸缩的层次式话题结构:首先从语料库中采样获得种子文档,然后通过种子文档构建层次类簇结构,再通过优化代价函数得到种子文档的二叉树,最后将剩下的文档聚拢到先前得到的层次结构中完成构建。

早期的研究中,报道的所有词汇特征被同等对待,反映在同一个向量空间中。例如 Schultz等设计的话题跟踪系统首先从单个报道或多个报道中选择话题特征词,利用tfidf特征值将报道映射到向量空间中,再通过计算向量与话题间的余弦夹角度量报道间的相似性。

很快研究者发现,单一的向量表示忽略了词汇在报道中重要性及语义的差异,一些研究者遂将自然语言处理中的研究成果运用在话题模型的建立上。张晓艳等将自然语言处理中的命名实体识别技术引入到新事件检测中,将每篇报道转化为三种词汇特征向量,一种只由报道中的命名实体构成,一种只由报道中的话题词构成,一种由全部词汇构成。通过三类特征训练支持向量机,从而将新事件检测转化为二元分类任务。随后又对全文词汇向量,命名实体向量,非命名实体向量三种表达方式在TDT-3和TDT-4语料库上进行了比较,发现命名实体在一些语料中起到很好的区分作用,而在另一些语料中则效果完全相反,提出“命名实体是一把双刃剑”的论断。Lavrenko等将单一的事件向量分解为四个子向量,用四种不同类型的词汇表征,分别是:人物机构指示词,地点位置指示词,时间日期指示词和事件指示词。将时间表达式进行形式化,并利用本体知识对地点信息进行扩展,进而应用在话题检测中。

2 国内研究现状

2004年,基于TDT-5语料库,研究者提出了层次式话题检测(Hierarchical Topic Detection,HTD)这一新任务,任务的目标是将无结构的新闻报道组织成有向无环图(Directed Acyclic Graph,DAG)的形式以表达话题。Tan等针对TDT-5语料库中多来源多语种的语料采用了先从来自同一语种、同一来源的新闻流中采用1-NN的聚类方法抽取事件链,再采用凝聚式聚类方法将不同语种和来源的多条事件链按时间进行对齐和合并,构成层次结构。

大多数TDT方法都可用于离线处理,例如Zhang等提出以事件为核心的新闻报道产生式模型,从内容和时序两个角度入手,抓住多个媒体会对同一事件发表许多冗余报道这一特点,依据概率分布特征发现事件,在语料中回顾式地检测话题。而另一方面,适用于在线处理的方法相对较少,尤其是只有少数概率模型适用于在线处理,这一空缺成为近年来研究的热点。例如吴斌等提出的在线文档聚类的概率模型采用了狄里克莱过程对类簇的增长进行了建模,用英语语言模型判断新类簇的产生。

微博是公众广泛参与的社交媒体平台,若将微博流视为一种特殊的新闻报道流,则可以将很多TDT中的研究方法推广到微博中。Lin等提出和比较了直接模型、两步流水线模型和两步混合模型等三种模型检测Twitter中诸如奥巴马获得诺贝尔和平奖等具有争议性的事件。

Deng等使用Tibetan网络中的标签训练话题模型,利用分类器从微博流中鉴别话题。通过实验对前景模型、背景模型的平滑技术和历史信息的组织方式进行了评测。

Shiwen等在两状态自动机模型上加以改进,提出了一种话题多样性的度量方法从检测结果中提炼具有新闻报道价值的突发特征,又提出用上下文模型为突发特征赋以有意义的标签,增强突发特征的可解释性。

在Weng等针对Twitter的博文数据量大,噪音多的特点,提出了一种基于小波信号分析的事件检测方法(EDCoW),首先应用小波分析方法对每个词汇构造信号流,根据信号的相关性过滤掉琐碎的噪音词汇,再基于图划分技术将剩下的词汇聚类构成事件。

Dou等提出基于内容相似度、事件近似度和文档分布近似度三重因素对事件进行关联,构造事件演化图。

马雯雯等提出一种隐含语义分析的微博话题发现方法,用无监督的隐式马尔科夫方法建模出话题的线性序,但这一算法被证明只适用于地震、灾害等结构简单的话题。

在得到事件演化模型之后,研究者提出了一种新的应用方法称为预期事件检测(Anticipatory Event Detection,AED),其主旨是检测出事件状态发生迁移的时机。Pan等首先提出这一概念,并通过一种句子分类的方法自动发现NBA比赛的最终比分。Zhang等将突发特征检测引入AED,提出突发向量空间模型,检测事件迁移中的突发特征。He等也提出AED中由于检测状态迁移的二元分类模型无法找到具有很强区分能力的特征词,因而将突发特征作为分类的依据以提升检测能力。Zhang等以复杂网络理论为基础,基于评论词语间的共现关系构建基于事件发展的子事件网络,通过社群发现算法来识别子事件评论网络中的话题社群。

综上所述,尽管话题检测与跟踪(TDT)已经针对新闻报道等较长篇幅的语料提出了许多切实有效的方法,但对于充斥噪音,语言简短,语法不规范,上下文结构松散的微博语料而言,依然面临着严峻的挑战。如何构建更好的检测模型,提高微博话题发现的精度,可能成为目前研究的一个方向。

猜你喜欢
语料语料库新闻报道
《语料库翻译文体学》评介
浅析如何在新闻报道中彰显以人为本
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
深化“走转改”在新闻报道中践行群众路线
基于JAVAEE的维吾尔中介语语料库开发与实现
如何让新闻报道鲜活起来
新闻报道要求真实的细节描写
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法