周奇,印鉴,张良均
(1.广东开放大学信息与工程学院,广州 510630;2.中山大学数据科学与计算机学院,广州 510630;3.广州泰迪智能科技有限公司,广州 510630)
本平台主要由两个模块组成:①通用模块;②业务主题模块。通用模块部分主要提供舆情分析全流程(包括数据采集与监控、数据解析、数据预处理、挖掘建模、结果展示等)功能点主键,用于支持后台业务功能实现及前台自定义实现;业务主题模块主要基于舆情资讯展开的一系列的数据采集监控和分析挖掘任务。
本模块主要嵌入泰迪科技自主研发的舆情分析工具,可提供包括网页数据爬取与监控、网页数据解析、文本数据预处理、文本分析与挖掘等自然语言处理功能。基于本模块,一方面,前台用户可在没有编程基础的情况下,通过拖拽的方式进行操作,以流程化的方式进行功能主键连接,达到自定义并实现文本挖掘需求目的,另一方面,上述功能主键支持后期后台业务功能开发,节约时间与成本。本模块的功能具体如表1所示。
表1 文本采集与分析挖掘通用模块功能
本文主要对自动摘要技术、事件识别技术、事件脉络梳理和情感分析技术关键技术进行分析研究
自动摘要技术指计算机自动从原始文本中提取简单连贯的短文,以反映中心内容。根据建设要求,对媒体报道文本采用该技术,生成反映报道目的的文档摘要,一方面可用于媒体新闻事件识别,即通过聚类技术结合报道摘要和报道的基本信息等,将同一事件的媒体报道进行归并;另一方面有助于新闻事件的脉络梳理,充分掌握事件的事态发展过程。
通常认为一篇文档是由多个主题组织而成,因此,自动摘要技术采用聚类的方法,将同一主题下的句子进行聚集,进而选取每个主题的中心语句,组合生成适当的摘要。由此,媒体报道文本摘要的提炼主要有如图1 中的三个过程。
图1 文本自动摘要生成流程图
对于每一个媒体报道文档,首先利用文本处理方法进行句子拆分,而后基于中文分词技术实现对句子的切分,并且标注切分后词汇的对应词性(如动词、形容词、时间词、地名等)。根据词性进行命名实体识别,即识别句子中特定意义的实体(如人名、地名、时间、专有名词等),以便筛选出句子的主体信息。
一般而言,对于特定场景、行业、领域的文本,基于语料库的分词方法相对基于序列标注的分词方法具有更强的可伸缩性和准确性,但前提是要求语料库完整和齐全。由于媒体报道文本数据涉及各行业,语料库需有较好的完备性及适应性,所以对报道语料库的整理尤为重要。针对报道数据,初步整理出按行业分类词库共18 个词集、按情感极性划分共7 个词集,以及公开词库(如现代汉语词典库)等,如表2 所示。
以上述进行预处理后的句子为粒度,运用基于语义的主题模型(如LDA),生成该篇报道文档的若干主题;考虑句子在媒体报道文档中的位置、包含关键词数等因素,计算每个主题中各句子的重要性得分,以此选取各主题中心语句。以某报道内容为例,经过中心语句选取后的结果如图2 所示。
表2 词库汇总
图2
报道内容以句子为粒度选取中心语句后,对于一个完整事件的叙述往往涵盖了时间、地点、人物、起因、经过、结果等信息。将各主题中心语句按时间、原文档出现顺序等因素,进行组合则生成连贯简洁的媒体报道摘要。如上述某报道中心语句选取后,最终生成的摘要如图3 所示。
图3
不同的国家和媒体机构可以针对相同的事件进行报道,即同一件事情可能存在重复报道,因此,如何判别一份新的报道文档是否为新的报道事件或与历史报道划分为同一媒体事件是进一步实现关联分析、情感分析及趋势预测的关键。一个最简单且传统的原理是通过文本的相似度进行判别。
文本的相似度计算常用的算法是基于空间向量模型(VSM)和余弦距离展开的,它把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂,已广泛应用于短文本相似度计算及检索。但实际上,一个网络媒体报道数据往往是一个长文本,存在许多描述事件外的冗余信息,影响基于TF-IDF 的空间向量模型的性能。考虑到这一因素,前文针对媒体报道文本进行自动摘要提取,整合出媒体所描述事件的关键信息,将长文本浓缩为短文本,提高事件识别的效率及精度。
媒体事件的识别包括了两个部分:历史报道同一事件划分归类和新数据流的新旧事件检测,然而前者可以归为后者的特殊情况。媒体事件检测是对到达报道数据流判别是否属于已知媒体事件,并对已知媒体事件进行延续和扩展,其基本实现过程如图4 所示。
图4 事件识别基本流程
(1)通过分句、分词、主题提取等过程实现对历史报道记录及新报道记录的自动摘要提取,并保存分词结果;
(2)从分词结果中提取出摘要语句的对应部分,用于进一步构建空间向量模型。
(3)去除分词结果中的停用词,并将剩余词汇或短语作为空间模型的特征向量。
由于摘要浓缩的是报道事件的主要内容,该过程不必如其他空间向量模型一般通过卡方检测、信息增益等方法来实现文本特征的选择。
(4)计算特征的TF-IDF 值进行标准化后作为各向量权重,构建成空间向量模型。
TF:Term Frequency 即关键词词频,是指一篇文章中关键词出现的频率,例如在一篇M 个词的文章中有N 个该关键词,则 TF=N∕M
IDF:Inverse Document Frequency 指逆向文本频率,是用于衡量关键词权重的指数,由公式计算而得,其中D 为文章总数,Dw 为关键词出现过的文章数。
(5)基于余弦距离计算新文档与任一旧文档间的相似度。
(6)采用比较法进行结果判别:如果相似度值未超过预设阈值,则新报道数据独立成为新事件;若相似度超过某一阈值,则将报道事件归属于与其相似度最高的事件作为属于同一事件类,实现对事件的归类于识别。
图5 媒体事件识别示例
基于以上的事件检测工作方法,我们就可以实现对报道进行实时事件更新,掌握媒体事件的最新动向。但实际上,上述相似度计算过程依据的是词频信息,两个文档的相似度取决于共同词汇的数量,无法分辨自然语言的语义模糊性,词语间的关联性,后续需结合同义词、潜在语意分析模型LAS、主题模型LDA 等算法进一步完善事件过程。
用户想要了解一个热点事件,需要浏览大量关于该媒体事件的报道,反复阅读,费时费力。而“事件脉络”技术可以抽取事件生命周期中各个重要发展阶段的基本要素,并以时间为主线进行展现。可以提高用户获取信息的效率,帮助用户轻松了解整个事件的发展过程,并引导用户进行深度阅读。
事件脉络梳理的目标是:给出一个重要新闻的列表,这些重要新闻涵盖了该新闻事件的各个重要阶段的重要信息。
从事态发展来看,当事件有重要进展的阶段时,就会有一些高质量的报道,而且报道也越多越集中。从这一角度出发使用基于时间片聚类的方法挖掘事件的主要阶段。当然媒体事件的报道质量越好,覆盖的时间窗口越长,对于挖掘脉络也越有利。基于时间片聚类的事件脉络挖掘流程如图6 所示。
图6 基于时间片聚类的事件脉络梳理流程
经过事件识别后,数据库中存储管理的数据已经可以直接使用于事件脉络梳理挖掘,只需以检索的方式抽取需要挖掘的事件报道。
媒体事件报道具有时效性,通常而言,较权威的媒体网站对事件报道更具时效性,而一般性的小的媒体网站则会有一定的时间滞后性。例如同样内容的媒体报道,新华网在事件当天23:10 就发布了,而一些小的网站很可能需要等到第二天10:00 才发布。这样就会导致描述相同且属于同一事件阶段的报道,被划分到不同的阶段中去,从而影响到时间片聚类的阶段划分效果。
对于上述噪声报道,依然可以以文本相似度的度量方法进行去重。如果两篇媒体报道属于对同一新闻信息点的报道或者是转载与被转载的关系,那么这两篇文档的相似度都会很高。因而,针对分析的媒体事件所对应的报道集,计算其两两文档之间的相似度,如果两文档相似度很高,就进行归并,并以最早的那篇报道文档作为代表,参加时间片聚类。
对于每一个媒体报道,抽取其发布时间,然后按照报道的发布时间,把一个媒体事件集合内的报道进行排列。把报道按照发布时间投影到时间轴上,如果事件有明显的发展阶段,根据前面的设想,就能在时间轴上看到一些新闻比较密集的区域,这些区域就是我们要获取的事件的各个阶段。
至于计算获取密集时间片段的方法有若干,常见的聚类算法,如K-means、K-mediods,但是这类聚类算法需要事先确定事件发展阶段数,而我们也确实很难提前确定这个结果。因此,这里选择了凝聚层次聚类算法,具体做法是:先把每一篇报道看成一个时间片段(点),然后每次合并距离最近的两个片段,直到任意两个片段之间的距离都大于预先设定的阈值。
通过时间片聚类的办法,获取到了事件的若干个进展以后,则要从每个进展的报道集合中,抽取出一篇代表报道,在以该报到的摘要对内容进行概述。
对于如何提取事件阶段的代表性报道,一般都会考虑如下因素:报道来源的网站是否权威,该报道的发布时间(在同一个片段内而言),该报道是否有更多的转载等等。
经过上述步骤的处理,即可得到事件各个阶段核心报道的摘要列表,进一步提取核心报道的发布时间,按照时间的先后顺序排序,就是可以获得该媒体事件的主要脉络。本方法的关键技术在于时间片段聚类,对于报道之间的时间距离度量非常重要,常规的“自然时间距离”往往忽略了新闻报道在一天24 小时中各个小时报道数量的差异。因此,在实践中对于“新闻时间距离”的度量可以结合不同时间段报道频数给出综合评定。
网民情感分析主要基于前文划分好的媒体事件,通过了解网民语句及用词中表达的情绪,以此反映网民对媒体事件和国家政策的正面或负面看法。
情感倾向分析由两个方面来衡量:一个情感倾向方向,一个是情感倾向度。
情感倾向方向也称为情感极性,可以理解为网民对当前媒体事件表达自身观点所持的态度是正面(positive)、负面(negative)、中性(neutral)。例如“赞美”与“支持”同为褒义词,表达正面情感,而“反对”与“谴责”就是贬义词,表达负面情感。此外,正面情感词还会受到情感修饰性词的影响而改变情感倾向方向,如:“班农叫嚣搞砸‘一带一路’显然是不理性的行为”中“理性”原为正面情感词,在“不”的修饰下表达了负面情绪。
情感倾向度是指网民对媒体事件表达正面情感或负面情感时的强弱程度,不同程度的情感状态往往是通过不同的情感词或修饰性词等来体现。例如:“拥护”与“支持”都是表达正面情感,同为褒义词。但是“拥护”远比“支持”在情感表达程度上要强烈。同样的,“谴责”在“强烈”的修饰下情感强度又会进一步增强。
通常在情感倾向分析研究中,为了判定网民情感状态,首先需要界定情感词极性(正面、负面、中性),其次根据修饰词等对每个情感赋予不同的权值来表达情感倾向度。例如,某媒体报道中提到:“一带一路”对于对外贸易的长远发展是极其有利的,“有利”表达了正面情感,而“极其”一词强调了正面情感的高倾向度。
针对报道数据,可进行网民情感观点挖掘或情感倾向分析,简要过程如图7 所示。
图7 情感得分获取基本流程
此部分文本分词处理的关键要点在于有足够完善的分词情感词库,包括有情感词库、情感否定修饰词库、情感程度修饰词库。
情感词库:自定义词库,确定情感倾向方向,有表达正面情感的词典、表达负面情感的词典;进行正面、逆面情感词典的合并。
情感否定修饰词库:自定义常用否定词库(不、没、无、非、莫、弗、毋、勿、未、否、别、無、休),其作用在于最终确定情感倾向方向。
情感程度修饰词库:自定义情感程度修饰性词,并把程度副词划分六个等级,用于区分情感增强程度的差异。等级越高情感增强程度越大,如表3 所示。
表3 程度副词等级表
情感定位基于分词结果进行组合判断,第一步,需对网民的情感倾向方向做出准确定位。首先要进行情感词判定,再检索其是否受否定限定词修饰,方可最终准确定位。
确定网民情感倾向度,这一步主要依赖情感程度修饰词的度量,详细过程如下:
第一步:网民情感倾向方向定位
情感词初步定位:将分词结果与情感词库进行匹配,匹配到正面情感词时,将其情感赋值为一个正值;匹配到负面情感词时,将其情感值赋值为一个负值;没有匹配到情感值时,定位成中性,情感值为0。
否定修饰词最终评定情感倾向方向:汉语中存在多重否定现象,即当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。按照汉语习惯,若每个情感词前出现奇数个否定词,则调整为相反的情感倾向方向,其情感值极性对调,即正值调整为负值,负值调整为正值。
第二步:网民情感倾向度度量
经过第一步的处理后,网民的情感倾向方向已经确定,当情感处于正面或者负面时,不同的网民可能存在情绪强弱的差异,即情感倾向度差异。而影响人情感倾向度的重要因素来源于其情感词前的程度修饰副词。搜索情感词前是否出现程度副词,若出现程度副词则对情感值根据对应程度副词的等级(等级之间的粒度或者距离可以视具体情况做调整)进行调整情感强度,情感得分计算示例如图8 所示。
图8 情感得分计算示例
经过上述流程即可获取各网民情感得分情况。依据情感得分结果则可以对网民的总体情感进行分类,情感值为0 时,表示该类网民为情感中立人群;情感值为正时,该类网民为正面积极人群;情感值为负时,该网民为消极人群。针对消极人群可以进行深入剖析,分析网民消极反对的正真原因,有利于理解事件和政策背后更真实的受益或受损群体。
关键字自动提取。基于文本挖掘算法,实现对文章关键字自动提取,为进一步实现基于关键字的检索奠定基础。
摘要自动提取。基于文本挖掘算法,自动提取文章摘要,实现文本内容的精简提炼,方便用户快速预览文本内容。
基于相似度的事件归纳与识别。基于文档相似度计算结果,实现对多语言、多渠道,长时间的同一事件的归纳与识别,即对标题或内容有重复性或近似的信息自动归类。
热点识别。综合不同渠道、地域的网民热议度、传播力、影响力等多个维度指数,基于评价模型识别热点文章或事件。
事件脉络梳理及追踪。梳理同一事件∕主题的发展脉络,实现对某个舆情事件的长时间的跟踪监控,便于随时掌握事件发展动态。
传播途经分析。分析事件在各个主流媒体之间的参与转载情况,从事件的传播深度与传播广度的层面上剖析事件的影响力。
舆情监控与预警。重点关注正面舆情(加强合作与交流)与极端反面舆情(寻求更多的解决与合作方案)并设定预警条件。对达到预警条件的舆情,支持站内、短信、邮件等多种方式预警。