张剑 何彤宇
摘要:众所周知,互联网时代媒体竞争日趋激烈,受众对媒体新闻报道的深度和广度提出了更高的要求。本文以《联合早报》的华为公司相关报道为案例,对如何应用共词分析技术深度挖掘新闻报道热点进行了分析和介绍。结论发现,通过收集海量信息,运用聚类或社会网等技术可以有效提炼和挖掘相关报道热点,从而满足媒体深度报道,挖掘热点话题报道后的真相,以及提升媒体竞争力的需求。
关键词:热点话题;深度报道;共词分析;华为
互联网时代的到来使得网络新闻呈现爆炸式增长,媒体之间围绕新闻报道的质量、速度展开激烈的竞争,对媒体从业人员的专业能力提出了更高的要求。在此背景下,作为媒体从业人员,不仅要有新闻报道的敏感性,同时要有深度挖掘新闻报道事件背后相关的内容,策划热点话题,从而满足不同层次受众需求。而如何运用现代信息技术挖掘新闻热点,加强深度报道,提升媒体竞争能力,是媒体从业人员所关注的。
根据共词分析原理,本文拟将热点分析和构建过程分为“主题词或关键词抽取一构造共词矩阵一数据分析”的三个步骤展开研究。具体方法就是通过对相关报道的高频关键词进行统计,然后得出共词矩阵,进行中心性分析及Ego网络绘制,用各节点之间的距离来反映媒体报道中与华为相关的主题内容的亲疏关系,识别重要节点网络关联,进而通过多维尺度分析绘制坐标图,最后运用聚类分析进行相关主题聚合,探究和揭示相关热点话题,以供进一步研究。
一、数据来源和处理
本文以新加坡《联合早报》网作为数据来源,使用《早报》网的热词搜索功能,将“华为”作为热词进行搜索。经过检索,发现在《早报》网收录了最早自2009年4月至2019年3月十年期间700余条数据。在此基础上,删除一些重复或者与本研究主题无关的新闻报道,共获得526条新闻报道和评论数据。
二、数据的统计和描述
(一)关键词词频统计和共词分析
在共词分析中,词汇筛选是首要工作。但是将所有的词汇用于分析,不仅导致工作量巨大,计算结果的准确性也无法得到保证,因此共词分析选择高频主题词为分析的对象。在高频关键词计算方法选择上,本研究采用前N位选取法,共提取504个关键词,选取词频大于9的19个关键词为主要关键词,累积百分比为58%。该比例兼顾了高频关键词的同时,也兼顾了中频关键词,有助于观测一些隐含主题或前瞻主题的外现,基本反映自2009年以来《早报》网“华为”话题的热点。除去核心关键词华为以外,排名前9的关键词分别为:孟晚舟、美国、5G、智能手机、禁令、加拿大、中兴、网络安全、德国。
(二)共现矩阵和相似矩阵的构建
虽然高频关键词在一定程度上反映了与华为相关的热点话题,但深入挖掘话题之间的内在联系,需借助共现矩阵(表1),然后利用社会网络等方法进行多元分析,勾勒出该领域的发展现状、研究热点和趋势。
同时,为了消除共现频次差异较大对数据分析造成的误差,借助UCINET软件生成相似矩阵(表2),并在此基础上减1,构建相异矩阵,以满足后续进行多维尺度分析的要求。
矩阵中数字的大小表明了相应两个关键词之间的距离远近,反映了它们之间的相似程度。由表2可以看出,与华为距离由近及远的关键词包括:智能手机、5G、网络安全、禁令、美国。而听证会、特朗普这些关键词之间的相似性值虽然都相对较小,但也说明这些高频关键词之间存在一定联系,值得重视。
三、基于网络关系的共词网络知识图谱构建与分析
(一)基于重要主题的社会网构建
社会网络分析是基于关系视角根据共词矩阵对各节点的权利(power)进行定量研究,从而给出多种量化指标。根据中心度Degree的计算,得到排名靠前的华为(100)、5G(83)、美国(77)、禁令(72)、孟晚舟(55)、智能手机(55)等重要关键词,在此基础上,运用UCINET绘制出社会网络图谱(图1)。从节点大小来看,除了检索词“华为”之外,“禁令”和“美国”在整体网络中居于重要地位,是媒体关注的两大话题。以这两个关键词为核心向外辐射形成紧密的圈层,构成了网络图谱的主体结构。从节点间距离来看,“网络安全”“5G”也与上述主题距离较近,关系较为密切,在网络中与其他节点的交互次数也较多,扮演着重要角色。同时借助Ego图,可以清楚的发现特朗普、美国与中兴、华为、网络安全、贸易战等话题的关联性,不难发现特朗普在其中所起的作用(图2)。
(二)高频关键词聚类分析
借助聚类分析描述关键词之间的亲疏关系,判别词间类团,与网络图谱结合起来可以共同查找研究热点。基本原理是,以两两关键词在同一篇文章中出现的频次也就是共词为分析对象,利用聚类的统计学方法,把关联密切的关键词聚集在一起形成类团。分析时,先以最有影响的关键词生成聚类(种子关键词);再次,由聚类中的种子关键词及相邻的关键词再形成+新的聚类。关键词距离越近它们的关键词越相似。具体方法是利用Bicomb生成词篇矩阵;进行系统聚类分析,得到的聚类结果如图3所示。
高频关键词名称及其对应出现频次高低排名,标注在树状图纵轴,标注在横轴的数字0-25代表高频关键词之间的密切度。高频关键词之间的纵向连线对应之横轴数字,展现了高频关键词间关系远近。距离较近的主题词聚集起来,形成概念相对独立的类团,使类团内属性相似性最大,类团间属性相似性最小,聚类分析反应了关键词间的亲疏关系,可以进一步反映当前的“华为”熱点话题,同时为后面的战略坐标图的分析提供了基础。
(三)基于距离空间的关键词多维尺度分析
为了更直观的对研究热点进行观察和分析,在聚类分析的基础上,通过多维尺度分析(MDS)绘制出战略坐标图(图4)。图中坐标x轴为向心度(Centrality),表示领域间相互影响的强度;Y轴为密度(Density),表示某一领域内部联系强度。影响力最大的关键词,其所表示的圆圈距离战略坐标的中心点越近。而圆圈间距离越近,表明它们之间的关系紧密程度。
采用多维尺度分析时,要汇报其压力系数Stress和模型距离解释的百分比RSQ值,它们分别为多维尺度分析中的信度和效度估计值。其中Stress是拟合度量值,Stress越小,表明分析结果与观察数据拟合越好;RSQ值越大,说明所得到的构形上各点之距离与实际输入之距离越适合。本战略坐标图Stress和RSQ计算结果分别为0.18245和0.84387,数据拟合度可以满足要求。
四、热点话题分析
结合上述图表,我们绘制出围绕“华为”话题媒体报道的知识图谱,可视化地展示了相关热点话题分布情况,据此我们总结归纳出四个主要热点话题(类团):
(一)网络安全、5G、中兴和禁令等关键词位于第一象限。这一领域各关键词联系紧密并处于研究网络的中心,是媒体报道热点。反映了以美国为代表的西方国家炒作网络安全话题,对华为、中兴等中国企业进行打压,试图将中国企业排斥在5G市场之外,占据5G技术制高点。
(二)以智能手机产品为代表的中国高新技术产品在国际市场上得到广泛的认可,市场占有率节节攀升,对包括苹果、三星等国外知名品牌构成巨大的挑战,体现了华为、中兴、小米等中国公司不断科技创新取得的巨大进步。
(三)第三象限包括了贸易战、特朗普、孟晚舟等關键词。主要反映了孟晚舟事件中美国和加拿大分别扮演的角色和所起的作用。
(四)第四象限主要是关于华为公司创始人、总裁任正非的相关报道。在采集到的21条相关报道中,2019年前三个月就有19条,这也说明,“任正非”一词处于坐标图中第四象限的原因。总体而言,任正非作为一家世界知名公司的掌门人,其言行成为世界各国媒体关注的焦点。
五、结语
利用共词分析技术,通过对网页信息采集、文本特征项抽取、文本向量化、相似度计算、聚类、中心度计算等几个步骤,不仅可以对媒体报道的“华为”这一热点话题产生的来龙去脉,前因后果、演变过程进行梳理,也有利于对新闻报道中的对象未来发展趋势进行分析和预测。
总体而言,知识图谱分析技术对观察媒体的热点话题提供了一定的思考和借鉴,可以满足受众对媒体报道客观、真实、深度的需求,实现媒体以“内容为王”的目的。但是鉴于当前关于高频关键词的词阀的计算与运用,学界依然存在不同看法,这在日常工作或研究中需要加以注意。