基于网络大数据的舆情监测设计与实现

2019-08-23 02:44陈海郎
电子技术与软件工程 2019年14期
关键词:爬虫舆情服务器

文/陈海郎

互联网能够不受时间和空间的限制,民众通过互联网能够非常便捷、自由地进行民意表达。尤其是在“人人都有麦克风,人人都是传播者” 自媒体时代,互联网能够大力提升民意传播的自由度。各种舆论事件引起的社会效应,在互联网上有了更为宽敞的传播空间和更为迅速的传播速度,进而导致网络舆情所引起的社会矛盾频发。2016年7月30日,国务院发布《关于在政务公开工作中进一步做好政务舆情回应的通知》明确指出,各级政府及其部门需要加强舆情监测与研判处置能力,积极做好舆情回应措施,促进政府有效施政。

图1:网络爬虫的原理以及数据抓取过程

互联网已成为各级政府或单位了解民众需求的重要渠道。在网络大环境下,每项舆情背后都会经历一次产生、发展、高潮、减弱、消退的动态过程。在舆情事件发生后,迅速通过互联网收集有关舆情信息,及时跟踪舆情最新发展动态,并对舆情的传播路径、爆发点和事态等进行深入、详细的了解,有助于指导有关管理部门或企业开展舆情引导和采取措施的决策。

1 相关技术概述。

1.1 网络爬虫

图2:基于主题事件的舆情监测架构图

图3:主题事件发展趋势图例

图4:主题事件情感趋势分析图例

网络爬虫,也称蜘蛛。在舆情监测过程中,网络爬虫主要作用是完成对网络大数据进行爬取、筛选和存储。如图1所示,首先从论坛、报刊、微博和APP等网络平台进行种子URL挑选与设定。网络爬虫根据用户设定的种子URL,能够会自动识别并获得整个种子URL所对应的网页URL,并生成待抓取的网页URL队列。然后,依据既定的网页检索策略,对待抓取的URL进行访问,并对URL所对应的网页数据进行采集和存储。最后,不断重复上述的数据抓取过程,直到满足系统设定的终止条件后停止数据抓取。

1.2 文本情感分析

文本情感分析又称之为意见挖掘(Opinion Mining),是指对带有情感色彩的文本,进行采集、处理、分析和推理的过程。从情感色彩分类层面看,网络舆情可分为正面、中性和负面三种类型。正面舆情往往能够给政府或单位形象带来积极的宣传效果,而面对负面舆情时,倘若未能及时加以控制或引导,很有可能会带来严重、不可逆的负面影响。例如,针对政府议案或新政策的出台,通过对相关微信、微博和论坛等言论进行采集与分析,能够为政府决策提供依据。因此,通过对舆情有关文章或评论所秉持的观点进行情感分析判断,及时获得网民对事件的整体情感,对准确的掌控舆情的动态发展趋势起到了关键作用。

文本情感分析是当前比较热门的研究方向。众多学者对文本情感分析进行了一系列的探索。Zhang等通过建立情感词典、情感系数计算,实现了微博主题情感分类。孙建旺等通过提取微博中的动词和形容词为作特征向量,并借助支持向量机(Support Vector Machine)实现了正面、中性和负面三种微博文本情感分类。本文观察分析网络文本的特点,设计了一种基于分词的网络文本情感分析方法。该方法具体实现过程如下:

假设网络文本T由句子Si构成,则句子Si的情感值f(Si)和网络文本T的情感值f(S)可表示为:

其中,Swi为句子中词wi的情感值。如果f(T)>0 ,表示为正面情感文本。如果f(T)<0,表现为负面情感文本。如果f(T)=0,表示为中立情感文本。

2 基于网络大数据的舆情监测设计

基于网络大数据的舆情监测系统分为数据采集模块、数据处理模块、数据管理和存储模块、数据展现四个模块。实现将互联网数据采集后,进行数据分析和管理,实现数据可视化。详情如2图所示。

数据采集模块由爬虫服务器、爬虫任务调度服务器、爬虫监控服务器、爬虫日志服务器、数据去重服务器以及自然人行为服务器组成。数据采集是通过爬虫服务器集群协作完成的。数据采集面向互联网新闻、论坛、微博、微信等海量数据进行采集,筛选出有用的数据信息。

数据处理模块由用户专题实时计算服务器、实体抽取服务器、地域识别服务器、数据清洗服务器、流传输服务器、情感识别服务器组成。数据处理服务器对数据进行基础数据处理和舆情信息处理,利用先进的数据分析处理方法对获取到的数据进行分析、处理,得出相关热点、正负面新闻等信息。数据存储管理模块由大数据分布式存储服务器、用户数据分布式存储服务器、流式处理分布式日志存储服务器、Web服务器、发布服务器、管理服务器等组成。数据存储管理模块负责数据的存储、检索以及发布。最终通过数据展现模块,将分析处理过的舆情信息通过图表等可视化形式展示给用户。

3 基于网络大数据的舆情监测实现

本文选用2019年5月29日某师范大二学生自述遭受 “校园暴力”舆情事件为例。通过对该事件的新闻、博客、微博、论坛等互联网数据持续监测和采集,从时间、空间两个维度,全面、动态展示信息的变化情况,对基于网络大数据的舆情监测具体实现过程进行论述。

3.1 舆情发展趋势监测分析。

发展趋势监测是通过对事件舆情的网络数据来源、数量和时间三个维度进行趋势分析。该分析结果,能够直观展示舆情各大网络媒体的传播情况。如图3所示,该舆情信息在2019-05-31达到了最大值,当日共产生67248条舆情信息,其中微博平台的传播量最大,最高达到了65243条,成为该事件的主要传播媒体。

3.2 舆情情感趋势监测分析

舆情情感趋势分析是通过对舆情有关网络文本进行情感分析,以充分了解广大民众对舆情所持的态度。如图4所示,在该舆情事件的发展过程中,负面的态度信息一直居高不下,几乎占据了整个舆论阵营。

3.3 传播途径监测分析

传播途径分析是对该舆情去向、数量和范围进行可视化分析。传播途径监测分析有助于管理者更为直观地了解到整个舆情事件的传播路径以及事态演变过程,特别是舆情起源于哪里,又往何处发展,都有轨迹可寻。具体效果如图5所示,其中,最大的中间圆点为该舆情的起源;圆点图标越大表示舆情的影响力越大、传播范围越广,圆点图标数量越多,表示该舆情事件得到了越多网民转发关注;点与点之间的连接表示传播途径。在该事件舆情中,最大的信息层达到了11级,总转发人数超过106916人次,覆盖微博用户达945630798人。

3.4 舆情媒体数量监测分析

舆情媒体数量监测分析是对参与舆情的各大媒体所发表的舆论数量进行监测分析。如图6所示,从网媒、论坛、博客和报刊等媒体报道的采集的169370个网络文本中,其中微博文本数量占比为97.64%,在所有媒体文本中占比最高。导致这一结果的最主要原因是因为该事件本身是在微博平台中发起的,并且微博平台具有非常便捷的媒体转发功能。

4 结束语

互联网已经逐渐成为民众参与舆论的首先渠道。在万物互联互通的网络时代,加强网络舆情监测与引导,对维持国家稳定、促进社会和谐发展具有重要的现实意义。本文基于网络爬虫和文本情感分析等信息技术,提出并设计了一种基于主题事件的网络舆情监测框架。然后,以某师范大二学生自述遭受 “校园暴力”舆情事件为例,对舆情发展趋势、情感趋势、传播途径和媒体数量等舆情监测分析的实现进行了实证论述。

图5:主题事件传播途径分析图例

图6:主题事件媒体数量监测分析图例

猜你喜欢
爬虫舆情服务器
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
通信控制服务器(CCS)维护终端的设计与实现
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
中国服务器市场份额出炉
得形忘意的服务器标准
舆情
计算机网络安全服务器入侵与防御
舆情