网络事件热度分析系统研究

2018-01-03 02:14王佳宁
电子测试 2017年22期
关键词:分析器采集器舆情

王佳宁

(浙江传媒学院新媒体学院,浙江杭州,310018)

网络事件热度分析系统研究

王佳宁

(浙江传媒学院新媒体学院,浙江杭州,310018)

走入21世纪,网络成为反映社会舆论情况的最主要手段。每一个社会问题都可能会引起广大民众的反响,对社会的影响也是一触即发,所以一个对网络事件进行监测、度量分析的智能化,体制化和全面的系统是十分必要的。网络事件热度分析系统可根据配置,对各种网络舆情事件的热度和数据源进行分析。为相关政府机构进行网络舆情事件的监测和分析提供决策参考。该系统将会使互联网可以及时掌握各种评论等信息走向,为建设健康互联网社会埋下重要的铺垫。

网络事件;信息采集;舆情

0 引言

如今互联网发展的态势简直是出乎人的意料,网络媒体甚至超过了报社,电视台等主要传统行业衍生的媒体,例如报纸,电视节目等。互联网已经成为体现这个社会的真实写照的一个载体。

网络的信息来源主要有,百度贴吧,各种门户的论坛(例如天涯论坛、猫扑论坛、新浪论坛,ACFUN等),因此也就造就了网络的复杂性,信息量可以说是十分巨大,一些比较庸俗等不好的文字言论也就比比皆是,要人工处理起来确实不是一个可行的办法。因此,引入这套网络事件热度分析系统就能使网络环境健康的发展。

1 相关技术分析

爬虫的主要原理是抓取html的内容,大部分目前常见的语言都有相关的网络编程API,都能实现网络爬虫。比如说Java,Python, C++, C#, PHP, Perl等语言都可以。而比较热门的当属Java和Python。而在Java语言当中,市场上比较著名的爬虫框架是nutch,webmagic等,而比较热门的采集技术当属httpclient和jsoup等。HttpClient 是 Apache 下的项目,他包装了很多有关http协议的工具,可以让开发者用户简单上手。目前,httpclient最新版本为httpclient4.6。 Gson 是Google 开发的早 JavaBean 对象和 JSON 之间进行转换的工具类。方便开发者使用它进行javabean跟json之间的快速转换。Gson的主要特点有快速、支持范围广、没有依赖其他类库。

2 网络事件热点分析系统设计

本系统以360搜索(https://www.so.com/?)为采集信息来源,使用JAVA语言为基础设计了一套采集并且监测分析的系统。通过每一个监测任务进行管理以及对每一个热点关键词采集到的数据进行可视化分析。该系统分为5大模块:分别是管理平台、数据采集器、舆情指数分析器、分析平台。

2.1 系统功能结构设计

图1 系统功能结构

针对网络事件影响范围和深度的分析,要开发一套面向网路事件热度分析系统,系统的主要功能如图1所示。其中包括管理平台、数据采集器、舆情指数分析器、分析平台和数据库。管理平台主要是对数据采集器、舆情指数分析器等进行集中管理和控制,主要功能包括网络舆情事件管理、舆情状态和舆情分类等属性进行配置等;数据采集器是根据配置,定时(如每隔5分钟)通过360搜索引擎,检索等待分析的舆情事件报道内容,自动采集检索结果网络,对网页内容进行智能解析,自动去重、去噪,抽取相关信息内容,转换成结构化数据,存储到数据库进行分析,供舆情指数分析器调用;舆情指数分析器是根据网路舆情事件的热度计算模型,定时(如每隔5分钟)对数据库中的舆情事件数据进行统计分析,并将计算结果提供给分析平台使用;分析平台主要是对网络舆情事件的热度和数据源进行可视化分析,热度以指数形式进行显示。

2.2 数据结构设计

本系统设计的数据库名为POA,数据库中存在多张数据表用来存储相关信息。如图2。

3 系统实现与测试

3.1 系统实现

(1)通过httpclient的工具类获取到的HTML源码,利用正则表达式来解析相关的信息。而匹配类hhm.neha.control.WebScanPattern的关键代码如下:

public class WebScanPattern {

public static final String SO_CONTENT_NOT_FIND =“抱歉,未找到和.*?相关的新闻内容。”;

public static final String SO_CONTENT_COUNT =“找到相关新闻约(.*?)个”;

public static final String SO_CONTENT_LI = “”;

public static final String SO_CONTENT_LI_URL =“”;

public static final String SO_CONTENT_LI_TITLE =“target=”_blank”>(.*?)”;

public static final String SO_CONTENT_LI_COUNT =“class=”same”.*?>\[相关新闻:(\d+)\]”;

图2 数据库表结构

@Deprecated

public static final String SO_CONTENT_LI_DATE =“(\d+-\d+-\d+ \d+:\d+:\d+)”;

public static final String SO_CONTENT_LI_DATETIME =“data.pdate=”(\d+)”>”;

public static final String[] DATE_FORMATS = {“yyyy-MM-dd HH:mm:ss” }; }

(2)实时舆情指数分析线程,该类hhm.neha.process .Even tRealTimePointAnalysisThread的源代码如下:

@Override

public void run() {

int event_index = 0;

while (flag) {

try {

sleep(5000L);

event = erpaControl.getNextEventList(event_index);

random = new Random(System.currentTimeMillis());

if (event == null) {

event_index = 0;

LOG.info(context.getMessage(“point.event.null”, null, Locale.CHINA));

try {

sleep(5000L);

} catch (InterruptedException e) {

// TODO Auto-generated catch block

e.printStackTrace(); }

} else {

if(event.getEventStatus().intValue() != 10){

this.analysis(); }

event_index = event.getEventId().intValue();

LOG.info(“ Analysis event[“ + event_index + “]real time point finish, wait for next event...”); }

} catch (InterruptedException e) {

// TODO Auto-generated catch block

e.printStackTrace();

} catch (JDBCConnectionException e) {

LOG.error(“ Connection database fail: “ +e.getMessage()); }

(3)通过struts框架来设计服务端,struts配置文件包括authorize,version,error,event, point, search, category,其中event代码如下:

events[d+].creat_at,events[d+].exp,events[d+].i d,e v e n t s[d+].t i t l e,e v e n t s[d+].top,next,total,time

false

events[d+].creat_at,events[d+].exp,events[d+].i d,e v e n t s[d+].t i t l e,e v e n t s[d+].top,next,total,time

false

events[d+].creat_at,events[d+].exp,events[d+].id,events[d+].title,events[d+].top,category.id,category.name,next,total,time

false

3.2 系统测试

(1)测试环境

表1 系统软硬件环境

(2)测试用例

表2 系统测试用例

(3)测试结果

2分钟内采集完整微博信息896条。采集微博信息图如图3所示。

4 结论

在消息极度丰富的时代,本系统能够在广大数据信息中采集我们所需要的信息,及时了解网络舆情的走向,保障网络环境能够健康的发展。本系统管理平台是对待监测和分析的网络舆情事件进行配置和管理,主要包括舆情事件管理和舆情状态配置等功能;分析平台主要是对网络舆情事件的热度和数据源进行可视化分析,热度以指数形式进行显示;数据采集器是通过360搜索引擎,检索各待分析的舆情事件报道内容,自动采集检索结果并转换成结构化数据,存储到数据库进行分析;舆情指数分析器是根据网路舆情事件的热度计算模型,对数据库中的舆情事件数据进行统计分析,并将计算结果提供给分析平台。实践证明,本系统可以采集所需数据,具有实时数据采集处理能力。

图3 采集微博信息图

[1]齐新力,郭亚莎,邹振宇.基于Struts2框架数据校验的分析与应用[J].仪器仪表用户,2011,18(5):48-49.

[2]武宝珠,梁声灼,牛德雄.基于Struts2+Spring+Hibernate架构构建Web应用系统 [J].计算机与现代化,2009,8:43-46.

[3]唐克超.网络舆论对国家安全影响问题探析[J].中国软科学.2008(06).

[4]吴岘辉,张晖,赵旭剑,李波,杨春明.基于用户行为网络的微博意见领袖挖掘算法[J].计算机应用研究.2015(09).

[5]Chang Sup Park. Does Twitter motivate involvement in politics? Tweeting, opinion leadership, and political engagement[J].Computers in Human Behavior.2013(4).

RESEARCH ON NETWORK EVENTS HEAT ANALYSIS SYSTEM

Wang Jianing
(New Media College of Zhejiang University of Media and Communications,Hangzhou Zhejiang,310018)

Into the 21st century, the Internet has become the most principal means to reflect the social opinion. Each social problem is likely to cause the public response and the impact on society is at any moment, so an intelligent, systematic and comprehensive system which can monitor, measure and analyze network events is very necessary. The network event heat analysis system can analyze the heat and data sources of various network public opinion events according to the configuration. This can provide decisionmaking reference for the monitoring and analysis of online public opinion events by the relevant government agencies. This system will enable the Internet to timely control various comments and other information trends, and build an important foreshadowing for building a healthy Internet society.

Network events; Information collection; Public sentiment

猜你喜欢
分析器采集器舆情
COVID-19大便标本采集器的设计及应用
酒精分析器为什么能分辨人是否喝过酒
多边形电极线形离子阱质量分析器的结构与性能
应用于词法分析器的算法分析优化
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
舆情
舆情
舆情
Lucene中文分析器在书目搜索应用中的比较研究