施利萍
摘 要 随着自媒体社会网络的快速发展,大量网络数据的产生,给网络舆情监控带来了严峻的挑战。本文分析了大数据时代网络舆情的现状和特点,通过对大数据的主要技术Hadoop技术的研究,结合突发公共事件的特点,探索了如何构建基于Hadoop平台的突发公共事件网络舆情监控系统。
关键词 突发公共事件 网络舆情 Hadoop
中图分类号:C91 文献标识码:A
1大数据时代对网络舆情监控的影响
随着近年来我国网民数量的激增和移动智能设备的普及,社交网络等新媒体工具逐渐渗透到人们的生活当中,突发公共事件在网上传播的速度越来越快,人们对突发公共事件的关注度越来越高。网络传播中的各类信息,既有积极的、正面的,也有虚假的、反动的不良言论。部分社会矛盾在网民的关注下,会急剧放大、集聚、引爆,一旦失去控制将进一步危害国家安全和社会稳定。因此针对网络舆论的管理及监控,政府部门需要进行有效的引导和治理,实现对网络舆情的实时监控,防止事态恶化。而借助大数据技术的优势,舆情信息工作部门可以从网上海量的、多样的信息数据中迅速分析、挖掘出有价值的舆情信息,大数据将在突发公共事件网络舆情信息工作中发挥重要的作用。
2大数据在网络舆情中的应用
2.1突发公共事件舆情监控系统
突发公共事件网络舆情监测系统主要通过在线收集定位网络信息,识别有害消息,利用统计分析进行舆情识别发现,然后发布预警公告。该类系统一般具有信息采集、信息预处理和分析与舆情服务三大功能。信息采集部分实现自动抓取数据源(论坛、博客、网站、微信、微博等)上新闻、帖子发布及回复、聊天记录等信息;通过网页去重、标准化、关键词筛选、主题分析等工作对信息预处理后识别出有价值的信息,分析事件的背景和特征,分析事件的关联性、背后隐藏的规律和发展趋势,提供突发公共事件预警支持;最后将舆情信息用图表方式直观化、拓宽报送及发送渠道,利用移动互联技术实现舆情信息集纳和推送。
2.2关键技术Hadoop技术
当前国内外许多机构开展了关于云计算技术的研究,其中最为著名的是由Apache 开发,基于Google文件系统设计思想的Hadoop开源框架。Hadoop是当前较为流行的分布式计算框架,它为处理海量数据,充分发挥集群的处理能力以及存储能力提供了方案。Hadoop平台基础架构由三大核心组件组成,分别是分布式计算模型MapReduce、分布式文件系统HDFS(Hadoop Distrubuted File System)、数据仓库工具Hive和分布式数据库HBase。
3基于Hadoop平台的突发公共事件网络舆情监控系统
3.1舆情信息采集和存储
将来自于网站、微信、微博、论坛等国内外著名网站的舆情数据,采用网页抽取技术,可进行关键词采集、语义话题采集,通过关键词管理、URL管理、过滤词典及分类管理等系统管理配置,同时进行网页解析,利用Dom 解析html 和抽取信息。
Hadoop平台上,通过HDFS就能实现文件的读写,但为了使数据更清晰、程序更简便,选择将数据写入HBase。完全分布模式下HBase的运行基于HDFS文件系统,HBase处在HDFS和MapReduce的中间,可通过MapReduce实现算法对HBase进行操作,系统将经过预处理的用户数据上传到HBase分布式数据库中。HDFS作为面向大数据应用的分布式文件系统,在底层提供高性能的硬件资源管理和存储管理支持,实现舆情大数据的高效存取和交换。Hive作为建立数据仓库模型的ETL工具,对信息数据进行提取(Extract)、转换(Transform)、加载(Load)等处理过程,形成数据索引和舆情词汇库,建立舆情数据仓库,将这些信息数据加载到Hbase数据库中,Hbase采用面向列的稀疏存储模式,以非关系型数据库N0SQL替代传统关系型数据库,解决当前web2.0社交网络大规模、高并发的数据处理问题。
3.2舆情监控分析
舆情监控分析是系统的关键模块,主要完成最新消息、热点话题、活跃人物追踪、热点区域追踪、传播途径分析、走势分析、网络社会关系分析等功能。利用Hadoop框架中的HDFS 分布式文件系统和MapReduce编程模型进行开发,根据专家库中建立的舆情搜索规则及存储的URL地址,实现抓取的新舆情信息分类,对热点话题追踪,并进行情感偏好分析,标记出信息的情感属性,统计分析舆情情感归属分类,进行词性(正面、负面、中立)的判断,预测出舆情未来的发展形势及走向趋势。最终通过事件趋势图、观点百分比饼图、频率分布网状图、负面舆情度直方图等丰富的图表形式发布展示到用户界面,为更进一步的舆情分析和研判提供更直观的决策参考。
4结语
本文分析了大数据时代网络舆情的现状和特点,以及当前网络舆情信息工作存在的问题,通过对大数据的主要技术Hadoop技术的研究,结合突发公共事件的特点,探索了如何构建基于Hadoop平台的突发公共事件网络舆情监控系统。
参考文献
[1] 史玉珍,单冬红.基于Hadoop的网络舆情监控平台的研究[J].电子测试,2015(05):71-73.
[2] 张宁熙.大数据在突发公共事件网络舆情信息工作中的应用[J].现代情报,2015(06):38-42.