白黎
(宝鸡文理学院 党政办公室, 宝鸡 721013)
当今社会,互联网技术发展迅猛,社交媒体对网络舆情传播方式产生了很大影响,其中微信、微博、QQ群、论坛是典型的代表,传统的舆情传播方式发生了很大变化。不容置疑,互联网等新兴技术的出现和发展彻底改变了人们的生产生活和传统表达方式。随着移动宽带互联网的普及,特别是未来5G技术的广泛应用,每天都会有相当多的网络舆情数据产生并影响着人们的生活。新形势下迫切需要运用大数据技术构建网络舆情[1]监督机制,合理引导网络舆情,打造健康网络,控制网络舆情,维护社会稳定。
通过相关研究,分析了大数据背景下网络舆情所呈现的特征规律[2],探讨了大数据技术在网络舆情监督过程的运用,行测了网络舆情监督概念模型,并尝试建立网络舆情监督系统[3],为提高舆情监督效率,及时解决群众问题,发挥了重要作用。
图1 网络舆情监督过程
基于大数据的网络舆情监督过程如下:
(1) 数据采集阶段
根据有关法律法规,网络舆情征收部门,组织团队制定网上舆论收集方式和手段,确定收集的信息来源,收集范围,主要集中网站,通过遍历用户关注的网站列表,抓取网站内容,收集网民,教育和医疗系统,环境污染,重大竞争等提及的关键信息,满足对网络舆情信息[4]的全面掌握,并根据源文件生成下级URL列表,并将内容捕获放入集合库中。采集要有深度和广度,深度包括按需采集到的新闻评论、转发数、粉丝数、回帖数,广度包括监测重点板块、监测热门重点网站、扩展舆情广度等,来源上包括文本采集和音视频采集等。
(2) 数据分析阶段
对于收集的网络数据,将原始数据发送到文本分析平台进行分析,可以根据各种指标综合计算热点,负面信息和主题分析。语义是由逐个使用规则驱动的。使用句法分析的结果作为语义分析的输入,交叉比较一些关键词以提取可能是歌词信息的单词和事件,将一系列结果存储到数据库中。
(3) 舆情监督阶段
根据数据的积累以及运用大数据技术对数据进行处理,将舆情分析结果制成舆情监督产品。支持基于云平台架构的分布式部署支持大规模云监控系统,整理舆论传播时间、传播节点,并根据影响程度、影响范围、热点信息等级,发生时间等因素进行综合排序。最后,生成分析报告,帮助相关部门掌握相关舆情信息,控制舆情发展。
(4) 数据服务阶段
本阶段是相关部门利用分析过后的信息产品做出相关决策,防止舆论危机的发生,及时防止突发事件发生,采取相应对策,遏止不良后果的过程。
根据分析,构建的网络舆情监督机制概念模型,由以下4个模块构成,具体内容如图2所示。
图2 网络舆情监督机制概念模型
解释如下:
(1) 采集模块
对于指定的网站、微博等,根据人信息的点击次数进行排序,保存相关内容,记录真实IP,并索引其他IP地址网络,进行交叉检查。对于新闻页面,微博微信的收集,主要关键词内容等,通过大数据挖掘技术和网络爬行[5]技术索引到,不断扩展直到整个互联网。
(2) 预处理模块
在对提取的相应信息进行文本排序、整合、清理和转换之后,将数据存储在数据库中,确定舆情信息的类型和等级并根据等级存储关键字,形成统一的格式化信息。
(3) 分析模块
通过提取文本摘要、聚合类似句子、分析抒情情感、排序敏感度等,分析预处理模块所获取信息,分析话题热度和持有的不同观点和各自比例,确定关注度和发展趋势预测,生成舆情事件的相关指标比例,形成舆情分析报告。
(4) 决策支持模块
通过对网络舆情信息的监测[5]分析,继续传播健康信息,合理解释或引导不合理信息。提前向有关部门报告可能会引起强烈反应的不合理信息,以便领导做出正确决策。在决策过程中,会考虑到舆情信息的现状,进一步完善处理舆情调整机制。
建立舆情事件分析模版,搭建动态化、可视化、实时性的舆情监督平台。 主要包括:
本文基于Nutch开源框架实现信息获取。如图3所示。
Nutch有两个版本可供选择,1.X版本内容由1.X抓取,直接存储在HDFS文件系统中,2.X版本需要提前部署HBase数据库[6],并且已爬网内容存储在HBase中。考虑到版本和使用要求的不同,本文选择NutchV2.2.1版本,方便添加标签和读取存储内容。抓取的内容包括网站主页,微博和论坛。主要步骤如下。
(1) 初始化抓取数据库
抓取数据库的初始化过程如下:
(2) 根据爬行数据库生成预取列表并写入相应的段;
(3) 根据预取链接获取网页文件;
(4) 解析获取的页面,并更新数据库;
图3 采集流程图
(5) 重复上述步骤,达到指定深度后停止抓取;
(6) 从爬行数据库中获取页面重要性分数,同时更新分段;
(7) 对获取的页面进行反转处理,建立索引数据库;
(8) 删除重复的页面并合并段中的索引;
(9) 生成最终提供系统查询的索引文件
在HBase中完成信息存储功能[7]。直接使用HBase自己的ZooKeeper模块进行分布式管理和协调。ZooKeeper是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一种为分布式应用程序提供一致服务的软件,具有以下功能:配置维护,组服务,分布式同步,域名服务等。
下一步需要向已爬网页面添加属性,将Nutch标记配置为LDA特定标记,使用LDA算法进行聚类分析,并在HBase数据库中编写LDA标记。LDA作为一种非监督机器学习技术,可以用来识别大规模文档集和语料库中隐含的主题信息[8]。它使用单词bag方法,将每个文档视为单词频率向量,可以将文本信息转换为易于建模的数字信息。
根据LDA算法分析舆论信息,这是对概率潜在语义分析(pLSA)的改进。在对语料库进行训练之后,pLSA模型将获得记录主题和单词的相关性的矩阵,以及记录文档与文档主题的相关性的主题向量[9]。LDA模型基于pLSA将受试者的先验分布设置为Dirichlet分布。基于这些训练的参数,LDA可以确定新文章的新主题向量,使得每个文档可以被映射到坐标(主题向量)。
使用LDA算法对新获取的页面进行聚类[10],并根据单词在文档中出现的概率生成热词。舆情监测系统对热词数据进行分析,生成包含热词最多的文档的报告,并将报告读给管理人员,使管理人员及时掌握舆情动态。管理者可以标记对舆论监督有价值的热词,形成敏感的词汇,选定的热词成为监控的焦点。在舆情监督系统中,受监控的热词也被视为LDA聚类的方向并被指导形成一个主题。舆情监督系统采用主题表达方法自动生成热门话题,并推荐给网络管理员进行审核,形成有效,可用的舆情监督机制。
面对网络舆情的异常现象,如何智能、科学地处理网络舆情,是政府舆情决策的重要组成部分,也是把握网络舆情演变、程度和有效性的必由之路。在此基础上,设计了基于大数据技术的网络舆情监督机制模型,并通过理论和实证研究验证了模型的可行性,最后设计了网络舆情监督机制模型的系统实现。然而,由于篇幅的限制,本文只解决了机制和宏观异常监测的一些问题,而复杂环境下的异常监测与预测,需要进一步的研究。