曹鑫+王良之+王云飞+熊学锋+彭小庆+罗兰溪
【摘要】 大数据时代的到来对人类的生活、工作与思维产生变革性影响,深刻改变着各个领域的面貌,“大数据”日渐成为各行业创新的助推器。当前中国网络舆情环境复杂,网络舆情危机时有发生,社会热点舆情事件不断涌现。大数据背景下的网络舆情正在发生巨大的变化。
【关键词】 大数据 舆情 监控
随着国家电网朝着“三集五大” 的战略要求开始转型,国网公司将逐步走向集约化、标准化、规模化。“三集五大”是公司发展的深刻总结和高度指导,是公司走向国际化一流企业的必由之路。然而,任何一项变革都不是一蹴而就的,都将经历探索、总结、提高这些阶段,在“三集五大”发展战略的实施过程中,必然涉及到机构调整、职能调整、规范调整、业务流程调整等全方位的改革,电力企业作为国家命脉息息相关的企业,其大的变动,必将引起社会方方面面的舆论反应,尤其是在变革中遇到困难、瓶颈的时候,各种怀疑、否定将纷至而来,因此及时监测、汇集、研判网上舆情,是正确引导舆论的重要前提。只有做好舆情工作才能为“三集五大”重大发展战略顺利开展保驾护航。随着互联网技术的迅速发展,信息量大、类型繁多、价值密度低、速度快、时效高的大数据吸引了越来越多的关注目光,大数据带来的信息风暴正在改变我们的生活、工作和思维。毋庸讳言,舆情服务在进行行业规范和整合的同时,正面临着大数据的挑战。
一、大数据
“大数据”概念最早在20世纪80年代提出,2011年麦肯锡咨询公司发布其研究成果《大数据:下一个创新、竞争和生产率的前沿》,使这个概念得以大范围推广。2012年3月29日,奥巴马宣布将投入2亿多美元启动“大数据发展和研究计划(Big Data Research and Development Initiative)”,将“大数据战略”上升为国家战略。近两年,大数据备受学术界、产业界和政府部门的关注,成为国内外强有力的前沿词汇。大数据又称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具在合理时间内进行抓取、管理和处理的数据集合,是必须通过深度挖掘、计算、分析才能创造价值的海量信息。大数据在体量、复杂性、产生速度及价值密度四个方面都极大地超越了传统的数据形态,具有4V特征:大量(Volume)、多样(Variety)、高速(Velocity)、价值(Value)。
二、大数据背景下的网络舆情
大数据背景下网络舆情管理面对着新的挑战。海量数据的挑战、信息选择性传播的挑战以及舆论话语权分散的挑战。海量的网上信息难以掌控,大量相关性、偶发性因素使舆情更加复杂多变,传统的舆情监测研判手段和方法难以奏效,新的技术手段和方法要求更高。网上数据无限性和网民关注能力有限性之间的矛盾,加剧了社会舆论的“盲人摸象”效应。社会化媒体促进信息的开放和沟通的便捷,分众传播、个性化传播凸显,使偏激的观点更容易找到“同类”,从而相互支持、强化放大,加剧舆论偏激情绪。大数据时代各类数据随手可得,越来越多的机构、个人通过数据挖掘和分析得出的各种结论会不胫而走,有效管理舆情的难度越来越大。
三、大数据在网络舆情监测的应用价值
由网络舆情监测到网络舆情预测是网络舆情的发展趋势,这一目标实现的关键技术就是大数据挖掘技术。
大数据价值的核心是舆情预测:传统网络舆论引导工作的气垫,是对已发生的网络舆情进行检测开始。然而这种方式局限在于滞后性。大数据技术的应用,就是挖掘、分析网络舆情相关联的数据,将监测的目标时间点提前到敏感消息进行网络传播的初期,通过建立的模型,模拟仿真实际网络舆情演变过程,实现对网络突发舆情的预测。
大数据价值的条件是舆情全面:大数据技术要预测舆情,首要条件是对各种关联的全面数据进行分析计算。传统数据时代,分析网民观点或舆情走势时,只关注网民跟帖态度和情绪,忽视了网民心理的变化;只关注文本信息,而较少关注图像、视频、语音等内容;只观察舆论局部变化,忽视其他群体的舆论变化;只解读网民文字内容,而忽视复杂多变的社会关系网络。从舆情分析角度看,网民仅仅是信息海洋中的"孤独僵尸",犹如蚁群能够涌现高度智能,而单个蚂蚁如附热锅到处乱窜。大数据时代,突破了传统数据时代片面化、单一化、静态化的思维,开始立体化、全局化、动态化研究网络舆情数据,将看似无关紧要的舆情数据纳入分析计算的范围。
大数据价值的基础是舆情量化:大数据预测舆情的价值实现,必须建立在对已挖掘出的海量信息,利用数学模型进行科学计算分析的基础之上,其前提是各类相关数据的量化,即一切舆情信息皆可量化。但数据量化,不等同于简单的数字化,而是数据的可计算化。要在关注网民言论的同时,统计持此意见的人群数量;在解读网民言论文字内容的同时,计算网民互动的社会关系网络数量;对于网民情绪的变化,可通过量化的指标进行标识等。
大数据价值的关键是舆情关联:数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。大数据技术预测舆情的价值实现,最关键的技术就是对舆情间的关系进行关联,将不再仅仅关注传统意义上的因果关系,更多关注数据间的相关关系。按大数据思维,每一个数据都是一个节点,可无限次地与其他关联数据形成舆情链上的乘法效应--类似微博裂变传播路径,数据裂变式的关联状态蕴含着无限可能性。
四、云计算在网络舆情的应用
XML可扩展标记语言,一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立。虽然XML占用的空间比二进制数据要占用更多的空間,但XML简单易于掌握和使用,XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。
DOM是DocumentObjectModel文档对象模型的缩写,根据W3CDOM规范,DOM是一种与浏览器、平台、语言无关的接口,使得它可以访问页面其他的标准组件。DOM解决了Netscape的Javascript和Microsoft的Jscript之间的冲突,基于WEB设计师和开发者一个标准的方法,让他们来访问他们站点中的数据,脚本和表现层对象。
利用基于DOM的XML解析方法,用Prtllon实现了XML解析器,解析器先将各种XML内容转换为DOM,然后对属性结构遍历所有属性,再根据规范定义其语义并将结果封装成可被各模块使用的数据结构。
对数据进行规约后,系统采用HDFS系统实现分布式存储,HDFS支持的高容错性和低成本运行的特点以及大数据量吞吐的访问级别和适应大事件集使之和其他分布式系统相比具有巨大的优势。
通过数据计算时间对比可以看出数据量越大,基于云计算的舆情挖掘系统的运行效率比本地执行的运行效率越高。
数据对比表如下:
结束语:大数据是数字化生产时代的新型战略资源,对社会发展所起的作用巨大,对电力公司的发展同样至关重要。大数据的出现和引用,引起了各国科技界,产业界和政府部门的高度关注,因此,大数据时代的网络舆情治理作为社会治理的一个方面,显得尤为重要。
参 考 文 献
[1] 刘叶婷,王春晓.“大数据”,新作为—“大数据”时代背景下政府作为模式转变的分析[J].领导科学.2012(35)
[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J].中国科学院院刊. 2012(06)
[3] 趙路平,许鑫.浅析公共危机传播中舆情分析研判机制的体系与流程[J]. 中国浦东干部学院学报.2011(04)
[4] 谈国新,方一.突发公共事件网络舆情监测指标体系研究[J].华中师范大学学报(人文社会科学版).2010(03)
[5] 吴新年,陈永平.决策支持系统发展现状与趋势分析[J].情报资料工作. 2007(01)