魏子皓 遂宁市东辰荣兴国际学校
目前业界广泛认可大数据的特征为4V特征,即认为大数据具有规模性(Volume)、价值性(Value)、多样性(Variety)以及高速性(Velocity)四个特征。
在大数据时代,随着海量舆情信息的涌现和数据采集技术的进步,唐涛(2014)认为网络舆情分析创新要使用大数据分析方法,包括网络日志数据挖掘的隐性舆情分析、基于社会网络分析的网络主体关系分析、关联领域数据舆情分析、基于网络民意调查的舆情分析等。维克托fi 迈尔fi 舍恩伯格(2012)认为大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,样本分析逐步让位于总体分析,传统的统计分析方法与Web数据挖掘技术互相融合,包含多种分析模块的舆情分析系统被开发出来。
典型的Web数据挖掘主要包括以下几个(1)查找资源:任务是从目标Web文档中得到数据,包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。(2)信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。(4)模式分析:验证、解释上一步骤产生的模式。
从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。社会网络分析不仅仅是一种工具,更是一种关系论的思维方式。可以利用来解释一些社会学、经济学、管理学等领域问题。近年来,该方法在职业流动、城市化对个体幸福的影响、世界政治和经济体系、国际贸易等领域广泛应用,并发挥了重要作用。社会网络分析研究的重点不是个体,而是个体之间的联系。社会网络分析的任务就是描述群体关系的结构,研究这种结构对群体功能或者群体内部个体的影响。
一,为了得到更准确的舆情信息,所需要的数据量大幅膨胀。随着数据生成的自动化以及数据生成速度的加快,自媒体时代的到来,为了获得准确的网络舆情信息需要处理的数据量急剧膨胀。一种处理大数据的方法是使用采样技术,通过采样,把数据规模变小,以便利用现有的技术进行数据管理和分析。二,数据深度分析需求的增长。为了从数据中得到准确的舆情信息进而指导人们的决策,必须对大数据进行深入的分析,这些复杂的分析必须依赖于复杂的分析模型。所以对网络舆情信息的分析还需要路径分析、时间序列分析、图分析、What-if分析等。三,自动化和可视化分析需求的出现。在TB级的复杂舆情信息环境下,网络舆情系统应该能根据网站的内容自动构造查询,自动提供热点推荐,自动分析数据的价值并决定是否需要保存。
随着网络技术和应用的不断创新,网络舆情在不断发生变化,面对数亿网民和浩如烟海的网络大数据环境,我们需要不断扩大网络舆情分析的内涵,从分析显性舆情容,拓展到分析隐性舆情、舆情主体间关系、舆情子群体、舆情对社会的动态影响等更广义的舆情分析。我们要不断改进舆情的分析方法,网络舆情分析不再仅仅是采样分析,而是要开始关注大数据分析;不再仅仅是企业大数据能力,提高大数据工作水平。目前国内外有关厂商,纷纷推出与大数据服务相关的产品。如甲骨文公司推出了Oracle大数据机,最大程度帮助用户管理海量数据,快速提供一个具有高可用性的可扩展系统;IBM推出最新数据库软件DB210和InfoSphere Warehouse 10,能够轻松集成大数据系统,自动将数据压缩成更紧密的空间,以防止存储蔓延,并且将过去、现在和未来的信息进行分离,以清除某些程序代码。
随着大数据时代的到来,我们要不断改进舆情的分析方法,将大数据思维及方法运用到网络舆情分析中去。首要开始关注大数据分析,其次不再仅仅依靠语义分析,而是求诸于自动化的数据分析,再次要关联不同领域数据进行舆情分析等等。总之,我们要突破传统,将舆情分析向大数据分析的方向创新。
[1]张璇.基于社会网络分析的舆情管理研究[D].合肥工业大学,2013.