□燕道成 姜超
大数据时代网络舆情研究综述
□燕道成 姜超
大数据时代,网络舆情在数据体量、复杂性和产生速度等方面发生了重大变化。大数据使得舆情采集范围更广、数据处理加工方式更有效,并提供了“内容+关系”的多维度研究方式。大数据重视深度挖掘与各种数据间的相关性,网络舆情分析要想适应大数据时代的要求就需要做出相应变革。
大数据;网络舆情;舆情分析;大数据分析方法
根据中国互联网信息中心(CNNIC)《第34次中国互联网络发展状况统计报告》显示①:截至2014年6月,我国手机上网比例达83.4%,首次超越传统PC整体使用率(80.9%)。随着移动互联网技术的不断发展,移动智能终端迅速普及推广,使我国逐步迈向全面网络化的“大数据时代”。
随着大数据时代的到来,数据开始转变为一种基础性资源,如何更好地利用和管理大数据已经成为媒体及学术界普遍关心的话题②-③。网民主动发布、传播舆情信息的规模大幅增加④,网民之间通过社会网络工具建立各种联系⑤,增加了舆情管理的复杂度。因此,无论是媒体还是学术界等都越来越重视运用大数据的方法对网络舆情进行分析,为充分发挥网络舆情信息的价值,应不断创新分析方法。本文对有关大数据网络舆情分析的文献进行了归纳总结,对文献中有关大数据及网络舆情的定义进行了梳理,分析了网络舆情分析研究与实践的现状,综述了大数据时代下网络舆情的特征,概述了五种网络舆情分析的新方法,对未来网络舆情分析创新进行了展望。
维克托·迈尔·舍恩伯格在其著作《大数据时代》中提到,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据也开启了网络舆情的时代转型。
(一)大数据的定义
关于大数据的定义,不同的机构和研究者对大数据的理解侧重点不同,导致对其的界定呈现某种差异。如IDC市场研究公司(2012)认为,“大数据”是为了从大容量的、不同类型的数据中获取有价值的信息而设计的新型架构和技术⑥。高德纳咨询公司(2013)提出,大数据是指具有更强的洞察力和流程优化能力的海量、多样化的信息⑦。还有学者从大数据的外延角度对其进行界定。如官建文(2013)将大数据主要划分为:一是媒体数据;二是政府部门的政治数据;三是各类企业的生产、销售、管理等经济数据;四是物联网以及未联网的各种摄像头拍摄的数据;五是受众个人的数据⑧。冯登国等(2014)根据来源的不同将大数据分为:(1)来自网民在使用互联网以及移动互联网过程中所产生的各类数据;(2)来自各类计算机信息系统产生的数据;(3)来自各类数字设备所采集的数据⑨。
(二)网络舆情的定义
国内非常重视对网络舆情概念内涵及渊源的研究,并在多部研究成果中将其与舆论、舆情、网络舆论等概念进行区分。如中宣部舆情信息局认为网络舆情是社会舆情的一个组成部分,是社会舆情在互联网上的一种反映。网络舆情是媒体或网民借助互联网,对某一焦点问题、社会公共事务等所表现出的具有一定影响力或带有某种倾向性的意见或者言论⑩。赵路平、许鑫等(2011)分析了网络舆情与公共危机传播的关系,认为舆情是在公共危机动态传播过程中的信息互动结果,可以以此为切入点建立公共危机中的舆情分析研判机制⑪。喻国明(2010)⑫、谢耘耕(2011)⑬、尹培培(2013)⑭等人则全面论述了网络舆情的概念与特点:网络舆情是指民众通过互联网针对自己所关心或与自身权益紧密相关的公共事件、社会现象等做出的主观反映,是多种态度、意见等交互的综合表现。网络舆情具有自由、情绪化、分散、即时、多变等特点,在一些社会热点问题上容易引发较为广泛的社会影响,尤其是负面的影响。
目前业界广泛认可大数据的特征为4V特征,即:大量(Volume)、多样(Variety)、高速(Velocity)、价值(Value)。通过对目前网络舆情状况的观察可以看出,互联网的开放性使网民可在网上更为方便地发表自己的意见,导致网络舆情的数据量急剧增长。其次,多媒体的发展使网络舆情的数据形态呈现出多媒体性的特征。再次,现代社会价值观念多元化,各家观点争鸣,舆论不断变化,导致网络舆情快速变化。正是由于以上各种因素的共同作用,使得网络舆情数据越来越呈现出大数据特征⑲。
张宁熙⑳在广西计算机学会2014年学术年会上提出与过去传统媒体舆论传播相比,大数据时代的网络舆论主要有以下几个特点:①相对开放的舆论信息。SNS社区使网民能够掌握越来越多的话语权,打破了原有主流媒体“统一声音”的格局,网络舆论进入自由开放的“自媒体时代”。②丰富多样的舆论信息。在内容上,既有积极向上的言论,也有个性化的情绪表达;在传播形式上,多媒体技术的发展使网络舆论信息在传播形式上更加多元化。③传播迅速的舆论信息。在大数据时代,事件在网络上的传播过程几乎就是一个“核裂变”式的“蝴蝶效应”过程。④带有倾向性的舆论信息。突发事件发生时,在事件现场的手机网民往往受某种情绪化因素的影响,对事件的认识和看法存在个人的倾向性。
万会丽(2014)㉑对大数据时代舆情分析的特点进行了总结概括:①从描述到预测。大数据技术使得精准地监测
网民个体的行为和情绪成为可能,在对网民所留下的浏览痕迹分析的基础上大致预测出个体的社会行为,展示出个体的社会心理变化。②从样本到接近全体。当前可以采用网络舆情自动分析系统,实现24小时不间断的自动搜索并收集互联网上与对象相关的信息,同时,还能够对所收集的信息进行自动分类、自动获取关键词、建立索引等操作,使样本扩大至几乎全体,舆情分析的结果更加客观可靠。③媒介产品增值。未来媒体核心竞争力最重要的组成部分将是质的竞争,舆情分析依托于媒体的舆情研究部门,已经开始成为媒介产品增值的一个重要法宝。
当前常用的网络舆情分析方法主要有网络调查方法、基于内容挖掘的主题监测方法、基于统计规则的模式识别方法等。
网络调查方法是指通过联机网络、计算机通讯和数字交互式媒体,在网络上进行数据收集传输、自动加工处理已实现某一研究目的的统计调查方法。它是传统调查技术与现代网络技术相结合的产物⑮。目前这是应用最为广泛的方法,通常网站都会在相关新闻页面的下方设置新闻评论功能和读者态度倾向调查。
在基于内容挖掘的主题监测方面,涉及较多与自然语言处理相关的研究领域,有学者提出监测流程分为3步:①网络舆情信息采集与预处理。②文本表示与主题发现。③网络舆情意见挖掘和观点分析⑯。
在基于统计规则的模式识别方面,有学者通过分析某段时间间隔内用户所关注信息点记录,构建了互联网内容与舆情的热点(热度)、焦点(焦度)、重点(重度)、频点(频度)、粘点(粘度)、敏点(敏度)、难点(难度)、拐点(拐度)、疑点(疑度)和散点(散度)等10个分析模式和判据⑰。
以此为基础,市场上出现了许多网络舆情监测分析软件,比较知名的有军犬网络舆情监控系统、人民网舆情监测平台等。但目前这些舆情监测系统擅长的是抓取新闻网页,在诸如BBS、QQ群、博客、微博网络社区中等则效果有效,网络社区中的舆情依然主要依靠人工分析
⑱。
在大数据时代,随着海量舆情信息的涌现和数据采集技术的进步,唐涛(2014)认为网络舆情分析创新要使用大数据分析方法,包括网络日志数据挖掘的隐性舆情分析、基于社会网络分析的网络主体关系分析、关联领域数据舆情分析、基于网络民意调查的舆情分析等。维克托·迈尔·舍恩伯格(2012)㉒认为大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,样本分析逐步让位于总体分析,传统的统计分析方法与Web数据挖掘技术互相融合,包含多种分析模块的舆情分析系统被开发出来。
(一)基于Web日志挖掘的趋势分析
Web日志挖掘分析分为浏览日志分析和搜索日志分析。
浏览日志分析:通过对浏览日志的相关网页采集后,随机抽取网页样本集合进行聚类,得到多个热点网页簇,选取关注的单个网页簇进行特征词抽取后,对全部网页使用抽取后的网页特征向量进行二次聚类,得到相关度较为纯粹的网络舆情网页集,从而描绘出网络舆情演变趋势变化㉓。
搜索日志分析:搜索引擎后台的搜索日志记录了网民IP地址、搜索词、搜索时间、被点击的结果网页URL地址等数据。通过对用户的搜索词进行统计分析,可以发现网民关注的热点事件或信息;对网民所点击的搜索结果进行分析,可以发现影响网络舆情产生和变化的源头;对某段时间间隔内与某个社会事件相关的搜索词的频率进行统计,可以描述网民关注点的产生和变化过程㉔。
(二)社会网络分析
在实证研究方面,国内外学者针对各大社交网站进行了社会网络分析。荣波和夏正友(2009)针对基于分裂和凝聚的思想对BBS成员回复网络进行网络聚类分析㉕。Cha等(2010)通过分析Flickr社会网络以及研究图片的传播,表明信息传播受到图片内容、节点性质以及时间等的影响㉖。陈康等(2013)应用了关系图模型对所试验的社交网站的结构和用户数据进行分析,最后以Twitter用户数据为例提出了适用于社交网络的可视化分析方案㉗。
(三)分类分析
基于主题的文本分类分析多用于网络舆情级别划分。国内外进行了大量研究,其中决策树和神经网络模型被广泛应用于舆情分类研究。杨于峰等人(2013)运用神经网络SOM模型方法对部分品牌丑闻事件的微博数量变化进行聚类,得到在微博上品牌丑闻事件传播的五种类型:堤坝型、长坡型、突变型、缓坡型及对数型㉘。高云棋(2013)提出了一种基于主题特征和SVM的细粒度文本分类方法,并以此为基础提出了针对单页面舆情的判决模型,为舆情决策提供重要参考标准㉙。
(四)倾向性分析
网络舆情倾向性分析主要包括基于语义的网络舆情倾向性分析与基于机器学习的网络舆情倾向性分析。目前已有部分学者在倾向性分析的方法、技术等方面进行了深入的理论和实证研究。
Dave等(2003)研发了世界第一个情感分析工具RevieWSeer,该工具可以对给定网络产品评论给出褒义和贬义结果㉚。O'Connor等(2010)等采用情感分析技术,从大量微博文本中获得网民对重大事件的态度,并与传统的民意调査结果进行比较分析㉛。吴渝(2010)等将发帖人抽象成Agent,设定Agent的参数和交互规则,在此基础上利用小世界网络建立BBS舆情预测模型㉜。崔安颀(2013)针对微博文本长度短、表达形式自由、内容多样性强、语言较不规范等分析难点,提出了基于情感记号的情感词典构造与情感分析方法㉝。
(五)关联规则分析
目前,应用关联规则对网络舆情事件进行分析的实践研究还比较滞后。不过,已有部分学者从理论的角度出发,发现网络热点事件舆情关联是由网民的群体记忆、媒体的
协同过滤与议程设置以及信息的“眼球经济”效应等多种原因造成。舆情关联的作用会推动媒体和网民对事件认知,促进政府实现有效治理,但同时也可能造成网民的反向认知、私人生活的社会化,进而导致政治冷漠等问题㉞。
在实证研究方面,陈京民(2009)等针对网络舆情关联规则挖掘的特点,设计了一种快速有效的基于XQuery的网络舆情关联规则挖掘系统,实际测试结果证明该系统是有效的㉟。任晓霞(2010)等人采用关联规则挖掘的经典算法——Apriori算法,来动态更新知识规则库内容,明显提高了BBS舆情监视的准确度㊱。钱爱玲(2013)等人在已有的论坛舆情趋势预测方法的研究基础上,进一步给出了基于多时间序列关联分析的论坛舆情趋势预测算法(TPMTSA),可用于论坛舆情预警监控㊲。
传统数据时代的网络舆情分析存在以下不足:(1)只关注局部舆论的变化,忽视其他群体的舆论变化;(2)在分析网民观点或舆情走势时,只关注网民跟帖情绪和态度,忽视了网民心理的变化;(3)只关注文本信息,较少关注视频、图像等多媒体内容;(4)只分析网民文字内容,忽视复杂多变的社会关系网络㊳。
通过全文,可以看出如今有关网络舆情分析的研究仍不是很完善,在很多方面仍有缺陷。这就要求对网络舆情分析方法进行不断的革新,这样才能使网络信息更好地为社会和大众服务,为大众提供越来越便利的条件。
(一)研究的不足
有关大数据、网络舆情分析的文献相对而言还是比较少的,并且不同学科学者都是从各自学科出发对相关领域展开研究。综观上述国内外学界相关研究,主要存在以下不足:
1.缺乏跨学科的有关研究,研究学科视角单一。大数据环境下的网络舆情分析是一个具有综合性的社会问题,牵涉到大数据挖掘、舆情分析、政府决策等多方面的研究领域,这就需要集合不同学科领域的专家学者,打破学科界限,学科融合、文理交叉,共同围绕某一问题进行全局化、立体化、动态化的综合探讨,如此才能保证研究结果适应现实需要。
2.未能有效地实现网络舆论与现实民意的结合。在互联网上的发声者往往只是一小部分的活跃分子,因此,仅依据网络上的一小部分声音来分析网络舆情,存有一定的偏颇。所以,想要通过深入解析大数据时代下的网络舆情来反映真实的民意,就必须把网络舆情监测数据与民意调查数据结合起来。
3.缺乏对数据的整合,未能有效地结合网络舆情数据与相关外部数据。想要充分发挥大数据在网络舆情分析方面的价值和功用,就需要研究者能够有效地整合舆情数据。因此,既要有效抓取海量舆情监测数据,同时也要整合、优化、共享舆情数据和多种政治、经济、文化等方面的相关数据,将数据进行统一分析,为政府的有效预警与科学决策提供数据保障。
(二)研究的展望
随着大数据技术的不断改进以及网络舆情的不断发展,我们必须不断扩展网络舆情的内涵,不断革新舆情的分析方法,保障网络舆情大数据分析方法的可持续开展。这些都将是大数据时代下网络舆情分析的潮流和趋势。针对此,笔者提出以下几点展望:
1.网络舆情分析要与其他舆论分析手段相结合,反映现实民意。网络舆情分析的价值与新闻一样在于其真实性与客观,网络舆情应该反应大部分民众的真实声音,并且大数据技术的发展应服务于公民的权益,而不应沦为某些机构或个人操控舆论的手段。
2.研究网络舆情分析要综合不同学科进行交叉研究。网络舆情分析研究在新闻传播学的框架下仅能解决传播层面的分析,所以,网络舆情分析必须借鉴其他相关学科的知识,那么交叉研究就成为必然。同时,之所以称网络舆情分析研究的方向是交叉学科,而不是社会学框架下的研究或者政治学框架下的研究,是因为网络舆情分析依然离不开新闻传播学“海纳百川”的学科融合土壤和传播过程方面的技术性分析㊴。
3.网络舆情分析向多元化和多向度发展。随着大数据视角向多元化发展,因此研究者要从社会话语表达、社会关系与心理描绘等多个方面,进行多向度的分析研究。因此,在大数据环境下,网络舆情分析视角必须从单向度的内容研究转向多向度的内容及关系研究,经过这样的多向度研究分析,可以从根本上改变网络舆情分析基础匮乏的现状。除此之外,网络舆情信息也向多元化发展。目前,互联网用户已经不再局限于文字交流,他们可以通过语音、视频等多媒体形式来交流,因此多元化的网络舆情信息也是网络舆情分析的重要组成部分,这也是今后的网络舆情分析研究所要面临和解决的问题㊵。
注释:
①中国互联网络信息中心.第34次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/ hlWfzyj/hlWxzbg/hlWtjbg/201407/ P020140721507223212132.pd f,2014-07-21
②冯芷艳,郭迅华,曾大军等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013(01)
③孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(01)
④Aral S,Walker D.Identifying Influential and Susceptible Members of Social N etWorks[J].Science,2012(6092)
⑤[美]巴拉巴西.马慧译.爆发:大数据时代预见未来的新思维[M].中国人民大学出版社,2012
⑥IDC分析师:关于中国大数据市场的十大预测[EB/ O L].中国统计网,http://www.itongji.cn/article/ 111313432012.htMl,2012-11-13
⑦IT168.解读大数据,洞察新价值[EB/OL].畅享网,http://www.vsharing.com/k/BI/2013-3/680405.htMl,2013-03-08
⑧官建文等.大数据对于传媒业意味着什么[J].新闻战线,2013(02)
⑨冯登国等.大数据安全与隐私保护[J].计算机学报,
2014(01)
⑩中共中央宣传部舆情信息局.网络舆情信息工作理论与实务[M].学习出版社,2009
(燕道成系湖南师范大学新闻与传播学院教授、博士;姜超系湖南师范大学新闻与传播学院2012级新媒体与信息网络专业本科生)
2015年度国家社科基金项目“大数据时代青少年网络政治参与的有序机制研究”(15BXW029)