舆情服务领域如何运用大数据挖掘技术

2017-03-10 21:00徐科康健刘进
中国科技纵横 2017年1期
关键词:网络舆情舆情数据挖掘

徐科++康健++刘进

摘 要:世纪之初,舆情服务行业在国内兴起。十数年时间里,舆情服务从数据监测服务阶段,发展到风险预测服务阶段,“数据”的核心地位日益凸显,快速有效地挖掘出“数据”的价值也成为舆情服务人员的必备技能。随着信息通讯技术的发展,“数据”量几何式爆炸增长,大数据时代来临。这给舆情服务工作带来新的挑战,诸多基于“大数据”应用的课题亟待研究。本文即以“大数据时代”为背景,着重阐述舆情服务领域如何运用大数据挖掘技术。

关键词:舆情;网络舆情;大数据;数据挖掘;精准价值

中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2017)01-0050-02

世纪之初,舆情服务行业在国内兴起。十数年时间里,舆情服务从数据监测服务阶段,发展到风险预测服务阶段,“数据”的核心地位日益凸显,快速有效地挖掘出“数据”的价值也成为舆情服务人员的必备技能。随着信息通讯技术的发展,“数据”量几何式爆炸增长,大数据时代来临。这给舆情服务工作带来新的挑战,诸多基于“大数据”应用的课题亟待研究。本文即以“大数据时代”为背景,着重阐述舆情服务领域如何运用大数据挖掘技术,以飨大方。

1 认识舆情“数据”

1.1 “舆情”再定义

中正舆情机构认为,“舆情”是生产关系与生产力相互作用过程中产生的社会意见的总和。也即是说,“舆情”是一种信息集合体(社会意见),它包含态度、意见、情绪等多元的符号。根据传播信息的載体的不同,“舆情”可分为传统舆情与网络舆情。本文主要针对网络舆情进行研究,这也是目前舆情服务行业主要关注的领域[1]。

1.2 舆情的“数据”特点

大数据时代,舆情服务作为基础应用,其使用的“数据”具有四大特点。第一,高容量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多类型(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,高速度变量(Velocity),即增长、处理速度快;第四,准确性(Veracity),即追求高质量的数据,只有真实而准确的数据才能让对数据的管控和治理真正有意义。舆情的这4个“数据”特点,既为我们展示了舆情所蕴藏的宝贵财富,也为我们设置了通向财富的“路障”。舆情服务人员需要排除噪声和干扰,对庞大、无序(非结构化)且多变的“数据”进行科学的采集、过滤和分析,这对我们建立科学的“数据挖掘模型”提出了更高的要求。

1.3 舆情“数据”的价值

当前,舆情“数据”已成为机构决策最为重要的参考依据。舆情“数据”的价值并不在于数据本身,而是在于通过分析数据的关联性来指导决策及预测未来。譬如在电商行业,电商平台不仅记录消费者的日常交易信息,还记录消费者每一次探索浏览的过程,经过数据分析处理,可以适时地推送给用户最想要的商品,或者给商家提供各式各样的“情报”、销售建议。从价值的角度来说,舆情管理的核心同样在于“分析过去和当下,预测未来”。

2 让“数据”说话

舆情“数据”要体现其价值,关键是要“让数据说话”。这包含四个重要步骤:数据采集、数据处理、数据分析、数据决策[2]。当前,针对舆情事件的处置工作,皆应遵循闭环式的处理模式,即从采集数据开始,进行分析、研判、应对等步骤,最终这一系列行为也会成为会说话的、新的决策数据如图1所示。

2.1 舆情工作基础:采集并处理数据

因舆情“数据”的4V特点,采集到的“数据”数量庞大、内容繁杂,如果这些采集到的数据不经过初步处理,那么进行后续的舆情分析工作将会十分不便。因此,我们需要对基础数据进行过滤、筛选、整理归类并“去噪”,将这些复杂的非结构化数据转换为便于处理的较为单一结构的数据,同时保证数据的有效性和可靠度。

2.2 舆情工作价值体现:让数据说话

“数据”自身是不会说话的,我们需要对已经处理成结构化的数据进行分析和解读,挖掘其中蕴含的隐性信息,从而帮助政府机构、企业机构进行决策,比如政策制定、危机处置、市场拓展、新市场发现、竞争威胁应对等。机构决策依赖于数据,这要求我们的数据必须“精准”,包括数据采集的精准和数据分析的精准。中正舆情机构认为,在数据大爆炸的今天,以现有的科学技术仅靠软件系统来实现准确的数据采集和分析是不可能的。同时,针对采集到的海量的舆情数据,计算机思维目前也不可能像真正的专家一样,根据每位用户的实际情况来做出精准的定制化分析,故而还需要组建专业的舆情分析团队,“人机并行”分析标签数据,才能有助于机构的数据决策。

3 如何做到“精准”

“及时、有效”,这是体现数据“精准”性的两项重要指标。要做到这两点,就必须建立起一套科学的数据采集、处理与分析模型,从而精确地把握舆情动向,并可大大减少分析工作量。

3.1 数据采集

(1)确定采集任务。针对互联网上的舆情数据,采集工作主要由软件技术完成,人工辅助。采集工作开始之前,需要由舆情服务人员根据“相关性”原则,确定服务对象的舆情需求,从而制定相应的数据采集任务。(2)确定数据来源。选择合适的数据来源,生成采集任务种子集合,这对高质量完成舆情数据采集任务起着至关重要的作用。研究发现,自媒体平台是舆情信息传播的主要渠道,应作为重点采集来源。另外,新闻网站上的网民互动窗口也可以作为舆情数据采集的重要补充来源。(3)确定采集内容。确定数据来源时,可同步确定需要获取的数据内容,即确定一定数量的采集任务“关键词”集群。根据数据获取的难易度,需要分别采取不同的方式进行采集。特别是微信、即时互动等平台,其数据的保密性更强,采集其数据就需要采用一些其他手段,或迂回、或协商等。(4)开始采集数据。网络舆情数据的采集流程主要分为三步:一是指定目标,即找到采集入口,确定采集的数据地址;二是数据下载,下载指定目标数据;三是数据分析,分析采集回来的数据,主要是排重、滤除无关内容、格式化信息。如此形成数据采集的闭环,调整与重复即可完成舆情数据采集。

3.2 数据挖掘(处理、分析)

数据挖掘就是舆情数据的价值过滤与定性。此阶段工作,需要以人工为主,机器为辅。

(1)机器分析。语言表达的意思和表达者的语境相关性很大,对于舆情的分析需要考虑使用接近自然语言的智能分析方法,比如全文检索这种以信息内容为主要研究对象的非关系型数据分析系统,或社会网络检索这种以信息节点为主要研究对象的关系型数据分析系统。(2)人工分析。以上的初步分析工作可由软件完成,其主要目的是将采集到的非结构化数据处理成可以进行人工分析的结构化数据。在人工处理阶段,可以借助一些分析工具,来对已经经过初步处理的数据进行定性、定量分析。

各个輿情研究机构的分析工具各有不同,本文以中正舆情机构为例,简单介绍一种定量分析工具和一种定性分析工具。对于一起舆情事件,我们需要知道它的相关舆情当前处于什么样的状态(舆情发展阶段),破坏力(风险程度)有多大等。对于这些问题,我们可以借助一些指标来进行量化分析,比如中正舆情网络舆情管理指数体系(PUZI)图2所示。

根据软件处理之后的结构化数据,分析人员可以确定出每个KPI关键指标的具体取值,结合各项指标对应的参数,通过数理演算公式计算,即可获得具体舆情事件的当前分值,该数值可以帮助分析人员准确判断舆情事件的发展阶段、风险程度等。决策者可根据舆情发展阶段和风险程度的不同,采取不同的处置方式应对舆情。

一起舆情事件中,往往会涉及到各种不同的个人、群体或机构等,关系复杂难辨,此时我们可以使用一种中正舆情机构舆情定性分析工具——“舆情三体解构工具”图3所示。

“舆情三体解构工具”将舆情事件中的人群或机构分为三大类:第一类是舆情主体,即舆情事件中矛头指向的一方;第二类是舆情客体,即舆情事件中的爆料者或爆料单位;舆情关联体,即舆情事件的相关群体,根据利益相关的程度不同,又可分为强关联体和弱关联体。舆情的发展是变化的,因此,三类群体的身份有可能出现更替交互的情况。借助“舆情解构工具”,我们可以根据这些人或机构在舆情事件中所处的位置和具体表现,厘清他们之间的复杂关系,从众多的矛盾中挖掘出主要矛盾,并根据主要矛盾找出有效的舆情应对方法。

4 结语

舆情服务的价值,在于向服务对象提供大数据的“精准”价值,整个大数据价值的挖掘过程中,软件技术和数据处理模型至关重要。随着“数据社会”的继续膨胀,软件技术和数据处理模型也需要不断发展进步,才能跟得上“大数据”的步伐。

参考文献:

[1]肖江苏.大数据的概念、特征及其应用探究[J].电脑编程技巧与维护,2016(3):57-58.

[2]谢树云,全晓松,申云成.大数据环境下网络舆情评估模型的构建[J].贵阳学院学报(自然科学版),2016(1):54-57.

猜你喜欢
网络舆情舆情数据挖掘
基于并行计算的大数据挖掘在电网中的应用
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
舆情
舆情
舆情
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
微博的舆情控制与言论自由