基于大数据的企业主题网络舆情分析系统模型研究

2018-06-13 07:52余宏洪如霞史文津
现代计算机 2018年13期

余宏,洪如霞,史文津

(豫章师范学院信息科学系,南昌 330103)

0 引言

在互联网大数据时代,随着移动网络技术的不断发展,新媒体的应用日新月异,普通民众通过自媒体散发、传播和查阅网络信息非常便捷,民众对社会事件、现象的关注、评论与监督的热情高涨,网络信息的正向效应或负向效应容易放大,极易引发成公共热点事件。然而,绝大多数企业并没有相应的手段来及时发现、并处理网上与企业自身相关的有害信息,品牌口碑、产品市场反馈、消费者行为态度、行业信息、竞争情报等不能及时准确全面掌握,舆情应对能力不足,造成舆情危机处置困难重重,市场决策缺少数据支撑。产生的后果往往是企业形象破坏、品牌价值受损、市场决策失误等,极易给企业发展带来重大负面影响。

目前很多企业采取传统的人工监测的方法开展舆情工作。但是由于互联网应用日益广泛、信息量成海量增长,经常出现涉及与企业自身相关的重要舆情信息已经在网上传播,而不能及早发现、准确应对,导致一些非理性和不切实际的信息传播开来,影响到企业的社会效益和经济效益,因此,人工监测越来越不能满足企业对舆情工作的需求,需要利用先进的网络信息采集与处理、数据挖掘等技术构建先进的企业舆情分析系统,以服务于企业的网络舆情检测。

1 研究现状

企业舆情分析系统的思想来源于话题检测与追踪TDT(Topic Detection and Tracking)。话题检测与追踪采用信息抽取、数据挖掘等技术,主要用于对网络媒体信息流进行话题的自动识别和已知话题的持续跟踪,它已成为自然语言信息处理领域的研究热点。国内舆情研究的起源较早,但取得的成果集中在近几年,从网络舆情信息的采集与提取,到话题的发现与追踪,再到倾向性分析,为我国网络舆情的分析研究提供了有效的方法和手段。当前我国已经成熟应用的相关舆情分析系统主要针对某个舆情个案进行网络舆情挖掘,能在一定程度上为舆情监管部门提供一个代替人工阅读海量网络舆情信息的工具,但网络舆情分析系统中各个模块的作用及相互关系的逻辑结构还有待进一步优化[1]。国内网络舆情系统在技术优势方面各不相同,如中科天玑拥有国内最完善的汉语分词系统ICTCLAS,在自然语言处理和文本分析能力上具有优势;北大方正的WISE知识处理系统,其文本处理能力很强。存在产品功能类同,语义分析能力精度不高,以文本分析为主而缺乏对图像、音视频等数据的关联分析等问题。国外在舆情分析技术方面的研究主要集中在调查问卷数据分析、文本数据自动分析、舆情感情色彩分析、复杂社会网络系统等方面。国外免费上网企业舆情监控软件的功能重点在信息搜索上,通过搜索监控与企业相关的网络信息来得到舆情结果,典型的如Google Alerts是Google的新闻定制自动发送工具,用户可以用它来跟踪一些新闻报道、业界动态等信息。Twitter搜索软件可以帮助企业搜索以获取Twitter中有关企业的各种信息。

2 相关理论

2.1 大数据

对于大数据的概念,还没有一个统一的定义。一个用得比较多的提法是:大数据(Big Data),指的是所涉及的数据规模大到无法通过当前主流的软件工具在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯,具有量大(Volume)、产生速度快(Velocity)、数据类型多样(Variety)、价值密度低(Veracity)等特点[2]。

海量数据处理是采用分布式方式来解决的,Hadoop是一个成熟的、被广泛应用的分布式系统。Hadoop是一个开源的软件体系、允许用户自己修改代码、硬件成本投入低等特点,同时能支持海量数据存储和计算任务。HDFS是一个高度容错性的分布式文件系统,为用户提供流式的数据读写服务,有利于提高了系统的数据吞吐量,故特别适合于大数据应用。

MapReduce是一种分布式软件编程框架,遵循“分而治之、移动逻辑、屏蔽底层、处理定制”的设计思想。把大规模数据拆成N个数据块部分,由一个主节点将MapReduce函数分发到各个数据块的分支节点机器上并行计算,然后通过合并各个分支节点的结果,得到最终结果,该处理过程被高度抽象为MapReduce的map()和reduce()两个函数,map(映射)负责对每个部分数据进行分析,reduce(归纳)负责把各个结果汇总起来,这种并行计算方式极大提高了数据处理的速度。

2.2 企业网络舆情的概念

关于舆情,没有一个统一的定义,不同的学者对此定义的侧重点不同,一个较全面的定义是刘毅在《网络舆情研究概论》中的描述:“舆情是由个人以及各种社会群体构成的公众,在一定的历史阶段和社会空间内,对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、意愿、态度和意见交错的总和[3]。”

网络舆情是社会舆情的一种具体表现形式,它是由网络言论发展而来的,但网络言论能否发展成为网络舆情在很大程度上依赖于网络言论议题是否具有强烈的活跃性和敏感性,其发展过程存在着网络言论由潜在舆情向显性舆情转化的关键阶段,网络的开放性和隐匿性为潜在舆情提供了公开表达的场所[4]。网络舆情信息多元、传播快捷、方式互动,具有传统媒体无法比拟的优势,网络舆情既有积极健康的一面,同时也有消极颓废的一面,如果我们对初露端倪的不良舆论苗头进行有效抑制,就可以掌握网络舆论引导的主动权。

企业网络舆情则是网络舆情范围的进一步缩小,限于跟某个企业主体相关的舆情内容,是广大网民在特定的时期和网络空间内,对特定企业发生的某个产品生产、或服务提供的事件,通过网络表达的多种情感、态度和意见的集合。

2.3 企业网络舆情的特点

随着互联网对人们生活影响的逐步深入,企业越来越重视与自己相关的网络舆情传播对自身形象的影响。网络博客、社交网络平台(论坛、微信、QQ等)、网络新闻评论,以及电子商务平台是企业网络舆情传播的主要渠道。

越来越多的企业开始重视企业自身的口碑在网络舆情传播中的重要作用。包括网络新闻媒体、社交网络平台(微博、微信、QQ等)以及电子商务平台。企业网络舆情具有网络舆情的一般特征:舆情信息存在空间的虚拟性;舆情传播的实时性;网络参与主体发表、传播和反馈舆情信息的交互性;互联网结构的开放性所决定的企业网络舆情传播方式的开放性等。企业网络舆情在管理上与社会网络舆情又存在着明显的不同:

(1)在网络信息处理范围上:企业网络舆情管理仅针对网络上与企业自身利益相关的舆情信息进行处理。因此,在从舆情信息源获取原始信息时,可以有针对性地进行信息过滤,大大减少了企业舆情管理系统的信息处理量。

(2)在语料的积累和交互历史的积累上:在社会网络中企业与客户的交互往往集中在企业的官方微博、微信公众号、企业产品销售平台及行业论坛,所以很容易收集积累的语料;而政府级的舆情管理往往缺少相应的语料,因为舆情事件发生时,网民的留言是比较分散的。

(3)在舆情管理的时效上:企业网络舆情往往因某个突发事件致使其在短时间内大规模的传播与爆发,而且其影响会立刻传导到企业的生产和销售业绩上,因此,企业对网络舆情进行监控与管理的时效性方面要求比较高。而政府对社会舆情的管理相对来说所涉及的范围更大,对网络舆情进行正确引导的时间相对较长,舆情产生的影响力更加平均,因此,政府对社会舆情管理的时效性的要求不如企业舆情管理高[5]。

(4)在靶向目标方面:企业舆情管理有较强的靶向性,主要针对的是企业相关的人群,包括客户、合作伙伴、主要竞争者、潜在目标客户等。而政府级的社会舆情管理针对的是整个国家的、全方位的舆情管理,与企业相比广度更宽,靶向性较企业较弱。

(5)在舆情的处理方式上:企业舆情管理偏向于积极的运用和发挥,而政府级的舆情管理则偏向于监督和防范。具体来说,企业舆情一般是对企业品牌的口碑、竞争对手动态、行业状况和热点事件等内容进行信息的收集、汇总分析及进一步的传播,进而达到商业盈利的目的。而政府级的社会舆情管理则注重利用网络及时发现对国家利益产生不利影响的信息及时进行监管和处理,把对社会造成的不利影响降到最低。

3 模型设计

在大数据背景下,企业网络舆情数据具有分布广泛、数据类型多样化、数据体量大、产生速度快等特点,对企业网络舆情分析系统模型的设计提出了挑战[6]。企业网络舆情管理系统在大数据背景下应该满足如下要求:

(1)舆情信息获取的全面性。企业网络舆情信息来源广泛,作为数字化记录的用户内容,可能以文字、图片、视频等形式分布在相关新闻网站、论坛、销售网站、点评网、聊天平台中,而且这些内容在大数据环境下增长非常快,为使获取的企业网络舆情信息比较全面,需要采用并行搜索技术和大数据处理技术。

(2)舆情信息获取的针对性。企业网络舆情信息管理系统相对社会舆情系统而言,所关注的信息面的广度比较窄,只关心与企业有关的主题信息。因此,为提高系统的效率,需要对系统爬取的信息进行过滤。

(3)舆情信息处理的时效性。由于企业的舆情常常因为某一突发事件的触发导致在短时间内大规模的爆发与传播,因此,为减小舆情对企业业绩的不良影响,留给企业进行舆情管理和控制的时间非常短。

网络舆情分析包括通过网络爬虫等工具从互联网上采集信息开始到最后将获取的舆情信息服务于舆情管理的一系列流程,首先从网络上采集舆情数据资源,对采集得到的Web页面等数据进行预处理,抽取其中的关键信息,然后将关键信息进行建模并通过相关算法进行内容上的分析,最后将分析结果提供给用户[3]。因此,结合上述要求进行企业网络舆情分析模型的设计,设计的基本原则包括:利用Hadoop大数据平台和HDFS及MapReduce技术实现企业网络舆情海量数据的存储与处理,提高企业舆情处理效率;对反映企业舆情的文字、图片等信息能够自动采集、处理和分析,并及时发现企业舆情热点。企业网络舆情分析模型的信息处理流程总体设计如图1所示。

图1 基于大数据的企业主题网络舆情分析系统模型

(1)舆情数据采集:即从互联网中抓取与企业舆情事件相关的数据,形成目标数据集。

数据采集完成从网络信息资源中获取页面数据的工作,数据抓取过程中解决的主要问题是网络爬虫的实现以及优化,具体包括Deep Web下载、网页脚本解析、爬行策略控制等。相对于通用舆情系统,企业舆情系统所关注的信息面比较窄,往往集中在和企业相关的信息,因此,我们将数据采集过程中获得的原始数据通过“主题关键词过滤”算法进行过滤。具体包括以下几步:

①网络爬虫根据初始URL集合对相关新闻门户网站、论坛、大众点评网、微博平台等进行爬行并下载相关的网页。

②对爬取的原始页面按“主题关键词过滤”算法进行过滤,得到主题相关的页面。

③在本地对每个网页进行解析分块,过滤掉无用信息块后将有效信息块的信息保存到数据库,将块内文本和图片分别保存起来。

由于网络舆情系统需要对多个不同网络社群的网络页面进行采集,这在大数据环境下数据处理工作量非常大、而且数据集中存储的压力也很大。我们可以利用Hadoop技术将舆情数据采集和初步的预处理过程(例如分词、关键词统计等)从舆情计算中心分散到各个网络社区计算节点上,基于HDFS文件系统构建HBase分布式存储系统存储舆情数据,利用MapReduce来处理HBase中的海量数据。

(2)数据预处理:网络舆情的载体主要是网页中的文本及图片等信息,因此,企业网络舆情信息预处理主要包括以下任务:

①网页解析与分块。首先利用网页中的空间特征、内容特征及标签信息对网页进行分块,然后对分块的结果进行识别合并,最后过滤掉无用信息块后将有效的信息块保存到数据库。利用Eclipse开发工具,扩展Heritrix中的页面分析与信息抽取中的Extractor组件来实现网页内容的解析和网页的分块,为基于DOM分块的特征项权重计算提供依据。

②特征选择与语义特征转换。采用改进的NGram的特征项选择方法对主题网络舆情Web文本进行特征选择;然后在舆情信息特征选择的基础之上,采用语义特征抽取转换的方法得到企业主题网络舆情Web文本的语义特征。

③页面相关度计算。把经过分块过滤后的页面以特征词文本向量的形式进行表示,计算企业网络舆情主题库中的特征向量和页面文本向量间的相似度,从而确定相关页面。

(3)企业主题网络舆情分析模块:主要完成企业主题网络舆情话题检测、话题追踪、倾向性识别等功能。

舆情信息聚类子模块:该子模块是主题网络舆情话题检测的主要技术实现手段,采用基于语义的主题网络舆情信息聚类方法对采集得到的Web文本进行自动聚类,得到舆情话题。

舆情信息分类子模块:该子模块是主体网络舆情话题追踪的主要技术实现手段,在舆情信息聚类的基础之上,采用基于语义的主题网络舆情信息分类方法对采集到的Web文本进行自动分类,得到与已有话题相关的后续报道,并将其归入已有的话题之中。

情感倾向性识别子模块:采用基于情感本体的主题网络舆情倾向性分析方法对企业主题网络舆情进行倾向性识别,得到Web文本的褒贬倾向类别。

图像内容的识别。有研究表明,有图像的微博、微信转发率要明显高于纯文字的,因此,要分析企业的网络舆情,图像舆情是不可或缺的。图像内容识别的困难在于从图像像素中提取的视觉特征和用户对图像内容的含义的理解之间存在语义鸿沟。为消除语义鸿沟,对图像识别分类器中的图像训练数据通过人工的方法标注类别信息标签,然后新图像在经过图像识别分类器处理后自动添加上所属类别的语义标签。在这里,将企业的LOGO图片、企业领导照片、企业名称等图片作为训练数据,利用SIFT算法对图像特征进行提取,然后应用SVM分类器实现对新收集的图片进行分类并标注语义信息。

Sipo-Ontology管理维护模块:采用基于本体的主题网络舆情知识模型构建方法创建Sipo-Ontology,并对其进行管理维护。

情感Ontology管理维护模块:采用情感本体构建方法创建情感Ontology,并对其进行管理维护。

(4)舆情报告与预警:利用相关的工具和技术对网络舆情分析模块挖掘出来的知识进行文字或图形化的表示,并根据分析结果对企业网络舆情管理的实践提供决策参考。

4 结语

本文在分析大数据和企业网络舆情相关概念和技术的基础上,根据企业网络舆情的特点构建了大数据环境下的企业主题网络舆情分析系统模型,并分析了模型各个模块使用的关键技术:数据采集模块采用主题爬虫,通过主题关键字过滤法,使获得的网页数据聚焦于企业的主题相关;数据预处理模块对文本向量转换为语义特征表示;舆情分析模块对采集的图片进行内容识别,借助领域本体和情感本体进行基于语义的分类和聚类处理,获取对企业舆情管理有价值的信息。本文的舆情分析处理的重点在所涉及的文本信息,对图像内容识别做了初步分析,但是对其他多媒体信息、社会网络关系所包含的舆情信息的挖掘还有待进一步研究。

[1]王兰成.网络舆情分析技术.国防工业出版社,2014,10.

[2]王静婷,徐震.一种基于知识技术的网络舆情内容分析系统框架.图书情报导刊,2016,2.

[3]梁循,许媛等.社会网络背景下的企业舆情研究述评与展望.管理学报,2017,6.

[4]王宇.基于云计算的网络舆情热点发现研究.内蒙古工业大学硕士论文,2016,6.

[5]梁循,杨小平,李志宇.社会网络大数据下企业舆情建模和管理.清华大学出版社,2016,2.

[6]马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究.情报科学,2016,3.