基于智能元搜索代理的企业网络舆情危机预警

2018-06-14 07:17侯甜甜陈培友
北方经贸 2018年5期
关键词:分词搜索引擎舆情

侯甜甜,陈培友

(黑龙江科技大学管理学院,哈尔滨150027)

一、引言

大数据环境下,人们需要精准、智能的检索工具。据美国数据公司IDC提供的调查数据显示,在2013年全球网络信息资源总量就已经达到2.7万亿GB,并且持续飞速增长,预计到2023年全球数据总存储量将达到135万亿GB,人们已然进入大数据时代。[1]人们无时无刻不在通过互联网获取各种信息,但是Internet上的信息通常以杂乱无序的形式分散在各个开放却又相互独立的节点中,其可利用性和可靠性是处在动态变化之中的,因此人们需要精准、智能的检索工具来应对大数据所带来的挑战。而在大数据背景下,企业的网络舆情危机日益凸显,企业舆情是其形象和门面,它的传播直接关系到企业的品牌塑造、产品销量等等,它几乎决定了企业的生死。有效的舆情传播,在使消费者对于某企业的否定到认可过程中所起到的作用是媒体广告的九倍。[2]因此,对于企业来讲,得“舆情”者得天下。搜索引擎一直是人们查找与定位互联网数据信息的重要工具,但随着网络信息资源的极速增长与用户信息搜索需求的不断提高,传统的搜索引擎自身存在的两个弊端逐渐被放大。一是信息覆盖率较低,二是传统搜索引擎智能化水平较低。因此,要使用户获得较为全面而且准确的信息,就得同时调用多个搜索引擎,然后将搜索信息进行整合。[3]而智能元搜索就在这样的背景下应运而生。

二、搜索引擎与智能元搜索

(一)搜索引擎的基本原理

目前,传统搜索引擎的工作原理主要是:万维网服务器利用“蜘蛛”程序定期搜索网页信息;分析和归档收集的网页,提取关键词和设置索引标记,并将其置入搜索引擎的索引数据库。然后当用户输入检索的关键词时,搜索引擎就会从索引数据库中找到匹配该关键词的网页呈现给用户。[4]然而,这些搜索引擎一般都存在几个问题,例如,网络搜索的覆盖范围是有限的、实现搜索率和准确率都不高,这些容易导致用户在搜集信息时会搜集到脱离其真实诉求的无关信息。很难满足用户的信息搜索需求。[5]

(二)智能元搜索引擎

智能元搜索引擎使搜索系统通过个性化和智能化引入大规模人工智能技术。这些技术包括基于网络的数据挖掘技术,用户的个性化建模,成员搜索发动机动员政策技术,管理技术,文本分类,学习技术等等。同时,智能元搜索可以进行智能动态的调用决策,自动将用户输入的搜索请求递交给最合适的搜索引擎来处理。不仅如此,智能元搜索还能够通过不断地学习来了解用户的兴趣、喜好,从而实现自动选取合适的独立搜索引擎来进行信息搜索。此外,智能元搜索引擎还能够自动对用户输入的关键词所在的文本上下文环境来对关键词的类别进行判断,以达到最优化的查询效果。[6]基于智能元搜索对企业网络舆情危机进行预警,就是因为面对海量的、动态的在线信息数据,智能元搜索引擎可以迅速完成网络发布任务,同时能够快速而准确地搜索出那些不利于塑造企业良好舆情的负面信息,满足企业智能化、个性化、多样化和及时监控的需求。

三、网络舆情危机预警分析

(一)可行性分析

网络舆情以各种形式表现出来,主要包括文本、图片、音视频等,而就当前的技术而言,当前最适合进行挖掘的数据形式仍以文本形式为主。尤其在一些论坛、微博、社区等评论性的网站,汇聚了大量的带有情感倾向的文本信息。网络舆情的本质是一种舆情,而不是网络中存在的具体的数据,因此必须通过广泛的提取具有情感倾向的评论信息数据进行分析后才能得到结果。并且相对于其它的模型,舆情危机预警模型的准确性、及时性尤为关键,要准确地窥探出舆情危机、及时地进行舆情危机预警、有效地消除舆情危机。而智能元搜索技术能够较为全面、快速地获取有关信息或数据,鉴于这些优点所以近些年智能元搜索技术进入了学者的视野并逐步得到重视。综上可知,网络中广泛的评价信息给企业网络舆情预警提供了丰富的信息资源,智能元搜索给舆情危机预警模型的建立提供了技术支持。因此建立基于智能元搜索引擎的企业网络舆情危机预警模型,不仅具有现实需求的迫切性,同时也具有研究上的可行性。

(二)网络舆情危机预警流程

本研究主要基于元搜索系统进行文本的格式及冗余处理及对搜索信息排序处理的基础上进行分词和信息的二次预处理,最终根据语料情感值的大小选择是否进行预警。其中分词采用中科院的ICT-CLAS2015中文分词系统对其进行分词。考虑到情感词典的全面性与权威性,笔者选用大连理工大学情感词汇本体库,该情感词典是建立在国外影响力较大的Ekman基础之上的,并在其基础上将情感词典进行了更为细致的划分。该情感词典中将情感分为7大类21小类,共包含27467个情感词,情感强度分为 1,3,5,7,9 五档,9 表示强度最大,1 为强度最小。给定的词典包括词性、词义数、情感分类、强度、极性值。每个词在每一类情感下都对应了一个极性。其中,0代表中性,1代表褒义,2代表贬义,情感分类以N开头的为负面情感,以P开头的为正面情感。

在该情感词典的基础上将代表中性的词语忽略,褒义词的强度不变,而贬义词的情感强度记为原强度数值的相反数,这样处理便于下面对采集语料的整体情感强度值进行计算。并且根据专家意见设定情感阈值为-5,即当情感值低于-5时则会进行预警。一旦确定预警,则系统会自动从由知识管理(KM)和方案集构成的知识库中调取相应的处理方案,现存知识库中若存在较为合理的方案系统则会自动输出该方案,然后反馈给用户。否则,则人工研究并输入新的可行方案,然后系统自动存入知识库,为以后的决策作依据。整个模型形成一个良性的闭合回路。

(三)实例分析

使用中文元搜索引擎中最具代表性的“元搜”来进行企业信息的获取试验。以国内较大的六家企业为例,其中3家电子企业,3家实体企业。得到有关企业信息排行前30条信息,通过两次信息预处理后,分别对有关企业信息的分词数、正负向情感词条数、情感强度累加值以及是否达到阈值等指标进行数据统计,得到如下处理结果。

表1 六家企业搜索信息处理数据分析表

如表1所示,分别统计每个企业的相关数据指标,可以注意到正负向情感词条数之和并不等于分词数,这主要是由于即使对搜索到的企业信息进行了双重预处理,但中文分词系统在分词时包含了大量中性词条,这些词条并没有明显的情感倾向,因此它们对于情感的强度累加值没有影响。

四、结语

在互联网时代,网络舆情已成为企业获取消费者对于其产品或服务满意度的关键指标,成为企业捕捉危机信息的主要来源。笔者运用智能元搜索技术,通过对不同企业的相关网络信息进行筛选,并结合分词系统与情感词典的运用,对筛选出的网络信息中具有情感倾向的内容进行计算,通过两种类别的六家企业进行验证,并得出了其中三家企业存在着网络舆情危机,这与实际状况是相吻合的,因此证明了本文预警方法的有效性。

[1] Vesset D,Woo B,MorrisH D,et al.Worldwide big data technology and services 2012-2015 forecast.IDC Rep,2012,233-485.

[2] 孙 莹.基于Web文本挖掘的企业舆情情感分类模型研究[D].武汉:华中师范大学,2013.

[3] 李红梅.丁振国.周利华.基于Agent的智能元搜索引擎技术研究[J].计算机科学,2008(10):90-93.

[4] 何友全,徐小乐.搜索引擎用户接口设计[J].重庆理工大学学报:自然科学版,2010(9):63-68.

[5] Wang Zhan-ping,Xiao Xiao.The Study on Early Warning of Online Public Crisis Based on Intelligent Meta search Engine[J].Fourth International Conference on Business Intelligence and Financial Engineering.2011(143):9-13.

[6] 孙劲光,马志芳,孟祥福.基于情感词属性和云模型的文本情感分类方法[J].计算机工程,2013(12):211-215.

猜你喜欢
分词搜索引擎舆情
Chrome 99 Canary恢复可移除预置搜索引擎选项
分词在英语教学中的妙用
世界表情符号日
结巴分词在词云中的应用
结巴分词在词云中的应用
数字舆情
数字舆情
消费舆情
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌