江疆
【摘 要】社交网站具备快捷的信息反馈能力,形成了对社会舆论巨大的影响力,网络言论一定程度上反映一个企业的社会认可度。如何通过对社交网站海量客户评论进行识别和分析,从而判断企业形象已经成为网络时代背景下企业改善自身形象的重要挑战和机遇。本研究以国内某电网公司为例,以用户对电网相关的微博评论作为研究对象,采用文本挖掘技术和情感分析相结合的方法,构建基于微博情感分析的企业形象评分算法,为供电企业判断自身形象并有针对性的采取解决措施提供技术手段。
【关键词】社交网络 情感分析 舆情挖掘 企业形象
1 引言
随着互联网和移动技术的广泛应用,人们越来越多的在社交网站上发表自己对于企业产品和服务的观点和看法,而这些言论的快速大范围传播不可避免的影响到相应企业的社会形象。如何通过对社交网站用户言论的分析得到对企业形象的量化评价是本文的主要研究内容。现阶段对于网络言论的使用主要集中在抱怨处理[1],而没有对这些网络言论造成的企业形象的整体变化进行量化。本文提出一种基于微博情感分析的企业形象评价算法,通过获取微博相关言论和传播信息,计算一段时间内的企业形象得分,从而可以从宏观上把握网络舆论对企业形象造成的影响,了解企业在竞争同行中的位置,进一步的可以更深入的钻取和判断是哪些方面的因素造成的影响,为企业决策提供辅助支持[2]。在计算机领域,舆情挖掘和情感分析主要考察如何运用自然语言处理、文本挖掘、机器学习、人工智能、自动化内容分析等信息技术方法对社交网络上个体评论信息进行情感分类及体系构建[3-5]。处于对企业日常工作指导的价值,这类研究针对的主要是客户抱怨评论,通过加强对顾客抱怨信息的识别、搜集及反馈能力,优化企业决策。本文通过将用户评论内容(正面与负面)与企业运营业务分类相关联,获取各业务关注点情感分值与对企业形象的贡献度。
传统的企业形象评价[6]一般采取问卷调查的方式进行企业形象评价。而随着大数据时代的来临,企业通过网络获取用户行为数据变得越来越容易。因此,基于真实情境大样本数据的实证分析更能够对企业形象管理提供科学合理的优化策略启示。对于不同产业和行业类型的企业来说,通常需要采取不同的企业形象管理策略,例如电信行业与能源行业对企业形象的关注点与管理策略是不同的。本文以国内某电网公司为例,以客户对供电服务的微博评论作为研究对象,在构建客户评论分类体系基础上对进行企业形象评价算法的构建。
2 研究方法及算法
本文研究的主要目标为基于客户微博言论构建企业形象评价,主要步骤为:(1)收集微博客户信息;(2)构建电网相关微博关键词库;(3)计算微博情感分值并判断微博言论情感倾向类型;(4)划分微博言论类型,关联匹配企业服务事件;(5)计算企业形象评分。
2.1 微博客户信息收集
通过计算机爬虫程序模拟人工搜索和浏览实现数据的自动抓取[7],所有抓取数据都是微博博主对外公开的信息,不涉及隐私信息。本文收集的微博客户信息主要包括用户身份、微博内容以及用户行为信息。其中,用户身份信息包括用户名、用户行业、用户性别、账号类别,微博内容数据包括微博发布时间和文本内容,用户行为数据包括关注数、粉丝数、评论数量、转发数量、点赞数量。
2.2 构建电网相关微博关键词库
关键词库即是客户对电网相关评论的关键“词语库”,包括停电、来电、95598客服态度好、铺设电缆扰民等,能够在一定程度上反映对电网的评价。根据某电网业务范围,在客户重点关注领域构建微博关键词库。本文使用的关键词库主要包含以下方面:窃电、抄电表出错、95598、营业厅人员、错峰、诈骗、电压不稳等21类。
2.3 获取客户言论情感分值
客户评论情感倾向可以划分为正面、负面和中立三类[4-7]。目前存在三种识别顾客评论情感倾向的方法:基于词库、基于语料和基于层面[5]。本文采取词库法[8]开展客户评论情感倾向判断,具体工作步骤为:随机筛选部分相关微博,由供电服务专家进行人工分类和情感标定;随机选取部分微博作为样本,利用分词技术和计算机统计算法初步建立情感词库,并赋予每个词一定情感极性权重—权重分正负,越大表示正面感情越强烈,无感情则情感值为0;供电服务专家对词库中所有词进行人工校对,确保准确性,减少评判误差;一条微博包含词库中某类词的权重之和为本条微博情感分值,当情感分值达到一定临界值,则可以对客户言论中包含的情感进行判别(正面或者负面)。
2.4 划分微博言论类型
本文运用基于分词技术的微博分类算法[9],将通过搜索关键词库获取的微博经过分类关键词识别,从而进一步判断该条微博所描述内容的类别,将每条微博的类别对应到相应的业务分类能够更精准的辅助业务提升。
2.5 计算企业形象评分
本文基于以下两条假设形成企业形象评分算法。首先,每一条正面或负面的微博都从积极或消极的方面影响着一个企业的形象评分;其次,微博转发、评论、点赞数和博主身份、粉丝数都对一条微博的影响力有着贡献,而影响力越大对企业形象造成的波动也越大。因此,我们可以通过前一步骤获取的每一条微博情感企业形象得分和微博影响力的大小计算企业形象得分,具体步骤如下:
(1)将情感分值归一化。通过分析大量微博数据,发现所有微博情感分值为 的时候已经可以表达极强烈的正面和负面情绪,因此对任意一条情感分为 的微博,将其情感分归一化为 。
(2)计算单条微博的影响力。单条微博影响力 的计算公式为: 。其中 为此微博博主身份,在本文中普通用户设为1,VIP用户设为10; 分别为粉丝数、评论数、转发数和点赞数,权重 按经验分别设为0.3,0.2,0.2,0.3。
(3)计算单条微博对企业的形象评价分值。 。
(4)计算一类微博对企业的形象评价分值。 ,为属于类别j的所有微博形象评价分值之和经过归一化之后的结果。
(5)计算企业形象评价分值。为所有微博形象评价分值之和经过归一化后的结果,公式如下:
3 算法结果
3.1 样本和数据收集
新浪微博是中国最受欢迎的社交网络,截止2015年第三季度,新浪微博在中国网民中的注册用户已经超过4亿用户,日活跃用户数达1亿。本文以新浪微博客户评论开展算法研究。本次计算时间区间为2015年10月07日至2015年11月03日共四周时间,共获取6312个用户的基础信息,共计24167条微博。
3.2 结果分析
通过对某电网企业形象得分绘制随时间变化曲线图1所示,可以看到微博网络言论主要以附件舆论为主,与人们对服务类企业的期望吻合。人们总是希望服务型企业能有更好的服务,因此在网络上也主要是以抱怨等负面情绪为主。通过进一步对每类微博言论对企业形象评分的贡献可以进一步分析出哪一类言论是对企业形象有负面影响的,这一类言论对应的业务是需要重点关注并改进的,哪一类言论是对企业形象有促进作用的,这一类言论对应的业务是可以更好的进行宣传和扩散的。更进一步,各类微博中对企业形象分值影响较大的微博需要重点关注,一般这类微博博主影响力较大,传播速度快、范围广,因此应单独列出进行后续的处理,例如联系微博博主了解情况、进行安抚等等。通过层层深入的挖掘,可以实现对某电网公司业务的精益化管理。
4 结语
本文以国内某电网公司为例,通过对微博言论进行分析构建企业形象评价指标,通过对该指标的监控可以总体把握企业舆论形象的变化情况,进一步的通过层层深入分析各类别言论贡献度大小从而定位需要重点关注的业务类别,最终可以定位到影响力较大的单条微博,进行差异化的客户服务与公关管理。后续需要进一步研究怎样实时监控企业形象评价,从而对突发情况及时响应。
参考文献:
[1] Johnston, R. & Mehra, S. Best-practice complaint management[J].Academy of Management Executive,2002(4):145-154.
[2] 郭秀英,刘先涛.企业形象评价方法研究[J].商业研究,2004(20):86-87.
[3] Liu, B. Sentiment Analysis and Opinion Mining[M].Morgan &Claypool Publishers,2012.
[4] 何建民,刘明星.面向特定主题的客户抱怨文本分类识别方法[J].合肥工业大学学报(自然科学版),2010(12):1884-1888.
[5] 王洪伟,郑丽娟,尹裴.基于句子情感分析的中文网络评论的情感极性分类[J].管理科学学报,2013(9):64-74.
[6] 王红杰.企业形象评价研究[D].河海大学,2000.
[7] 罗一纾.微博爬虫的相关技术研究[D].哈尔滨工业大学,2013.
[8] Pang, B., L. Lee. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval,2008(1-2): 1-135.
[9] 韩忠明,张玉沙,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,201210):89-93.