高学东, 王 艾
(北京科技大学 东凌经济管理学院,北京100083)
网络舆情作为新媒体环境下网络用户对于特定社会现象所持有的不同观点、态度、情绪和行为倾向的总和,随着社交网络用户数量的激增而呈现出内容自由度高、传播速度快、覆盖范围广等特征,并在我国经济社会的生产、生活中扮演着日益重要的角色[1,2]。
网络舆情监测问题一直是政府相关管理部门和企业相关组织机构的研究热点之一[3]。政府监测网络舆情的目的是对网络舆情进行引导或干预,避免负面网络舆情的病毒式传播[4,5];而企业监测网络舆情的目的是在激烈的市场竞争中快速获取竞争情报、扩大企业优势[6]。
现有企业网络舆情的研究工作主要集中于舆情的预警机制设计、传播过程识别、危机应对策略分析等问题[7~9],而关于企业如何利用网络舆情来丰富原有客户关系管理内涵、并从而提升企业竞争优势的研究较少。
本研究针对网络舆情环境下的企业客户关系管理问题,利用文本挖掘技术和聚类方法,实现基于企业网络舆情的客户满意度预测,并根据预测结果为企业销售战略的制定提供决策支持。
在网络舆情环境中,存在三个关键实体,即企业客户、网络用户和企业网络舆情[10]。企业客户是指在现实社会中,购买或体验过企业提供的产品(或服务)的真实消费者。因而,企业与客户确立了以产品为中心的销售关系。
网络舆情的热点话题深入到经济社会生产、生活的方方面面,例如国内外政治经济局势、社会突发事件、文化娱乐生活等[11]。企业网络舆情特指以企业或企业所经营的具体业务为话题的网络舆情,如产品网络舆情等,它能够直接影响企业的生产经营效益。所以,企业可以通过获取与其主营业务相关的网络舆情,来改善经营现状,特别是拓展与客户互动的渠道。
社交网络平台由于其自身使用便捷、信息传播速度快等优势,是企业网络舆情传播的重要渠道,如微博、微信朋友圈、QQ空间等[12]。网络用户作为社交网络世界的缔造者和参与者,其活跃度对企业网络舆情的传播产生重要影响。
(1)企业客户与网络用户间的关系
DONG[13]在研究移动社交网络用户对联系人产品推荐信息反应意象的影响因素中,明确了企业客户与网络用户的关系。实证研究表明,网络用户一旦建立对企业产品或服务的购买意愿,就转化为企业客户,且联系人产品推荐模式对网络用户转化为企业客户起到较大的促进作用。而企业客户一旦在社交网络平台上发布或浏览信息,就直接成为网络用户。所以,社交网络平台的发展使得企业客户向网络用户的转化速率快速提升,甚至对于销售手机等同类电子产品的企业,客户就是网络用户。
因此,企业客户与网络用户具有双向可达联系,并且随着网络基础设施的普及、社交网络平台的完善,联系将会向紧密化、稳固化发展。
(2)网络用户与企业网络舆情的关系
LI et al.[14]研究了面向舆情主题的微博用户行为,明确了网络用户与企业网络舆情的关系。实验结果表明,信息传播中的网络用户存在三种类型,即一般关注型、主动参与型、以及信息传播型用户。其中,主动参与型用户以自身为中心,向周围联系人主动散播舆情信息,且用户行为特征对舆情主题敏感。而信息传播型用户在企业网络舆情传播过程中活跃度最高,是重要舆情信息转发、创造者,甚至是舆情领袖。所以,主动参与型和信息传播型网络用户均可以通过在社交网络平台上对企业产品进行评论、意见反馈来营造企业网络舆情。同时,企业网络舆情又可以通过社交网络平台传播并影响所有类型用户。
因此,主动参与型和信息传播型用户与企业网络舆情具有双向可达关系。
综上,大量企业客户已经将其对于企业产品的意见主动反馈到了社交网络平台上,甚至参与了该产品网络舆情的构建及传播。这无形中开发出一条由客户推动的意见反馈渠道,为企业获取产品情报、实践客户关系管理提供了新模式。
(3)网络用户-企业网络舆情关系的稳定性
GAO[15]在研究网络舆情形成机理及信息受众观点测度中,进一步明确了网络用户与企业网络舆情的关系。依据网络舆情场理论,将网络舆情场内信息受众观点测度分解为三个维度,即个体维度、群体维度、以及整体维度。个体维度观测范围为场域内每一位网络用户,在实践过程中面临信息失真、个体行为滞后等问题。群体维度观测范围为具有信息交互的同质网络用户个体群落(类),网络用户类往往处于明晰场域中,并具有一定的鲁棒性。整体维度观测范围为全部网络用户,测度的目的由网络用户本身转向网络舆情场的极性与强度。因此,由于网络用户群体行为具有鲁棒性特征,只有主观参与型和信息传播型网络用户类到达企业网络舆情的单向联系具有稳定性。
所以,本研究仅考察主观参与型和信息传播型网络用户(简称网络用户)类至企业网络舆情的单向联系。并且针对具有清晰话题的企业网络舆情,网络用户与企业客户在群体行为上具有等效性。
客户满意度作为反映企业竞争力的重要因素,企业会根据自身所处行业、以及经营的产品或服务的特征,识别客户满意度的影响因素,从而构建符合企业实际的客户满意度评价指标体系[16]。进而,依据评价指标体系得到客户满意度的定量化结果后,通常采用主观设定阈值的方式,将客户满意度划分为3~7个不同的等级,例如不满意、一般、满意等[17]。
现有客户满意度指标体系数据来源往往还是依靠对企业客户展开抽样满意度调查的方法,例如借助客户投诉系统、客户满意度调查问卷等,在现实环境中人为设置数据采集点[18]。企业不仅需要承担较高的调研和数据统计分析成本,也无法准确掌握开展客户满意度分析工作的时机。
然而,由于社交网络平台的出现,企业客户已经将涵盖满意度信息的文本评论发布到了网络环境中,即客户推动式意见反馈渠道,企业可以直接获取相关评论数据,并通过文本挖掘的方式得到最终的客户满意度。
不同于具有清晰空格分隔的英文句法结构,中文文本因其自身复杂性,往往需要参考中文情感词典或中文情感预料库来实现文本情感极性分类[19,22]。现有研究中,中文文本情感分析方法日趋成熟,除文本数据外,社交网络评论中常见的表情符号也是研究热点之一,已有大量研究探索利用表情符号提升情感分类效果[20,21]。
相较于现实环境,网络环境具有更高的开放度、包容度,用户可以更加自由地在网络平台上进行信息交流、意见表达。所以,网络评论文本除了能够反映用户对某一具体产品、服务的意见、满意程度之外,还会流露更多个性化信息,如近期关注热点、兴趣爱好等,可以为企业制定销售战略提供具有较高参考价值的有利信息。
针对网络舆情环境下的企业客户关系管理问题,现有研究的不足主要表现为没有将企业产品(或服务)的真实消费者与社交网络用户之间建立关联,忽略了企业客户自发建立的意见反馈网络渠道,因而无法真正发挥企业网络舆情在客户关系管理中的价值。
历史研究成果对本研究的理论支撑主要体现在:①在具有清晰主题的企业网络舆情约束下,企业客户与网络用户在群体行为上等效;②对于与企业产品或服务相关的文本评论内容,情感分析结果能够得到网络用户满意度;③文本评论内容中蕴含大量企业销售战略制定过程中期望参考的个性化信息。
传统企业运营过程中,企业通过生产经营产品并销往客户,形成了经典的“企业-客户”产销业务渠道。随着社交网络平台的快速发展,网络用户在平台上主动对企业提供的产品进行评论、意见反馈,进而产生以产品为话题的网络舆情。多数企业已经意识到网络舆情的价值,并设立舆情监测部门或岗位,通过监测、获取企业网络舆情,尝试挖掘竞争情报、扩大企业优势,这同时也建立了“网络用户-企业”信息传播渠道。此时,产销业务渠道与信息传播渠道表现为以企业为核心的单向串行结构。
然而,本研究通过第1.1节分析结果,发现企业客户与网络用户在企业网络舆情和群体测度两个约束条件下,能够形成行为等价关系,由此提出企业客户推动式信息反馈模型(图1)。企业客户与网络用户的等价关系一旦建立,网络用户关于企业产品的态度、情绪、意见就等效于客户的态度、情绪、意见,只是通过文本评论的方式表达出来。可见,该模型呈现为一个具有稳定性的闭环结构。
依据企业客户推动式信息反馈模型,企业若想获取反映企业竞争力的客户满意度情报,除了传统方式进行客户满意度实地调查外,又增添了新的渠道,即相关文本评论的情感分析。
所以,本研究的主要任务是建立企业网络舆情约束和群体测度约束的求解方法,以利用网络用户与企业用户的等价关系来实现客户满意度预测。
图1 企业客户推动式信息反馈模型
分析企业客户推动式信息反馈模型发现,网络用户与企业和客户均具有可达关系。
企业网络舆情约束对网络用户的具体要求为:①网络用户必须真实参与了企业网络舆情的传播过程;②网络用户的观点、态度具有准确性,即与舆情内容相符合。群体测度约束对网络用户的具体要求为:①以网络用户群体(类)为研究对象;②网络用户群体(类)应具有明显特征,以便实现销售决策支持。
根据上述要求,确立本研究的技术路线(图2)。首先,构建网络用户舆情敏感性指数来实现舆情检验工作,从而得到初始网络用户。其次,提出变尺度聚类算法,通过广度尺度变换,完成关键网络用户识别;通过深度尺度变换,完成用户—客户关系建立。最后,针对不同客户群体(类)的客户满意度预测结果匹配最佳销售战略,并结合客户群体的特征制定销售战术。(具体研究方法见第3节)
图2 研究框架
“尺”是所有可能用于观测对象的角度、“度”是对象在尺上的所有可能取值,“尺度”共同构成了丈量事物的客观准则。尺度是人的一种先验知识,与其被用于观测的对象无关。只有当尺度被用于衡量具体对象后,才会形成包含对象、属性的数据结构,并实现数据存储。
“尺度变换”是为满足某种对于特定对象的观测需求,如获取对象特征,通过调整、选取合适的尺度来得到期望数据的过程。这种观测需求既可能是初始明确的,也可能是初始模糊而在尺度变换过程中逐渐清晰的。尺度变换则与被观测对象有着紧密关联,主观人为尺度变换也正是人类智能的重要体现。
传统聚类算法是在单一尺度上的挖掘过程,即在一次完整的聚类任务中,初始数据集不发生任何变化[24]。尺度本身就体现类结果的特征。由于初始数据的尺度并不一定是最佳观测尺度,且同一组尺度应用于不同数据集的结果表现往往不同,所以传统聚类算法在实践应用中经常会出现只有少部分类的特征较为明显的问题,并随着数据量增大而问题加剧。
在问题求解理论中,尺度通常是以概念的形式存在于人的知识体系中[25]。由于概念间本身具有联系,本研究将概念(尺度)间的扩展联系引入聚类分析方法中,提出概念空间模型(图3)。
图3 概念空间
概念空间由概念链和值空间两部分构成,概念空间的层次结构具有特征:①低层级概念偏序于高层级概念,即CHi≾CH(i+1)(i∈N);②每一个概念都可决定同层级的值空间取值;即Vij∈CHi(j∈N+);③同层级的值空间取值遵循该概念链的偏序关系,即CHi≾CHk→(j∈N+)。
依据概念空间模型,尺度变换分为两个类型:①深度尺度变换,以概念链中的概念为观测尺(属性)、以此概念所对应的同层值空间取值为观测度。深度尺度变换过程中,观测度随观测尺的层级变化而变化,也被视为同步尺度变换模式;②广度尺度变换,以值空间中的取值为观测尺(属性),以对象与观测尺的范数关系为观测度。广度尺度变换过程中,不同观测尺可以处于不同的层级,也被视为异步尺度变换模式。
依据粗糙集理论中的决策表结构[26],定义深度、广度尺度变换的多尺度数据集。
定义1(多尺度数据集)对于任一数据集D=DO=(U,AO,VO,f O),多尺度数据集DS=(U,AT,VT,f T),其中,U是DO和DS的共同论域,AO是D的原始属性(原始尺度),AT是D的目标尺度,且AO≾AT,AT={t|(a∈A0)∧(t=CH(a))}。对于深度多尺度数据集,CH(a)是属性a的概念链中任一概念;对于广度多尺度数据集,CH(a)是属性a的值空间中任一取值。
由于概念空间的离散特征,深度多尺度数据集较为常见且属性均为分类属性。而广度尺度变换数据集较为特殊,文本挖掘中的词袋模型就是一种广度多尺度数据集,本研究中仅考虑所有的属性均为二值属性的广度多尺度数据集。
定义1表明,尺度变换就是针对某一数据集D,依据概念空间中属性的偏序关系,将原始尺度AO转化为目标尺度AT的过程。
定义2(尺度变换率) 尺度变换率用于度量尺度变换所引起的数据分布变化:
其中,U/AO={,…,},U/AT={,…,}。
传统聚类结果有效性评价指标[27]均是从聚类结果的整体出发,得到所有类表现的一个综合评价值,并不适用于关注个体类表现的变尺度聚类算法。
定义3(粒度偏差)令CI代表一个含有n个对象、m个属性的类(xij∈CI),a是CI中的一个属性,粒度偏差为:
其中,对于由分类属性构成的深度多尺度数据集,x Ij为类CI在每个属性中的众数;对于由二值属性构成的广度多尺度数据集,只有全0属性时x Ij=0,其他情况x Ij=1。如果xij=x Ij,δ(xij,x Ij)=0,否则δ(xij,x Ij)=1。G(U/a)是商U/a的知识粒度。
粒度偏差GrD(CI)度量了类CI的离散程度,GrD(CI)取值的减小代表类内对象xij间相似度的提升。给定某一观测尺度上的阈值R0,只有当GrD(CI)≤R0,表明类CI满足质量要求、结果可接受。
本研究假设每一次变尺度聚类过程只实现单一属性的尺度变换。
依据假设,深度尺度变换是将一个原始观测尺转化为一个目标观测尺,而广度尺度变换是将多个原始观测尺转化为一个目标观测尺。
虽然深度与广度尺度变换在多尺度数据集和粒度偏差评价度量上存在差异,但其尺度变换本质相同。由此,提出面向广度和深度尺度变换的变尺度聚类算法:
输入:多尺度数据集D,概念空间CS,尺度变换率阈值S0,初始聚类参数k;
输出:满意类Cj及其尺度Aj。
Step 1对于初始数据集D,应用聚类参数k进行初始聚类。
Step 2主观判定出满意类Ci,将Ci及其尺度Ai输出,同时在数据集D中删除Ci中包含的所有对象。
Step 3计算Step 2中所有满意类的粒度偏差GrD(Ci),并将最大粒度偏差作为阈值R0。
Step 4选取属性Aj进行尺度变换,若尺度转化率STR(Aj,CH(Aj))<S0成立,则更新多尺度数据集D,用CH(Aj)替代Aj。
Step 5更新阈值R0,计算上一次聚类结果中最小未满意类Cj在新尺度CH(Aj)的粒度偏差,取GrD(Cj)与R0的较大值。
Step 6对于当前数据集D,应用参数k与上一次输出的满意类个数的差值进行聚类。
Step 7计算所有类的粒度偏差,小于R0的类作为满意类,连同当前尺度一起输出,并在数据集D删除输出类的所有对象。
Step 8重复Step 4,直到数据集D为空。
变尺度聚类算法的时间复杂度为O(nmkt),其中n为对象个数,m为属性个数,k是类个数,t是迭代次数。
本实验目的在于完整展示企业利用网络舆情来获取客户满意度情报,从而提升客户关系管理水平的全过程。同时,验证变尺度聚类算法在处理高维度、稀疏、大量数据时的准确性和运算效率。实验设计见图4。
本实验共包含5个实验环节,即数据采集及预处理、网络用户群体识别、网络用户舆情敏感性评价、企业客户满意度预测、以及企业销售战略战术制定;7种数据分析方法和技术,即网络爬虫、文本分词、情感分析、舆情监测、广度尺度变换聚类算法、舆情敏感性指数、深度尺度变换聚类算法;以及2个目标数据输出结果,即企业客户分类结果、以及销售战略和战术。
由于数据采集及预处理并不是本研究的重点,所以直接采用成熟的方法和软件实现(本文第4.2节详述)。
网络用户群体识别和网络用户舆情敏感性评价,分别用户实现企业客户推动式信息反馈模型(图1)中的群体测度约束、以及企业网络舆情约束。
网络用户舆情敏感性评价的基本思想为将企业网络舆情的关键词热度排序转化为词语权重,结合网络用户文本分词结果中的词频数,计算每个用户的舆情表现得分,从而判断网络用户的舆情敏感度。由此,定义网络用户舆情敏感度指数:
其中,tfik为网络用户xi的文本内容中出现第k个词语的频数,Hk为第k个词语在某特定网络舆情环境的权重,可以通过热度数值标准化来求得。
图4 实验设计
(1)数据采集
本实验选取7天内新浪微博上所有个人认证用户发布的关于“iPhone X”的原创微博作为数据源,利用Python中的网络爬虫框架Scrapy,总共采集到4350条符合表1中数据采集要求的文本数据。
企业客户数据来源于一个电子产品销售公司营业部(含手机),随机抽取625条真实客户数据作为分析样本,其数据结构能够匹配表1中企业客户满意度预测环节的网络用户数据结构。
图5 舆情关键词及热度
此外,利用公开网络舆情监测软件,得到了“iPhone X”在表1研究时段的网络舆情关键词及热度排序(图5)。
(2)数据预处理
数据清洗是通过限定原创微博的最低点赞数、评论数、转发数来去除掉信息价值较低微博,如手机营销广告、手机功能介绍等。本研究中,设定最低点赞数为12、评论数为8、转发数为6(三者满足其一即可),最终保留微博580条。
用户过滤是通过微博影响力指数[28]来为研究时段内发布多条原创微博的用户择一代表。原创微博影响力指数为点赞数、评论数、转发数、新鲜度(发布时长)的综合表现。最终,得到了300条原创微博,分别对应了300个不同的网络用户。
情感分析是将每条微博(网络用户)的情感强度划分为与目标客户满意度相一致的等级分布,如“满意、一般、不满意”。本情感分析工作得到积极情感类(满意)网络用户160个、中立类(一般)网络用户69个、消极情感类网络用户(不满意)71个。
文本分词是将各类用户的微博内容进行细粒度切分,并构建词袋模型。最终,得到满意类用户研究时段内的热点关注原始词1404个、一般类用户研究时段内的热点关注原始词719个、不满意类用户研究时段内的热点关注原始词515个。
表1 网络用户数据采集要求
至此,完成全部数据预处理工作,结果见表2。
表2 数据预处理结果
网络用户群体识别是利用广度尺度变换聚类算法,对网络用户进行群体划分,即得到具有明显特征的网络用户类(图6)。
图6中,每一个矩形色块代表一个用户类,矩形在类坐标横轴上的宽度代表该类中的用户数量,矩形在尺度纵轴上的长度代表用于观测该类的观测尺个数。矩形对应粒度偏差横轴上的数值代表该类在当前尺度下的粒度偏差。
可见,广度尺度聚类变换是在保证结果有效性的前提下的一个观测尺逐渐递减的过程。网络用户群体识别环节一共得到了7个满意用户类、6个一般用户类和2个不满意用户类。
图6(a) 满意类网络用户聚类结果
网络用户舆情敏感性评价是通过计算网络用户舆情敏感性指数,在每一个网络用户类中筛选出真正参与企业网络舆情传播过程的关键网络用户。
图6中,具有加粗边框的色块代表该类中含有一个通过舆情检验的用户。网络用户舆情敏感性评价最终得到6个关键满意用户、1个关键一般用户和2个关键不满意用户。
企业客户满意度预测正式将这些关键网络用户与企业客户进行深度尺度变换聚类,建立网络用户与企业客户的相似关系,从而能够将网络用户的情感分类及尺度特征赋值给属于同一类的企业客户,实现客户满意度预测。
图6(b) 一般类网络用户聚类结果
图6(c) 不满意类网络用户聚类结果
表3 企业销售决策支持
因此,企业可以根据表3中3种不同的企业客户满意度等级,匹配不同的销售战略。然后,在每一种销售战略下,结合每一个企业客户类的具体特征,制定更具有针对性的销售战术,从而提升企业的客户关系管理水平。
随着社交网络平台的迅速发展,网络舆情在我国经济社会的生产、生活中扮演着日益重要的角色,企业更是期望通过挖掘网络舆情来获取有价值的信息情报,使其在激烈的市场竞争中扩大企业优势。由此,本文针对网络舆情环境下的企业客户关系管理问题展开深入研究,通过识别企业客户、网络用户、企业网络舆情间的关系,梳理出一条广泛存在与网络社交平台上的、由企业客户推动的意见反馈渠道,为企业提供了一种成本更低、效率更高的获取客户满意度的方法。
本研究最后通过数据实验,从数据采集与预处理、网络用户群体识别、网络用户舆情敏感性评价、企业客户满意度预测、以及企业销售战略战术制定这五个环节,完整展示了企业如何利用网络舆情实现客户满意度等级分类,并依据变尺度聚类结果实现销售决策支持。
本研究的理论价值主要体现在:
(1)构建企业客户推动式信息反馈模型。该模型表明,在企业网络舆情和群体测度的约束下,网络用户与企业客户具有等价关系,为深入研究网络舆情的运作机理提供理论基础。
(2)提出变尺度聚类算法。该算法将尺度变换理论引入聚类研究中,将传统聚类方法的求解过程由单一尺度分析扩展到多尺度分析,克服了实际数据聚类应用过程中的聚类结果特征不显著问题,具有较高的实际应用价值。
(1)企业可以利用文本挖掘技术,通过获取与其主营业务相关网络舆情,预测当前客户的满意度,减少传统求取客户满意度时的实地调研成本。
(2)企业可以通过检测网络舆情的变化情况,依据舆情本身的传播学特征,确立开展客户满意度预测工作的最佳时点,并判断现有客户满意度结果的有效性,而非完全依赖于领导的主观经验判断。
(3)企业可以利用变尺度聚类技术,在客户划分的过程中,保证对聚类结果质量要求的同时,获取到与当前类最匹配的尺度特征,利用尺度为销售策略制定提供决策支持。