耿晓利 陈淋
摘 要: 电子商务的迅速发展使得用户满意度分析的重要性日益凸显,传统的用户满意度分析大部分基于认知理论,且难以适应复杂的语言环境。针对此问题,提出一种基于情感分析及LDA模型的在线用户购买满意度影响因素挖掘方法。首先对在线用户的评论文本进行情感极性分析确定用户情绪极性,通过语义网分析提取评论数据中影响用户满意度的因素指标,利用词频分析以及LDA主题模型,确定及验证用户满意度最重要的影响因素,最后,通过京东网苹果手机商品的评论数据验证方法的有效性。
关键词: 用户满意度; 情感分析; LDA模型
中图分类号: TP391.3
文献标志码: A
文章编号:1007-757X(2019)06-0038-04
Abstract: This study proposes a method of mining online users impact factors based on the LDA model and sentiment analysis. Firstly, the user's emotional polarity is determined by sentiment analysis. Secondly, the factors that influence the customer satisfaction are extracted by semantic network analysis, and then word frequency analysis and LDA topic model are used to verify and validate the most important factors affecting customer satisfaction. At last, the data of customers satisfaction in Jingdong Mall are used to check the validation.
Key words: Customers satisfaction; Sentiment analysis; LDA model
0 引言
电子商务的飞速展使得在线购物成为人们生活必不可少的一项,人们在网上挑选商品的同时也关注商品的评论信息,据调查,有近70%的用户很在意商品的在线评论,且有近50%的人把在线评论当作影响其是否购买的重要决策因素。据悉,用户的在线评论往往涵盖其购买商品后的满意情况以及不满意的原因,因而可以通过挖掘在线评论文本中隐藏的用户情感以及满意情况,自动识别用户的潜在需求。根据已有的文献信息,关于“网上购买满意度影响因素”的主题研究已有很多学者在研究,大部分学者从用户使用体验出发,基于顾客满意度模型,采用结构方程模型[1]的方法进行研究,揭示观测变量和潜变量的关系及各潜变量之间的相互关系等,评价顾客满意度模型并对模型进行修正。也有少数学者利用文本挖掘中情感分析的方法,如刘甲学[2]利用微软开发的商业智能软件POWER BI对用户评论文本进行数据挖掘,提取评论数据中影响用户满意度的因素,再利用情感分析法进行分值计算,從而识别出最重要的影响因素。但语言的复杂性仍处于探索阶段,为增加分析结果的准确率,本文通过引入语义的概念,更深层次的挖掘用户的满意度影响因素。本文提出在线用户满意度影响因素挖掘框架主要包括四个部分如图1所示。
(1) 采集样本数据并对数据集进行预处理,从而得到“干净”的文本数据;(2) 基于情感分析和语义网络分析,进行用户评论文本情感极性判断(积极还是消极),并根据结果确定用户的满意度程度同时根据特征词提取影响在线购物用户满意度的因素指标;(3) 根据词频分析,确定特征关键词出现的频次,总结出影响用户满意度最重要的几项因素指标;(4) 基于LDA模型自动识别用户的真正需求,并验证前面得到的用户满意度影响因素指标是否正确。
1 相关研究综述
1.1 情感分析
情感分析(sentiment analysis),是指分析人们对例如服务、产品、组织、问题、事件、主题等实体以及其属性的评价、观点、态度、情感的研究领域,也称为情感挖掘、倾向性分析、意见挖掘、观点抽取等。[3]文本情感分析就是判断文本作者所反映的情感态度是正面或负面,褒义或贬义,积极或消极。[4]情感分析的主要目的是对结果挖掘有价值的信息进行预测,并以更直接的方式向用户展示预测结果。例如挖掘某电商网上用户对手机评论文本,分析用户对“品牌,外观,价格,功能,屏幕尺寸,配置,续航待机”等属性的情感倾向。Turney[5]等指出,文本倾向性分析也称为情感分类,通过对文本中的观点态度的分析来判断文本的情感倾向,并以类别形式来表示结果。情感分析的相关研究对自然语言处理领域产生重大影响,同时也影响着政治学,经济学,社会科学等与人们的观点相关的领域。本文将先对文本进行情感倾向分析,积极情绪表示满意,消极情绪表示对产品不满意,通过分析了解用户对产品的满意程度。
1.2 LDA模型
LDA全称为潜在狄利克雷分配(Latent Dirichlet Allocation)是由Blei等人[6]在2003年提出的生成式主题模型。生成模型,即每个文本的每个词都是通过一定概率选择某个主题,并从这个主题中通过一定的概率选择某个词语。
LDA模型又称为三层贝叶斯概率模型[7],包含文档,主题,词三种结构,因此将LDA模型应用于用户评论挖掘领域,可以通过判断文本的相似性,进行更深层次的语义挖掘,并将文本中隐含的主题挖掘出来,一个文本中如果包含多个主题,有些可以代表不同主题的词语会频繁出现,运用主题模型,能够发现词语出现的规律,利用这些规律将关联词语联系起来,从而得到文本中潜在的有用信息。比如,手机的商品评论中,代表手机特征的词语如“速度快”“屏幕”“性价比”等会反复出现在评论里,此时运用主题模型,将手机代表性特征相关的情感词语同相关特征词联系起来,从而深入了解用户评价的聚焦点以及用户的潜在需求。
2 实验设计与分析
2.1 数据来源及预处理
为了更好的分析在线用户购买商品的满意度,本文选取京东商城中的苹果手机作为研究实验样本,利用数据采集软件(八爪鱼爬虫软件)对苹果手机的用户评论数据进行采集,采用基于商品编码的爬取方式,由于iphone手机有多个商家在售卖,并呈现多页显示,因而在采集数据时制定一个翻页循环列表,设定规则点击每个产品抽取每一条评论。抽取的字段:主要有:价格、颜色、用户名、用户购买信息、用户评论内容、评论时间等,最终爬取了67 840条用户评论文本。
观测采集后的文本发现其中存在很多对分析无用的数据,例如重复数据、异常数据等。如果将这些数据一起进行分析,会严重影响到建模的成果,最后导致分析结果的偏差,因此在分析前需要对其进行数据清洗,本研究利用武汉大学研发的ROCTCM6软件进行文本数据的预处理,对评论文本进行文本去重、机械压缩去词以及短句删除。
1) 文本去重就是删除评论数据中重复的部分。为避免去掉重复数据中的有用数据,本文采用相对简单的思路对文本去重——两两对比法,完全相同内容的就去除一条,保证所有的有用数据保留下来。
2) 机械压缩去词就是比如“哈哈哈哈哈哈”“好评好评好评”,这样存在连续重复的语料,也是较长又无意义评论。因此需要对其进行机械压缩去词,即是将其机械压缩为“哈”“好评”,把重复累赘的表达去掉,而短而无意义的文本会在后边进行的短句去除中处理掉。
3) 短句删除,由语言的特点可知,字数越少能够表达的意思越少,所以要表达相关意思是一定要有相应数量的字数,过少字数的评论必然是没有意义的,为此,需要将保留评论字数下限外的短句去除。一般4-8个国际字符都是较为合理的下限。
2.2 基于情感分析用户满意度情况
情感极性分析是对带有主观情感成分的文本进行语义分析,识别该文本的情感倾向是正面、负面还是中立。从技术上情感分析可分为基于情感词汇语义特性分析和统计自然语言处理分析,本文将使用基于情感词汇语义特性进行分析文本情感的方法,借助情感词典判断该文本整体情感倾向。[8]本文借助ROSTCM6软件将评论数据分割为三大组,积极,消极,中性。评论前带有前缀评分代码,从数字可以看出各个评论的情感强度,如图2所示。
根据图3数据显示,关于京东上苹果手机产品的用户评论,有71.74%的用户评论带有积极情绪的较多,表示大多数的用户对该产品很满意,中级情绪的占15.17%,则表明有15%左右的客户对该产品无感,不是很满意,13%的用户带有消极情绪,说明还是有13%的用户是非常不满意的。且在情绪强度方面,大部分的用户带有积极情绪的强度普遍比带有消极情绪高,不过也不能排除哪些消极情绪的用户,有接近3%的用户消极情绪达到中度以上,对该产品也在评论中反应出极其的不满意。因而针对这些消极情绪的评论,商家要认真对待,并反思原因,争取在最短的时间改善,从而换取用户消极情绪的降低。
2.3 基于语义分析提取影响用户满意度的因素指标
根据前面收集到的文本数据,并对其进行情感分析,标注出哪些是属于积极情感,哪些歸属于负面情感,利用这些文本进行语义网络的构建。在ROSTCM6界面,分别把积极情感词汇与消极情感词汇导入软件中,点击功能性分析,再点击语义网络与语义网络分析,分别得到积极词汇语义网络图与消极词汇语义网络图,如图4和图5所示。
根据语义网络可以直观的看到用户关注的点,而且语义网络图的有向性能够看到词语的关联性。图4可以看到用户所反映的状况:手机漂亮,苹果系统流畅速度快,屏幕好质量好,包装好是全新正品。京东值得信赖,物流速度快,服务好,购物体验好等。图5可以看到用户所反映的状况:手机发热,不够流畅反应慢,钢化、电池有毛病,质量不够好,声音小,屏幕不合适,缺少发票,降价速度快。京东送货速度慢,销售的不是新机,售后卖家态度不好,不够让消费者放心等。
根据上文分析,本文提取影响用户满意度的主要因素有产品的质量、价格、物流、服务以及京东自营影响力,具体指标如表1所示。
2.4 基于词频分析影响用户满意度的因素权重
为了进一步了解用户更重视哪些影响因素,本研究将利用高频词云图来直接观察用户当时热点关注的话题,词云可以把在评论文本数据中出现频率较高的词汇突显出来,词汇出现次数越多,字体越大,视觉冲击越强。且能根据词云中字体大小不同的特点,形成词云层。从而过滤了大量的文本信息,人们不用去查看更多的信息,只需浏览便能了解大概主旨信息。
本文借助R软件分别对积极情绪的文本及消极情绪的文本制作高频词云,可以得到积极情绪高频词云以及消极情绪高频词云,如图6和图7所示。
由于分词软件的局限性,有些词汇因不在词典里而被分开,如“不好”、“不是正品”、“不快”等,因此本文根据图6和图7的分词结果,并结合原有的基础数据进行结果分析。
据图6可以看到“不错”“流畅”“屏幕”“质量”“服务”“态度”“速度”“系统”“京东”“正品”“价格”等等关键词出现的频率较高,从而可以反映出:手机运行流畅、速度快、系统体验好、屏幕好、价格实惠、京东销售正品、售后服务态度好等是用户更注重的影响因素。
据图7可以看到“不”“声音”“小”“问题”“垃圾”“价格”“屏幕”“翻新”“包装”“速度”“时间”“换货”“态度”“差”“慢”等关键词出现的频率较高,从而可以反映出:手机声音比较小、质量有问题、屏幕不合适、手机价格贵、商品出现翻新、包装不够好、物流时间长速度慢、售后态度不够好等是用户不满意的重要原因。
综合可知,手机的质量,价格和服务态度、物流,这四个指标都是用户很关心的指标,其中“质量”指标中,“系统是否流畅、是否正品新机”这两个二级指标是用户更看中的;在一级指标“价格”中,“性价比是否值得购买”是用户更看中的;在“服务态度”指标中,“售后服务态度”是用户更看中的;“物流”指标中,“送货速度、包装质量”是用户更看中的。
2.5 构建LDA模型挖掘用户潜在需求
通过之前的步骤,本文用ROSTCM6进行情感分析机器分类,生成得到三种情感结果文本,抽取“积极情感结果”和“消极情感结果”进行分析,并且对两个文本进行分词。
笔者通过利用R软件构建在线用户的LDA模型,首先利用该软件对两个文本分别进行分词处理,再通过删除停用词处理,将一些如“的”“了”“吧”等无用的词删除。然后借助R软件中的主题模型函数包,进行建模探究,最后积极情感文档与消极情感文档的主题各得到3个,如图8与图9所示。
根据该产品积极情绪的3个潜在主题的特征词提取,主题1中的高频特征词,京东,价格,客服,满意,好用,流畅,速度快,主要反映京东客服態度令人满意,手机好用速度快,价格好。主题2中的高频特征词,物流,快递,发货,送货,满意,服务,包装,屏幕,主要反映物流发货送货速度快,服务好,包装的好,屏幕完好。主题3中的高频特征词,正品,速度,很快,质量,系统,值得,主要反映手机是正品质量好,系统好速度快,值得购买。根据该产品的消极情绪的3个潜在主题的特征词提取,主题1中的高频特征词,问题,屏幕,小,不好,发票,系统,卡,发货,主要反映手机屏幕小,质量不好,缺少发票,系统卡,发货慢。主题2中的高频特征词京东,快递,速度,包装,声音,打电话,死机,流畅,主要反映京东快递速度慢,包装不够好,手机打电话声音小,容易死机不够流畅。主题3中的高频特征词,物流,问题,客服,降价,送货,主要反映物流送货慢,提问客服回答不满意,手机降价快。根据LDA构建产品在线评论文本的主题模型可知,用户的需求主要还是倾向于产品的质量、价格、服务态度、物流速度。同时也验证了这几个因素是影响用户满意度的主要指标。
3 总结
本文在考虑文本的语义关联的基础上,引入的语义网络和主题模型的方法,通过分析商品评论文本的情感极性,确定用户购买商品的满意度情况。实验结果表明,通过该研究方法,可以有效的了解用户满意度情况,同时也很方便的提取出用户对产品满意或不满意的因素指标。对商家改进服务和促进销售具有积极的意义。但因评论文本的非正式化,口语化偏多,笔者使用的情感词表语料库不完整,有些词汇不能完全匹配出,导致在分析的准确性上有一定的局限性。目前有很多的语言学专家专门研究情感词词典,在后续的工作中可以研究这些情感词词典的应用场景,以更好的实现用户与专家研究的有效结合。
参考文献
[1] 向坚持,陈晓红.基于结构方程模型的客户满意度建模及参数估计方法[J].湖南师范大学自然科学学报,2009,32(2):31-36.
[2] 刘甲学,陶易. 基于情感分析的评论数据用户满意度影响因素研究[J]. 现代情报,2017,37(7):66-69.
[3] 杨佳能. 基于语义分析的中文微博情感分类研究[D]. 广州:广东外语外贸大学, 2015.
[4] 罗芳. 意见挖掘中若干关键问题研究[D]. 武汉:武汉理工大学, 2012.
[5] Turney P D. Littman M L. Measuring praise and criticism:inference of semantic orientation from association [J]. ACM Transactions on Information Systems,2003,21(4):315-346.
[6] Blei D M,Ng A Y, Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, (3): 993-1002.
[7] David M. Blei,John D. Lafferty. Dynamic topic models. In: Proc. of the ACM SIGKDD, Pittsburgh, Pennsylvania, USA, June 25-29, 2006:424-433.
[8] 赵鹏,何留进,孙凯,等. 基于情感计算的网络中文信息分析技术[J]. 计算机技术与发展, 2010(11):152-155.
(收稿日期: 2018.05.16)