基于手机评论文本的用户情感分析研究

2022-10-14 04:46杨嘉怡李晓英何首武
大众科技 2022年9期
关键词:负面模型文本

杨嘉怡 李晓英 何首武

基于手机评论文本的用户情感分析研究

杨嘉怡 李晓英 何首武

(桂林理工大学南宁分校,广西 南宁 530001)

以华为Mate40与苹果iPhone13两款手机为研究对象,通过Python爬虫技术采集电商平台的用户评论信息,对评论数据进行数据清洗、文本分词和去停用词等预处理后,采用SnowNLP对评论文本进行情感分析。最后,通过LDA模型对正、负面评价进行主题分析,并将分析结果可视化展示,以期为手机厂商改进产品及服务质量提供参考建议。

手机评论;情感分析;SnowNLP;LDA主题模型

引言

文本情感分析是对具有情感色彩的文本进行分析、处理、归纳和推理预测的过程,在新闻传播、舆论管理、观点分析等问题中展示了不容忽视的价值[1,2]。随着线上购物平台的迅速发展和网络购物的普及,越来越多的人群选择在网上购买手机。因此,网络平台中存在着海量消费者对手机的评价信息,其中包括对产品质量、服务等的主观感受,反映了人们对产品的态度、立场和建议。而对于各大手机厂商来说,随着智能手机市场竞争日益激烈,如何从在线评论信息中了解消费者的真实需求,进而不断提升产品质量与品牌的竞争力,成为各手机厂商亟待解决的难题。因此,对在线手机评论数据进行情感分析,具有非常重要的现实意义[3,4]。

本文通过对京东商城中手机的评论数据进行情感分类,挖掘出不同用户的情感倾向,分析用户的需求、意见以及产品的优缺点,为手机厂商及电商平台改进产品质量,提高用户体验提供参考依据。

1 情感分析方法

1.1 手机评论的情感分析流程

本文从原始手机评论数据的获取、预处理、文本情感分类建模、分析结果展示等方面,进行文本情感分析研究,流程如图1所示,主要步骤如下:(1)对电商平台中的手机评论信息进行采集;(2)对评论文本进行数据清洗、分词、去停用词等预处理;(3)基于SnowNLP对预处理后的数据进行情感分析,将评论文本划分为正面评价数据与负面评价数据;(4)分别对正、负面评价数据进行LDA主题分析,分析用户的关注点及产品的优缺点,据此对手机厂商提出合理建议。

图1 手机评论数据的情感分析流程

1.2 SnowNLP情感分析

SnowNLP是Python类库中专门针对中文进行自然语言处理的库,其主要功能涉及到中文分词、情感分析、文本分类等。SnowNLP自带了中文正负情感的训练集,使用朴素贝叶斯原理来训练和预测数据。其情感分析的过程是,首先读取待分类的文本内容,对文本进行分词,去除停用词;计算每个词出现的频数,计算文本的先验概率和后验概率,选择概率较大的类别[5]。使⽤SnowNLP计算情感值,核心代码如下:

from snownlp import SnowNLP

senti=SnowNLP(data).sentiments

调用SnowNLP(data)创建了一个SnowNLP类实例,将需要进行情感分析的数据data,作为参数传入函数。调用SnowNLP(data).sentiments,调用贝叶斯模型,进行情感分析,得出分析结果。

在进行情感分析之前,根据业务需求确定是否要重新训练模型。本研究中分析对象为手机评论数据,直接采用已训练好的模型,无需重新训练模型。

1.3 LDA主题模型

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,是一种文档主题生成模型,即认为每一篇文档的每一个词都是通过“一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”[6]。LDA模型由三层结构组成,分别是文档(d)、主题(z)、词语(w),也被称为三层贝叶斯概率模型。通过LDA主题模型,能够挖掘数据集中的潜在主题,进而分析用户对产品的关注点及相关特征词。

在LDA模型中,词语(w)是文档的基本单元,由N个词构成的评论记为d=(w1, w2,…, wN)。假设某一商品的评论集D由M篇评论构成,记为D=(d1, d2,…, dM)。M篇评论分布着K个主题,记为Zi=(i=1, 2,…, K)。记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,φ为词语在主题中的多项式分布参数。LDA模型结构如图2所示。LDA主题模型是一种无监督学习算法,需要的仅仅是评论集与指定主题的数量K,因此,在训练时避免了费时费力的人工标注训练集。

图2 LDA主题模型结构图

2 手机评论数据的情感分析

2.1 评论数据采集

“苹果iPhone13”与“华为Mate40”两款手机市场份额高,评论数据充足,因此,本文选取京东商城这两款手机为研究对象,使用python中的requests库进行数据采集。首先,在该网站找到评论区域内请求页面的网址Request URL。通过request.get()方法向服务器的url对象发送请求,并返回包含服务器资源的Response对象。接着,通过response.json()返回结果的JSON对象,将获取到的评论数据转化为json格式。将所得到的json格式字符转换成字典类型,这样便于提取出评论中的信息。最后,通过遍历page值循环翻页,并将评论数据写入csv文件中。本文爬取评论等级从1星到5星的数据记录,采集了用户编号、用户评分、评论内容、评论时间等4个字段,数据结构如表1所示。

表1 评论信息的数据结构

字段名称示例字段描述 userId100011用户编号 score5用户评分 content很精致,质量非常好,很满意的一次购物。谢谢店家!评论内容 creationTime2021-01-24 13:20评论时间

2.2 评论数据预处理

爬取的手机评论信息包含着大量的重复数据,并且其中夹杂许多数字与字母,如果直接对这些低价值或无价值的信息进行情感分析,挖掘结果会有很大的误差。另外,由于评论主要围绕京东商城中的手机进行,其中“京东”“手机”“华为”“苹果”等词出现的频次很大,但是对分析目标意义不大。因此,在对文本挖掘之前,需要对原始数据进行数据清洗、去重等预处理操作。经过数据预处理,共获取iPhone13有效评论数据1705条,Mate40有效记录2382条。

2.3 SnowNLP文本情感分析

在预处理后的数据中提取评论字段content,使用SnowNLP进行情感预测。通过SnowNLP情感分析,将评论数据生成一个0~1上的情绪评分,如图3所示。这里假设,其中评分大于等于0.8的为正面评论,小于等于0.3的为负面评论,其余为中性评论,将数据分别按正面、负面存储在相应的文本文件中。所得的iPhone13与Mate40的正面、负面评论分布如表2所示。由图3与表2可知,Mate40评论中的正面、负面评论分布相差不大,而iPhone13正面评论的数量明显比负面评价的数量少很多。

图3 SnowNLP情感分析结果

表2 手机评论数据的情感分布

品牌iPhone13Mate40 评论数量(条)17052382 正面评论数量4021014 比例24%43% 负面评论数量9661037 比例57%44%

2.4 LDA模型主题分析

根据SnowNLP情感分析,选择两款手机情感分类后的正面、负面评论数据集,对文本进行jieba分词和过滤停用词,使用Python的gensim库实现LDA主题分析。LDA主题分析过程中,首先获取SnowNLP分类好的好评集和差评集,然后,调用gensim库的corpora模块,构建词典,建立语料库。最后,调用model.LdaModel(num_topics)方法指定主题数量,训练LDA模型[7]。本文设定LDA模型的主题数量为3,构建LDA主题模型,并将好评集、差评集的主题分析结果以词云图可视化展示,关键核心代码如下:

在“苹果iPhone13”评论数据的主题分析中,图4为正面评价的3个潜在主题的词云图。其中,“流畅”“好看”“拍照”“清晰”“颜色”等词语表现较为突出,表明用户认为该款手机运行流畅、外形与颜色好看、拍照清晰,对该产品的质量表示认可。而在图5差评集主题的词云图中,“降价”与“保价”的权重最大,用户反馈购买手机后降价,并且不支持保价;其次,“充电”“信号”等频率较高,另外“包装”“客服”“售后”“快递”等频率也较高。

在“华为Mate40”的LDA模型分析中,图6展示了Mate40手机好评的潜在主题,其中,“屏幕”“外观”“外形”“拍照”“流畅”等词语较为突出,说明用户对该产品质量的认可。在图7差评集潜在主题的词云图中,“屏幕”的权重是最大的;其次,“客服”“发货”“退货”“换货”“售后”“快递”等频率较高。

图4 iPhone13正面评价主题的词云图

图5 iPhone13负面评价主题的词云图

图6 Mate40正面评价主题的词云图

图7 Mate40负面评价主题的词云图

综合京东平台上手机评论数据的情感分析结果,总结出各品牌优缺点,见表3。

表3 两款手机优缺点汇总表

品牌优点缺点 苹果iPhone13外观设计美观、运行流畅、颜色好看、拍照清晰降价快、充电问题、信号不好、售后及物流差 华为Mate40手机外观美观、拍照效果好、系统运行流畅屏幕绿边、客服与售后服务差

对两款手机品牌提出以下改进建议:

(1)手机商家在保持产品外形美观和拍照效果好等优点的基础上,优化屏幕设计,增强用户体验;

(2)对于降价问题,商家应在商品页面给予说明,标明保价范围与规则,并及做好保价申请服务;

(3)提升客服人员的整体素质,完善售后服务,提高服务质量,以此在日趋激烈的手机市场竞争中凸显优势。

3 结束语

本文爬取京东商城的手机评论数据,基于SnowNLP对其进行文本情感分类,并将LDA主题模型与词云可视化技术相融合,挖掘消费者对商品的关注点,为商家改进产品质量,完善售后服务,提升品牌的竞争力,提供了有意义的参考和依据,具有一定的研究价值。但是,由于SnowNLP库是基于电商评论数据集训练好的模型,本研究中并没有重新训练数据,因此数据分析的准确率有待提高,并且爬取的数据量相比于海量数据而言,还欠缺一定的精准度,这将是本文进一步研究的方向。

[1] 吴小坤,赵甜芳. 自然语言处理技术在社会传播学中的应用研究和前景展望[J]. 计算机科学,2020,47(6): 184-193.

[2] 曾小芹,余宏. 基于Python的商品评论文本情感分析[J]. 电脑知识与技术,2020,16(8): 181-183.

[3] 章蓬伟,贾钰峰,邵小青,等. 基于文本情感分析的电商产品评论数据研究[J]. 微处理机,2020,41(6): 58-62.

[4] 王亚. 手机在线评论的情感分析[D]. 贵阳: 贵州财经大学,2020.

[5] 陈兴蜀,常天祐,王海舟,等. 基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J]. 四川大学学报(自然科学版),2020,57(2): 409-416.

[6] 祖弦,谢飞. LDA主题模型研究综述[J]. 合肥师范学院学报,2015,33(6): 55-58.

[7] 尚永敏,赵榆琴. 基于机器学习的在线评论情感分析与实现[J]. 大理大学学报,2021,6(12): 80-86.

Research on User Sentiment Analysis Based on Mobile Comment Text

Taking Huawei Mate40 and Apple iPhone13 mobile phones as the research objects, the user comment information of e-commerce platform is collected through Python crawler technology. After data cleaning, text segmentation and stopping words are preprocessed for the comment data, SnowNLP is used for sentiment analysis of the comment text. Finally, the LDA model is used to analyze the positive and negative evaluations, and the analysis results are displayed visually, in order to provide reference suggestions for mobile phone manufacturers to improve product and service quality to a certain extent.

mobile comment; sentiment analysis; SnowNLP; LDA theme model

TP391.4

A

1008-1151(2022)09-0022-03

2022-03-27

2019年度广西高校中青年教师科研基础能力提升项目“基于高校大数据的学生画像系统研究”(2019KY0270)。

杨嘉怡(1998-),女,江苏泰兴人,桂林理工大学南宁分校学生,研究方向为数据挖掘。

李晓英(1981-),女,山西汾阳人,桂林理工大学南宁分校讲师,研究方向为大数据分析与管理。

猜你喜欢
负面模型文本
适用于BDS-3 PPP的随机模型
文本联读学概括 细致观察促写作
自制空间站模型
作为“文本链”的元电影
搭文本之桥 铺生活之路 引习作之流
正面的人和负面的人
模型小览(二)
11个自由贸易试验区将启用新版负面清单
离散型随机变量分布列的两法则和三模型
走进文本 走近大师 走出文本 走向生活