王鹏岭 应欣慧 梁家瑞 王宝丽
摘要:随着大数据技术的广泛应用,网络购物已成为消费者的主要购物方式之一。大量的在线评论成为消费者了解产品质量及商家服务情况的重要途径。文章以某化妆品为研究对象,采用Python爬取数据,对数据进行预处理、提取有效的评论信息,绘制词云进行数据可视化、运用Snownlp进行情感分析并针对好评和差评分别进行主题分析,最后为商家产品的改良和销售提供了意见和建议。
关键词:数据挖掘;Python;可视化;情感分析;LDA主题分析
中图分类号:TP391.1 文献标识码:A
文章编号:1009-3044(2022)13-0021-03
电子商务的发展方便了消费者购物,消费者可以通过网络准确地判断出商品的质量,评论数据无论对消费者是否购买产品还是商家改善决策都是至关重要的[1]。海量评论数据通过人工很难收集,通过Python程序语言可以取得有效的数据信息,并对其进行情感分析。情感分类有两种分法,一种是有监督的情感分类,主要应用有监督的机器学习算法,算法实施需要足够多的标有情绪的语料,提取特征训练情绪分类器;另一种是无/半监督情感分析,最典型的就是基于情感词典的方法[2] 。基于词典的方法主要注重于分词的准确度和词库的数量,人工工作量较大。本文通过Python写的类库Snownlp库,可便于处理中文文本内容,进行打分,再利用主题分析分别对好评和差评挖掘出潜在主题。
1 数据获取与预处理
1.1 数据的获取
在Pycharm模块下,从京东网站上的科颜氏金盏花植萃爽肤水的主页获取评论数据。以.csv的格式存储爬取的数据,将时间化为时间戳,以用户ID、用户评论时间、用户评论内容的三个字段为准,对爬取的评论进行分类处理,分别存储到好评com_all1.xls和差评com_all2.xls[3]。爬取的部分评论如表1所示:
1.2数据的预处理
为了避免数据不够规范导致结果出错,有必要对文本数据进行去除非文本内容、文本去重、去除停用词及文本分词等操作[4]。初次爬取的评论充斥着许多无效的内容,如img标签、超链接标签、空格等,用正则表达式去除,并不会对分析结果造成影响;文本去重是针对系统评论中自动默认好评,使用drop_duplicates()方法过滤掉;本文使用jieba分词算法中的精准模式将语句精确地分开,不会产生词语歧义,调用cut的方法分别对好评和差评进行切句、分词;选用哈工大停用词表将“已经”“也”“不但”等没有具体意义的词删去,为数据的可视化作铺垫。
2 数据可视化
目前,开源工具已经日益丰富,如Jieba库、Snownlp库,还有PkuSeg针对不同领域的数据提供个性化的预训练模型。虽然Snownlp库是依据19484行句子作为语料库训练句子,这些句子隶属于不同领域,在某些句子上分词会有缺陷,因此本文更倾向于使用Jieba库,Jieba的分词功能和执行的准确率更高一些[4]。导入Jieba库,运用WordCloud根据分词后各个词频所占比例生成词云。能够发现,评论区对该产品的好评主要围绕“效果”“适合”“补水”“不错”等词语展开,而差评主要围绕“包装”“假货”“客服”“东西”等词汇,结果如图1所示。
3 化妆品平台网购情感分析
3.1 SnowNLP库技术简介与流程
SnowNLP是属于Python自带的自然语言处理库,可读性好、简单易懂容易实现,是中文文本处理库[5]。不同于其他类库,SnowNLP库不需要NLTK,本身就可以实现所有的算法。并且它自带语料库和情感字典,不需要下载大量的情感词库和构建各种情感词库,有一定的准确率。通过SnowNLP库对文本进行情感分析,能够获取该条评论的情感倾向和对应得分,但要根据具体的情况,确定是否重新训练新的模型[6]。SnowNLP也可以对其他领域的文本进行情感分析,但可能在准确率方面没有达到要求,需要自己构建语料库,重新对模型进行训练[7]。
3.2 SnowNLP库实际应用
SnowNLP默认训练的模型是基于电商领域的,在实现情感分析时,需要调用sentiment方法,本文主要参考sentiment文件夹下的_init_的核心代码。在情感分析时,将情感程度划分成三个区间,分别是[0,0.4)为消极倾向,[0.4,0.6)为中性倾向,[0.6,1]为积极倾向,都保留6位小数,以便能够直观地观察每个评论语句的情感态度,表2选取了几个极具代表性的语句,如表2所示。
3.3基于情感的主题分析
主题分析是对情感分析的进一步解读,在各自的主题下,根据概率值列举出对应的特征词。本文利用Python第三方工具包Gensim库,将非结构化的文本信息转化成Gensim模型所能理解的稀疏向量[8]。分别对好评和差评进行主题分析,从而分析出消费者对该产品的看法。本文将好评和差评整理出各9条主题数量,每个主题显示五个特征词,如表3所示。
从表3中概括可以得出三类特征词。第一类是能够体现主題的主语,如“包装”“产品”“皮肤”;第二类是能够描述其主语的特征词,如“不错”“适合”“好用”;最后一类是没有具体意义的词汇,如“真的”“感觉”等。而体现主题的主语还可分成两种:一种是围绕产品本身的,如“味道”“效果”“肤质”“包装”等;另一种是围绕购物体验的,如“客服”“物流”“降价”等。为了更好地展现消费者对该品牌爽肤水的观点,将表3整理成表4如下所示。
从表4可以看出,消费者重视产品的效果、皮肤、活动、包装、客服、价格等要素,该爽肤水的优点是:味道好、效果好、对皮肤好、物流较快等,缺点是:包装不够好、客服回复慢、价格过高、产品真伪不明确等。
4 情感分析可视化
4.1饼图可视化
在情感分析误差不大的基础上,文章对爬取的评论语句及情感評分进行分类获取了三种kind类别分别为正面、负面、中性。通过spider定义爬取的动作,导入画图工具import matplotlib,将爬取结果遍历,绘制饼图,并标注图例和百分比数值等信息[3],如图2所示。
图2使用了三种图案填充显示:正面评论占近乎50%的比例,负面评论占近乎45%的比例,中性评论占近乎5%的比例。
4.2词频可视化
在3.3分析的基础上,使用jieba分词读取字符串,并将分词结果保存至list,结合停用词统计词频,得到3238条好评词条和1947条差评词条,实质上与词云同理,并将它们分别绘制成条形图如图3、图4所示。
由图3、图4可知,好评中“效果”一词的计数最多,其次是“产品”“适合”“金盏花”等。差评中“包装”一词的计数最多,其次是“京东”“假货”“东西”等。
5 结论
通过分析计算结果,发现词频中消费者对产品本身的效果、补水、保湿、味道进行赞赏,而差评中对产品的包装、货源、客服、盖子等存在质疑与不满。结合主题分析的正负面结果和饼图来看,近乎50%的消费者认为科颜氏爽肤水的突出优势是效果佳、对皮肤好、味道自然清香,而也存在近乎45%反面的声音表示:包装很普通、不够好看也不够结实、产品真伪不明确、客服回复消息不及时,存在拖沓行为。
因此,商家可以在包装方面进行调整,突出新的设计方案,设计更好的外壳吸引消费者,提供一个产品真伪码验证产品的真实可靠性,内部训练员工,提高客服的工作效率做出实际改善,从而提高自身的优势,为消费者提供可靠的产品。
参考文献:
[1] 周飒.网购追加评论对体验型商品销售影响研究[D].武汉:武汉理工大学,2017.
[2] 许钧儒.基于情感分析的商品评价研究[D].蚌埠:安徽财经大学,2017.
[3] 邹泓维,呼格吉勒,陈舒琦,等.基于Python工具的汽车电商平台评论分析与可视化方法研究[J].物流科技,2020,43(2):59-63.
[4] 左韶泽.对网购评论数据的文本挖掘——以某款式冰箱的评论为例[D].秦皇岛:燕山大学,2019.
[5] 周红伟.商品评价信息的中文情感分析——以华为手机评价数据为例[D].杭州:浙江工商大学,2015.
[6] 章蓬伟,贾钰峰,邵小青,等.基于文本情感分析的电商产品评论数据研究[J].微处理机,2020,41(6):58-62.
[7] 曾小芹,余宏.基于Python的商品评论文本情感分析[J].电脑知识与技术,2020,16(8):181-183.
[8] 高祥.基于扩展情感词典的短文本情感分析技术研究[D].青岛:青岛理工大学,2020.
【通联编辑:唐一东】