商品口碑数据情感分析及可视化方法研究

2022-03-21 02:01谢蕙李峰穆文慧
中学生学习报 2022年1期
关键词:情感分析预处理可视化

谢蕙 李峰 穆文慧

摘要:研究电子商务领域口碑数据分析的完整流程框架,从数据获取、数据预处理、数据情感分析再到可视化展示四个流程模块,重点探讨对口碑数据进行情感分析的方法和合理的数据可视化方案,探索如何把口碑数据以更加直观的可视化形式展示给用户。

关键词:口碑数据;数据获取;预处理;情感分析;可视化

一、研究背景

近年来,随着互联网技术的不断发展和居民可支配收入的稳定增长,使得网络购物成为中国网民不可或缺的消费渠道之一,网购用户规模也稳定增长。电子商务的蓬勃发展丰富了消费者的购物渠道,网络购物成为主流消费方式,消费者也越来越喜欢在网络平台上公开分享自己对商品的购买体验,表达自己对商品的看法。因此,电商平台上的商品评论信息大量出现。这些口碑数据对其他消费者的购买决策产生巨大影响,也使得商家开始关注用户对自家产品的口碑数据,激励商家将更好的产品展示给消费者,满足消费者的个性化需求。

二、研究目的和意义

电商平台拥有数亿的用户背景,而庞大交易数据背后的海量口碑数据不容忽视。大量研究显示,一方面,这些商品口碑数据对其他消费者的购买行为和商家的产品销售产生重要大影响;另一方面,数量巨大、种类繁多、时效性高的评论数据,给消费者和商家也带来了信息过载、检索低效等问题,大量冗余的评论数据严重干扰了消费者和商家对目标信息的准确定位和快速选择。同时,现有的评论数据多是文本展示,并且存在大量无效评论和过度的主观描述等一系列问题,对于想要准确购买目标商品的消费者和要优化产品和服务的商家而言,要获取准确的评论信息较为困难。

因此,论文研究电商平台的商品口碑数据,既可以辅助消费者进行购买决策,又可以帮助商家提取有效的反馈信息进行产品优化,具有十分重要的现实意义。

三、研究现状和趋势

基于商品口碑数据对消费者和商家产生的巨大影响,目前,国内外有很多学者从各种角度对互联网各大电商平台数据进行分析和研究。

孫妮使用数据抓取处理工具和数据分析工具研究B2C购物网站消费者的在线评价信息,分析了网络购物群体的行为规律[1]。刘冰等人对喜茶“网红店”的网络口碑数据进行分析,挖掘网红型创业企业网络口碑中的核心要素,剖析其对消费者购买行为的影响[2]。罗翔曦通过爬虫程序获取商品的评价和属性等基本数据,提取商品属性和评价词,计算出商品的推荐指标[3]。

基于以上研究,论文将以电商平台的商品口碑数据为研究对象,研究对海量口碑数据进行情感分析的方法,同时研究数据可视化方案,以期辅助消费者快速进行购买决策,帮助商家有效提取反馈信息进行产品优化。

四、商品口碑数据情感分析及可视化方法研究研究思路

首先通过爬虫技术对电子商务网站爬取商品的用户评论数据,对这些数据进行去重、压缩、删除无效评论等预处理,然后这些数据进行情感分析,建立数据模型,获取商品所具有的优缺点,设计可视化流程,实现可视化图表方案。论文依据此研究思路,给出了电子商务领域口碑数据分析的完整流程框架,即从数据获取、数据预处理、数据情感分析再到可视化展示四个流程模块,重点研究和探讨对口碑数据进行情感分析的方法和合理的数据可视化方案。

1. 获取商品口碑数据

论文使用Python中的网络爬虫框架爬取商品的口碑数据,获取商品的评论信息,将爬取的数据结果存储在csv文件中。首先利用Chrome浏览器对某电子商城的网页源代码进行分析,构造初始页面URL,采集店铺地址URL,找到商品详情页URL,抓取第一页的商品评论信息,判断该页是否是评论信息的最后一页,如果是最后一页,就结束爬取,否则,继续循环模拟翻页,获取下一页URL,抓取该页评论信息,直到爬取到最后一页,爬取结束。

2. 口碑数据预处理

最初爬取到的评论数据存在较大的重复评论以及较多的无用评论,这些数据将会对数据的有效性情感分析产生干扰,因此,要对评论数据进行预处理。预处理过程主要包括:去重、压缩、删除无效评论等。

其中,去重的主要目的是为了去重评论数据中的重复部分,以起到去除重复评论的作用。本研究去重算法的主要思想是利用算法分析文本之间的相似度,再根据相似度的高低进行文本去重;

压缩的主要目的是去掉一条评论语句中连续出现的重复内容。研究发现,连续重复的内容会出现在一条评论的开头或结尾,所以压缩操作主要是对语句开头或结尾的重复内容进行压缩处理,以便得到较为精炼的评论语句。

3. 口碑数据情感分析方法研究

情感分析的主要目的是识别用户在评论文本中表达的情感信息,了解人们对于某些事物的偏好或者是对于某些社会现象的观点。这里需要针对在电子商务网站获取的商品评论数据,对文本进行分词、词性标注、提取文本关键词、进行情感分析等处理,从而对数据文本进行褒义、贬义和中性的判断。

目前常用的数据情感分析方法主要有基于情感词典的数据情感分析方法、基于机器学习的数据情感分析方法、基于深度学习的数据情感分析方法。[4]

(1)基于情感词典的数据情感分析方法

该方法是一种较早的数据情感分析方法,首先使用现有的知识资源构建情感词典,然后基于情感词典,构建规则对数据进行情感判断。该方法需要把词汇或者词语根据情感性进行分类,比如,可以根据极性分类为积极、消极、中性等类别,构建不同的情感词典。判断情感类别时,可以根据该词包含的明确情感性得分标记该词的极性。

(2)基于机器学习的数据情感分析方法

该方法首先提取合适的特征,然后设计分类算法,建立数据分类模型,根据特征项进行数据分类。这里的特征提取,其实是一种降维方法,通过统计学方法对特征词进行选取,抽取隐含的知识规则,挖掘词义的信息,获取情感分析模型中更有价值的数据特征,即提升机器学习模型的效果。

(3)基于深度学习的数据情感分析方法

宋帆在“基于深度学习的商品评论情感分析方法研究”中提出基于深度学习的数据情感分析方法,该方法可以学习模仿人类的认知习惯,把特征提取和分类建模紧密关联,并且通过网络参数学习自动提取特征项。深度学习囊括机器学习领域,深度神经网络旨在效仿人的大脑对信息的分析、加工、处理过程,获取有价值的特征。

基于情感词典的数据情感分析方法和基于机器学习的数据情感分析方法都要依赖于实现划分好的情感字典或特征项,情感字典或特征项对情感判断有着关键影响。而基于深度学习的数据情感分析方法,可以学习模仿人类认知习惯,将特征提取和分类建模紧密关联,通过网络参数学习自动提取特征,针对分类模型设计合理的学习网络结构,能更好地应对商品评论信息中的语句的歧义性、多意性、情感反置等现象。

4. 数据的可视化分析方法研究

数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,把分析得到的口碑数据以直观的可视化图表形式展示在用户面前时,用戶便能快速获取数据背后隐藏的信息,以提高获取数据价值的准确性和效率,获得更好的用户体验。

(1)词云图

词云图是口碑数据可视化研究中心常用的一种工具。对口碑数据进行情感分析以后,按照词频降序排列,画出排序较靠前的词汇的词云图,根据词语情感分类不同,可以分别画出正面评论词云图和负面评论词云图。词云图能直观地把高频词汇通过颜色和大小展现给观众,能够将文本信息更加直观、准确地呈现出来。

(2)可视化模型技术[5]

可以选择使用一些可视化模型技术突出数据与数据之间的特性。比如,图表类、抽象类似物、具象类似物、隐喻图案等这些经典的可视化模型也通过不同的展示方式暗示了数据间的联系。

其中,图表类是一种较常用的数据可视化方法,可以突出显示数据分析结论的科学性,同时也有助于在进行数据分析的过程中辅助观众发现数据的关键信息,便于进行探索式的数据发现。

五、结论

论文提出了电子商务领域口碑数据分析的完整流程框架,即从数据获取、数据预处理、数据情感分析再到可视化展示四个流程模块。电商大数据作为一个拥有庞大数据规模的产业,将其有效应用将对电商行业产生巨大影响,本论文所研究的口碑数据的情感分析和可视化分析是其中非常重要的内容,在精准策划、精准营销、提升用户体验、提高数据服务等方面都有广泛的应用前景。

参考文献

[1]基于B2C网站商品咨询和评论的网络消费者行为规律研究.孙妮;陈进;汪菲.图书情报工作.2014-06-15.152-156.

[2]喜茶“网红店”网络口碑的大数据分析.刘冰;张华思;罗超亮.广西民族大学学报(哲学社会科学版).2018-11-15. 118-126.

[3]多属性电商信息采集和推荐系统研究.罗翔曦.云南大学.硕士论文.2018-05.

[4]基于深度学习的商品评论情感分析方法研究.宋帆.陕西科技大学.硕士论文.2020-05.

[5]大数据环境下数据分析与可视化核心技术研究.王宇宁.北京邮电大学.硕士论文.2015-12.

1112500520352

猜你喜欢
情感分析预处理可视化
非水溶剂预处理木质纤维原料研究进展
不同预处理对铁皮石斛热风干燥特性及品质的影响
数据可视化设计在美妆类APP中的应用
手术器械预处理在手术室的应用
污泥预处理-厌氧消化体系的能源经济性评价
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学