基于在线评论情感分析与LDA的物流服务质量影响因素研究*

2021-11-29 02:16秦天琦
关键词:生鲜负面服务质量

周 欢,秦天琦

(湖南工业大学 商学院,湖南 株洲 412007)

一、引言

随着互联网及电子商务的快速发展,人们的购物消费方式发生了巨大的改变。中国互联网络信息中心(CNNIC)发布的第45次《中国互联网络发展状况统计报告》指出,截至2020年3月,我国网络购物用户规模达7.10亿,较2018年底增长16.4%,占网民总量的78.6%。2020年1—2月,全国实物商品网上零售额同比增长3.0%,实现逆势增长,占社会消费品零售总额的21.5%,比上年同期提高5个百分点。[1]

在网络购物规模和频率日益增长的趋势下,越来越多的消费者开始习惯于在购买后发表包含个人观点、情感信息、使用体验、价格和商品物流等多方面感知的在线评论信息,这使网络购物在线评论成为消费者表达购物体验的重要渠道,同时也是促使商家改进产品和改善服务的重要信息源。随着企业管理和数据监测的不断完善,在线评论的真实性和可靠性也不断提升。相比传统的市场需求调研,在线评论不受时间、地域、职业差异等的影响,使用户对产品和服务的改进需求和未来需求均能得到较大程度的展现。因此基于在线评论能够较为客观、全面地反映市场需求实现的程度。[2]王安宁等[3]提出了一种基于在线评论的区域需求偏好识别框架,实验结果表明,产品特征的情感极性以及产品满意度受区域因素的影响十分显著。岳子静等[4]采集了美团网的餐馆在线评论,对当地各菜系及其相关属性进行统计与情感倾向分析,得到其关注度与满意度,以此反映用户的菜系偏好及各菜系的传播发展情况。赵宇晴等[2]利用模糊理论融合情感分析技术,构建了需求—满意度量化模型,实现了用户满意度定量评价。Ru-xinNie等[5]利用在线文本评论,提出了融合多准则决策方法和情感分析技术的酒店选择模型,以帮助游客选择满意的酒店,并引导酒店经营者获得竞争优势。

虽然在线评论广泛应用于酒店、餐饮等行业的研究,但是在网络购物的物流服务质量上的研究却不多。传统物流服务质量的研究主要针对线下实体配送的物流企业,如Mentzer[6]在研究中结合物流服务的特点提出客户导向模型,从订单释放数量、订货流程、沟通质量、信息质量、货物精准率、货品完好程度、货品质量、时间性、误差处理等九个维度衡量物流服务质量。在线评论的出现使物流服务质量的研究主体从物流企业转向了消费者。Yuan等[7]指出,价格、方便性、时间性对消费者网购具有重要影响,是衡量B2C及C2C网购物流服务质量的重要维度。谢广营[8]从商家交付、物流配送、消费者签收、消费者满意或退换货等四个环节入手对物流服务质量的优劣进行评价。胡媛荣等[9]基于在线用户评论数据,识别出速度、包装、快递员态度以及退换货服务等四个用户最为关注的物流服务质量维度,并进一步分析了这四个维度的有效评论对潜在消费者购买意愿的影响。张华泉等[10]发现“物流因素”和“平台因素”对消费者正面满意度产生直接影响,而“产品因素”与消费者负面满意度之间具有显著的正向影响作用。毛郁欣等[11]基于负面在线消费者评论,发现货损、配送及时性与物流服务质量显著相关。张耀荔[12]通过实证分析和统计分析归纳出六个影响网购物流服务质量的维度:送货服务水平、接单服务水平、正确履行订单能力、时间性、信息服务能力和价格。

现有的基于在线评论的网络购物物流服务质量研究大多没有对在线评论进行情感分类,对不同情感极性的评论分别分析其特征,也没有针对不同类型网购商品的特点分析其不同的物流服务质量影响因素。鉴于此,本文拟利用Python采集京东商城家电类、生鲜类和电子类商品的在线文本评论数据,采用自然语言处理方法对评论进行分析,判断三种类型商品物流服务评论的情感极性,并分别对三种类型商品的正面、负面评论进行聚类,最后结合潜在狄利克雷分配 (Latent Dirichlet Allocation,LDA)模型确定消费者重点关注的物流服务维度,提高顾客的满意度。

二、基于在线评论情感分析和LDA的物流服务质量评价模型

在网购前,很多用户习惯从在线评论中获取相关信息,但这些在线评论数据存在冗杂、不完整、体量大等问题,使消费者很难决策。本节提出一种基于在线评论情感分析和LDA的物流服务质量评价模型(见图1),找出影响物流服务质量的主要因素,帮助消费者进行物流服务质量评价。

图1 基于在线评论情感分析和LDA的物流服务质量评价模型

(一)数据采集

为了更好地从在线评论中识别出消费者对于商品物流服务质量的关注维度,本文利用网络爬虫技术获取购物平台上的在线评论数据。考虑到不同商品物流服务质量影响因素可能存在不同,本文将分别采集不同类型商品的评论文本数据作为实验样本。

(二)数据预处理

消费者的语言习惯、无意中的输入错误或是对热门评论的复制等都有可能导致采集的线评论文本数据出现重复与异常,如果不对这些数据进行处理,则会严重影响模型运行的结果,最终降低程序的运行效率与执行的准确度,导致分析结果的偏差。本小节使用Python 3.7对爬取到的在线评论数据进行预处理,包括缺失数据清洗、数据去重、机械压缩去词、短语过滤处理等。

(三)情感分类

情感分类是自然语言处理的一个研究方向,也称倾向性分析(Opinion Analysis),通常用于从社交媒体或电商网站上发布的大量在线评论中提取丰富的意见、情绪或态度。[13]即目标文本中的意见是关于一个实体或实体的方面和属性,可将意见简单地分为两个相反情感极性中的一个,或者将其定位在这两个情感极性之间的连续变量上进行测算,有助于对带有情感色彩的主观性文本进行分析、处理、归纳和推理。[14]

本文使用Python 3.7的SnowNLP库中的情感分析模块进行情感分类。首先,对预处理后的评论文本数据进行预训练并生成预训练模型,然后根据训练集的词语生成情感词典。用情感词典与预训练模型对测试数据即商品评论数据进行情感值计算,并且设定概率P为阈值,当数值大于P时为正面评论,反之为负面评论。图2为情感分析的基本流程图。

图2 情感分析基本流程

情感分类的关键是计算情感值,即把具有正面倾向的在线评论的概率与在线评论文本在A类中的条件概率相乘,计算公式为:

(1)

式中,表示词汇Count(di,A)在A中出现的次数,N为文本分类的词组总数。在进行情感分类时,本文将情感值>0.5的在线评论文本数据记为正面情感评论。同理,将情感值<0.5的在线评论文本数据记为负面情感评论。

(四) LDA主题分析

LDA模型是由David Blei等[15]在狄利克雷过程基础上提出的一种概率生成模型。LDA包含文档—主题—词三层贝叶斯文档主题生成模型,[16]同时也是一种词袋模型,是一种无监督机器学习的方法,用于识别文档集或是语料库中隐藏的主题,其模型结构见图3。

图3 LDA主题模型结构图

图中,K为潜在主题数,M表示文本数量,N为一篇文档中的单词数量;z为“主题”的独特分布,ω=(ω1,ω2,…,ωN)为由N个词语组成的商品在线评论;θ为在线评论的主题分布,并且每个主题从参数为α的对称Dirichlet先验分布中独立产生;φ为主题的词语分布,并且每个词语分布都是从参数为β的对称Dirichlet先验分布中独立产生的。

LDA主题模型可以被应用于商品在线文本评论的挖掘与信息的检索领域,通过分析文本数据的相似性并采用更深层的语义挖掘,把文本数据中隐藏的主题及特征挖掘出来,从而得到文本中潜藏的有效信息。

本文LDA主题模型的建模采用了Python中的Gensim模块,分别对正、负面商品评论进行主题抽取。

首先,使用分词工具对整个评论数据文档集合进行分词并通过排序得到词组序列。鉴于Jieba分词具有分词精度高、操作简单等特点,本小节拟选择Jieba分词工具实现中文分词功能。分词之后为每个词语分配ID,即Corpora.Dictionary。

然后,利用词频-逆文档频率(Term Frequency Inverse Document Frequency,TF-IDF)算法[18-19]获取高频词并计算相应的权重,使用“词ID:词频”的形式形成稀疏向量。其中词频(Term Frequency,TF)表示词语在文档中的频率,其计算公式为:

(2)

逆文本频率指数(InverseDocumentFrequency,IDF)表示总文档与包含词条t的文档的比值求对数,计算公式为:

(3)

则最终词语t在文档Di中的TF-IDF值,也就是词语t的权重值为:

TF-IDFt,Di=TFt,Di×IDFi

(4)

通过计算商品正负面在线评论的TF-IDF值,可以分别得到正面高频词和负面高频词排序。

最后,使用LDA模型进行训练,得到若干主题。根据这些主题分析消费者们最关注的物流服务影响因素,从而有针对性地提升物流服务质量。

三、实验分析

(一)评论采集与预处理

本小节选取京东商城家电类、生鲜类和电子类三种不同类型商品,通过网络爬虫程序采集这三类商品的在线评论数据,包括会员、级别、评价星级、评价内容、时间、点赞数、评论数、追评时间、追评内容、商品属性、页面网址、页面标题、采集时间等,各类商品分别采集15 000条有效在线评论,即共计45 000条数据。数据构成见表1。

表1 京东商城商品在线评论的数据构成

然后,运用Python编写代码对在线评论原始文本数据进行文本预处理,即去重数据、机械压缩去词、短语过滤。处理结果见表2。

表2 文本预处理结果

(二)情感分类结果

对预处理后的文本评论数据进行情感分类,分别得到家电类、生鲜类和电子类三种类型商品的正、负面评论文本数据集(见表3)。其中,从评论数的角度来看,电子类商品的好评数最多,生鲜类商品的正面评论数最少,家电类商品的负面评论最少,而生鲜类商品的负面评论最多。从好评率的角度来看,家电类商品中正面数据占62%,生鲜类商品占46%,电子类商品占61%。将三种类型商品好评率相互对比可发现,家电类商品好评率与电子类商品的好评率几乎持平,家电类略高,而生鲜类商品的好评率相对前二者明显较低。

表3 在线评论情感极性分类表

(三)词频分析

使用Jieba分词工具进行中文分词,然后通过TF-IDF算法得到三类商品的正面评论与负面评论的高频词及其权重,表4至表9分别为三种类型商品正、负面评论高频词Top 20及其权重排名表。

表4 家电类商品正面评论TF-IDF高频词及其权重

从表4和表5可以发现,家电类商品的在线评论Top 20的高频词中,有半数以上为物流服务质量相关词语。在其正面评论的高频词中出现了安装、服务态度、师傅等词,可以看出消费者在网上购买家电类商品后对安装服务及安装人员的服务态度十分重视且给予肯定。而送货、小哥、配送、速度、物流等词反映了消费者对于物流配送,尤其是“最后一公里”同城配送速度非常关注。在其负面评论中,从客服、联系、售后、退货、服务态度等词可以看出负面问题主要集中在消费者与售后客服的联系交流和退换货服务要求上。除去商品在物流配送前的质量问题,出现退换货大多是因为家电类商品在包装保护及配送环节没有充分考虑到商品体积大、价格高、易损坏等特征导致。从安装、收费、安装费等词结合正面评论,可以看出不同地区安装服务收费标准尚未统一。从价格、保价等词可以看出消费者对价格及一定时间内的保价措施是存在需求的。

表5 家电类商品负面评论TF-IDF高频词及其权重

表6和表7的数据表明,在生鲜类商品的正面在线评论高频词中出现最多的词为口感、味道等,说明消费者对生鲜类商品最为关注的维度是商品质量。新鲜度是生鲜类商品质量最重要的评判维度,物流、配送、快递、挺快、速度等描述物流配送速度的词,恰好可以等同为描述新鲜度,所以物流配送速度是消费者购买生鲜类商品时的重要参考因素。此外,包装这个词在生鲜类商品的正面评论词频中排行第四,说明包装对生鲜商品质量十分重要,也是消费者关注的重要因素。从负面评论来看,快递、冰袋、味道、物流、解冻这些词都与生鲜类商品的质量,即新鲜度相关,也就是与配送速度与保鲜方式相关,说明生鲜类商品在某些地区的配送速度与长途运输的保鲜方式依旧存在问题。此外,从客服、退货、商家、服务态度、售后等词可看出,在消费者收到问题产品后,与商家沟通和申请退换货服务过程中,客服人员服务质量及其态度也是消费者考虑给出差评的一个重要因素。

表6 生鲜类商品正面评论TF-IDF高频词及其权重

表7 生鲜类商品负面评论TF-IDF高频词及其权重

表8和表9的数据表明,在电子类商品的正面在线评论高频词中出现最多的词为外观、屏幕、散热等,说明消费者对电子类商品最为关注的维度是外观和性能,对物流服务质量的感知并没有家电类和生鲜类商品那么敏感。但是表中也出现了物流、服务态度、配送这类词语,说明物流配送服务和客服服务依然是消费者重点关注的因素。正面评价中出现保价、性价比等词,说明电子类产品性价比高且保价措施做得很好;负面评论中,客服、售后、退货、服务、态度等词出现频次比较靠前,说明电子类商品的退换货服务相对家电类和生鲜类商品比较频繁,电子类商品的退换货服务并不理想,存在较多问题。

表8 电子类商品正面评论TF-IDF高频词及其权重

表9 电子类商品负面评论TF-IDF高频词及其权重

(四) LDA主题分析

根据文献中常见的参数设定,[18]将Dirichlet 先验分布的超参数α和β分别设置为0.1和0.01,通过LDA主题分析得到的正面评论文本主题分类结果与负面评论文本主题分类结果见表10至表15。

表10 家电类商品正面评论的LDA主题分类

表11 家电类商品负面评论的LDA主题分类

表12 生鲜类商品正面评论的LDA主题分类

表13 生鲜类商品负面评论的LDA主题分类

表14 电子类商品正面评论的LDA主题分类

表15 电子类商品负面评论的LDA主题分类

表中数据显示了各类商品正负面评论的主题词结果及主题词概率。以家电类商品正面评论的主题识别结果为例,可以看出消费者最关注Topic 0为服务、很快、物流、速度、送货,与配送服务相关;Topic 1为速度、安装、东西、不错、好看,与安装服务相关;Topic 2为值得、品牌、信赖、购买、价格,与商品质量相关;Topic 3为服务、态度、小哥、耐心、感觉,与售后服务相关。由家电类商品的正面评论主题词可以看出,消费者对家电类商品的物流配送、安装服务、商品质量和相关人员服务是给予肯定态度的,其中Topic 3的主题词平均概率最高,即对相关人员服务的感知与评价较高。通过对家电类负面评论的LDA主题词分析可看出,在安装服务中出现收取额外安装费等收费不合理行为、上门安装人员安装维修技能比较低、安装人员服务态度差、“最后一公里”配送过程慢、商品保价措施失误和售后服务态度差等问题,而且其Topic 3的主题词概率最高,即售后服务相关问题尤为突出。在生鲜类商品正面评论的LDA主题分析表明,消费者对新鲜度(体现在配送速度与商品质量上)、包装、价格和配送服务态度四个维度较为关注,其中Topic 1的主题词概率最高,说明消费者对京东生鲜的包装比较满意。生鲜类商品负面评论LDA主题分析中评论维度比较单一,说明消费者对生鲜类产品的不满集中在新鲜度以及其所导致的一些问题,包括配送速度慢、商品损坏变质、退换货处理不当等。不同于家电类和生鲜类商品,电子类商品具有体积小、价值高等特点,所以主题分析的维度中性能、性价比、体验等的主题词概率较高,与物流服务质量相关的因素仅有配送和速度。但电子类商品负面LDA主题分析的结果相反,物流服务质量影响因素比较多,包括配送时间长、货损及退换货和保价服务等,尤其是退换货服务的主题词概率最高,说明电子类产品的退换货服务相对家电类和生鲜类产品更为频繁,说明电子类产品的退换货服务质量存在较多问题。

(五)对比分析

对比近些年基于在线评论聚类以获得物流服务质量影响因素的研究见表16。

表16 基于在线评论的物流服务质量影响因素研究

本研究结果基本涵盖了前人所总结的大多影响因素,但是本研究不限于从总体上得到在线评论中物流服务质量的影响因素,而是对三种常见的不同品类商品分别探究影响其正负面评论中所包含的物流服务质量的因素,从而针对不同类商品的特点进行具体分析。

综上所述,从正面评论的高频词及LDA主题分析可以看出,消费者比较关注家电类商品的安装和售后服务,希望生鲜类商品的包装合理和配送速度快,以保证商品的新鲜度,对电子类商品的退换货服务要求比较高。这三类商品企业可以改善这些方面的服务,有效提升消费者满意度,进而带来更高收益。

四、结语

物流服务作为网络购物中必不可少的环节,其服务质量已成为影响消费者满意度和购物体验的重要因素。本文基于消费者的视角,对在线评论进行处理,分析了影响物流服务质量的主要因素。首先,通过网络爬虫采集京东商城家电类、生鲜类和电子类三类商品的近期在线评论数据并进行预处理;其次,利用情感分类把预处理后的评论文本数据分为正面和负面评论,并通过词频分析展现在线评论中的高频内容;最后,利用LDA主题模型分析得出三种类型商品正面和负面在线评论中影响物流服务质量的相关主题信息。本文分析有助于物流企业关注不同种类商品的特点,在物流服务上采取不同措施,以提升物流服务质量,进而提高顾客满意度。后续研究希望可以从技术层面入手提高自然语言处理和分析能力,选取更加全面、更有代表性的品类,利用在线评论对网络购物的物流服务质量进行评价,对物流服务质量做进一步研究。

本研究经LDA主题模型得到的物流服务影响因素为,家电类:配送服务、安装服务、商品质量、售后服务和服务态度;生鲜类:配送速度、包装、退换货服务;电子类:配送速度和退换货服务。

猜你喜欢
生鲜负面服务质量
生鲜灯的奥秘
论如何提升博物馆人性化公共服务质量
基于传感器数据采集的快递服务质量分析
建议在直销业推行负面清单管理模式
负面清单之后的电改
远离负面情绪
正面的人和负面的人
中国生鲜消费趋势
超市生鲜里的这些秘密你一定要知道
倾听患者心声 提高服务质量