陈光宇,易钟婷,关一,李甲贵*
(1. 西北农林科技大学经济管理学院,陕西杨凌 712100;2. 西北农林科技大学葡萄酒学院,陕西杨凌 712100/西北农林科技大学宁夏贺兰山东麓葡萄酒试验示范站,宁夏永宁 750104)
关键字:葡萄酒;网上购买;消费者;关注度;满意度
随着居民可支配收入的不断提升与葡萄酒文化的快速传播,葡萄酒已经成为一种人们追求健康和时尚生活方式的象征。中国酒业协会2021年发布了《中国酒业“十四五”发展指导意见》,预测未来五年我国葡萄酒产量将达到7亿升,较2020年上涨75%,对应收入将增加66.7%。然而,目前我国葡萄酒人均年消耗量仅有1.3升,相当于世界人均消耗量的40%。可以预见,未来几年我国葡萄酒产业将迎来发展的黄金时期。伴随着市场规模的提升,葡萄酒销售模式也在不断革新。头豹研究院发布的《2019年中国葡萄酒行业概括》显示,虽然商超仍是酒类产品的主要销售渠道,但是购物网站和直播带货等线上购物的规模正在以每年40%左右的增长率持续上升。购物网站也给消费者搭建了一个分享购买葡萄酒感受的交流平台。这些平台中反映消费者心声的评论,不仅为研究消费者关注因素提供大量的数据支撑[1],而且有利于商家改进商品质量和服务以提升客户转化率[2]。LDA(Latent Dirichlet Allocation)主题模型是一种基于机器学习算法的文档主题生成模型,因其能大规模提取文本内容、归纳消费者关注的主题、支持主题间关系计算等优势,已经成为主题发现的主流算法。IPA(Important-Performance Analysis)分析矩阵是一种基于期望差异理论的测量方法,可以综合测量消费者产品关注度和产品绩效相对关系。本文将LDA主题模型和IPA分析矩阵模型结合使用,可以将每个主题从消费者关注度和产品满意度两个维度量化处理,以期辅助商家了解消费者诉求,制定针对性营销策略。
近年来,蓬勃发展的电商平台,给消费者提供了大量观点分享渠道。这些平台每天生成的海量评论,给相关领域研究者提供了宝贵的研究资料。然而,评论中包含着消费者大量由不同描述语言构成的观点和偏好,这种开放式的语言表达,虽然可以完整呈现顾客的真实想法,形成电子口碑效应,但是难以被传统分析方法提取和处理。近几年兴起的文本挖掘技术,为解决这类问题提供了新方法。
消费者在消费过程中会对产品产生正面或负面的评价,而这些评价与购买意愿存在着一定关系[3]。消费者对于产品评价主要由感官评价、认知评价、使用评价和关联评价构成[4]。线上平台的设计美观度、消费者在购物时的体验、详情页的展示度会影响消费者的购买意愿。Sharma[5]认为,线上产品的特征,例如质量、价格等因素都会影响消费者的购买意愿。
冯坤等[6]人基于LDA模型提取出线上平台消费者对于食品的评论主题,通过构建商品品类下不同商品的随机占优矩阵,算出了不同商品影响因素的满意度排序,如:有的商品品类中消费者最为关注的是性价比,而有的品类消费者最关注的却是品牌。Iwata等[7]使用LDA模型研究了不同大类商品的消费者满意度影响因素,结果表明不同类的市场中影响因素不尽相同。吴江等[8]分析不同时间段两种商品的评论信息发现,随着时间的推移,商品的消费者满意度曲线呈现U型,即购入商品之后消费者的满意度往往会有所下降,之后消费者对商品质量和好性能的产品的喜爱程度会随着时间的延长而增加。
王珠美等[9]使用LDA模型统计出农产品评论的主题及其占比,进而运用直觉模糊TOPSIS模型算出各种农产品评价的综合得分,发现商品的销量与评论的综合得分呈正相关。阮光册等[10]使用LDA模型统计出商品的属性,分析各个属性的情感极性并结合多元回归模型探究情感极性与销量排名之间的关系。结果显示,随着各属性的情感分值增加,销量排名上升。毕达天等[11]利用LDA模型探究了交易双方的行为,通过系统研究“淘宝”的商品差评,发现商家向消费者索要好评的行为会引起消费者的厌恶,从而给出差评,且商家索要好评的方式和次数都会影响消费者给出差评的决策。
综上所述,在电商平台评论领域,消费者购买不同大类的产品时关注因素往往存在较大差异。同一大类产品下,不同子产品之间受关注因素的关注度和满意度也不尽相同。然而,大多数学者只是分析出产品影响满意度的因素,而不考虑该因素的重要程度,笼统地给出建议。出于成本的考量,采纳全部建议显然不能满足商家效益最大化的目标。因此,本文综合利用LDA模型、重要性-绩效性(IPA)分析法,深入挖掘葡萄酒评论信息。在获取评论主要关注因素的基础上,利用语义网络图展示不同情感极性下关键词之间的联系,在综合考量关注度和满意度两个指标的基础上给出合适的营销建议。
LDA主题模型能够高效地利用关键词反映出消费者主要关注因素,IPA矩阵可以综合测量消费者对产品的关注度与满意度的相对关系,因此LDA模型与IPA矩阵分析法相结合的网络评论信息研究方法,广泛应用于不同领域的用户观点研究。本研究基于LDA模型构建了葡萄酒评论的分析框架,以便准确地获取消费者具体反馈,有针对性地给出建议。具体研究流程如下:(1)根据搜索关键词葡萄酒,利用爬虫技术获取京东平台销量排名前100的葡萄酒品牌的消费者评论数据,将文本进行预处理,得出目标数据。(2)对处理后的文本数据进行中文分词等操作,借助LDA模型获取评论主要关注因素并评论的文本信息进行情感分类。(3)结合评论中提取的观点,将关注因素进一步细分,算出二级指标的关注度和满意度。(4)构建基于IPA方法的关注度-满意度矩阵,进行可视化分析。
本文使用Python语言编写爬虫代码,抓取2020年12月1日“京东商城”上销量前100的葡萄酒评论文本,将每个葡萄酒的评论单独保存成一个csv文件,共获得66 563条评论信息。京东商城前100的葡萄酒之间存在共用评论的现象,因此需要对比每个csv文件,去掉重复文件后得到33 282条评论信息。使用Python数据分析领域的Pandas库清洗剩余评论的文本数据。首先,为保证数据不受人为因素干扰,需要将明显的刷单信息删去。例如:删除“京东的质量我一直比较放心,发货也比较快”此类按特定套路生成的高度重复且一致的评论信息;更正一些错别字,如将“丹宁”改为“单宁”等;把一些意思相近的词语进行同义替换,如将“飞速”“快速”“飞快”等词语统一替换成“很快”。然后,选取中文文本处理效果比较好的Jieba分词模块,结合“搜狗词库”中的“网购词库”“葡萄酒相关名词词库”构建自定义词库,对评论文本进行分词。最后,导入停用词库,把分词后文本中没有意义的词语过滤掉。
2.3.1 LDA主题模型
2003年,Blei[12]针对PLSI模型不能用概率描述文本信息产生的缺陷,提出将文档主题混合的比例表示成一个服从Dirichlet分布的隐含随机变量,以此模拟文档生成过程,提出了一种非监督机器学习的文档主题模型,即LDA主题模型。LDA模型包含文档、主题和特征词三个维度。利用评论文档D及其先验参数α和β推断每个关键词的主题分配序列z_(d,ω),并根据该序列得到评论-主题分布概率θ和主题-词汇Φ分布概率。具体方法如下[13]:
(1)确定评论数目N和该文档中的特征词数dn;
(2)对于评论d,生成主题分布:θ_d~Dir(α);
(3)对于主题κ,生成特征词分布:Φ_κ~Dir(β);
(4)对于特征词ω_(d,i),先在θ_d生成一个主题z_(d,i)~Multi(θ_d),再根据z_(d,i)生成ω_(d,i)~Multi(θ_(z_(d,i)))其中iε{1,2,...,dn}。
使用模型各变量最大化的联合分布,估计各个参数:
通过吉布斯抽样求解参数的概率p,进一步引入狄利克
其中,z_(dω)表示该特征词分配的主题;z_(-(dω))代表不包括此特征词的其它词语的主题分配序列;代表将评论d中除去特征词ω之后的其它特征词分配给主题κ的次数;代表排除文档d中的特征词ω之后,ω仍分配给主题的次数。
2.3.2 LDA模型主题个数的确定
由于LDA模型的主题个数对分析结果有决定性的影响,因此在分析葡萄酒评论的关注因素之前,需要确定主题个数。目前有三种应用较为广泛的方法:第一种是利用层次狄利克雷过程将主题的个数转化成非参数,从而去除主题个数对模型的影响。第二种方法由Griffiths等[18]提出,基于贝叶斯算法确定文本数据主题个数的方法。第三种是Blei[16]提出的分析不同主题个数下模型困惑度(Perplexity),确定主题个数的方法。由于第一种和第二种算法的复杂度高且效率较低,因此本文选用第三种方法测量主题个数。困惑度的计算公式如下:
其中:D表示所有葡萄酒评论的集合,d表示集合中的一条评论,Nd表示d评论中的特征词个数,ωd表示d评论中的特征词序列,P(ωd)表示d评论中ωd出现的概率。
IPA分析是一种基于期望差异理论提出的衡量研究对象满意度的方法[14]。它将关注因素的重要性和绩效一起纳入考量范围,通过比较两者的关系,确定改进策略,以便管理者对有限的资源进行利益最大化的利用。由于葡萄酒评论开放式的文本属性,一个评论中可能包含不止一个观点,且对于不同观点的情感极性也不一定相同。本文利用百度AI开放平台基于深度学习技术研发的观点提取模型对葡萄酒评论进行观点提取。首先,使用Python安装并导入百度提供的AiNlp第三方库,用其提供的身份信息进行验证。最后,将评论文本循环输入百度提供的接口进行处理,提取输出的观点以及情感极性。该模型经过大量的购物评论语义训练,对输入的评论信息可以较好的进行观点和情感极性提取。本文在LDA模型确定的关注因素基础上将其再度细分为多个二级指标,将提取出的观点归类到二级指标之中,计算出各个二级指标的关注度和满意度,根据IPA方法构建关注度-满意度矩阵进行。
3.1.1 确定最优主题数目
本文使用Gibbs抽样计算参数的概率,因此抽样迭代次数也会对困惑度产生较大的影响。通过分别测算迭代参数在20~300的情况下主题数在1~20时最佳主题的困惑度,发现迭代次数为23时,效果最好。将抽样迭代次数设置为23,分别测算主题数为1~20对应的困惑度。图1的折线可以看出,把主题个数设置为5时,模型的困惑度最低。
3.1.2 LDA主题挖掘
本文使用Python自然语言处理领域Gensim库中的LDA模型,对预处理后的葡萄酒评论数据进行建模分析。通过困惑度与主题之间的对应关系,得出最佳主题数之后,将主题数带入LDA模型并将关键词个数设置为10,分析出了各个主题包含的关键词和对应的相似度。见表1。
LDA模型根据特征词与主题的相似性,将相关词语划分在一起,表达对应的主题。根据表1的结果,通过多个按主题相似性排序的特征词描述,可以推断出对应的主题。主题1中出现了‘物流’‘速度’‘很快’‘快递’等特征词,可以推断出此主题描述了葡萄酒销售环节的物流特征;主题2中出现了‘口感’‘品尝’‘味道’‘包装’等词,可以推断出这些词主要描述了葡萄酒的产品特征;主题3出现了‘感觉’‘赠品’等词,结合具体评论可以推断出此主题描述了客服质量;主题4出现了‘购买’‘不错’‘值得’等词,可以推断出此主题与购物体验相关;主题5出现了‘便宜’‘价格’‘活动’等词可以推断出此主题与葡萄酒价格特征相关。
3.1.3 关注因素的关注度与满意度分析
根据LDA模型分析可知,消费者主要关注因素有5种,分别是:产品特征、价格特征、物流特征、购物体验和客服质量。为深入研究消费者对每一种关注因素的关注度和满意度,需要将每段评论中包含的观点全部提取出来。使用百度AI开放平台基于深度学习技术开发的观点提取功能,结合LDA模型分析主题及其特征词,将评论观点进行主题归类。根据观点分类的结果,统计各个主题特征的关注度和满意度。
图2表明,消费者在京东商城购买葡萄酒时,对于产品、价格、物流、购物体验以及客服方面整体满意度较高(在83%以上)。但是,消费者除了比较关注产品特征外(52.65%),对于价格、物流、购物体验、客服质量关注程度都很低(仅仅7.74%~13.41%),这说明消费者对线上购物整体上比较满意,对产品质量比较关注,对其他方面均比较满意,甚至不怎么关心。结合表1结果可以发现:京东商城商品质量相对较好,商品出现问题的概率较低;消费者对物流的满意之处主要是速度快,这点也能印证京东自建物流的成功,高效率物流为京东商城的葡萄酒销售起到了积极的促进作用。对物流的不满之处主要集中在物流质量方面,比如:瓶子破损,包装损坏等。
表1 LDA主题模型结果Table 1 The LDA model of topic maps
承接上文对消费者购买葡萄酒时感受的定性描述,此处使用IPA分析的方法研究各个指标的满意度和关注度关系。首先,本文对于提取的观点进行了归类,并进一步对主题模型统计出的5个关注因素进行细分,得到11个二级指标,分别统计出每个二级指标的关注度和满意度(如表2)。
根据表2的数据,以满意度为横轴,关注度为纵轴,将坐标(88.03%,8.23%)设置为交叉点,并且将4个象限命名为A区、B区、C区,D区以此建立IPA方法。其中,88.03%表示的是满意度的均值,8.23%表示的是关注度的均值。IPA分析结果如图3所示。
表2 消费者网上购物葡萄酒所关注因数Table 2 Consumers' attention of online wine shopping
3.3.1 提升产品质量,差异化定位市场
由于消费者对产品质量关注度和满意度都非常高,该因素落在了A区域。但是,仍有部分消费者反映“对国内的酒庄有些失望,品质如同国外餐酒”。目前,国产酒与进口酒相比,并没有价格优势,若是质量得不到提升,将处于更加被动的状态。因此,产品质量关仍然是商家关注的重点。对于对品质比较挑剔的消费者,在提升质量的同时,需要把产品定位和消费者群体结合起来,重新进行合理定位。引进先进的酿造工艺和设备,根据线上品牌的销售情况,酿造出不同类型的葡萄酒,确立企业的一级主打产品、二级大众产品和三级下沉产品,在线上系统的支持下对不同类型的消费者进行差异化推荐,满足不同的市场人群。
3.3.2 提高总体关注度,提升产品自身优势
落在B区域的关注因素有总体感受、优惠、价格、物流速度、物流质量,视觉感受。消费者对这6个因素虽然关注相对较低,但是满意度较高。说明商家在这些方面做得已经比较出色,不需要将过多的精力投放在此。消费者对于酒的色泽并不敏感,但是随着葡萄酒文化的普及,消费者对于酒的色泽认知提升,不排除视觉感受下降的可能。也就是说,消费者的满意度较高,但总体关注度不高,那么产品自身优势还是不能显著发挥。一个优秀的销售品牌需要扩大自身的优势,将产品的优势信息传递给消费者,进而影响消费者的消费意愿和行为。在企业品牌运营过程中,可以把消费者对于满意度高的优势加入到产品的线上广告中,引起消费者的共鸣。
3.3.3 减少消费负面情绪,建设线上销售团队
客服质量落在C区域,表明消费者对于客服人员服务态度的满意度和关注度都不是很高。客服质量的关注度不高,原因是消费者在购买葡萄酒时很少遇到问题,不必寻求客服帮助。然而,如果遇到问题,消费者就很容易产生不满情绪,此时若是客服人员的服务态度不好或者解决效率不高,消费者就会丧失对商家的信任。因此,在销售过程中需要重新制定客服销售激励计划,对客服话术和服务态度进行培训,提高客服销售待遇,用收入激励客服人员的活力,将客服人员的工资与绩效挂钩,或者像那些有经验的销售团队学习,建设优秀的线上销售团队以减少消费者在消费过程中的不满情绪。
3.3.4 优化产品特性,注重饮酒感官体验
落在D区域的有包装设计、味觉感受、嗅觉感受,表明消费者对这3个的关注度高,满意度较低。商家应该优先解决此区域中关注因素存在的问题。很多消费者购买葡萄酒是为了送礼,因此包装设计是否有新意、是否上档次就成为消费者重要的考量因素。消费者反映的影响满意度的主要原因是包装不够高端,送礼有失面子。味觉方面,消费者不满的地方在于有些葡萄酒酸涩较重,无法适应,综合评论信息发现消费者喜爱口感偏甜的葡萄酒。如“兑点雪碧类的甜汽水会喝着舒服一些,酒味不那么刺鼻”。消费者对于一款酒最初的感受源自于其香味,因此嗅觉感受远高于其他因素。进一步分析消费者喜欢的葡萄酒香气,发现相较于其他香气,消费者对果香更加敏感。
本文利用“京东”购物平台的葡萄酒评论数据,综合运用LDA主题模型、IPA分析矩阵等方法研究消费者的关注因素及其满意度和关注度。结果发现,葡萄酒消费者主要关注因素为产品特征、价格特征、物流特征、购物体验,客服质量。产品特征又可以细分为视觉感受、味觉感受、嗅觉感受、产品质量、包装设计;价格特征包含价格和优惠;物流特征可以细分成物流速度和物流质量。关注度最高的4个因素全是产品特征的二级指标,其中味觉感受、嗅觉感受、包装设计这3个因素需要重点改进,产品质量需要继续保持。消费者对于包括购物体验在内的6个因素关注度较低,满意度较高,表明对这些因素总体上比较满意。
商家应该将改进的重点放在提升葡萄酒的整体质量上。产品质量关不能松懈,保证酿酒葡萄的质量,严格把控各个生产环节,产品出厂前进行严格的质量筛查,防止出现产品变质等情况;包装设计方面,建议商家分别设置礼盒装和家用装,满足一部分消费者自饮需求的同时,也让买酒送礼的消费者多一种选择;味觉方面,大部分对葡萄酒了解不深的消费者,比较难以适应干红的涩味,更加偏向于甜味。建议商家适当增加半干型、半甜型和甜型葡萄酒;在嗅觉方面,大部分消费者更倾向于葡萄酒的果香,对于其它香味认知并不强,建议商家生产更多具有明显果香、花香特征的葡萄酒。在改进产品整体质量的同时,也要加强客服人员的职业素养培训,改进服务态度,提升为客户解决问题的能力。例如:在与消费者沟通时,及时且友好地回复消费者的问题,根据消费者不同的用酒场景,为其推荐合适的酒品;一旦出现售后问题,及时有效地给出解决方案。