王新通,夏志杰 (上海工程技术大学 管理学院,上海 201620)
互联网的高速发展引发了网络消费潮流。根据《第44次中国互联网络发展状况统计报告》,我国网民对网络购物的使用率达到了74.8%。在消费者网络购物的过程中,超过50%的消费者会在做出购买决策前阅读在线评论。在线评论作为一种特殊的电子口碑,也具有互联网信息传播的鲜明特点,即典型的匿名性和交互性强,越来越多的消费者愿意在购买商品后发布在线评论,来分享自己的购物经验。在线评论作为信息共享的方式,直接影响到了商品的口碑,突破了传统口碑传播方式在时间和空间上的限制。
在线评论的文本当中,蕴藏着用户对于商品的质量、功能和商家的服务等多方面的丰富信息,对这些文本内容进行挖掘可以更准确地把握用户的需求。当前的市场瞬息万变,用户需求随着时代的变化也处于动态变化的过程。在这样的背景下,电商企业识别用户不断变化的需求,进而及时调整产品、服务和宣传战略,才能在激烈地竞争中脱颖而出,赢得更多的市场份额。
本研究以天猫网站为例,选用来自于搜索型商品和体验型商品的在线评论数据构建实验语料库,基于LDA模型追踪用户生成的在线评论内容,挖掘在不同类型的商品中不同的用户需求,其总体研究框架如图1所示。首先爬取天猫网站相关商品的在线评论数据,对采集到的文本进行预处理,具体操作包括中文分词、删除停用词以及加入用户自定义词典等;其次,对采集到的在线评论文本语料库进行LDA建模,对主题下的特征词进行筛选,以辅助各主题内容的识别;最后,基于LDA模型输出的概率分布文件,进行热点主题挖掘和主题词与用户需求的映射关系建立,分析用户对于不同商品的用户需求,并以此为依据制定商品供应策略。
图1 用户需求分析框架
本研究选取天猫平台的休闲食品在线评论数据作为研究对象。坚果类休闲食品因其营养健康的特点,深受消费者喜爱。因此,本研究中将零食中的“每日坚果”这一商品作为研究对象,选取三只松鼠、百草味、良品铺子、沃隆和洽洽五家厂商的商品进行研究。
本文使用Python3.8编写网络爬虫对天猫平台的在线评论数据进行收集。总共获取了五个品牌零食(三只松鼠、百草味、良品铺子、沃隆、洽洽)产出的评论共9 900条。通过网络爬虫虽然采集到了原始的在线评论数据,但是在线评论的质量参差不齐,其中异常数据的存在可能会影响数据挖掘的结果。因此,应对得到的原始评论数据进行数据清洗,以保证研究结果的准确性。通过对原始评论数据的观察研究,发现原始数据存在的问题主要有以下几个方面:评论的随意性严重、无评论内容或无文本评论内容和重复的评论。针对原始在线评论数据中存在的上述问题,使用Python编程对获得的原始在线评论数据进行数据清洗,清洗规则如下:对评论内容信息含量过少的数据进行剔除,筛选依据为若该在线评论的文本长度小于10,则认为无法从该用户提供的在线评论中获取关于其购买商品的信息,将该条在线评论剔除;结合本研究的主要目的,对于只含有图片或视频评论和只含有星级评论的无文本内容的在线评论,认为其为系统默认评论内容,对于本研究无参考意义,将该条在线评论剔除;对于经过上述两部操作后的数据集,使用编程遍历其中的每一条评论,若存在完全相同的两条在线评论,且其发布者为同一ID的用户,则认为该重复评论会对统计结果的真实性造成干扰,将重复的评论予以剔除,只保留重复多条中的其中一条。通过对原始的在线评论数据进行如上步骤的数据清洗过后获得了5 065条在线评论。
经过前文的数据筛选,得到了有效的在线评论数据,继续使用Python中的jieba工具库对筛选后的在线评论进行去停用词和分词处理,利用强大的中文字库,可以确定各个关键字词之间有关联的概率,字词间关联概率大的组成新的关键词,最终得到分词结果。
(1)分词处理
在比较该库的三种分词模式后,最终选取精确模式对筛选后的在线评论进行分词处理,对比分词结果与原始评论,分词的效果较好,可以完整的保存原始评论的表达效果。
(2)去停用词
在对在线评论的文本内容进行分词的操作过程中,需要剔除原始的文本内容中对语义没有帮助的字词或标点符号,例如“一些”、“多少”、“尽管”、“,”、“!”等,这些内容频繁在在线评论的文本中出现,但如果将其作为在线评论的主题词处理,这些对本次研究无意义的字词会影响最终的结果。因此,本研究综合使用了哈工大停用词表、百度停用词表、中文停用词表和四川大学机器智能实验室停用词库。另外,本次研究的对象为以手机和零食分别代表的搜索型商品和体验型商品,与该类商品的品牌无关,因此,将手机的五个品牌名和零食的五个品牌名作为停用词加入了停用词表。通过对原始数据的观察,对本次研究没有帮助的词汇,如“今天”、“手机”、“购买”等也应加入到停用词表中。最后,分词后的某些关键词如“用”、“还”、“了”等单字,含义不明确且意义不大,因此将长度为1的关键字加入停用词表。综上,最终构建出了适合本次研究的停用词表.。
经过本节对数据的预处理,对清洗后的数据进行分词、去停用词处理后,获得了多条由若干关键词组成的行数据,将其中的每一行成为一个“文档”,每一个“文档”对应一条原始的在线评论文本内容。
统计各种商品产生的多条“文档”中的字词的出现次数,统计所有“文档”中出现的高频词汇,可以直观地看到不同产品的在线评论中提及次数较多的词汇。表1为各个商品的在线评论中出现频次前10的词语和对应的频数,可以从整体层面体现出用户对该商品的关注点。
表1 Top10词频分布表
为了更加直观地从整体层面观察用户的关注点,使用词云图来直观地展示各关键词的出现的频率,出现频率高的关键词此题越大,因此也越明显。全部数据的词云图,如图3所示:
在本节中,利用LDA模型对预处理后的在线评论数据进行主题挖掘,展示出聚类主题和每个主题中的关键词,根据主题中的关键词来描述用户的关注点,整理出用户产品特征的关注情况,对体验型商品和搜索型商品之间用户关注差异进行分析。
2.4.1 主题数选取
在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度,低困惑度的概率分布模型可以更好地拟合样本。本研究中构建困惑度随着选择主题个数的变化而变化的模型,并据此来决定LDA模型选出的主题数目。
图3中横轴为选取的LDA主题模型潜在的主题数目,纵轴为选取该潜在主题数时LDA主题模型的困惑度。由图3可以看出,对于休闲食品在线评论的分词结果,在主题数目逐渐增加到8的过程中,困惑度迅速下降,以7个主题作为拐点,主题数目继续增加时,困惑度以较慢的速度减小。根据奥卡姆剃刀原理,并同时最大化的保留差异的主题,最终选取7作为LDA主题模型的潜在主题数目选择。
图2 休闲食品在线评论分词结果词云图
图3 休闲食品主题数目—困惑度变化表
2.4.2 LDA主题模型聚类
在上一节中确定了LDA主题模型的潜在主题数目,综合以上经过预处理之后的在线评论文本数据以及最优主题数目,利用LDA主题模型训练得到7个主题的结果,选取其中排名前五的5个主题,选取重要性排名前五的词汇来描述该主题。结果如表2所示。
表2 休闲食品在线评论各主题词频分布表
2.4.3 需求分析
产品特征向用户需求结构的映射是将产品功能特性的描述转化为企业最为关注的用户需求的过程。在使用产品的过程中,用户最关注产品可以提供哪些功能,用户在评论中对产品特征进行反馈,在一定程度上是将用户需求信息传递至企业,使企业能够及时做出反应。另外,产品特征向用户需求映射的过程中,能够更深层次把握用户需求实质,进一步对其进行分类及汇总,使企业能够将用户需求和产品未来的开发目标联系起来。所以,企业需要在挖掘在线产品评论主题的基础上进一步识别和分析用户关键需求。根据上述LDA主题聚类的结果,综合5种商品的主要主题词构成,消费者的需求主要集中在物流、商品质量和包装三个方面,另外消费者购买此类商品时更容易多次回购。
本研究针对电商平台休闲食品的在线评论的主题进行差异识别,利用LDA主题模型对5个品牌的商品进行在线评论的文本主题聚类,总结出了每种商品在线评论文本的Top5主题和对应该主题下出现的频率Top5主题词,呈现出主题的分布结果。并以此为依据,整理用户对商品的在线评论中提及的主要商品特征,得到用户对休闲食品的关注要素。结合LDA主题识别的结果和产品—需求映射关系,可以看出消费者在休闲食品的在线评论中以较高的频次提及商品的物流、质量、价格、包装、分享自己的体验与感情,这体现了用户购买此类商品时所考虑的需求,因此,涉及这几类需求的关键词出现的频率更高。
本研究从真实的消费者发布的在线评论数据中有效地识别出用户需求在不同商品间的差异,发现针对不同类型的商品,消费者有不同的需求。当前,电商平台上各种信息的创造速度和传播速度已经远远超过用户个体的信息接收能力和处理应对限度,因此,电商平台的商家在运营过程中,应当结合自身发展状况,针对不同商品的用户需求,制定合理的定向广告策略。根据本研究结论,提出以下建议:
电商平台商家应优化广告宣传。由于网络购物的限制性,消费者在挑选商品时无法直接接触商品,只能借助商家提供的网络信息对在线商品进行挑选和甄别。电商平台商家可以优化广告宣传页面,提供以往消费者的优秀评论信息,来消除消费者在网络购物过程中的担忧,帮助消费者快速做出满意的决策。在销售休闲食品时,针对更多的用户对“包装”和“使用体验”的表达,可以将过去的消费者关于此类方面的积极评论作为宣传的内容向消费者展出,充分发挥“电子口碑”的作用。
电商平台商家应分类陈列在线评论。鉴于消费者对于不同商品有不同的需求,电商平台商家可以对在线评论进行分类管理。将各类在线评论按照其主题分类,以其关键词作为标签,从而提高消费者对在线评论进行信息加工的效率,进一步提升消费者的购物体验。例如在手机销售的评论区,添加“颜值”、“系统”、“拍照”这一类词汇的标签,帮助用户快速找到自己需要的信息,提升购物体验。
电商平台商家应鼓励消费者发布在线评论。在线评论作为网购中最容易被消费者忽视的末端环节,有大量的消费者会忘记在购物后进行评价。电商平台商家应鼓励消费者更加积极地发表在线评论,如在售前客服与消费者的交流中提醒消费者进行在线评论,或在商品中添加小赠品和感谢信等形式鼓励用户发表在线评论。