文章编号:1002-3100(2024)03-0055-04
摘 要:利用Python采集京东国际个护产品消费者的在线评论,通过文本特征分析得出“物流”、“效果”、“包装”等是影响进口跨境电商消费者满意度的关键要素。随后利用LDA主题聚类模型,结合困惑度和主题可视化,得到反映进口跨境电商服务质量的4类关键因素,包括物流效率、产品功效、感知价值和产品体验。基于此,提出改善进口跨境电商服务质量的策略。
关键词:在线评论;进口跨境电商;服务质量;文本挖掘
中图分类号:F713.365 文献标志码:A DOI:10.13714/j.cnki.1002-3100.2024.03.013
Abstract: This article uses Python to collect online comments from JD International's personal care products. Through text feature analysis, it is concluded that "logistics", "effectiveness", and "packaging" are key factors that affect consumer satisfaction in imported cross-border e-commerce. Then, by using the LDA theme clustering model, combined with Perplexity and theme visualization, the dimensions of import cross-border e-commerce consumers' main concerns are obtained. The results indicate that the key factors affecting the quality of imported cross-border e-commerce services mainly include four dimensions: Logistics efficiency, product efficacy, price discounts, and product experience. Based on this, propose strategies to improve the quality of imported cross-border e-commerce services.
Key words: online comments; import cross-border e-commerce; service quality; text mining
0 引 言
隨着电子商务和经济全球化的发展,跨境电商凭借丰富产品种类、低廉价格占据跨境零售市场的可观份额,成为时代的主题。《2022年度中国跨境电商市场数据报告》指出,2022年中国跨境电商市场规模达15.7万亿元,较2021年同比增长10.56%。但由于不同国家政策法规、文化风俗和监管标准等方面存在差异性,导致跨境商品存在成本高、包裹破损丢失现象严重和海外仓运营成本高等问题。在此背景下,如何提升进口跨境电商的服务质量成为当前学界研究的重要议题。
早在1982年,Gronroos在消费者感知的基础上提出了服务质量内涵,即顾客受到形象、口碑等多种因素的影响而对服务质量产生的期望和亲身体验的实际服务水平之间的差距[1]。基于该理念,Lewis等将服务质量视为是一种衡量公司服务水平能否达到顾客期望的工具[2]。而针对服务质量维度的划分,不同学者所持观点存在差异性。Rust等认为服务质量不仅要对商品功效、技术进行考虑,用户接受服务的环境也同等重要,因此指出服务质量由商品、传递和环境三个维度组成[3]。Gronroos等认为服务质量应包括过程质量(即在购买过程中消费者接收到的服务)和结果质量(例如实体产品、等待时间等),二者通过公司形象最终决定消费者的感知质量[4]。杜学美等将互联网团购购买服务质量分为5个维度,即网站与店铺的环境、传递、补救、消费者权益及功能品质[5]。综合国内外对用户服务质量的相关研究可以发现,学者对跨境电商服务质量的相关研究成果不多见,且多数沿用已有成果,少有从消费者具体实践活动、具体感受来分析其主题特征开展服务质量研究。
基于此,本文利用Python爬取京东国际个护商品消费者评论,使用TF-IDF、词云图分析用户较为关注的方面,利用LDA主题聚类,分析得出影响京东国际进口跨境电商消费者服务质量的关键因素。
1 数据收集及研究流程
1.1 数据收集
京东国际(https://www.jd.hk/)作为国内首个全面专注于进口业务的电商平台,主营跨境进口商品业务,是京东集团旗下进口商品一站式消费平台,其前身是“海囤全球”和“京东全球购”。研究使用Python编写程序采集京东国际平台上个护领域具有代表性的洁面、面膜、面霜3类产品的评论内容作为研究数据。由于研究内容为进口跨境电商的服务质量,故在采集数据时只选择海外旗舰店和详情页内标有“跨境进口”产品。截止2022年12月31日,共获取28 352条数据,其中包括用户名称、评论时间、评分和评论内容。同时为保证研究结果的准确性,对数据进行重复值、去除无用评论等清洗,最终采集到用户有效评论信息24 245条。
1.2 研究流程
本文选择京东国际部分个护产品消费者的在线评论构建语料库,基于LDA主题聚类模型追踪用户生成的评论内容进一步挖掘文本中潜在信息。其研究框架如图1所示。首先是数据的采集,使用Python爬取京东国际相关产品的评论数据;其次对数据进行预处理,包括构建自定义词典,通过jieba的精确分词、过滤停用词典等方式进行分词处理,将分词结果转入词袋模型形成初始文本分析库;接着对文本进行特征提取,词云图绘制,初步了解消费者关注因素;最后利用LDA主题对所有评论内容进行聚类,分析影响消费者满意的进口跨境电商服务质量的因素,从而更好地提升消费者满意度和提高跨境电商企业市场竞争力。
2 实证分析
2.1 基于TF-IDF的文本特征提取
文本特征分析,是信息检索与数据挖掘领域的基础,其目的在于量化文档的特征词。本文应用TF-IDF方法提取文本特征。TF-IDF指某个词或短语对一个文档的重要性,值越高,则表明该词或短语对这个文档的重要性越大[7]。
表1列出了词频统计和TF-IDF权重值排名前20的特征词。在词频统计中,“京东”不出意外的位于第二,但在前20的TF-IDF排序中难觅踪迹,这也不难理解,整个评论数据都是围绕着京东来展开的,几乎每条评论中都可能会提到京东,这便降低了特征词“京东”的重要性。从表1可以看出,“物流”、“发货”、“很快”、“快递”、“时间”等特征词具有较高的权重,在文本中具有很高的重要性,表明消费者非常关注进口商品配送的物流时效。“补水”、“紧绷”、“清爽”、“敏感”等特征词的词频较低,但其TF-IDF权重较高,这类词属于“权重低,分类能力强”的特征词,可选择性地予以保留来进行主题聚类。这也表明消费者比较注重进口商品的功效与效果。
2.2 基于词云图的特征可视化分析
为了更直观地从用户视角展现进口跨境电商服务质量关键词,本文利用Jieba和Wordcloud繪制词云图实现特征可视化,如图2所示。图中的字体越大,代表词频越高[8]。由于“京东”频数较高,且无实际分析意义,因为为了凸显其他词语信息,把“京东”放入停用词表中,将其过滤掉。由图2可见,进口跨境电商用户主要关注产品效果、价格、物流等相关因素。
2.3 基于LDA主题模型的特征分析
LDA(Latent Dirichlet Allocation)是基于共轭先验原理以及贝叶斯框架的文档主题生成模型,包括文档(d)、主题(z)及特征(w)三层结构,所以也被叫做三层贝叶斯概率模型[9]。
困惑度(Perplexity)是度量一个概率分布或概率预测样本的重要指标,常用来确定LDA模型的最优主题数[10-11]。研究使用困惑指标的大小来确定系列文本中所涉及主题的最佳个数。实验证明困惑度最优值为4,使用Pyldavis将困惑度最优的主题数即主题k=4可视化(如图3所示)。
图谱中的不同组块表示各不相同的主题,并且组块大小表示对应主题在语料库的重要性,组块之间的距离表示主题之间的相似性,根据组块大小及距离可提炼出文档的核心技术主题。图3是主题k=4的可视化ldavis图谱,4个主题均由明显的名词组块构成且各组块分布比较分散,表明当主题k=4时聚类精确度较高,更适合作为聚类主题数。
本文使用LDA主题聚类模型得到4个主题,并选取了每个主题排名前12的特征词及对应权重,结果如表2所示。结合Rust[3]提出服务质量理论,并根据表内高概率特征词的含义,最终将4个主题概括为物流效率、产品功效、价格优惠和产品体验。
在物流效率维度中,主要包括快递速度和配送可靠性两个方面。由“速度”、“送到”、“太慢”等特征词可以看出,对于进口跨境电商消费者来说,存在与国内消费者同样的要求即对快递配送效率存在较高要求。而在配送可靠性方面,快递小哥态度、快递包装是否完好都是消费者较为关注的因素。
在产品功效维度中,由权重较高的关键词可看出,该主题主要表达了消费者对进口产品功能与效果的观点。“补水”、“滋润”、“舒服”等特征词频繁出现,表明大部分消费者对于京东国际上的进口跨境个护产品功效比较认可。而“紧绷”“干燥”、“敏感”等词也表达了进口个护产品在功效上仍存在消费者不满意之处。
在感知价值维度中,“活动”、“价格”、“性价比”“优惠”等关键词占据较高权重,表明了消费者对于进口商品的态度和观点。同时“物美价廉”、“划算”、“值得”等关键词也表明了消费者对于进口跨境电商服务多数持满意观点。在消费者满意度研究领域,学者也常用感知价值来衡量产品价格的高低。因此本文将主题3定义为感知价值。
在产品体验维度,出现了“不错”、“满意”、“喜欢”等特征词,表明多数消费者对于进口产品整体持满意观点。回溯原始语料库,发现消费者对于产品外观、包装颜值等因素较为看重,而这些因素也极大地影响了消费者的产品体验感。
3 结论与展望
研究尝试使用京东国际个护商品消费者评论,应用文本特征提取、词云图可视化、LDA主题聚类等文本挖掘技术,分析得出影响京东国际进口跨境电商消费者服务质量的关键因素主要包括物流效率、产品功效、价格优惠和产品体验4个方面。在此基础上具体分析各个因素影响消费者服务质量的机制及其相互间的逻辑关系,从而帮助进口跨境电商商家更好地改善消费者购物体验,提升进口跨境电商的服务水平。
本文在对进口跨境电商服务质量进行分析时,仅采用了京东国际的评价数据,在未来的研究中,应充分考虑更多平台如速卖通展开研究,使结果更加具有代表性;另外在文本挖掘中仍存在部分无法筛除的噪音,这些不足有待进一步完善。
参考文献:
[1] GRONROOS C. An applied service marketing theory[J]. European Journal of Marketing, 1993,16(7):30-41.
[2] LEWIS R C, BOOMS B H. The marketing aspects of service quality[J]. Emerging Perspectives on Services Marketing, 1983,65(4):99-107.
[3] RUST R T, OLIVER R L. Service quality: New directions in theory and practice[M]. Sage Publications, 1993.
[4] GRONROOS C. An service quality model and its marketing implication[J]. European Journal of Marketing, 1984,18(4):36-44.
[5] 杜学美,谢志鸿,丁璟妤. 餐饮类网络团购服务质量模型研究[J]. 上海管理科学,2018,40(1):50-56.
[6] QAISER S, ALI R. Text mining: Use of TF-IDF to examine the relevance of words to documents[J]. International Journal of Computer Applications, 2018,181(1):25-29.
[7] SHAHID N, ILYAS M U, ALOWIBDI J S. Word cloud segmentation for simplified exploration of trending topics on Twitter[J]. IET Software, 2017,11(5):214-220.
[8] 毛晓莉,施本植. 新能源汽车普通消费者参与的大数据研究:基于文本挖掘和深度学习[J]. 海南大学学报(人文社会科学版),2022,40(5):201-210.
[9] RUST R T, OLIVER.RL. Service quality: New directions in theory and practice[J]. Sage Thous and Oaks, 1994(18):58-69.
[10] 杜慧,陳云芳,张伟. 主题模型中的参数估计方法综述[J]. 计算机科学,2017,44(S1):29-32,47.
[11] 陈泽宇,黄勃. 基于LDA特征扩展的用户画像[J]. 软件导刊,2020,19(6):192-195.
收稿日期:2023-04-07
作者简介:宋春燕(1999—),女,山东菏泽人,贵州大学管理学院硕士研究生,研究方向:管理系统工程。
引文格式:宋春燕. 基于文本挖掘的进口跨境电商服务质量研究[J]. 物流科技,2024,47(3):55-57,65.