张文杰 肖茜 张继娟*
(中南林业科技大学家具与艺术设计学院,湖南 长沙 410004)
随着互联网的飞速发展,人们的消费方式逐渐从线下转到线上,各种电商平台里的商品琳琅满目,用户可以在购买商品后根据自己的使用体验发表自己对产品的评价,这些评论可以帮助其他消费者更好地了解产品质量,帮助他们甄别商品,同时也能帮助厂商更好地了解消费者的需求以及产品需要改进的地方。家具行业作为传统制造业,在转型电商的过程中会遇到许多困难和挑战。目前涉足家具领域的线上电商平台主要有京东、天猫、亚马逊、淘宝、苏宁易购等,受疫情影响,宅家线上办公成为上班族常态,人们对居家办公环境有了更高的需求,一张舒适的办公椅往往能给予他们生理和心理上的慰藉,办公椅作为家具电商中最热门的家具产品之一,不仅销量实现了显著的增长,还吸引了越来越多人的关注。本文以京东购物平台的某款热销办公椅为实例,运用大数据的思维对用户的在线评论进行大量有效的挖掘,并对获取到的信息进行处理并分析,协助办公椅产品的创新设计。
大数据是一种在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据通过结合新系统、新工具、新模型对大量、动态、持续的数据进行挖掘,从而获得具有洞见力和全新价值的东西[1]。对于家居用品创新设计而言,家具设计师们如果不能很好地整理、分析、利用这些大数据带来的有用的信息,将导致他们的设计偏离消费者的真实需求,这将不利于产品的设计创新。
研究以京东购物平台某款热销的办公椅为例(图1),该办公椅的商品评论有20 万条之多,因此在该办公椅的用户评论中蕴含着大量的信息,利用Python 编写爬虫程序代码,获取用户评论并进行分析,然而受技术、数据库以及服务器的限制,只选取了该购物网站中这款办公椅的前100 页的商品评论内容、评论创建时间、产品颜色、用户昵称、评分、点赞数等[2]。爬虫程序的流程如图2 所示。
图1 办公椅
图2 爬虫程序流程
首先使用 requests 库向该网页发送网络请求,同样也可以运用代理 IP 加上用户代理池随机选择与搭配的方法,并设置爬取网页的时间间隔“time.sleep(random.randint(3,5))”,以便能够更加流畅地爬取信息。网页解析JSON 格式数据,将获取到的页面数据转换为字典类型“json_data=response.json()”,以便更好地提取数据内容。在评论内容中选择商品评论内容、评论创建时间、产品颜色、用户昵称、评分以及点赞数的数据并保存为csv 格式,方便后续对数据进行分析[3]。
利用python 编写的爬虫程序从京东购物网站中获取了某办公椅从2015 年11 月14 日17:34 至2022 年2 月10 日22:33的部分用户评论(共999 条)数据,通过Jieba 库对读取到的数据进行分词处理,将评论内容中的语句进行精准的切分[4]。例如:将“产品外观设计美观,材质挺好,安装简单,很舒适”划分为“产品”“外观设计”“美观”“材质”“挺”“好”“安装简单”“很”“舒适”,再利用现有的停用词词典对数据进行清理,去除无意义的词语以及标点符号[5]。
词频— 反转文件频率 (term frequency-inverse document frequency,TF-IDF)是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度[6]。通过TF-IDF 对数据进行好词、差词词频的统计(表1、表2),剔除文本中的非关键词,协助后续构建词云图分析。
表1 好词词频统计
表2 差词词频统计
在对高频词进行统计后,需要利用共词矩阵的方式来统计文本中两两词组之间共同出现的次数,通过这种方式来描述词组之间的关联度[7],利用python 中的pandas 库和numpy 库进行共词矩阵的构建(表3)[8],从表3 可以看出“质量”“安装”“服务”“调节”与办公椅的关联度较高,例如“椅子”和“安装”的共现次数有303 次,“质量”和“安装”共现次数有210 次,表明这些都是消费者比较关注的地方。
表3 该办公椅的在线评论共词矩阵
语义网络分析是以高频词两两之间的共现关系为基础,将其进行数值化处理,再以图形化的方式揭示两个词组之间的关系[9]。利用python 中的networks 库绘制语义网络图(图3)[10],从图4可以看到“安装”“质量”“服务”“外观”“调节”是该办公椅在线评论语义网络中的核心特征词,这些特征词是最容易影响消费者满意度的,同样也是左右消费者购买决策的重要影响因素,因此在后续的产品创新中需要格外关注。此外,从图3 还可以看出“物流”“商家”“样式”“扶手”等重要节点,这些节点是语义网络中的“桥”,它们的存在使得整个语义网络相互贯通,将不同评论观点中最重要的部分衔接了起来[11],同时也是消费者在购买产品时的重要影响因素。
图3 语义网络图
3.2.1 词云图 “词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨[12]。利用WordCloud库分别对好评评论以及差评评论进行词云图的构建[13],通过词云图来展示消费者对产品的关注点和满意度。
3.2.2 好词词云分析 在好评词云中(图4),可以看到“舒服”“结实”“方便”等积极词汇占了大多数,同时出现了“安装”“客服”“服务”等词汇,表明大部分顾客不仅对产品的质量感到满意,同时对该平台的服务也表示满意。
图4 好词词云
3.2.3 差词词云分析 在差评词云中(图5),可以看到“扶手”“靠背”“头枕”“螺丝”等词汇,可以看出差评中购买者对商品零部件质量存在不满的态度以及在产品的安装方面存在问题;“快递”“发货”等词汇表明购买者对平台物流方面的关注。
图5 差词词云
对差词词云中提到的词汇进一步分析,定位到具体的用户评论中,再对用户提出的意见与该办公椅的产品宣传进行对比总结(表4)。从用户评论中可以看出,该办公椅在靠背、头枕、扶手的安装方面存在问题,同时坐垫、腰枕存在舒适性的问题。针对该办公椅存在的这些短板与不足,设计师需要以产品安装和舒适性为重点,提出相应的改进策略和措施。例如,在安装方面,对安装视频进行详细的讲解,告知用户安装的注意事项,增加安装说明书,在保证产品结构稳定性的提下,尽量减少零部件在安装时需要过多的配件,同时提升配件质量,使得安装更加简易化。在舒适性的问题上,主要是对材质的选取是否合适,坐垫和腰枕的材料应选取软硬度较为适宜的,避免压力集中带来的压迫感,同时还需要考虑材料的透气性和导热性[14]。此外,还需要优化靠背的支撑形式,让使用者腰背部的肌肉得到更好的放松,增加靠背、头枕的可调节范围以满足不同使用场景的需求。
表4 产品宣传与用户意见对比
利用python 软件对京东购物平台中某款办公椅的用户评论进行文本数据挖掘,通过分词处理的方式对数据中的有效信息进行筛选,再将筛选好的数据利用共词矩阵和语义网络分析的方法进行可视化处理并制作成词云图分析,把该办公椅产品在线评论中潜藏的重要信息挖掘出来。从词云图中可以看出,这款办公椅的质量、样式、功能、材质等产品特征是用户选购产品时的主要关注点。此外,用户对产品的包装以及物流方面也有关注。通过这些数据分析反映出来的问题能够帮助设计师找到消费者的隐形需求,找到产品优化设计的方向与创新设计点。例如用户对产品结构的稳定性、安装的便捷性以及材料的舒适性等方面存在期待,因此在迭代升级设计下一代办公椅时需要加强零部件的质量,同时改善产品的包装,在造型上同样需要优化。通过这种方法让新产品能保持市场活力,同时设计师通过用户评论来改善办公椅的缺点,对产品进行创新设计,这种方式也是让客户参与设计的方法之一,用户最有发言权。
研究仅选取了京东购物平台上的一款热销办公椅进行文本数据挖掘,数据来源较为单一,因此分析结果存在一定的局限性。未来研究中可以针对同一产品进行多平台的对比分析,进一步提高分析结果的真实性、可靠性。