实木床产品消费者满意度文本特征挖掘

2023-10-23 08:58蔺秀媛许柏鸣通讯作者南京林业大学家居与工业设计学院
商场现代化 2023年20期
关键词:特征词词频网购

■蔺秀媛 许柏鸣(通讯作者) 南京林业大学家居与工业设计学院

随着互联网的蓬勃发展,电商购物给人们的消费带来了极大便利,网购评论文本也成了反映消费者满意度的重要评价依据。但消费者网购评论这一重要市场反馈信息很少被家具企业系统地、有条理地拿来作为消费者满意度的评价依据,家具企业更多的还是采用电话回访或入户调研等方式进行满意度评估,这些传统方式耗时耗力且回收的有效信息少,不能够及时、有效地获取到最新的消费者满意度意见。

因此,本文通过文本挖掘相关方法和手段对家具网购评论进行文本信息中满意度特征的抽提和研究,能够有效帮助家具行业、企业快速精准地获取消费者满意度关注点,从而帮助企业打造品牌核心竞争力,对促进家具行业、企业在消费者满意度方面的发展有较大的现实意义。

一、文本挖掘概念及流程

1.文本挖掘相关概念

文本挖掘是综合性较强的学术领域,它借助计算机技术从半结构化或非结构化文本信息中获取潜在或有价值的信息,从中提取出结构化的文本信息进行研究。文本挖掘基于统计学、数学、机器学习和模式识别等技术,将文本数据进行高度自动化分析,具备广阔应用场景。目前,文本挖掘挖已应用于电子通信、法律税务、客户服务和社交媒体等专业领域。

2.文本挖掘主要流程

本文根据网购评论文本特点,得出适用于本文的文本挖掘流程,主要包括以下四个步骤:(1) 文本数据采集,获取网购评论文本数据并储存。(2) 数据预处理,通过数据清洗、中文分词、去除停用词等操作,将不符合要求的数据进行剔除。(3) 文本分析,利用TF-IDF 算法、共现语义网络等技术,通过词频统计、建立共词矩阵等方法,挖掘出评论文本中隐含的文本特征。(4) 结果可视化,利用词云图、共现语义网络图将文本挖掘结果可视化,更直观展示研究结果。

二、数据获取与预处理

1.数据获取

文本数据来源于电商主流购物网站,选择实木床品类中销量前30 名的产品作为评论文本数据的研究对象,采集内容包括评论的具体内容、追评内容、评论时间及评价类型,总计爬取评论42794 条。

2.数据预处理

该部分主要包括数据清洗、中文分词、去除停用词三部分操作。数据清洗主要进行空值、重复数据和无价值数据的剔除,以提高数据可使用价值。中文分词选用Jieba 分词进行中文分词处理。去停用词部分结合哈尔滨工业大学停用词表和百度停用词表等常用停用词表,根据实木床产品消费者评论文本实际情况,加入部分家具领域停用词,得到适用于本研究的停用词表。通过上述操作,为后续消费者满意度文本特征分析奠定数据基础。

三、实木床消费者满意度文本特征分析

1.文本词频特征分析及可视化

词频-逆向文件频率(TF-IDF)算法是目前关键词抽取中使用最多的方法之一,该算法能够对常用且没有意义的高频词进行有效规避,目前被众多学者在文本处理研究中加以应用。TF-IDF 公式如式下:

其中,TF表示词频,IDF是逆文档频率,j为具体节点,i为特征。本研究根据TF-IDF 计算结果,提取出实木床产品排名前30 名的特征词,特征词排名及频次如表1 所示。

表1 实木床网购评论特征词频次

运用TF-IDF 算法提取的关键特征词前30 名中,大多关键词都对应实木床产品的某一特征或消费者的购买体验,准确率较高。高频词主要突出了实木床产品质量、做工、外观设计、材质、气味等方面,这些方面是网购用户最为在意的。为了更加直观方便地了解消费者评论中关于实木床产品讨论的焦点,本文利用Python 中的WordCloud 进行关键词数据的可视化,在词云图中显示权重为前200 的特征词,可视化效果如图1 所示。

图1 可视化效果

词云图可以对消费者网购评论文本中出现频率较高的特征词予以视觉化展现,更加直观清晰地突出了消费者关注的焦点特征,其中词频越高权重越大的词字号越大。

2.文本特征关联分析及可视化

共词语义网络分析能统计出一对词语在文本中同时出现的频率,可用于挖掘文本特征之间的关联关系,揭示文本信息内容的关联和特征项所隐含的意义,若一起出现的频率越高,则这对词语之间的联系越紧密。本文使用ROST CM6 软件探究消费者在实木床评论中高频特征词之间的关联,共词矩阵如表2 所示,共现语义网络如图2所示。

图2 实木床在线评论共现语义网络

表2 实木床在线评论共词矩阵

从共词矩阵和共现语义网络中可以看出,质量、服务、做工、物流、态度、款式、材质等高频特征词之间具有较强的关联关系。共词矩阵中,消费者重点关注的特征词互相之间共现次数很高,如“质量”与“满意”达到了3508 次共现,“质量”与“服务”达到了2494 次共现。共现语义网络中,“质量”“外观”“物流”“做工”“气味”“服务”等核心特征词作为网络的结点,通过与其他特征词结点的沟通和共现次数构成相互间的语义关系,形成一个彼此相互联系的网络,从而体现出网购消费者购买实木床产品过程中的焦点,是企业需要重点关注的内容,具体分析如下。

(1) 以“质量”为节点:与“质量”关联的词最多,有“满意”“值得”“结实”“服务”“物流”等词语,由此可见消费者对质量最为看重,除了产品本身质量,对服务质量、物流质量等也较为关注。

(2) 以“做工”为节点:与“做工”关联的词有“结实”“精细”“水平”“质量”等,说明消费者对实木床做工的耐用性、精细度、质量等方面较为注重。

(3) 以“服务”为节点:与“服务”关联的词有“态度”“耐心”“购买”“安装”等,说明消费者在网购从购买到安装的全流程中都很注重服务相关的内容,并且尤为关注服务态度。

四、结语

本文以实木床消费者网购评论文本数据为研究对象,从满意度文本词频特征和特征关联两部分进行了实木床消费者满意度分析及可视化呈现。研究发现,消费者关注的重点主要围绕质量、做工、外观设计、材质、气味等方面,并且互相之间存在关联关系。相比于传统的电话回访、入户调研等满意度评估方式,文本挖掘的方式既节约调研成本和时间成本,又具备数据新颖、及时、真实等特点。因此,合理高效地运用网购评论数据,从中挖掘消费者关注的重点,是今后家具领域消费者满意度研究的方向,本研究以期能为今后家具行业、家具企业在消费者满意度研究方面提供分析思路。

猜你喜欢
特征词词频网购
教老妈网购
基于词频分析法的社区公园归属感营建要素研究
网购寒假作业
网购寒假作业
网购那些事儿
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
词频,一部隐秘的历史
面向文本分类的特征词选取方法研究与改进
云存储中支持词频和用户喜好的密文模糊检索