苗沐霖 王清涛
基金项目:河北省自然科学基金项目;项目编号:C2020402022。
作者简介:苗沐霖(1992— ),男,河南長垣人,硕士研究生;研究方向:农业大数据。
*通信作者:王清涛(1979— ),男,山东聊城人,讲师,博士;研究方向:生态学。
摘要:近年来,随着互联网和电子商务的快速发展,农产品电商平台已经成为农产品流通的主要渠道之一。消费者通过在平台上发布评论来表达对产品和服务的看法,针对这些评论进行数据挖掘可以为平台的优化提供有价值的信息。文章基于农产品电商平台的评论文本数据,探讨了一种针对该领域的数据挖掘方法,包括文本清洗、特征提取和情感分析3个步骤。实验结果表明,该方法可以有效地抽取评论中包含的信息,为平台的发展提供指导。该研究可为从事电商评论数据挖掘的学者和从业者提供一种新的思路和参考。
关键词:农产品电商平台;评论文本数据;数据挖掘;情感分析;特征提取
中图分类号:TP311 文献标志码:A
0 引言
随着市场经济的发展和人们对生活品质的不断追求,农产品电商平台已经成为现代市场经济发展的一种新型模式。通过农产品电商平台,消费者可以方便地购买到全国各地的农产品,同时也为农业生产者提供一个便利的销售渠道,使得信息不对称的现象得到了有效解决。然而,随着电商平台的迅速发展,面对着海量的数据,如何挖掘其中的价值信息已经成为当前研究的重要课题之一。
农产品电商平台的评论数据是其中重要的资源,不仅可以让消费者了解产品的优劣,还可以为平台提供一些重要的反馈信息。因此,如何提取出其中有价值的信息,对于平台优化和发展具有重要的意义。传统的农产品质量评价体系主要是通过专家评估或客观检测方法进行,这种方法的效率较低,成本较高。而文本数据挖掘技术,可以对海量的评论信息进行分析和分类,抽取其中有价值的信息,为平台优化提供指导。
本研究针对农产品电商平台评论文本数据进行挖掘,探讨一种针对该领域的数据挖掘方法。
1 相关研究
目前,关于电商评论文本数据挖掘的研究已经较为成熟。其中,情感分析是其中的一项重要研究内容。情感分析的主要目的是对文本数据进行情感分类,即对文本的主客观判断以及情感的正面、负面、中性等方面的判断。在情感分析的研究方面,目前主要包括机器学习和自然语言处理两个方向。
机器学习方面,目前主要采用基于支持向量机、朴素贝叶斯和神经网络等常用分类模型来进行情感分析。自然语言处理方面,主要采用基于词典的链接方法、基于规则的方法和混合方法等来进行情感分析。此外,一些新兴的算法和技术也逐渐被应用到情感分析中。例如,近年来基于深度学习的模型也逐渐受到推崇,通过神经网络模型的优化,进一步提高了情感分类的准确性和效率。
本研究针对农产品电商平台评论文本数据,提出了一种数据挖掘的方法,包括文本清洗、特征提取和情感分析3个步骤,并对方法进行了验证和评估。通过该研究,本研究希望能够为农产品电商平台的进一步优化和发展提供参考。
2 数据预处理
针对评论文本数据的挖掘,首先需要进行一系列的数据预处理操作,包括文本清洗、分词和去停用词等。
2.1 文本清洗
对于评论文本数据,其中可能包含了一些无意义的信息,如标点符号、HTML标签、表情符号等。因此,在进行数据挖掘前,需要将这些无意义的信息进行清洗和过滤[1],以得到干净且有意义的文本数据。具体来说,本研究采用了如下清洗方法。
(1)去除HTML标签:评论数据是通过网页爬虫获取的,因此其可能还包含HTML标签。针对此种情况,本研究需要使用正则表达式等方式,将HTML标签去除。
(2)去除标点符号:标点符号对于文本的情感分析并没有太大的贡献,因此,在进行情感分析前,需要将文本中的标点符号去除。
(3)去除数字:评论中,可能会存在一些数字信息,例如价格、评分等。将这些数字去除后,可以使得情感分析的结果更加准确。
(4)去除表情符号和特殊符号:评论中,可能会包含一些表情符号和特殊符号,但是这些信息对于情感分析并没有实质性的帮助,因此需要将其去除。
2.2 分词和去停用词
在进行自然语言处理时,文本数据需要进行分词,将文本拆分成有意义的词语。而在分词的基础上,还需要去除一些无意义或过于常见的词语,这些词语通常被称为停用词。去除停用词后,可以使得分词结果更加准确和有意义。
对于本研究而言,本研究采用了jieba分词库对文本数据进行分词,并使用中文停用词库去除了其中的停用词。
3 特征提取
在完成文本数据预处理后,接下来需要从评论文本中抽取出有用的特征信息,建立特征向量表示。对于评论文本数据的特征提取,目前主要采用的方法包括词频、TF-IDF和词嵌入等[2]。
3.1 词频特征
词频是指在文本中出现的次数。在评论文本数据中,不同的词汇会在不同程度上反映出用户对产品和服务的评价。例如:“好”“满意”等词汇往往代表了正面情感,而“差”“不好”等词汇则代表了负面情感。因此,本研究可以通过统计不同词汇在文本中出现的次数,建立词频特征,以此来描述评论文本的情感倾向。
3.2 TF-IDF特征
TF-IDF是一种常见的文本特征提取方法,可以得出每个词语对于文本的重要性程度,就是这个词语在文本中的出现频率高,但是在整个语料库中出现频率较低。通过TF-IDF方法,可以得到每个词汇在评论文本中的重要性权值,以此来描述文本的情感倾向[3]。
3.3 詞嵌入特征
词嵌入是一种基于神经网络的自然语言处理技术,可以将文本中的每个词汇转化为一个向量,以此来描述文本的语义信息。在评论文本的情感分析中,词嵌入特征的应用可以进一步提高情感分类的准确性。例如,使用Word2Vec算法,可以得到每个词汇的向量表示,将其组合成文本向量,以此来描述文本中的情感信息[4]。
4 情感分析
提取评论文本数据的特征之后,接下来需要进行情感分析,也就是将文本分类为正面、负面或中性。情感分析可以采用机器学习和自然语言处理技术,目前常用的方法包括基于朴素贝叶斯、支持向量机和深度学习的分类模型等。在本研究中,本研究选择了基于朴素贝叶斯的分类模型进行情感分析,具体流程如下。
(1)将评论数据集分为训练集和测试集。
(2)对于训练集数据,先进行特征提取,并建立特征向量表示。
(3)将训练集特征向量和对应的情感标签(正面、负面、中性)送入朴素贝叶斯分类器进行训练[5]。
(4)对于测试集数据,同样进行特征提取,并转化为特征向量表示。
(5)将测试集特征向量送入已训练好的朴素贝叶斯分类器进行情感分类,并得出分类结果。
通过以上步骤,可以将评论文本数据进行情感分类,得出文本情感的倾向性。
5 实验结果
本研究采用了某电商平台上的某样农产品评论数据作为实验数据集,共包含1 000条评论文本数据。在进行情感分析前,本研究对数据进行了清洗、分词和去停用词等预处理操作,然后采用词频、TF-IDF和词嵌入3种不同的特征提取方法,并采用朴素贝叶斯分类器对评论文本进行情感分类。为了评估情感分析结果的准确性,本研究使用了精度(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1-score)等指标进行评估,具体如下式所示:
Accuracy=TP+TNTP+FP+TN+FN
Precision=TPTP+FP
Recall=TPTP+FN
F1-score=2×Precision×RecallPrecision+Recall
其中,TP表示真正例数(正确分类为正面情感的数量)、TN表示真反例数(正确分类为负面情感的数量)、FP表示假正例数(实际为负面情感但分类为正面情感的数量)、FN表示假反例数(实际为正面情感但分类为负面情感的数量)。实验结果如表1所示。
从表中可以看出,使用3种不同的特征提取方法进行情感分析时,词嵌入特征的效果最好,精度高达0.846。这表明,词嵌入特征不仅可以对文本进行更好的表示,还能够更好地描述文本中的情感信息。
总体来说,本研究提出的农产品电商平台评论文本数据挖掘方法可以有效地抽取评论中包含的信息,对于平台的进一步优化和发展提供了参考。但是需要注意的是,该方法还存在一定的局限性,例如在特定场景下可能需要采用不同的特征提取方法和情感分析模型。因此在实际应用中需对方法进行进一步优化和改进。
6 结语
本研究使用朴素贝叶斯分类器对农产品电商平台的评论文本数据进行情感分析。通过实验结果可以看出,词嵌入特征方法在情感分析方面的效果最好。这表明,采用合适的特征提取方法对文本进行表示,可以有效地提高情感分析的准确性。
本研究还存在一些问题需要进一步完善。例如: 目前只使用了朴素贝叶斯分类器对评论数据进行情感分析,其他分类模型在该任务中的表现如何还需进一步研究。在实际应用中,不同领域的评论文本可能具有不同的特点,因此仍需要结合实际情况选择合适的数据挖掘方法。
参考文献
[1]魏瑾瑞,王若彤,王晗.基于网络结构特征的大规模虚假评论群组识别[J].运筹与管理,2023(1):194-200.
[2]DENG L T,ZHAO Y R.Deep learning-based semantic feature extraction:a literature review and future directions[EB/OL].(2023-06-09)[2023-09-20].http://kns.cnki.net/kcms/detail/34.1294.TN.2023060 9.1033.002.html.
[3]孙士伟,王川,贾琳.基于多维度文本特征的电商平台评论有用性研究[J].北京理工大学学报(社会科学版),2023(2):176-188.
[4]刘宇韬,施莉,刘诗含.基于TF-IDF与Word2vec的用户评论分析研究[J].成都航空职业技术学院学报,2022(4):89-92.
[5]吴宗卓.文本分类中TF-IDF算法的改进研究[J].计算技术与自动化,2022(2):84-86.
(编辑 沈 强)
Research on the method of data mining technology of agricultural products e-commerce platform review text
Miao Mulin, Wang Qingtao*
(Hebei University of Engineering, Handan 056000, China)
Abstract: In recent years, with the rapid development of the Internet and e-commerce, the e-commerce platform of agricultural products has become one of the main channels for the circulation of agricultural products. Consumers express their opinions about products and services by Posting reviews on the platform. Data mining for these comments can provide valuable information for the optimization of the platform. Based on the review text data of the e-commerce platform of agricultural products, this study discusses a data mining method for this field, including three steps: text cleaning, feature extraction and sentiment analysis. The experimental results show that the proposed method can effectively extract the information contained in the comments and provide guidance for the development of the platform. This study can provide a new way of thinking and reference for the scholars and practitioners engaged in e-commerce review data mining.
Key words: agricultural products e-commerce platform; review text data; data mining; sentiment analysis; feature extraction