基于在线评论的商品推荐方法*

2023-08-22 03:47:14丁嘉鸣
计算机时代 2023年8期
关键词:特征词词频排序

丁嘉鸣

(江南大学商学院,江苏 无锡 214122)

0 引言

随着互联网的不断发展,消费者的购物方式发生巨变,越来越多的消费者倾向于在第三方购物平台上商品购买,这些购物平台支持消费者发表在线评论,即商品使用一段时间后对该商品或服务的综合感受[1]。商品的在线评论往往是用户真实的使用体验,让其他消费者能直观地了解商品或服务的优缺点。在线评论很大程度上会影响消费者的购买决定[2],其对于商家优化资源配置也至关重要[3]。

如今对于大量的和非结构化的在线评论信息的处理,得益于机器学习、深度学习等技术的发展,如在线评论挖掘算法[4],在线评论特征提取算法[5],在线评论的推荐算法[6]相继提出,用于对在线评论信息进行挖掘分析。这些算法为基于在线评论的商品排序方法研究提供了支撑。

目前大多数基于在线评论商品排序的研究均是在商品的属性确定或者提前给出的情况下展开的[7]。此外,在线评论商品排序方法本质也属于多属性决策,目前较少研究将在线评论挖掘算法与多属性决策方法结合。因此,本文使用TF-IDF 特征提取算法,确定商品特征属性,在此基础上借助情感分析[8]方法对评论进行量化,使用离差最大化方法确定商品属性权重,最后提出一种改进的MULTIMOORA 的商品推荐方法,为消费者提供决策支持。

1 数据预处理及商品特征提取

为了解决以上问题,首先要对评论信息进行预处理以及获取消费者关注的备选商品特征。首先,通过爬虫软件和Python 工具对消费者关注的备选商品的在线评论信息进行获取和预处理。然后,通过TF-IDF算法提取商品特征,并通过计算相似度建立特征词集合。

1.1 在线评论数据获取和数据处理

获取消费者关注的备选商品在线评论信息是进行数据挖掘的基础性工作。针对消费者关注的备选商品,可以借助爬虫软件对商品评论进行获取,之后再对评论进行预处理,包括噪声处理、分词及词性标注、停用词删除和干扰特征词处理。

1.2 商品特征的挖掘

特征提取算法一般分为两类,第一类是无监督的特征词提取方法,第二类是有监督的特征词提取方法。考虑到无监督的特征词提取方法速度快、效果较好。因此本文采用无监督的TF-IDF 方法进行特征词提取,再通过计算特征词与商品标准特征词之间的相似度对特征词进行归类。

⑴TF-IDF

词频(TF)

词频是指某个词语在评论中出现的次数。词频数越高,这个词被提及的次数就越多。

其中,A是为特征词,NA为该特征词出现的次数,V为所有特征词出现的总次数。

逆文本频率(IDF)

逆文档频率(IDF):衡量词或词组所在的文档在整个语料库中的频率。

其中,N*表示所有评论的数量表示包含特征词A的评论数

词频-逆文档频率(TF-IDF)

TF-IDF 是结合词频和逆文档词频度量候选特征词的指标,如果某个词或短语在一篇文章中出现的频率TF 高,并且在其他的文章中很少出现,则认为该词或短语具有较好的类别区分能力,适合用来分类。词频-逆文档频率的计算公式如下:

⑵特征词筛选

在特征词提取环节,计算词或短语的词频-逆文档频率并按照从大到小的顺序进行排序,可以得到与商品属性相关的特征词。由于提取到的特征词语义粒度差异大,特征词维度高,因此必须对特征词进行筛选。本文通过计算特征词与商品标准特征词之间的相似度对特征词筛选,并建立商品特征词集合,计算公式如下:

其中,Dis(WA,Wnorm)表示商品特征WA和商品标准特征词Wnorm之间的距离,α一般取1.6。如果sim(WA,Wnorm)≥0.5,则认为特征WA和商品标准特征Wnorm是一类。之后,可以得到特征词类集合,每个特征词类代表商品的一个属性。

2 基于在线评论的商品推荐方法

2.1 情感分析

考虑到不同特征词对应的情感词不同,为提高特征情感分析的准确性,本文借助情感词典进行评论情感分词。首先,将副词-形容词合并为一个词语并借鉴知网的情感词典,建立关于各类特征的积极、中立、消极情感词典分别用表示,否定词集合用Dneg表示。接着计算每条评论关于各类特征的情感值。

统计所有评论中积极和消极情感比率的均值,确定备选商品各类特征下的评价值aij:

进一步,可得到商品评价矩阵R=(aij)m×n,i=1,2,…,m,j=1,2,…,n

2.2 商品推荐方法

在对评论进行情感分析之后,通过公式⑸~⑻可以得到备选商品关于各属性的评价值。之后,使用离差最大化法计算商品属性权重,最后使用本文提出的改进的MULTIMOORA方法对备选商品进行排序。

⑴计算备选商品属性权重

在获得商品的评价矩阵R之后,对其进行无量纲规范化处理,可得到规范化的决策矩阵K。其中K=(bij)m×n,i=1,2,…,m,j=1,2,…,n。假设备选商品的属性权重向量为ω={ω1…ωj…ωn}且满足约束条件=1。基于离差最大化思想,对于某一商品属性,如果所有备选商品评价值都差不多,则认为商品属性j对于所以的备选商品无差异,该商品属性对于商品排序不起作用;反之,对于对于某一商品属性,如果所有备选商品评价值差异很大,则认为商品属性j对于所以的备选商品有显著影响,应该赋予较大权重。因此,构建如下的离差最大化模型:

构建拉格朗日函数,对此模型求最优解,可以得到最优解

再对其进行归一化处理可得ωj:

⑵改进MULTIMOORA方法对备选商品进行排序

MULTIMOORA 是一种由三种不同的方法组成的产品排序方法,包括比率系统法、参考点法以及完全乘法法,本文将商品特征权重纳入考虑,提出一种改进的MULTIMOORA 备选商品推荐方法。该方法由以下四个步骤组成。

Step 1比率系统法计算备选商品的评价值。

其中,s代表效益型属性的数量,n−s代表成本型属性的数量。

Step 2参考点法计算。

Step 3完全相乘法计算。

Step 4基于占优理论对备选商品进行排序[9]。

3 实验分析

下面以消费者购买笔记本电脑为例验证本文提出的方法。假设一消费者想购买一台笔记本电脑,并且在京东购物网站上挑选商品,其关注了联想、小米、戴尔、荣耀品牌下的四款笔记本电脑,并分别用A1,A2,A3,A4 表示。这四款笔记本电脑总体评分相近,每款电脑下都有超过一万条的商品评论,消费者很难做出选择。因此,需要分析各款笔记本线评论信息,为消费者提供备选商品推荐排序,帮助消费者做出购买决策。

首先,对备选笔记本电脑在线评论信息进行数据预处理及特征提取,得到消费者关注的笔记本属性,部分结果如表1所示。

表1 部分商品特征

之后,借助本文提出的情感分析方法对在线评论进行情感分析,借助公式⑸~⑻得到商品评价矩阵。然后,借助公式⑼~⑾计算得到备选商品各属性权重。计算得到,外观,性能,屏幕,服务的属性权重分别0.24,0.32,0.21,0.23。最后,使用本文提出的改进的MULTIMOORA 方法,对备选商品排序,最终得计算结果如表2所示。

表2 改进MULTIMOORA排序结果

此外,为验证本文提出方法的可行性,将本文提出的方法与其他文献中的方法进行比较,实验结果如表3所示。

表3 方法对比排序结果

从最终的排序结果来看,本文提出的方法与使用其他方法得出的结果大致相同,基本都认为A4最值得推荐,A2 最不值得推荐。实验结果表明,本文提出的方法有效。

4 结束语

本文提出一种基于在线评论的商品推荐方法。首先对评论数据进行预处理,使用TF-IDF 算法提取消费者关注的商品特征,再使用情感分析方法确实商品属性评价值,并使用离差最大化方法确定商品属性权重,最后提出一种改进的MULTIMOORA 的商品推荐方法,为消费者提供决策支持。

为了给消费者提供更好的购物体验,高效合理的商品推荐方法必不可少。未来还需要考虑虚假评论信息识别,进一步提高商品推荐的效果。

猜你喜欢
特征词词频排序
排序不等式
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
恐怖排序
节日排序
基于改进TFIDF算法的邮件分类技术
刻舟求剑
儿童绘本(2018年5期)2018-04-12 16:45:32
产品评论文本中特征词提取及其关联模型构建与应用
词频,一部隐秘的历史
面向文本分类的特征词选取方法研究与改进
云存储中支持词频和用户喜好的密文模糊检索