基于评论挖掘在线短租市场产品排序研究

2019-07-02 13:32蔡丹丹王斌

现代商贸工业 2019年15期

蔡丹丹　王斌

摘要：结合在线短租市场固有的特点，分析信息质量对于消费者信息采纳和决策行为的作用机制。在研究方法上，选择了多属性决策模型对目标商品进行排序，确定产品总效用、产品特征-情感和权重，利用TOPSIS算法，对目标商品进行排序。结合在线短租市场特点基础上，对大量在线评论数据进行处理，多维度考虑评论信息对产品排序的影响。

关键词：在线短租;信息采纳模型;评论挖掘;TOPSIS算法

中图分类号：F27文献标识码：Adoi：10.19311/j.cnki.1672-3198.2019.15.032

1问题描述

本文主要考虑评论信息对电子商务网站产品排序影响。设目标产品集为X={X1，X2，…，Xm}，目标产品的在线评论集合为Ei= {e1i，e2i，…，eQii}，Qi表示产品i的评论数量，i= 1，2，…，m;q= 1，2，…，Qi。用C = {C1，C2，…，Cn}表示评论中涉及的产品属性的集合;U（eqi）表示评论eqi的总效用;用ω表示产品属性的权重向量，可以用向量表示为ω=（ω1，ω2，…，ωn）T，则ωj≥0且∑nj=1ωj=1。

本文需要解决的问题是，通过现在的在线评论信息Ei，抽取出产品的属性，即集合C，以及每个产品属性所代表的权重ω，并通过这些信息，对目标产品进行排序。

2模型构建

本文结合在线短租市场在线评论的特点，结合消费者购买决策五阶段模型和信息采纳模型，构建模型。在模型构建中，简化了共识性因素对产品排序的影响，将研究重点放在中心路径上，研究在线评论信息的质量对于产品排序的影响，模型思路框架见图1。

3在线评论效用

3.1评论长度

本文将评论长度具体量化为评论中所包含的字符数量。通常来说，评论文本越长，则其中包含的内容也就越丰富，涉及的维度也就越多，其中包含的有用信息也越多，代表越强的可信度。因此，较长的评论文本可以一定程度上增加阅读者的感知有用性，降低购买的不确定性。

num=count（word）（1）

u1eqi=ln（num+1）ln（num*+1）（2）

其中，word代表评论中所包含的文字数量，num*代表在线评论中长度最长的评论的文字数，可表示为num*=max （num），且0≤u1（eqi））≤1。

3.2评论时效性

评论时效性指评论消息发布与被阅读两者之间的时间差。差值越小，意味着评论越新，即评论的时效性越强。虽然不同市场的表现规律不同，但是不同维度的异质性稳定性随着时间的推移而降低。

u2 （eqi）=exp （Tqi-TnowTnow-T*i）（3）

其中，Tqi表示消费者发表评论的时间，Tnow表示消费者进行产品选择的时间，即产品评论被阅读的时间，T*i表示该产品评论中，最早发表的时间，也就是说，T*i= min { Tqi}，特别地，当Tqi=T*i时，u2（eqi）=0.37，可见，0.37≤u2 （eqi））≤1。

3.3图片评论数

评论信息中，除了包含文字信息外，还会包含图片信息，且图片信息是对文字信息的内容补充。根据大量文献研究表明，图片评论数对在线评论有用性有正向影响。另外来说，图片信息由于其包含的内容更加直观、真实，有助于帮助消费者对产品本身有更好的了解。因此，图片评论信息可以加强阅读者的感知有用性。

u3eqi=exp （N-N*N*）（4）

其中，N代表评论中包含的图片数量，N*=max （N），代表在线评论中最多的圖片数量。特别地，当N=0时，u3 （eqi）= 0.37，可见，0.37≤u3 （eqi））≤1。

4产品特征-情感配对

4.1产品特征抽取

商品特征是评论信息的重要组成部分之一，同时也是消费者关注的具体内容。对于一件有形的商品来说，它的特征可以是商品外观、质量、服务态度等各个方面，消费者对一个产品的喜好，归根到底是对产品的各项特征的喜好。产品特征就是指产品所包含的各类属性，包括它的包装、功能、质量、外形、服务等，这些都是吸引消费者做出选择的关键性因素。因此，我们对产品的在线评论进行分析，就是探究在线评论中包含哪些吸引消费者的特征。

本文产品特征抽取采用的是关联规则的方法，通过寻找频繁项集实现产品特征的抽取。本文采用的是Apriori算法，通过算法抽取评论中具有频繁项集作为产品特征，在算法的应用中，频繁项集仅考虑3项及其以下项集，同时，通过最小支持度对频繁项集进行筛选。

4.2产品特征-情感倾向词对抽取

情感倾向是用户进行评论时，就产品的某个特征，发表的具有主观性的评价语言，这些评论语言都具有感觉色彩，因此在评论分析中，需要找到产品特征所对应的情感词。一般情况下来说，情感词和产品特征都是成对出现的，为了确保产品特征和情感词两者之间存在对应关系，我们通过权重对两者进行衡量，用pair，简写为pair，在实际应用中，认定只有当weight取值高于0.25时，才可以认为这对特征词和情感词之间存在配对关系。

4.3情感极性判定

4.3.1构建情感词典

情感词典是分析情感词极性的基础，是一种基于语义的方法，它可以用于计算词语、句子或者文档的情感极性。本文的情感词典构建来源于HowNet、NTUSD以及评论语料。其中，HowNet和NTUSD提供不针对具体领域的，具有通用性的情感词。由于本文是对在线评论进行情感分析，其中会涉及到很多网络词汇，因此在HowNet和NTUSD的基础上，结合网络词汇加入到词典中。将情感词分为褒义、中性和贬义这三个集合，分别用符号O +，O'和O-表示，部分含义如表1所示。

4.3.2判断情感极性

文本进行词性标注后，本文以其中的形容词作为情感词进行分析，通过LTP语言技术平台，进行依存句法分析，存储属性-情感词对，再根据情感词典的方法对情感极性进行判断。设Oqij表示评论eqi中关于属性Cj的情感词，P（Oqij）表示情感词Oqij的极性，公式为

P（Oqij）=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-（5）

4.3.3处理程度副词

消费者在发表评论时，不仅会用情感词表示产品的特征，同时还会使用程度副词加强情感。参照HowNet程度副词表，按照表达的情感程度，可以将它划分为两类，用deg（Oqij）来表示，则deg（Oqij） = 1，2，含义如表2所示，公式表示为

deg（Oqij）=12Oqij∈Φ1Oqij∈Φ2（6）

其中，Φ1代表情感强度为1的副词集合，Φ2代表情感强度为2的副词集合。

4.3.4处理否定词

情感词可以充分表达消费者的情感倾向，但是，其中的否定词对情感倾向的极性有关键影响。当情感词之前出现否定词词，所表示的情感极性有可能就完全相反。在否定词处理中，主要考虑以下两种情况，一是否定词是对另一否定词的否定，即出现两个否定词时，并不会影响情感极性;但是当只有一个否定词时，则是对情感极性的完全否定，情感极性完全相反。因此认为可以以否定词出现的个数来判断否定词对情感极性的影响。令N表示情感词Oqij前否定词的个数。因此，关于就评论eqi，其表达的关于产品属性Cj的情感强度可用下式来衡量：

Scoreeqi）= P（Oqij）* deg（Oqij）*（-1）qijN（7）

在数据处理中，若评论信息中并未出现关于属性Cj的情感词，则我们认为该评论信息的情感值为ψ，可用公式表示为Scoreeqi=ψ。但是，若评论信息中未出现任何属性值，那么认为该评论对产品的所有属性表达的情感相同。可见，当Scoreeqi≠ψ时，Scoreeqi= -2，-1，0，1，2。

5基于TPOSIS算法的产品排序模型

Technique for Order Preference by Similarity to an Ideal Solution是1981年，由C.L.Hwang联合K.Yoon提出的，简称为TOPSIS算法。TOPSIS算法主要用于对有限数量的目标产品进行优劣排序。TOPSIS算法中，首先计算在理想状态下的最优目标，其次通过各目标产品与理想最优解之间的距离来进行判断，同时，该方法要求各效用函数具有单调递增（或递减）性。

5.1在线评论效用计算

评论eqi的总效用为

U（eqi）=αu1（eqi）+βu2（eqi）+γu3（eqi）（8）

i= 1，2，…，m;q = 1，2，…，Q;;其中，α，β，γ≥0 且α+β+γ= 1。

5.2产品属性权重

在产品特征处理过程中，已经将产品的特征进行频繁项集处理，得到产品的属性集合。用yqij表示评论eqi中包含的属性集合，若评论eqi中未提取出属性词，则yqij=φ。若评论中某属性出现的频率越高，则代表该属性受到更多的人重视，即该属性在消费者心中的权值越高，以统计的方法，将各属性集合所在评论的效用进行累加，并以此代表属性的权重，则属Cj的权重可表示为

wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi（9）

其中：τjeqi=1，0，yqij≠φyqij=φ;∑mi=1∑Qiq=1U（eqi）τj（eqi）表示包含屬性Cj集合的评论的总效用值。

5.3构建决策矩阵

用H = { H1 =-2，H2 =-1，H3 = 0，H4 = 1，H5= 2}表示评论信息中，产品特征所代表的情感等级集合。为了表达产品在不同情感等级上的差异性，本文采用随机形式表达消费者的情感倾向。

首先，记ξij表示产品Xi关于属性Cj的随机评价值，那么ξij就可以用公式10表示其概率分布函数。

Pξij=Hk=pkij，k=1，2，…，5（10）

其中，

pkij=∑Qiq=1ψk（Scoreeqij）∑Nk=1∑Qiq=1ψk（Scoreeqij）（11）

ψkScoreeqij=1，0，Scoreeqij=HkScoreeqij≠Hk，pkij∈[0，1]且∑Nk=1pkij=1，其中，N代表需要决策的产品数。因此，我们可以求出针对目标产品的离散概率分布函数，即决策矩阵，用M=[P（ξij）]m*n表示，具体表达形式间表3。

5.4消费者购买决策模型

首先，确定关于候选商品Xi对商品特征Cj的特征值的累积分布函数，则ξij的累积分布函数如下：

Fijx=∑ξijSymbolcB@

xP（ξij）（12）

根据公式（12），可以得到累计分布函数形式的决策矩阵M︿=[P（ξij）]m*n，进而可以求出目标产品的正负理想分布函数，用函数F+j（x）和F-j（x）表示。

由于本文是对产品的优劣进行排序，因此采用的是效益型指标的确定方式。具体求解方式如下：

F+j=maxFij（x）|i=1，2，…，m，j=1，2，…，n（13）

F-j=minFij（x）|i=1，2，…，m，j=1，2，…，n（14）

由公式5-10和公式5-11，可确定正理想点F+和负理想点F-。

F+=F+1x，F+2x，…，F+nx（15）

F-=F-1x，F-2x，…，F-nx（16）

结合产品特征所对应的权重ω=（ω1，ω2，…，ωn），可求得目标产品Pi的正负理想点距离，用函数D+i和D-i表示。

D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx，i=1，2，…，m（17）

D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx，i=1，2，…，m（18）

其中，Ωj=[H1，Hk]，k=1，2，3，4，5。

根据已经求出的正负理想点距离，可求得关于目标产品Pi的贴近度，用函数CCi表示。

CCi=D-iD-i+D+i，i=1，2，…，m（19）

显然我们可以看出，贴进度CCi的取值越大，代表目标产品Pi与正理想点的距离越近，同时离负理想点的距离越远，也就说明目标产品Pi越好。因此，最后可以根据CCi取值的大小判断目标产品的优劣。

6數据验证

在数据验证阶段，选择途家网为代表进行研究。本文随机选择5家店铺，获取这5家店铺的在线评论数据，依据上文提到的技术手段和算法对数据进行分析，然后应用多属性决策模型对这5家店铺进行排序。

本文在途家网中，选择城市为大理，根据首页推荐随机挑选前5家店铺，但店铺选择的过程中，尽量考虑店铺的价格在同一个区间范围内，根据推荐页的店铺情况来看，除部分店铺的价格在100元以下或者一些别墅套件在500元以上，其他大多数的店铺价格均保持在100-300之间，其中以100-200之间尤其多，因此将店铺的价格确定在100-200，最终确定的店铺分别为：大理古城小猫民宿（X1）、闲暇小筑（X2）、大理古城边的小院子合院（X3），洱海边雅致双床房（X4），泊新民宿-情侣蜜月阳光大床房（X5），价格分别为：116、134、179、170、188。在抓取在线评论的同时，也抓取了其他信息如下：（1）评论发布者的用户名;（2）评论者点评时间;（3）图片评论数。通过Gooseaker获得这5家店铺的在线评论信息，每家店铺收集的在线评论数据如表4所示。

则可根据（公式12～19）计算得到关于产品X1，X2，X3，X4，X5的贴进度分别为CC1=0.301，CC2=0.411，CC3=0.565，CC4=0.169，CC5=0.538。因此，候选商品的排序为X3>X5>X2>X1>X4，即X3的综合评价较好，潜在消费者可以选择X3进行。

7结论

本文结合在线短租市场的特点，通过对在线评论的处理，研究评论信息对产品排序的影响，通过对现有的评论信息进行处理，并依据TOPSIS算法得到了最公正的产品排序。该方法的主要特点在于：评论信息数据量大，同时也易于获取，本文考虑了在线评论的效用、产品特征和情感倾向对消费者的影响，多维度分析，弥补了现有方法对在线评论信息处理过于粗糙的缺点。

参考文献

[1]姜广田.解决随机多属性决策问题的若干理论与方法研究[D].沈阳：东北大学，2010.

[2]张艳辉，李宗伟.在线评论有用性的影响因素研究：基于产品类型的调节效应[J].管理评论，2016，28（10）：123-132.

[3]李金海，何有世，马云蕾，等.基于在线评论信息挖掘的动态用户偏好模型构建[J].情报杂志，2016，35（9）：192-198.

[4]张艳丰，李贺，翟倩，等.基于模糊TOPSIS分析的在线评论有用性排序过滤模型研究——以亚马逊手机评论为例[J].图书情报工作，2016，（13）：109-117.

[5]李永海.一种使用在线评论信息的商品购买决策分析方法[J].运筹与管理，2018.

现代商贸工业2019年15期

现代商贸工业的其它文章: 基于动态耦合模型的产业结构与生态环境协调发展研究; 湖北省科技金融发展水平现状评价研究; 吉林省创新资源空心化问题的形成机理及解决对策; 专利交易平台的产业化驱动因素与措施分析; 基于精准经济扶贫背景下的农村文化扶贫对策探析; 政府补助对企业研发投入、创新绩效的影响