王盈 张文龙 唐卓然
摘 要:针对电子商务中的商品评论信息过载问题,运用情感关联分析理论,通过挖掘商品评论信息中的商品特征及相应的情感反馈,建立商品特征细粒度上的情感分值向量,在此基础上利用SOM神经网络模型对评价用户进行聚类,建立电商用户情感画像,并针对不同电商用户群体特征制定个性化营销策略,从而帮助平台商家从繁杂的商品评论中快速获取有效信息。实验中在线评论取自图书类商品,数据均来源于Amason。实验结果表明,该方法具有良好的应用效果。
关键词:电子商务;在线评论;情感分析;自组织映射地图;用户聚类
中图分类号:TP391.1;C931
0 引 言
近年来,随着电子商务市场不断饱和、用户个性化需求不断提高,同质竞争弊端日益凸显。如能够从电商平台上海量易获取的富有用户丰富情感信息的评论文本数据中快速挖掘有用信息,将为平台商家开展精准营销提供极大便利。目前,以精准营销为目标的用户画像构建,多通过深度挖掘网络用户个人信息实现,对用户基本标签信息、社交网络分析等方面研究已很多,而以用户聚类为目的的情感挖掘研究尚不深入。对此,本文提出一种基于电商评论情感分析的用户聚类方法,并结合亚马逊图书类商品评论文本数据进行实证分析。
1 文献综述
电商评论文本挖掘已经成为电商领域一大研究热点。电商在线评论文本里用户发布的评价信息,能够帮助其他用户了解产品品质信息,有效降低用户的感知风险,辅助用户做出购买决策。刘玉林通过抓取用户评论并采用NLP自然语言切分,依靠情感字典进行电商在线文本情感判断,创建新式电商商家评价方式,实现了动态监测顾客情感变化趋势[1]。毛郁欣针对B2C电商网站特点,总结用户评论有用性特征,并提出基于支持向量机的评论有用性排序算法,证实了主客观内容全面和高相关性的长评论被认为更加有用[2]。Zhang Chenyu抓取疫情前后用户餐饮评论文本数据,对其进行LDA主题及SnowNLP情感对比分析,实现了对其餐饮消费偏好的获取[3]。
用户情感聚类分析是一种综合运用情感分析和聚类分析的群体聚类方法。随着深度学习的发展和文本数据可获取性不断提升,情感聚类分析逐渐从理论研究领域拓展到实践应用。郭慧提出了一种基于多重属性聚类加权输出的循环神经网络模型,根据评价中的属性词,挖掘用户兴趣点与商铺特点进行情感分析,提升了个性化推荐效果[4]。洪庆(2018)改进传统K-means聚类算法,对视频用户基于弹幕文本情感值分类,以了解其在情感上的异同[5]。王晰巍通过卷积神经网络模型,对微博用户情感进行三级分类,利用Canopy和K-means算法对其聚类,以对舆情事件下各用户群体进行分析预测并提出对应管控策略[6]。
综上所述,虽然国内外均已有基于电商评论文本的情感聚类分析研究,但多基于整体层面建模,丢失了主体特征细粒度上的情感信息,方法上也多局限于低维数据的传统聚类算法。因此,本文采用相似度算法对评论关键词进行特征映射,并量化其对应情感反馈,构建商品特征细粒度上用户情感分值向量;同时,利用SOM模型绘制聚簇分布图,实现用户的神經网络聚类,并结合PCA构造群体关注特征以辅助建立电商用户情感画像,形成个性化营销策略。
2 方法设计
本研究提出的基于评论文本情感关联分析的电商用户聚类方法主体分为五大模块,按照执行顺序依次是数据预处理模块、评论情感向量提取模块、用户情感向量构建模块、用户聚类分析模块和用户画像形成模块,如图1所示。
2.1 评论情感关联特征向量提取
2.1.1 基于语义的特征词提取和子句重构
首先,对评论文本进行断句、分词以及词性标注等预处理,得到评论r的初始子句集S0。针对电商评论中关注特征的词性特质,保留名词、名动词和区别词作为候选关注特征词w,形成评论子句si的关注特征词候选集Wi。若si中无候选特征词,将其视作前一子句si-1的情感补充文本,拼接到其末尾形成新的子句si-1。最终形成评论r经重构后的子句集S。
示例:
1)评论例句:
r =“价格不低,而且太小了,像是随身读物。不过纸张还行,保护眼睛的。”
2)断句后得到初始子句集:
S0 ={“价格不低”,“而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”}
3)根据词性筛选得到特征词候选集:
W1 ={“价格”};W2 ={ };W3 ={“随身”,“读物”};W4 ={“纸张”};W5 ={“保护”,“眼睛”};
4)将空集W2对应的子句s2拼接到前一子句s1的末尾,最终得到重构后的子句集R1 ={“价格不低,而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”}
2.1.2 基于子句的情感值计算
已有研究表明,针对电商评论等短文本,在子句级进行情感分析,可以弥补传统整句级情感分析模型难以辨别单条评论内含多因素的不足[7],同时避免了短语级情感提取任务复杂度大、准确率不高的问题[8]。基于SnowNLP类库计算各子句情感分值e,形成候选特征词情感向量 fj = (wj, ej )。最终得到评论情感关联特征向量vr = ( ( w1, e1 ),( w2, e2 ),…,( wn, en ) )。
示例:
1)计算候选特征词情感向量:
s1 =“价格不低,而且太小了”,经计算其情感分值为0.295 035 63,则f1 =(“价格”, 0.295 035 63)
……
s5 =“保护眼睛的”,经计算其情感分值为
0.650 106 17,则 f1 =(“保护”,0.650 106 17), f2 =(“眼睛”,0.650 106 17)
2)构造评论情感关联特征向量:
vr =((“价格”,0.295 035 63),(“随身”,
0.542 669 38),(“读物”,0.542 669 38),(“纸张”,0.491 651 29),(“保护”,0.650 106 17),(“眼睛”,0.650 106 17))
2.2 用户情感分值向量构建
2.2.1 基于TF-IDF的用户关注特征词提取
从评论文本集R中筛选出TF-IDF值为前100的候选特征词,再对其进行人工筛选与主题发现,最终归纳出10个特征词作为用户情感分值向量的特征,记作F = { F1, F2, …, F10 }。
示例:
F ={“质量”,“内容”,“作者”,“纸张”,“印刷”,“出版社”,“包装”,“封面”,“价格”,“正版”}
2.2.2 基于词语相似度的特征竞争和值的定义程序包
对于vr中的候选特征词w,基于gensim中的word2vec模块计算F与wi的词语相似度,相似度最高的Fj获胜,取wi对应情感值ei作为用户向量vu在特征Fj上的一个基础值,对其求算术平均值ai。最终形成该用户情感分值向量vu = (a1, a2, …, a10)。
示例:
以特征词为第一维度,候选特征词为第二维度,二者的词语相似度为值,定义相似度竞争矩阵。经计算得到vr1中候选特征词与特征词的相似度竞争矩阵如表1所示。
以获胜特征词代替被竞争的候选特征词,则:
vr =((“价格”,0.295 035 63),(“正版”,0.542 669 38),(“正版”,0.542 669 38),(“纸张”,0.491 651 29),(“正版”,0.650 106 17),(“正版”,0.650 106 17))
F10即“正版”特征下的基础值求均值后为
0.596 387 77,最终得到用户情感分值向量:
vu = (0,0,0,0.491 651 29,0,0,0,0,
0.295 035 63,0.596 387 77)
2.3 基于SOM的用户聚类算法
自组织映射(Self-Organizing Feature Maps, SOM)[9]是一种特殊的神经网络模型,能将高维数据的空间拓扑结构保序地映射到低维空间(通常为二维),以实现高维数据的低维可视化[10],十分适合用于处理分析本研究中的用户情感分值向量数据。因此,本文采用VC-SOM算法[11]生成SOM聚簇分布特征图,获取数据分布特点,从而确定用户聚类数目。
3 实验分析
3.1 实验数据
实验采用Github项目ChineseNLPCorpus中的电商评论情感倾向性分析数据集yf_amazon,在标注褒义、贬义的图书类评论中分别随机选取1 000条作为实验数据。
3.2 電商用户聚类
基于评论文本集构建用户情感分值向量后,定义结构为30×30的SOM网络,网络邻域函数选用高斯函数,学习率初始值设为0.5,采用欧氏距离度量,训练得到聚簇分布特征图如图2所示。
图中每个网格代表1个SOM神经网络节点,网格着色越深,代表该节点与其相邻节点间距离越大,即深色节点用于显示聚簇边界。通过观察分析可得,图中较明显的聚簇共6个,分别是位与分布特征图右上方的1个,上下并排位于中部的2个,位于左下角的1个,和左右并排位于图下边界的2个。
基于此,结合轮廓系数[12]及CH指标[13]计算结果,最终确定最佳聚类数为6。定义SOM网络结构为1×6,输入用户情感向量数据集,训练聚类神经网络并输出各样本聚类标签。
3.3 聚类结果分析
从解释变量的角度出发,使用PCA主成分分析法将前面10个用户情感向量特征转换成A1、A2、A3、A4、A5五个属性来反映用户关注特征及情感反馈情况,分别代表价格、快递物流、纸张印刷、正版授权、装帧质量。聚类基础信息汇总如表2所示。
表中显示,聚类编号为1的电商用户群体人数占比最多,而平均属性总值占比最少,说明该群体在各属性上的关注度较低,属于特征不明显的大众群体,不是平台商家进行精准营销的核心对象。其余聚类,以6号用户群体为代表,人数占比少,而平均属性总值占比大,属于特征突出的用户群体,是平台商家进行精准营销的重点目标对象。
接下来使用单变量分析方法,比较各聚类用户组相对于用户整体的个性化行为特征,以便进行针对性营销策略制定。以A1属性为例展开分析,如图3所示,绘制A1属性的百分比分布图,其中折线表示各聚类样本分布,柱形表示总体样本分布,由图可知,对于价格,第一、二、四类与总体分布基本一致,反映其对商品价格方面满意度居中;第三类电商用户群体出现两个峰,一个呈正态分布,另一个呈右偏分布,反映其中部分用户对商品的价格方面满意度较用户整体而言居低;第五、六类电商用户呈左偏分布,且反映其对商品的价格方面满意度较用户整体而言居高,且第五类比第六类满意度更高。
使用同样的方法分析另外四个属性,提炼出基于用户整体的相对关注特征表如表3所示。在此基础上,可以根据每一类电商用户的相对关注特征和情感反馈,采取针对性的营销策略来提高营销活动的命中率。例如,对于第一类用户,其关注点为装帧质量,因此可以向其针对性地推销以高质量装帧为卖点的图书,以满足其对于该特征的情感诉求;而对于第四类用户,其关注点遍布正版保障、装帧质量以及纸张印刷,且对于前二者的关注程度尤为突出,因此可以选择针对正版保障和装帧质量来制定营销策略,向其定向投放以正版精装为亮点的图书软广,同时辅以纸张印刷品质的侧面展示,精准激励其进入并购买该类图书产品。
3.4 聚类效果评测
本文随机选取200条评论作为测试语料,对其用户类别进行人工标注。采用分类领域广泛接受的精确率(Precision)和召回率(Recall)作为评测指标,来评价模型聚类分析的准确性和可行性。表4的测试结果表明,本文聚类方法的平均查准率为0.78,平均查全率为0.73,通过对比其他研究者的实验效果(如文献[14]中查准率值约为0.76,文献[15]中约为0.75),说明了该聚类模型的有效性。
4 结 论
本文针对电商评论信息过载问题,提出了一种基于电商评论情感分析的用户聚类方法,以真实的亚马逊图书类商品评论为基础,挖掘用户关注点及情感反馈,从而进行用户聚类及画像构建,帮助平台商家更好地进行精准营销。基于在线评论,采用相似度算法将提取的在线评论特征词映射到商品特征,并量化用户在各特征上的情感反馈,构建用户情感分值向量,保留了用户在商品特征细粒度上的情感信息,有效弥补了现有电商用户聚类方法中细粒度情感信息丢失的不足。创新性地引入自组织映射地图,对高维情感向量数据绘制可视化聚簇分布图,实现了对电商用户的SOM神经网络聚类,并结合PCA辅助建立电商用户画像,生成了不同用户群体的个性化营销方案。
本文提出的聚类方法对于消费者和平台商家都具有一定的现实价值和意义。平台商家能更高效地挖掘用户群体情感画像,进行精准营销,从而获得竞争优势;消费者也能因此享受更加人性化的购物体验。在今后的研究中,将考虑向模型中引入更加深入完善的语义分析体系,并将研究成果应用到更多行业领域中去。
参考文献:
[1] 刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘 [J].统计与信息论坛,2018,33(12):119-124.
[2] 毛郁欣,朱旭东.面向B2C电商网站的消费者评论有用性评价模型研究 [J].现代情报,2019,39(8):120-131.
[3] ZHANG C Y,JIANG J Y,JIN H,et al. The Impact of COVID-19 on Consumers Psychological Behavior Based on Data Mining for Online User Comments in the Catering Industry in China [J].International Journal of Environmental Research and Public Health,2021,18(8):4178(2021-04-15).https://doi.org/10.3390/ijerph18084178.
[4] 郭慧,柳林,刘晓,等.深度学习下的情感分析与推荐算法 [J].测绘通报,2018(9):55-58.
[5] 洪庆,王思尧,赵钦佩,等.基于弹幕情感分析和聚类算法的视频用户群体分类 [J].计算机工程与科学,2018,40(6):1125-1139.
[6] 王晰巍,贾若男,韦雅楠,等.多维度社交网络舆情用户群体聚类分析方法研究 [J].数据分析与知识发现,2021,5(6):25-35.
[7] 彭卫,文松,韩雨濛,等.基于主题模型和前景理论的生鲜电商顾客满意度评价研究 [J].河南工业大学学报:社会科学版,2021,37(6):67-74.
[8] 邱祥庆,刘德喜,万常选,等.文本情感原因自动提取综述 [J].计算机研究与发展,2022,59(11):2467-2496.
[9] KOHONEN T. Self-Organizing Maps [M].Berlin:Springer-Verlag,2001.
[10] 杨黎刚,苏宏业,张英,等.基于SOM聚类的数据挖掘方法及其应用研究 [J].计算机工程与科学,2007(8):133-136.
[11] 杨黎刚.基于SOM聚类的数据挖掘方法及其应用研究 [D].杭州:浙江大学,2006.
[12] ROUSSEEUW P J. Silhouettes:A graphical aid to the interpretation and validation of cluster analysis [J].Journal of Computational and Applied Mathematics,1987,20:53-65.
[13] CALI?SKI T,HARABASZ J.A dendrite method for cluster analysis [J].Communications in statistics,1974,3(1):1-27.
[14] 吴迪,杨瑞欣,申超.基于情感主题特征词加权的微博评论聚类算法研究 [J].现代电子技术,2020,43(23):67-71+75.
[15] 马晓悦,马昊.考虑标签情绪信息的图书资源个性化推荐方法研究 [J].情报理论与实践,2020,43(9):115-124.
作者简介:王盈(2001—),女,汉族,浙江嘉興人,本科在读,研究方向:大数据挖掘;张文龙(2001—),男,汉族,新疆巴音郭楞人,本科在读,研究方向:大数据挖掘;唐卓然(2002—),女,汉族,天津河西人,本科在读,研究方向:大数据挖掘。
文献标识码:A 文章编号:2096-4706(2023)16-0024-05
Research on User Clustering Method Based on Sentiment Analysis of E-Commerce Reviews
WANG Ying, ZHANG Wenlong, TANG Zhuoran
(School of Management, Jiangsu University, Zhenjiang 212013, China)
Abstract: Aiming at the problem of commodity review information overload in E-Commerce, the theory of sentiment correlation analysis is used to establish the sentiment score vector of fine-grained commodity features by mining commodity features and corresponding sentiment feedback in commodity review information. On this basis, the SOM neural network model is used to cluster evaluation users and establish the emotional portrait of E-Commerce users. And it develops personalized marketing strategies according to the characteristics of different E-Commerce user groups, so as to help the platform merchants quickly obtain effective information from the complex commodity reviews. In the experiment, online reviews are taken from book products, and all of the data are obtained from Amason. Experimental results show that this method has a good application effect.
Keywords: E-Commerce; online review; sentiment analysis; self-organizing map; user clustering