基于BERT模型的餐饮电商在线评论情感挖掘

2020-03-18 01:17魏一丁
商场现代化 2020年1期
关键词:在线评论预测模型

摘 要:以本地美团网美食类店铺为例,爬取在线大量数据,按目标格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并构建研究对象所适用的数据模型,对潜在评论情感极性能够准确预测,对正向情感评价最高可达98%准确率,98%召回率,F1-Score最高达0.98。特别地也分析了其负向F1-Score的成因,并提出利用F1-Score构建平台分流与展现推广付费的思路。

关键词:BERT;F1 score;情感极性;在线评论;预测模型

一、引言

“在线用户评论”,作为运营数据来源的主要渠道,为电商运营决策和平台分配流量提供了直接的依据。很多大型的电商平台都设计了相应的评论板块,有的侧重于追加评论,主要体现用户的事后真实体验评价,而有的侧重于事中评价。情感极性一般分为正面、负面和中性。用户通过分值与文本做出相应的评论并不能反映出真实的情感极性。例如,“这顿餐看起来很不错,大气上档次,但是贵了……”,到底用户的情感是正面还是负面呢?很难做出有效判断,这就需要对文本做出挖掘。用户的情感极性对商品用户推荐、平台流量分配权重、商户业务改进至关重要。

二、文献综述

业界与学术界都对文本情感分析(NLP)做出了大量的探索实践与理论积累,相关的情感分析研究方法有分别基于词典、机器学习、词典+机器学习、弱标注、深度学习等方法。有文献综述提到,“Hamouda等提出建立一个包含表情符号的情感词汇库进行情感识别;Pang等将机器学习算法用于情感分类任务;还有利用挖掘评论数据中反映情感语义的弱标注信息,以及分别基于卷积神经网络的、长短期记忆、深度信念网络等分类模型的深度学习”。随着研究发现,深度学习(神经网络模型)成为了主流方向,其最大特点是采用了词向量的嵌入技术——Word2Vec方法,但是对同一句子中有情感极性矛盾,或同一个词在不同位置导致歧义的多个情感词则无能为力, 这时“多头注意力机制(Multi-head Attention Mechanism)”的引入能夠很好地解决类似问题。Yin(2015)提出基于注意力机制的卷积神经网络,Wang(2016)提出结合注意力机制的LSTM网络,梁斌(2017)提出多注意力卷积神经网络MATT,但是缺乏对中文领域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor库基础上,利用MLM与NLP机制进行双向预训练,生成上游模型,在此模型上进行下游的自定义任务,能够满足中文和英文等文本挖掘,其性能指标远胜OpenAI GPT和ELMo(两种顺序的LTSM),其在SQuAD测试中排名第一(Nov,2018)。刘玉林(2018)等通过建立电商食品领域级情感词典,在算法上引入NLP中2元语法加强情感结果判断,建立情感指数,结合真实在线数据进行实证,得出优化方向,但是没有展示其准确率和F1分值。

本文将爬取雍和会在美团网站在线评论数据,注入BERT模型,构建其店铺的情感极性评价模型,并计算其准确率和F1分值。该模型可以用来指导店铺提升客户满意度,也可以帮助平台分配流量和用户推荐,具有现实意义。

三、研究方法

STEP1:爬取美团网福州地区美食类好评排名Top2的“雍和会海鲜姿造(三坊七巷店)”上万条评论数据。

STEP2:利用Pandas包清洗数据。

STEP3:将原始数据按比例拆分为训练数据集(10564条)、测试数据集(3302条)和验证数据集(2641条),并将打分等级划分为两种极性,超过阈值为1,否则为0;增加sentiment标签,删除star标签。

STEP4:利用FastAI包初始化BERT模型(Chinese版本)。

STEP5:将上述训练数据集、测试数据集和验证数据集按需要装入在DataFrame,DataBunch。数据会在前后加上标签【CLS】和【SEP】,用以区分句子,从而符合模型格式。

STEP6:利用Learner的lr_find()函数,采用CrossEntropyLoss()交叉熵损失函数作为参数,进行“学习”,并画出学习曲线,生成下游任务的最终模型。

STEP7:按照指定学习率,计算一周期,得出其相关准确率与耗时。

STEP8:评估模型——预测相关文本,进行指标评价,并展示【precision,recall,f1-score】和含混矩阵。

STEP9:设计对比实验组。

四、实证分析

1.数据来源

爬取“雍和会”美团在线评论数据,提取评价与打分等信息,并进行清洗。清洗后的在线评论数据规模,从22336降至16507个数据。

2.清洗:sentiment是根据star分值经过相应条件转化为0或1.条件:若star分值大于30为1,反则为0。这里正面评价1较多。

3.数据转换为目标格式

4.分类报告

5.对比组

按照上述方法,随机打开美团首页,选取福州地区美食类综合排名第4名(广告位)“旺巴蜀小郡肝火锅串串香(东二环泰禾店)”,其综合分数为3.7分,显示评论数1600条,但实际爬去后显示评价数5000多条,清洗后也有3500多条。再按选取福州地区综合排名第12名“V-ONE|西雅图海鲜自助轻姿造(王府井店)”,其综合分数为4分,显示评论数1888条,清洗后也有1000多条。爬取数据、清洗、建模、评估,相同条件下(30分为阈值,学习率为2e-5)进行挖掘。

五、结论与建议

通过实验发现:BERT模型能够较准确地区分正负面情感极性,这个案例中,其店铺排名第2名,F1-score可平均达到0.77,这个数值并不太出色,但如果只观测正面情感评价,F1-score可最高达到0.98,这是由于选取当地好评率最高的美食类店铺,造成数据偏向正向情感,而负向情感偏向较少。见下表。

综合分数反映消费者满意程度,(1)第2名与第4名相比,明显第四名口碑差距较大,因此在负向f1分反而较大,正向相对很小;(2)第2名与第12名相比,口碑相差不大,总体前者口碑优于后者,但从模型指标看,前者平均f1比后者少0.02,但是正向f1分具有明显增量0.11,主要由于负f1分拖累0.15,因此整体不如后者平均f1指标;同时,虽然前者平均f1分少于后者,但是前者的准确率明显由于后者0.09个单位。(3)第4名与第12名相比,只有负向f1分高于后者,这说明其差评较易发生。但是由于其是付费展现,因此超出后者8个位置。(4)第12名的平均f1分最高。

總的来说,BERT模型能有效抽取情感极性,但是由于样本来源于真实就餐环境,口碑较好店铺正评价较多于负评价,会导致正向f1分偏高,而负向f1分偏低;口碑较差店铺负评价多于正评价,会导致反向f1偏高,正向f1偏低;中等口碑介于两者之间,但是其平均f1分为最高。模型在适当情况下,或许可以获得高出0.79的f1分。因此不能完全依赖此指标孤立评价模型。反而,该模型的评价指标体系可以用来指导店铺运营、平台流量分配于商品推荐。作为平台可以利用正向f1分将更多流量分配给这样的店铺,也可以向负向f1分较高的用户收取较高的推广费用。

参考文献:

[1]朱晓霞,宋嘉欣,张晓缇.基于主题挖掘技术的文本情感分析综述[J/OL].情报理论与实践:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.

[2]洪巍,李敏.文本情感分析方法研究综述[J].计算机工程与科学,2019,41(04):750-757.

[3]梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(08):1724-1735.

[4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).

[5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.

[6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.

[7]刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018,33(12):119-124.

作者简介:魏一丁(1985- ),男,汉族,河南安阳人,硕士,讲师,研究方向:跨境电商与数据挖掘

猜你喜欢
在线评论预测模型
基于矩阵理论下的高校教师人员流动趋势预测
基于支持向量回归的台湾旅游短期客流量预测模型研究
在线评论情感属性的动态变化
基于神经网络的北京市房价预测研究
中国石化J分公司油气开发投资分析与预测模型研究
基于IOWHA法的物流需求组合改善与预测模型构建
基于预测模型加扰动控制的最大功率点跟踪研究
消费者个体行为偏好对在线评论真实性的影响机理研究