摘 要:以本地美团网美食类店铺为例,爬取在线大量数据,按目标格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并构建研究对象所适用的数据模型,对潜在评论情感极性能够准确预测,对正向情感评价最高可达98%准确率,98%召回率,F1-Score最高达0.98。特别地也分析了其负向F1-Score的成因,并提出利用F1-Score构建平台分流与展现推广付费的思路。
关键词:BERT;F1 score;情感极性;在线评论;预测模型
一、引言
“在线用户评论”,作为运营数据来源的主要渠道,为电商运营决策和平台分配流量提供了直接的依据。很多大型的电商平台都设计了相应的评论板块,有的侧重于追加评论,主要体现用户的事后真实体验评价,而有的侧重于事中评价。情感极性一般分为正面、负面和中性。用户通过分值与文本做出相应的评论并不能反映出真实的情感极性。例如,“这顿餐看起来很不错,大气上档次,但是贵了……”,到底用户的情感是正面还是负面呢?很难做出有效判断,这就需要对文本做出挖掘。用户的情感极性对商品用户推荐、平台流量分配权重、商户业务改进至关重要。
二、文献综述
业界与学术界都对文本情感分析(NLP)做出了大量的探索实践与理论积累,相关的情感分析研究方法有分别基于词典、机器学习、词典+机器学习、弱标注、深度学习等方法。有文献综述提到,“Hamouda等提出建立一个包含表情符号的情感词汇库进行情感识别;Pang等将机器学习算法用于情感分类任务;还有利用挖掘评论数据中反映情感语义的弱标注信息,以及分别基于卷积神经网络的、长短期记忆、深度信念网络等分类模型的深度学习”。随着研究发现,深度学习(神经网络模型)成为了主流方向,其最大特点是采用了词向量的嵌入技术——Word2Vec方法,但是对同一句子中有情感极性矛盾,或同一个词在不同位置导致歧义的多个情感词则无能为力, 这时“多头注意力机制(Multi-head Attention Mechanism)”的引入能夠很好地解决类似问题。Yin(2015)提出基于注意力机制的卷积神经网络,Wang(2016)提出结合注意力机制的LSTM网络,梁斌(2017)提出多注意力卷积神经网络MATT,但是缺乏对中文领域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor库基础上,利用MLM与NLP机制进行双向预训练,生成上游模型,在此模型上进行下游的自定义任务,能够满足中文和英文等文本挖掘,其性能指标远胜OpenAI GPT和ELMo(两种顺序的LTSM),其在SQuAD测试中排名第一(Nov,2018)。刘玉林(2018)等通过建立电商食品领域级情感词典,在算法上引入NLP中2元语法加强情感结果判断,建立情感指数,结合真实在线数据进行实证,得出优化方向,但是没有展示其准确率和F1分值。
本文将爬取雍和会在美团网站在线评论数据,注入BERT模型,构建其店铺的情感极性评价模型,并计算其准确率和F1分值。该模型可以用来指导店铺提升客户满意度,也可以帮助平台分配流量和用户推荐,具有现实意义。
三、研究方法
STEP1:爬取美团网福州地区美食类好评排名Top2的“雍和会海鲜姿造(三坊七巷店)”上万条评论数据。
STEP2:利用Pandas包清洗数据。
STEP3:将原始数据按比例拆分为训练数据集(10564条)、测试数据集(3302条)和验证数据集(2641条),并将打分等级划分为两种极性,超过阈值为1,否则为0;增加sentiment标签,删除star标签。
STEP4:利用FastAI包初始化BERT模型(Chinese版本)。
STEP5:将上述训练数据集、测试数据集和验证数据集按需要装入在DataFrame,DataBunch。数据会在前后加上标签【CLS】和【SEP】,用以区分句子,从而符合模型格式。
STEP6:利用Learner的lr_find()函数,采用CrossEntropyLoss()交叉熵损失函数作为参数,进行“学习”,并画出学习曲线,生成下游任务的最终模型。
STEP7:按照指定学习率,计算一周期,得出其相关准确率与耗时。
STEP8:评估模型——预测相关文本,进行指标评价,并展示【precision,recall,f1-score】和含混矩阵。
STEP9:设计对比实验组。
四、实证分析
1.数据来源
爬取“雍和会”美团在线评论数据,提取评价与打分等信息,并进行清洗。清洗后的在线评论数据规模,从22336降至16507个数据。
2.清洗:sentiment是根据star分值经过相应条件转化为0或1.条件:若star分值大于30为1,反则为0。这里正面评价1较多。
3.数据转换为目标格式
4.分类报告
5.对比组
按照上述方法,随机打开美团首页,选取福州地区美食类综合排名第4名(广告位)“旺巴蜀小郡肝火锅串串香(东二环泰禾店)”,其综合分数为3.7分,显示评论数1600条,但实际爬去后显示评价数5000多条,清洗后也有3500多条。再按选取福州地区综合排名第12名“V-ONE|西雅图海鲜自助轻姿造(王府井店)”,其综合分数为4分,显示评论数1888条,清洗后也有1000多条。爬取数据、清洗、建模、评估,相同条件下(30分为阈值,学习率为2e-5)进行挖掘。
五、结论与建议
通过实验发现:BERT模型能够较准确地区分正负面情感极性,这个案例中,其店铺排名第2名,F1-score可平均达到0.77,这个数值并不太出色,但如果只观测正面情感评价,F1-score可最高达到0.98,这是由于选取当地好评率最高的美食类店铺,造成数据偏向正向情感,而负向情感偏向较少。见下表。
综合分数反映消费者满意程度,(1)第2名与第4名相比,明显第四名口碑差距较大,因此在负向f1分反而较大,正向相对很小;(2)第2名与第12名相比,口碑相差不大,总体前者口碑优于后者,但从模型指标看,前者平均f1比后者少0.02,但是正向f1分具有明显增量0.11,主要由于负f1分拖累0.15,因此整体不如后者平均f1指标;同时,虽然前者平均f1分少于后者,但是前者的准确率明显由于后者0.09个单位。(3)第4名与第12名相比,只有负向f1分高于后者,这说明其差评较易发生。但是由于其是付费展现,因此超出后者8个位置。(4)第12名的平均f1分最高。
總的来说,BERT模型能有效抽取情感极性,但是由于样本来源于真实就餐环境,口碑较好店铺正评价较多于负评价,会导致正向f1分偏高,而负向f1分偏低;口碑较差店铺负评价多于正评价,会导致反向f1偏高,正向f1偏低;中等口碑介于两者之间,但是其平均f1分为最高。模型在适当情况下,或许可以获得高出0.79的f1分。因此不能完全依赖此指标孤立评价模型。反而,该模型的评价指标体系可以用来指导店铺运营、平台流量分配于商品推荐。作为平台可以利用正向f1分将更多流量分配给这样的店铺,也可以向负向f1分较高的用户收取较高的推广费用。
参考文献:
[1]朱晓霞,宋嘉欣,张晓缇.基于主题挖掘技术的文本情感分析综述[J/OL].情报理论与实践:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.
[2]洪巍,李敏.文本情感分析方法研究综述[J].计算机工程与科学,2019,41(04):750-757.
[3]梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(08):1724-1735.
[4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).
[5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.
[6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.
[7]刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018,33(12):119-124.
作者简介:魏一丁(1985- ),男,汉族,河南安阳人,硕士,讲师,研究方向:跨境电商与数据挖掘