旅游景点评论情绪的大数据检测、分类和恶意过滤系统的设计

2021-08-05 05:26覃镣铭柯宁宁
速读·中旬 2021年9期
关键词:自然语言处理情感分析

覃镣铭 柯宁宁

◆摘  要:随着我国人民大众的生活水平普遍提高,对生活质量的越来越重视,越来越多的人选择在空闲之余外出旅游,而且随着互联网的快速发展,再加上智能终端的普及,基本上人人都可以在任何时间任何网络信号普及到的地方,通过旅游网站获取旅游景点的信息及发表评论和分享旅游游记,旅游网站对这些评论数据缺乏有效的管理和利用,大部分企业的评论系统都会让客户在评论时评定一个“星级”或者“等级”来对旅游评论信息进行分类。但是这种分类方法不是很灵活,过于死板,本文针对这种状况,设计一个基于贝叶斯分类的对评论数据文本自身进行分析,得出评论文本的情感倾向,并且过滤其中的恶意评论的系统。

◆关键词:情感分析;朴素贝叶斯;自然语言处理;结构化感知机

在旅游领域,各大企业都对用户评论、游记、旅游心得等用户的直接反馈信息极为注重,这些用户评论、游记、旅游心得等都是用户在体验自身企业服务或者游玩景点的时候的直接感受,而往往其他客户在考虑是否出行时,受这些评论信息的影响是巨大的,既“好评”如潮的旅游景点往往更能吸引客户的出行。因此大部分企业的评论系统都会让客户在评论时评定一个“星级”或者“等级”来对旅游评论信息进行分类。但是这种分类方法不是很灵活,过于死板,有时候“星级”高的旅游评论不一定是所谓的“好评”,而“星级”低的旅游评论信息也不一定都是完全的“差评”。因此传统依赖用户评分的去判断情感倾向的分类方法已经不适应现在的网络环境了,需要一个针对旅游评论文本信息本身的分类方法。

1评论数据处理框架

首先对获取到的评论数据进行预处理,包括去掉重复的数据,然后使用预训练的感知机分词模型对去重后的数据进行分词,然后就是去除其中的停用词。在数据预处理完之后,使用预训练的贝叶斯模型进行分类的预测,然后过滤其中的恶意评论,最终得出结果。评论数据处理框架的如图1所示。

1.1机械去重

因为现在大多数的旅游网站都自带评论功能,用户不作评论的话会自动进行潜在评论,这些评论往往是重复的而且没有什么实际意义。本文直接采取对比两条评论是否一样来去重。

1.2中文分词

中文分词是自然语言处理的一个极其重要的步骤,分词的准确率对下一步的去停用词和情感分析有极大的影响,本文采用结构化感知機去预测句子的切割序列。结构化预测就是给定一个模型λ及打分函数scoreλ(·),利用打分函数给一些备选结构打分,选取分数最高的结构作文预测输出。

所以结构化感知机算法就应该如下:

(1)读入样本(x(i),y(i)),执行结构化预测公式(3)

(2)与预期结果对比,正确则奖励特征函数的权重增加[ω←ω+Φx(i),y(i)],错误则[ω←ω-Φx(i),y(i)]

回到中文分词,中文分词可以看作是给文本进行序列标注的问题,即给每个字标注标签,只有在在特定标签的时候切割句子,本文定义了有四种标签的标注集{B,M,E,S},分别代表这一个词语的开始,中间,结束和单字词语。序列标注的最大特点就是标签之间的依赖性,在隐马可洛夫模型中,这种模型是利用初始状态向量和状态转移概率矩阵来体现这种依赖性。

1.3去除停用词

停用词一般是指文字中的代词、语气词、称谓词和地点副词等,这些词语对于情感分析的影响不大,去除有助于提高系统的运行效率。本文通过将一些常用的无意义的符号和停用词构建成停用词词典,然后使用词典匹配的方式,过滤掉评论中的停用词。

1.4贝叶斯分类

朴素贝叶斯是从古典的数学理论--贝叶斯原来得出的一种分类模型,它具有扎实的数学基础和稳定的分类效率。贝叶斯分类是先用概率统计对训练样本进行分类,然后结合先验概率和后验概率,得出结果,避免只使用先验概率来以偏概全。

1.4过滤恶意评论

恶意评论的过滤就是将前面贝叶斯分类中被分类到恶意评论的文本进行过滤。

2结束语

本文使用结构化感知算法训练出一个线性模型,用来预测句子的分割序列,达到分词的效果,结合朴素贝叶斯分类算法提取训练样本的特征,构建贝叶斯模型,预测评论文本的情感倾向,并且过滤其中的恶意评论。通过这种无监督的机器学习方法,克服了传统的基于词典的中文分词和情感分析的对与OOV现象无可奈何的问题,拥有一定的解决新词的能力,但是为了更好的适应网络时代的发展,应该定期更新预料再次训练获取模型,从而达到更准确的结果。

参考文献

[1]林钦,刘钢.基于情感计算的商品评论分析系统[J].计算机应用与软件,2014(12):39-44.

[2]肖江,王晓进.基于SVM的在线商品评论的情感倾向性分析[J].信息技术,2016(7):172-175.

[3]黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2014,34(8):2317-2321.

[4]宋恩梅,何帆.基于多网站的商品评论倾向性研究:以手机为例[J].图书馆学研究,2016(2):85-92.

[5]郭若男.基于Hadoop平台的在线数据处理系统的设计与实现[D].北京邮电大学,2015.

猜你喜欢
自然语言处理情感分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于组合分类算法的源代码注释质量评估方法
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
文本观点挖掘和情感分析的研究
汉哈机器翻译中的文字转换技术研究