基于文本的情感分析方法论述*

2023-01-03 13:36魏嵬孙雪松李林峰张云翔西安理工大学计算机科学与工程学院陕西省网络计算与安全技术重点实验室中博联智库深圳科技有限公司
数字技术与应用 2022年12期
关键词:词典机器分类

魏嵬 孙雪松 李林峰 张云翔 1.西安理工大学计算机科学与工程学院;2.陕西省网络计算与安全技术重点实验室;.中博联智库(深圳)科技有限公司

情感分类是情感计算的一部分,从文本数据中分析情绪有助于多领域的发展。本文系统的综述了文本情感分析的发展现状和新兴方向,深入梳理了文本情感分析的基于情感词典的方法、基于机器学习的方法和基于深度学习的方法,并且进行了国内外研究进展的分别论述和分析。应积极推动深度学习的研究方法,结合传统方法,并深入研究文本情感多分类、细粒度情感分析以及情感强度分析是未来的研究趋势。

文本情感分析是自然语言处理的主要研究内容,主要应用于用户情感信息获取、舆情控制、产品推荐等方面。机器在获取到一条文本信息后进行情感分析,给出具体的情感标签,基于这种“读懂”感情的条件下,做出一系列的反应,达到情感分析效果。就情感分类来看,情感分析任务分为3种:二分类问题、三分类问题以及多分类问题。目前大多数项目都专注于三分类问题的分析[1]。

本文将从文本情感分析的传统研究方法和深度学习研究方法两个研究方法进行综述。其中,传统研究方法有涉及基于词典的方法、基于机器学习的方法。深度学习方法涉及多个神经网络模型方法。文章内容框架如图1所示。下面分别从这两方面对文本情感分析进行介绍[2]。

图1 本文内容框架Fig.1 Content framework of this paper

1 国内研究现状

1.1 基于词典的研究方法

利用情感词典的情感分析是运用现有的情感词典、情感常识库等第三方情感资源,基于情感词典的情感分类关注文本中的情感词、程度副词、否定词之间的关联[3]。其中情感词分为积极情感词和消极情感词,可以用于情感二分类和情感三分类研究实验。基于情感词典的情感分类方法无法识别网络爆梗“yyds”“你是我的神”等词语,因此情感词典需要不断地进行人为扩充,费时费力。另一方面情感词典中的同一个情感词在不同语句可能表达不同的含义。而且在分类时,往往考虑不到上下文的语义关系,因此情感词典在跨域和跨语言中的效果不是很理想。具体如图2所示。

图2 基于词典和文本分类的情感分析算法流程图Fig.2 Flowchart of sentiment analysis algorithm based on dictionary and text classification

1.2 基于机器学习的研究方法

机器学习是一种通过给定的数据研究算法的学科,基于算法和数据构建模型,最终进行结果预测。机器学习可以分为3类:有监督、半监督和无监督的方法。在有监督方法中,通过给定带有情绪极性的样本集,可以分类得到不同的情感类别。有监督的方法对数据样本的依赖程度较高,对数据样本进行一定的处理,然后对数据的分类进行人工标记。在半监督方法中,通过对未标记的文本进行特征提取可以有效地改善文本情感分类结果,这种方法可以有效解决带有标记的数据集稀缺的问题。在无监督方法中,根据文本间的相似性对未标记的文本进行分类,这种方法在情感分析中使用较少[4]。

1.3 基于深度学习的研究方法

基于深度学习的情感分析方法是使用神经网络来进行的,从输入层获取数据特征,然后经过层层的神经网络隐藏层的加权计算,最终得到输出层结果。随着计算机硬件的发展,2018年由GoogleAI研究院推出的预训练模型BERT模型。BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习提供一个好的特征表示,供其他任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器[5]。BERT的网络架构使用的是多层Transformer结构,有效的解决了NLP中棘手的长期依赖问题,BERT还使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了训练好的多语言BERT模型代码,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效地将其应用到自己的任务中,如图3所示为BERT模型结构。

图3 Bert模型框架Fig.3 Bert model framework

深度学习模型循环神经网络模型(RNN)正是在原有的基础上,加入了自注意力机制,变成了长短记忆神经网络模型(LSTM),解决了RNN容易产生梯度消失和梯度爆炸的缺陷,如图4所示是RNN的结构图。自此,自注意力机制也被广泛应用于其他神经网络模型当中。

图4 RNN结构图Fig.4 RNN structure diagram

2 国外研究现状

2.1 基于词典的研究方法

国外因为发展的较早,基于词典的研究方法更加成熟,所以近些年来在基于词典的方法研究相较于机器学习和深度学习的方法较少。例如,Haripriya等人提出了一个热门事件的情绪分析模型,从抓取热门话题,再到选择话题、收集推文、数据处理,然后通过情感词典进行分析,最后获取结果。Rajib等人通过与机器学习分类器比较,可以看出他们系统的效率和性能都好很多,这得益于他们自己建立的情感词词典[6]。但是词典不进行定期的扩充整理,那么它的效果还是会逐渐下降。

2.2 基于机器学习的研究方法

K.S等人提出了文本表示、词频逆文档频率、Keras嵌入以及用于情感分类的机器学习和深度学习算法。其中,当随着特征的增加而以有限的数量获取特征时,基于Logistic和支持向量机(SVM)机器学习的方法表现良好[7]。Shivangi等人针对多类文本情感分类问题提出了一种基于集成分类器的方法。该集成是使用4个不同的分类器创建的,包括朴素贝叶斯、多类 SVM、逻辑回归和SGD在Bagging、Boosting和Voting三种算法下,以构成一个结合了基分类器优点的有前途的模型[8]。实验设计是将数据通过情感分类算法进行处理,然后放入训练集和测试集,再经过4种分类器和3种算法进行分类,最后进行结果比较。最终证明了集成学习方法提供了相当大的性能提升,因此在情绪分类研究中具有潜在的适用性。

2.3 基于深度学习的研究方法

Mounika等人研究了基于深度学习的长短期记忆机制在文本情感识别中的有效性。该研究是在具有6个情绪组的“情绪分类”数据集上进行的。实验结果证明,与现有的学习方法相比,基于LSTM的文本情感分类提供了相对更高的准确度[9]。Mansur研究了三种不同的深度学习架构,包括人工神经网络(ANN)、卷积神经网络(CNN)和具有长短期记忆(LSTM)的循环神经网络(RNN)。其中ANN对情绪的结果判断中效果最差,而CNN是最好的。

基于文本的情感识别是情感识别专注于从文本中提取细粒度的情感,识别合适的嵌入技术以提取长期依赖文本和文本序列并行处理之间的关系的挑战长期以来一直阻碍着获得最先进结果的步伐。来自Transformers (BERT)的双向编码器表示在文本分类等下游任务中取得了显著成果,为解决这些限制提供了突破。Achea等人分析了BERT、RoBERTa、DistilBERT和XLNet预训练的Transformer模型在识别文本情感方面的功效。准确率、召回率和F1分数进一步证明了RoBERTa在识别ISEAR数据集上的情绪方面优于其他候选模型的功效[10]。

3 国内外研究分析

目前国内外都有学者运用基于词典方法为机器学习或深度学习方法作为铺垫,提供数据预处理等阶段的工作。大部分学者现在都选择运用机器学习和深度学习的方法来进行实验研究,这对于文本情感分析的发展更加有利有效。但是相较于国外,国内在文本情感分析这一块的研究还是较少,且多数的训练集还停留在二分类、三分类阶段,对于情感的多分类和细粒度判断上,所做的工作还是少之又少,国内大部分还是基于已有的模型和算法进行改进和完善,并未取得实质性和创新性的突破。

4 相关数据集介绍

基于语义计算的情感词构建,核心是如何构建基础情感词,然后由目标词与这些基础情感词做语义相似度计算。情感词典需要人工为其进行精细的标注,国内一般可以使用的公开数据集有知网(HowNet)、台湾大学 NTUSD、大连理工大学的中文情感词汇本体库等。知网(HowNet)中有12个文件,分为中文英文的语料各6个,分别从程度级别词语、负面评价词语、负面情感词语、正面评价词语、正面情感词语和主张词语进行归纳整理,其数据集内容示例如图5所示。

图5 知网(HowNet)数据集Fig.5 HowNet dataset

知网(HowNet)数据集收录丰富但无法满足对文本情感分类的众多任务要求。该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息,如表1所示。其中,一个情感词可能对应多个情感,情感分类用于刻画情感词的主要情感分类,辅助情感为该情感词在具有主要情感分类的同时含有的其他情感分类。情感分类按照论文《情感词汇本体的构造》所述,情感分为7大类21小类。情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小。中文情感本体以Excel的格式进行存储,含有情感词共计27466个。

表1 情感词汇本体格式举例Tab.1 Examples of emotional vocabulary ontology format

5 结语

本文系统综述了文本情感分析的发展现状,针对当前的研究进展现状提出展望:将文本情感分析技术以情绪解析为核心,明确以让机器读懂文字为目标,扩大基

…………于深度学习的研究方法在大数据时代下的优势,充分发挥丰富的网络数据和模型自我学习、迁移学习的能力。未来可以从文本情感分析的情感多分类问题、细粒度情感分析以及情感强度分析等领域继续探索。

引用

[1]纪佳昕.基于词典的微博评论情感分析研究[J].信息与电脑(理论版),2021,33(11):33-35.

[2]尚永敏,赵榆琴.基于机器学习的在线评论情感分析与实现[J].大理大学学报,2021,6(12):80-86.

[3]戚天梅,过弋,王吉祥,等.基于机器学习的外汇新闻情感分析[J].计算机工程与设计,2020,41(6):1742-1748.

[4]JIN X F,XU Y.Research on the Sentiment Analysis Based on Machine Learning and Feature Extraction Algorithm[C]//2019 IEEE 10th International Conference on Software Engineering and Service Science (ICSESS),2019:366-369.

[5]CHEN Y L,ZHANG Z.Research on Text Sentiment Analysis Based on CNNs and SVM[C]//2018 13th IEEE Conference on Industrial Electronics and Applications (ICIEA),2018:2731-2734.

[6]赵虹杰.中文情感词汇本体的扩充及应用[D].大连:大连理工大学,2016.

[7]DEY R C,SARKER O.Sentiment Analysis on Bengali Text using Lexicon Based Approach[C]//2019 22nd International Conference on Computer and Information Technology (ICCIT), 2019:1-5.

[8]KARNA M,JULIET D S,JOY R C.Deep learning based Text Emotion Recognition for Chatbot applications[C]//2020 4th International Conference on Trends in Electronics and Informatics (ICOEI)(48184),2020:988-993.

[9]DENG S Y,SINHA A P,ZHAO H M.Adapting Sentiment Lexicons to Domain-Specific Social Media Texts[J].Decision Support Systems, 2017,94:65-76.

[10]HARIPRIYA A,KUMARI S.Real Time Analysis of Top Trending Event on Twitter:Lexicon Based Approach[C]//2017 8th International Conference on Computing,Communication and Networking Technologies (ICCCNT),2017:1-4.

猜你喜欢
词典机器分类
机器狗
机器狗
分类算一算
分类讨论求坐标
未来机器城
数据分析中的分类讨论
评《现代汉语词典》(第6版)
词典例证翻译标准探索
《胡言词典》(合集版)刊行