基于在线评论的情感分析研究探析

2023-09-25 19:33胡飞菊朱余平
电脑知识与技术 2023年23期
关键词:在线评论研究现状

胡飞菊 朱余平

关键词: 在线评论;情感倾向分析;研究现状;情感分析算法

0 引言

随着计算机及智能手机通信设备的普及、互联网技术的迅猛发展,促进了“互联网+”各行各业的发展,同时也给人们生活和学习带来了极大便利,如各大网络平台中的在线评论功能是人们交流沟通的重要渠道,在生活中扮演了非常重要的角色,比如:电商平台的在线评论让用户更加了解商品的真实信息,增加了去实体店购物的真实感;旅游网站的在线评论让用户了解其他用户对该景点、酒店的推荐情况;新闻网站的在线评论让人们交流心中感想,了解大众舆论导向等。

从在线评论中可以让用户更加真实地了解自己想要的信息,同时对在线评论进行研究,可以带来很大的价值,如:对于政府来说,可以深入了解网络社交媒体中公众意见的形成和传播情况,了解对社会问题的看法和政治观点,规避舆论造成不良影响。对于企业来说,了解在线评论和社交媒体反映的情况,可以帮助他们从用户角度了解产品和服务的质量,可以及时调整市场营销策略和改进产品设计。

然而,由于网络环境的虚拟性和开放性,使得在线评论的形式和质量参差不齐,如何从这些大量且价值密度低的在线评论中挖掘有用的信息成为当下研究的热点问题,其中关于文本的情感倾向分析是其中的一个子问题。因此本文梳理了当下情感倾向分析研究的类型,基于在线评论的情感倾向分析研究方法、研究现状及问题,最后提出未来研究展望,旨在为着手本文情感倾向分析学者及后续的文本情感倾向分析研究提供一定的启发。

1 文本情感分析简介

1.1 文本情感分析概念

文本情感倾向研究又称意见挖掘,是指利用基于文本的自然语言处理技术,判断文本中人们对产品、服务、组织的情感态度[1],例如积极、消极或中立等。情感分析任务就是回答“什么人?在什么时间?对什么东西?什么属性?表达了怎样的情感?”因此情感分析由实体、属性、观点、观点持有者、时间五要素构成。比如以下文本“我觉得离散数学课程非常重要。”其中将其转换为情感分析五要素即为(离散数学,/,正面情感,我,/) 。一般大部分研究都不考虑情感分析五要素中的观点持有者和时间,只注重对实体或属性的情感倾向。因此情感分析研究任务按照研究对象分为如图1所示的类型。

文本情感分析分为词语级、句子/篇章级、目标级。词语级情感分析是分析单个词语的情感倾向。句子/篇章级情感分析是抽取出整个句子中的情感词,然后统计总的情感倾向。目标级情感分析是基于具体的实体,属性,实体和属性的组合的细粒度情感分析,与句子/篇章级的粗粒度情感倾向分析相比,细粒度情感分析可以更准确地捕捉文本中不同维度的情感信息,更细致地了解用户对产品、服务、事件等的态度,提高了情感分析的准确度和实用性。

随着微博、论坛的发展,文本情感分析研究非常广泛,不仅由最初的计算机科学蔓延至管理科学和社会科学,而且在数据分析、市场营销、舆情分析等领域中有着广泛的应用。

1.2 在线评论的文本情感分析步骤

基于在线评论的文本情感分析研究流程如图2 所示。

1) 数据收集:首先确定要研究的评论对象,找到评论数据来源。然后设计爬虫算法,从网络、社交媒体等平台爬取评论文本数据存入文件。

2) 数据预处理:主要是对收集的文本数据进行清洗、规范化操作。首先进行分句操作,将文本划分为句子。然后进行分词操作,将文本按照一定规则划分成不同的词语片段,形成一個个独立的文本单元。其次进行文本清洗,主要是去除无关信息、特殊符号、停用词等干扰因素,使研究的文本规范化,便于计算机模型的处理和识别。最后进行词性标注,对于每个分词后的单元,通过相应的模型对其进行对应的词性标注。

3) 情感分析:利用情感分析模型,对每个文本单元进行情感分析,确定其情感极性和类别。

4) 结果可视化分析:将分析结果可视化呈现给用户,供用户使用。

2 在线评论的情感分析算法

2.1 基于词典的情感分析方法

基于词典的情感分析方法是一种常用的文本情感分析方法,其原理是利用已有的情感词典,通过匹配文本中出现的情感词,统计对应的情感极性,从而判断出文本情感倾向。

使用情感词典进行情感倾向分析的方法,其优势是可以根据不同情境和任务需求,构建不同领域、不同语种的情感词典,方便实现领域定制化;相对于其他情感分析方法,计算速度较快,适合处理大量文本情感信息;基于人工经验或机器学习算法构建情感词典,易于理解和解释。缺点是无法考虑上下文语境对情感的影响,容易出现误判的情况;且情感词典构建需要耗费大量的人力、时间和金钱,难以满足不同场景和需求的快速更新和维护;对于一些特殊领域或新出现的表达方式,缺乏有效的情感词库支持,可能导致识别效果不佳。

2.2 基于机器学习的情感分析方法

基于机器学习的情感分析方法是通过构建训练模型,自动学习文本中的情感特征,将文本分类为正面、负面或中性情感。模型在进行训练时,会依据已有的标注数据不断调整参数,提高分类准确率。基于机器学习的情感分类方法按照是否需要标注样本又可以分为3类,其特点如表1所示。

基于机器学习的情感分析方法基本流程如下:

1) 数据收集和预处理:从网络、社交媒体等平台爬取大量的文本数据,并进行去噪、分词、词性标注、词干提取等预处理操作。

2) 特征提取:从文本中提取出有意义的特征,如词频、TF-IDF、词向量等,将文本转化成计算机可以识别处理的形式。

3) 模型训练:利用已标注好的文本数据,采用机器学习算法(如朴素贝叶斯、支持向量机、K-means 等)对特征向量进行训练,得到具有分类能力的模型。

4) 模型测试:利用测试数据对模型进行验证,评估模型的准确度和性能。

5) 实际应用:将已经训练好的模型应用于实际场景中,对新的文本数据进行情感分析。

基于机器学习的情感分析方法能够考虑上下文语境对情感的影响,适用性较强,具有较高的分类准确性。在新情境下,可以通过重新标注数据集和重新训练模型来快速适应新环境。

但是有监督的情感分析算法需要大量的标注文本数据作为训练集,人工标注成本高。且特征向量维度较高,需要投入较多计算资源。无监督的情感分析算法分类的准确率可能不高,所以未来对于采用少量标注样本的弱监督学习的情感分类算法研究前景较好[2]。

2.3 基于深度学习的情感分析方法

随着深度学习技术的发展与成熟,将其运用到在线评论的情感分析研究中也取得了不错的效果。基于深度学习的文本情感分析的原理是运用神经网络模型,从海量的文本数据中自动学习特征,同时利用大量的训练数据来训练模型、优化参数,从而实现文本情感的分类。其研究流程如下:

1) 数据预处理:对爬取的原始文本数据进行分句、分词、去停用词、建立词典等清洗操作,以方便进行下一步处理。

2) 特征提取:将预处理后的文本转化为计算机可以处理的向量表示,通常使用词嵌入技术,如Word2Vec、GloVe等方法。将文本中的每个单词映射到一个独立的实数向量空间,从而将原始文本转化为向量表示。

3) 模型构建:深度学习模型通常采用卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)等结构来对文本进行建模,并输出一个标签,表示该文本的情感分类。

4) 训练模型:在构建好深度学习模型之后,需要对其进行训练。训练过程通常采用反向传播算法,使用目标函数作为损失函数,对模型参数进行优化。

5) 模型评估和预测:使用测试集对训练好的模型进行评估,通常采用准确率、召回率、精度和f1-score 等指标进行评估。当模型评估通过后,即可使用该模型对新的文本进行预测,输出其情感类别。

基于深度学习模型的情感分析研究,虽然构建的模型复杂,模型训练耗费时间长,且需要大量手工的標注数据,但是训练不需要手动设计特征,能够从大量的数据中自动学习特征,泛化性能好,可以学习到更为复杂的特征,从而提高情感分类的准确率,是目前研究情感倾向分析的热门方法。

3 目前研究现状及展望

目前,国内外关于在线评论的情感分析研究运用词典、机器学习等各种算法都有。如丁美荣等[3]将扩展词典、预训练、传统机器学习的情感分析算法进行比较,研究得出基于扩展词典和机器学习的情感分析的准确率高,另外在训练机器学习模型时采用预训练模型可以加速模型收敛,从而缩短模型构建的时间,并具有较好的泛化效果,但预训练模型受训练样本数据不同的影响,可能会产生不同的分类结果,因此在这方面的问题还有待继续研究。王奴建等[4]也是通过构建MOOC领域情感词典,然后结合双向GRU和注意力机制进行情感分类。诸林云等[5]提出将预处理好的文本数据输入到bert模型训练,得到融合上下文语境的词向量,然后使用BiLSTM模型结合注意力机制进行情感分类,从而可以关注到一个句子中的重要词汇,突出其情感程度以此来提高情感分类的准确度。高佳希等[6]提出在文本数据预处理时使用TF-IDF算法代替原来的手工去停用词方法,并提出多个自注意力机制交互表示特征进行情感分类,从而优化自注意力机制模型丢失的问题,以提高情感分类的准确度。乔百友等[7]提出在对于特征的细粒度情感分析研究中提出用户对于某些特征的倾向比其他方面的特征倾向更关注,因此在使用word2vec表示词向量后,通过词频统计法标注出用户关注的特征方向,然后对所属的词向量进行加权处理,从而提高词向量的表示能力,并利用BiGRU结合胶囊网络的深度学习模型进行分类。Karna M等[8]人提出集成逻辑回归、SGD、朴素贝叶斯、SVM四个分类器优势的多本文情感分类算法。

综上运用基于机器学习的算法来研究情感分类问题,需要标注大量的数据来建立特征工程,但是对于长度过短的文本在建立特征表示的时候会出现特征稀疏的问题,从而不能很好地表示出原文本的含义,会出现歧义问题,影响情感分类精度。而构建情感词典的方式不需要大量标注数据,但词典的质量好坏直接影响分类结果。所以现在的研究中,大都将词典与机器学习或深度学习模型结合起来,或者多个分类模型结合起来,取长补短,达到较好的情感分类结果。目前基于混合模型的情感分析是情感分析的研究热点问题,且针对评论中含有表情符号、网络流行用语、图片等形式,如何判断其情感也有待进一步研究。

4 结束语

本文基于各大网络平台在线评论爆发式增长、影响广泛的背景下,思考并梳理了当下文本情感分析的方法、研究现状及存在问题,提出展望:可以充分结合情感词典、大数据背景下深度学习自我学习和迁移学习的优势,来构建混合模型提高情感分类的精度,并可以考虑从语义分析的角度解决文本特征表示不准确的问题。为后续的文本情感分析研究提供一定的启发。

猜你喜欢
在线评论研究现状
在线评论情感属性的动态变化
在线评论对电子商务商品销量的影响研究
试井法分析井间注采关系的研究现状
人民检察院量刑建议制度构建与完善
我国环境会计研究回顾与展望
浅析电力系统谐波及其研究现状
创新人才培养理论研究现状及未来研究方向
在线评论对消费者购买意图的影响研究
消费者个体行为偏好对在线评论真实性的影响机理研究