于海涛 刘竞泽 刘乐
摘 要:深度学习是一种使用非监督式或半监督式的特征学习和分层特征提取高效算法的技术。目前,深度学习在情感分析领域中的应用存在研究领域对比缺失、无系统性算法过程描述及无共用数据集等问题。针对以上问题,文章首先利用跨学科研究法等方法,归纳出情感分析不同研究领域的研究内容、方法及模型差异;其次,使用CiteSpace对近五年国内外相关文献进行分析,并绘制出时间线图谱,总结了近五年国内外研究重点及趋势;接下来,从数据进行分析,对该研究关键技术所使用的数据集进行总结;最后,从多模态融合、特征提取等方面对深度学习在情感分析领域的问题进行分析,并对其未来发展趋势进行展望。
关键词:情感分析;深度学习;应用领域;数据集;CiteSpace
中图分类号:TP391;G353.11 文献标识码:A 文章编号:2096-4706(2023)17-0050-06
A Review of the Application of Deep Learning in the Field of Emotional Analysis
YU Haitao, LIU Jingze, LIU Le
(Guilin University of Technology, Guilin 541004, China)
Abstract: Deep Learning is a technique which uses unsupervised or semi-supervised feature learning and hierarchical feature extraction efficient algorithms. At present, the application of Deep Learning in the field of sentiment analysis has problems such as lack of comparison in research fields, no systematic algorithm process description and no shared data set. In view of the above problems, this paper firstly uses interdisciplinary research methods and other methods to summarize the research content, methods and model differences in different research fields of sentiment analysis. Secondly, CiteSpace is used to analyze the relevant literature at home and abroad in the past five years, and draw a timeline map, summarizing the research priorities and trends at home and abroad in the past five years. Next, the data is analyzed and the data set used in the key technologies of the research is summarized. Finally, the problems of Deep Learning in the field of sentiment analysis are analyzed from the aspects of multimodal fusion and feature extraction, and its future development trend is prospected.
Keywords: sentiment analysis; Deep Learning; application area; data set; CiteSpace
0 引 言
近年來,深度学习逐渐成为人工智能领域的研究热点和主流发展方向。与传统机器学习算法相比,深度学习利用大数据来学习特征,强调了模型结构的深度和特征学习的重要性,更能够刻画数据的丰富内在信息。因此,深度学习方法在图像、语音等诸多领域取得了令人瞩目的进展,尤其在文本表示层面,其词语向量表示方法可以获取文本的语义、语法以及自身结构信息,为情感分析研究提供坚实基础,并成为当前该领域的研究热点。
而情感分析是自然语言处理(NLP)方法的常用应用。它是一种对带有情绪色彩的主观文本进行分析、处理、总结和推理,并利用一些情绪得分指标对定性数据进行量化的方法。正是社交媒体平台的出现和采用导致了“情感分析”研究领域的诞生,用来分析这种大规模的在线的非结构化意见资源。
目前,深度学习在情感分析领域的综述研究主要集中于文本粗粒度与细粒度的对比研究、深度学习的技术方法对比分析以及深度学习模型的结构分析等方面,例如,谭荧等[1]针对社交媒体情境下的情感分析研究方向、技术和应用进行内容分析,总结了适用于社交媒体平台的情感分析改进方法;董克等[2]归纳了引文情感分析的主要流程,揭示了引文情感分析方法的发展进程与特点;Zhang等[3]对深度学习进行了概述并介绍了各种深度学习架构及其在情感分析中的应用;Do等[4]研究并总结了细粒度情感分析和深度学习方法的现状等。由此可见,该研究方向的文献综述存在应用领域横向对比缺失、无系统性算法优化研究思路、缺乏相关数据集作为实验支撑等问题。
因此,本文从情感分析在不同应用领域方面的研究、基于深度学习的情感分析研究现状及相关数据集的研究方向和应用情况进行了研究。同时,本文具有三重贡献:
1)分析对比不同应用领域所使用的方法或模型,列举出其研究热点及贡献,进而总结出不同领域的未来研究方向。
2)以国内外近五年文献为基础,使用CiteSpace绘制时间线图谱,总结国内外研究趋势并汇总研究热词,为整体研究指明方向。
3)为算法研究提供有效数据来源,为相关实验提供了有效依托。综上,本文弥补了之前研究的不足,具有较强的可行性与研究价值。
1 情感分析在应用领域方面的研究
近年来,情感分析的研究内容和应用场景几乎出现在各个领域。从金融到教育,再到旅游,甚至政治选举,我们都可以看到情感分析相关产品的实际应用。由此可见,情感分析的发展不仅是近年来的研究热点,也是企业在不同领域发展的利器,本文针对近五年各个研究领域的研究情况进行了如下汇总,如表1所示。
由表分析可知,在各个应用领域情感分析的三个主要任务是主客观判别、情感极性分析及主题识别(抽取)。近年来,情感分析的研究领域逐渐延伸涉及多个任务的综合完成,未来在各个应用领域的算法代入和模型构建方面将会实现新的突破。
2 基于深度学习的情感分析研究现状
2.1 国内相关研究分析
本文以中国广泛使用、信息丰富的中文数据库CNKI为数据平台,利用高级检索功能,选取主题词为“深度学习”和“情感分析”,检索核心期刊69篇文献,2018年1月至2022年3月,深度学习和情感分析领域的核心期刊、EI及CSSCI共69篇文献,使用CiteSpace进行数据分析,总结出该研究领域研究内容与时间的关系,如图1所示。
由图1我们可以看出2018年以前已出现情感分析在网络舆论、微博短文本、产品选择等方面的应用,且Word2Vec、多分类标注、LSTM等技术已经逐步应用到情感分析和深度学习的研究中;2018年词向量、卷积神经网络、注意力机制、自然语言处理、多通道及在线评论的研究达到高潮,并对后续四年研究领域的应用产生了重要影响;在2019年人工智能领域机器学习的研究出现在情感分析领域,且长短期记忆网络为热点研究内容。
2020年LSTM得到新的发展,延伸而出BiLSTM。BiLSTM可以看作是一个两层的神经网络,第一层从左边作为序列的起始输入,在文本处理中可以理解为从句子开始的输入,第二层从右边作为序列的起始输入,在文本处理中可以理解为从句子的最后一个单词作为输入,反向处理与第一层相同,最后同时处理得到的两个结果,使模型处理的速度和计算精度都有了新的突破。
2021年起时间序列模型、多领域、自注意力机制等的出现都不同程度地促进了情感分析和深度学习的发展;2022年多粒度卷积神经网络模型的构建对情感分析和深度学习研究的意义重大。
综上,近五年来深度学习与情感分析研究领域所使用的方法不斷创新,涉及范围不断扩大,尤其自2019年起开始展现出蓬勃发展的趋势。但现实中,往往会存在目标领域缺乏高质量训练数据的情况,如何从已有的训练数据集出发,进一步提高模型精度及准确度,提高深度学习模型解决跨领域问题的能力值得进一步的研究。
2.2 国外相关研究分析
本文选择Web of Science核心合集为数据库,利用高级检索功能,选取主题词为TS=(Deep learning)AND TS=(Sentiment Analysis),日期为最近五年进行文献检索,文献类型精炼为“论文”和“在线发表”后选择排序方式为“被引频次:最高优先”,选择排名前50的文献使用CiteSpace进行数据分析,总结出该研究领域研究内容与时间的关系,如图2所示。
由图2可知,在2018年以前“卷积神经网络”“注意力机制模型”“GRU”等方向的研究已经出现,随着“社交媒体”“深层神经网络”的出现“方面词提取”和“特征提取”的相关研究步入正轨;2019年“模糊逻辑”“LSTM”“大数据”和“BERT”等关键词出现,模糊逻辑是以多值逻辑为基础,利用模糊集合的方法来研究模糊思维、语言形式及其规律,集神经网络与模糊理论的优点,即学习、联想、识别、信息处理于一体;2020—2021年随着新冠病毒的出现,国外研究热点也随之发生了改变,出现“长短期记忆”“情感词典”“航空情报”“流行病学”和“公众健康”等关键词,可见情感分析的研究与实时息息相关,研究者希望通过深度学习在情感分析领域的应用来解决现实存在的热点问题。
根据国内外研究对比,可以发现国外相关研究关键词连线更为紧密,可见国外相关研究的跨领域性、跨学科性更强,其研究内容更加多元化,未来国内相关研究应结合多个学科、多个应用领域、多种技术进行创新性研究。
3 深度学习在情感分析领域的数据集研究
深度学习算法的兴起,不仅得益于高性能计算让庞大的模型能够被很好地拟合,更依赖于大规模数据的出现。本文根据近五年来深度学习在情感分析领域的核心期刊等相关文献,对研究人员所使用的实验数据集进行了分析和归纳,并汇总出表格为下一步研究提供数据支持,如表2所示。
对于一个深度学习模型而言,在很大程度上其输出的质量取决于输入的质量。数据只有经过清洗、贴标签、注释和准备后,才能成为模型的输入数据。数据准备是数据分析项目的第一步,选择合适的数据集对实验结果的准确性和精确度至关重要。
4 结 论
本文使用CiteSpace对近五年国内外深度学习与情感分析的相关文献进行了分析,并根据时间线图谱汇总出各个不同时间点的主要技术及研究热点。另外,本文指出了应用广泛的相关数据集适合研究的主要内容及方向,为下一步研究提供了数据支持,使未来研究相关实验的对比结果更加有说服力。
根据本文研究内容及以上分析可知,在深度学习日益发展并逐渐成为研究热点的背景下,其相关技术方法的推广和在情感分析研究中的应用场景拓展都面临着新的挑战和机遇:
1)扩充现有词典、准确判断不同语境下相关词语的极性、优化分析模型等问题在情感分析的研究中亟待解决。未来,如何解决邻近关系权重问题、如何处理隐形情感识别障碍问题等将成为研究的主要方向。
2)跨语言情感分析作为情感分析领域的特殊研究任务之一,研究效果仍未达到人们的预期。未来,跨语言情感知识的特征不足问题、有效共享、构建跨语言间情感表达关联等问题将成为研究的核心问题。
3)多模态融合语料库的情感分类也逐渐成为情感分析研究的关键,其具体表现为通过语言、视觉、声音、手势等共同作用无缝衔接地表达我们的意图和情感。未来,对于多模态情感分析的相关研究应集中于长期依赖、反讽识别、幽默检测、抑郁检测等任务。
参考文献:
[1] 谭荧,张进,夏立新.社交媒体情境下的情感分析研究综述 [J].数据分析与知识发现,2020,4(1):1-11.
[2] 董克,吴佳纯.引文情感分析方法研究综述 [J].图书情报知识,2021,38(6):60-72.
[3] ZHANG L,WANG S,LIU B. Deep Learning for Sentiment Analysis: A Survey [J].Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2018,8(4):e1253.
[4] DO H H,PRASAD P,MAAG A,et al. Deep Learning for Aspect-Based Sentiment Analysis: A Comparative Review [J].Expert Systems with Applications,2019,118:272-299.
[5] 胡家珩,岑咏华,吴承尧.基于深度学习的领域情感词典自动构建——以金融领域为例 [J].数据分析与知识发现,2018,2(10):95-102.
[6] 许雪晨,田侃.一种基于金融文本情感分析的股票指数预测新方法 [J].数量经济技术经济研究,2021,38(12):124-145.
[7] 朱鹤,陆小锋,薛雷.基于BERT的金融文本情感分析模型 [J].上海大学学报:自然科学版,2023,29(1):118-128.
[8] 翟剑锋.基于多原型词向量的情感分析在评教文本中的应用 [J].电脑编程技巧与维护,2019(11):125-127.
[9] 朱乐,李秋萍,朱燚丹.基于深度学习的“教育公平”网络舆情分析 [J].情报探索,2020(6):40-47.
[10] 欧阳元新,王乐天,李想,等.教育领域反馈文本情感分析方法及应用研究 [J].计算机教育,2020(6):80-84.
[11] 夏震.基于Bi-LSTM的旅游评价情感分析模型 [J].自動化应用,2020(5):129-131.
[12] CHANG Y-C,KU C-H,CHEN C-H. Using Deep Learning and Visual Analytics to Explore Hotel Reviews and Responses [J].Tourism Management,2020,80:104129.
[13] MART?N C A,TORRES J M,AGUILAR R M,et al. Using Deep Learning to Predict Sentiments: Case Study in Tourism [J].Complexity,2018,2018:7408431.
[14] 王云璇,董青岭.大数据情感分析——数字时代理解国际关系的一种非理性范式 [J].国际论坛,2020,22(6):64-85+157.
[15] 常城扬,王晓东,张胜磊.基于深度学习方法对特定群体推特的动态政治情感极性分析 [J].数据分析与知识发现,2021,5(3):121-131.
[16] 张先锋,郭伟,蒋慕超,等.东道国负面舆论偏向与企业OFDI——基于东道国主流新闻媒体的情感量化分析 [J].产业经济研究,2021(5):69-82.
[17] 田恕存.基于注意力机制的跨领域情感分析的应用研究 [D].哈尔滨:哈尔滨工业大学,2019.
[18] 孟佳娜,吕品,于玉海,等.基于CNN的方面级跨领域情感分析研究 [J].计算机工程与应用,2022,58(16):175-183.
[19] 张舒萌,余增,李天瑞.跨领域文本的可迁移情绪分析方法 [J].计算机科学,2022,49(3):218-224.
[20] 胡艳丽,童谭骞,张啸宇,等.融入自注意力机制的深度学习情感分析方法 [J].计算机科学,2022,49(1):252-258.
[21] 景丽,何婷婷.基于改进TF-IDF和ABLCNN的中文文本分类模型 [J].计算机科学,2021,48(S2):170-175+190.
[22] 张虎,柏萍.融入句子中远距离词语依赖的图卷积短文本分类方法 [J].计算机科学,2022,49(2):279-284.
[23] LI J Y,SUN M S. Scalable Term Selection for Text Categorization [C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).Prague:ACL,2007:774-782.
[24] LI J Y,SUN M S,ZHANG X. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization [C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.Sydney:ACL,2006:545-552.
[25] 湯凌燕,熊聪聪,王嫄,等.基于深度学习的短文本情感倾向分析综述 [J].计算机科学与探索,2021,15(5):794-811.
[26] 王晓莉,叶东毅.基于字词特征自注意力学习的社交媒体文本分类方法 [J].模式识别与人工智能,2020,33(4):287-294.
[27] 张昱,高凯龙,苏仡琳,等.双通道多核卷积神经网络中文文本情绪分类方法 [J].内蒙古大学学报:自然科学版,2021,52(5):508-513.
[28] 徐凯旋,李宪,潘亚磊.基于双向编码转换器和文本卷积神经网络的微博评论情感分类 [J].复杂系统与复杂性科学,2021,18(2):89-94.
[29] 李铁飞,生龙,吴迪.BERT-TECNN模型的文本分类方法研究 [J].计算机工程与应用,2021,57(18):186-193.
[30] 柴玉梅,员武莲,王黎明,等.基于双注意力机制和迁移学习的跨领域推荐模型 [J].计算机学报,2020,43(10):1924-1942.
[31] 李书彬,周安民.一种基于多维度图神经网络的短文本分类方法 [J].现代计算机,2022,28(1):55-59.
[32] AKHTAR M S,GHOSAL D,EKBAL A,et al. All-in-One: Emotion,Sentiment and Intensity Prediction using a Multi-task Ensemble Framework [J].IEEE Transactions on Affective Computing,2019,13(1):285-297.
[33] 沈卓,李艳.基于PreLM-FT细粒度情感分析的餐饮业用户评论挖掘 [J].数据分析与知识发现,2020,4(4):63-71.
[34] 李攀,吴亚东,褚琦凯,等.基于BERT与记忆网络的长文本方面级情感分析 [J].传感器与微系统,2022,41(2):118-122.
[35] 袁勋,刘蓉,刘明.融合多层注意力的方面级情感分析模型 [J].计算机工程与应用,2021,57(22):147-152.
[36] 邓珍荣,张永林,杨睿,等.结合全局和局部特征的BiGRU-RA图像中文描述模型 [J].计算机辅助设计与图形学学报,2021,33(1):49-58.
作者简介:于海涛(1973.05—),男,汉族,吉林四平人,副教授,博士,研究方向:旅游大数据、智慧旅游、水下传感器网络。