徐琳宏,刘 鑫,阎 月,原 伟,林鸿飞
1.大连外国语大学 语言智能研究中心,辽宁 大连116044
2.锦州师范高等专科学校,辽宁 锦州 121000
3.信息工程大学 洛阳校区,河南 洛阳 471003
4.大连理工大学 计算机系,辽宁 大连 116024
情感分析通过对信息的处理、识别和统计,获取其中蕴含的情感及分布规律,数据主要来源于社交媒体中用户评论,是一个多学科交叉的研究方向。随着移动应用和互联网信息的不断增加,分析庞大用户群体的情感特征,提取其中有价值的信息成为一个研究热点。情感分析的研究有助于了解民众对时事热点、政策规定和商贸产品等的真实态度和想法,能为政策的制定和调整提供依据。但目前情感分析的研究还是以英语为主,俄语情感分析方面无论是模型构建还是数据储备都处在不断探索中。
在“一带一路”倡议和合作共赢的大环境下,俄罗斯作为我国的全面战略协作伙伴,是具有重要影响力的大国。同时俄语作为东斯拉夫语支的重要语种,在前苏联15个加盟共和国所在区域也是使用最广泛的语言,其中俄罗斯联邦、白俄罗斯、哈萨克斯坦和吉尔吉斯斯坦都把俄语作为官方语言。因此,解析俄语区民众在社交媒体里表达的态度有助于探索与各国在经济等领域的合作模式,也对我国国际政策的顺利开展有积极的推动作用。
社交媒体中蕴含着大量的文本、语音和视频信息,为情感分析的研究提供了大量真实的研究数据。目前俄罗斯的互联网普及率达到83%,根据Deloitte[1]2020年发布的俄罗斯互联网使用报告,YouTube、VKontakte、Instagram 和Odnoklassniki 是目前最为流行的四种社交媒体软件,大约有77%的用户周末在线时间超过3 小时,即使工作日也有68%的人使用社交媒体软件。从用户年龄角度分析,VKontakte的用户主要集中在30岁以下的年轻人,而Odnoklassniki则以老年用户为主。由此可见,在俄罗斯各个年龄段的人群均在长时间地使用社交媒体,由此产生的海量信息为俄语情感分析提供了便利,同时也是一个巨大的挑战。
本文的主要目的是梳理俄语情感分析的传统模型和最新成果,在此基础上总结现有研究的相关资源、识别方法和应用场景,为后续俄语情感分析的系统研究提供依据,并发现进一步探索的方向和研究热点。
本文以“emotion+russian”和“sentiment+russian”以及“俄语”“俄文”和“俄汉”与“情感”和“情绪”两组词的交叉组合作为检索词分别在Web of Science(WoS)、DataBase Systems and Logic Programming(DBLP)和CNKI 中进行检索,获取相关文献190 篇。阅读每篇文献并提取其中与俄语情感分析相关的参考文献,最终筛选出与本文研究主题相关的73 篇文献,对俄语情感分析的已有研究进行细致梳理和总结。
情感分析研究的一般研究框架如图1所示,首先选择研究领域,获取相关语料,接着完成数据的预处理,在合理的标注规范和标注原则指导下完成情感标注工作,然后对数据进行识别或分析。识别工作多采用机器学习或深度学习模型,借助词典和形态分析工具等资源,以相关的评估指标为指导,旨在完成更大规模语料的自动识别。数据分析工作多是统计人工或自动方式标注的数据,发掘网络中积极和消极情感的分布规律和传播方式等。也有很多研究先通过机器自动识别大规模的情感数据,再采用统计的方法分析数据的分布特征。本文将在后续的章节中按情感分析的研究框架逐一梳理俄语情感分析的研究工作。
图1 情感分析研究框架Fig.1 Research framework of sentiment analysis
资源的使用贯穿于情感分析的每个阶段,无论是语料预处理还是针对情感自动识别的特征提取,都需要用到情感词典和各类相关工具。而数据集不但是开展分析工作的基础,也是研究结论可靠性和鲁棒性的重要保障。与资源比较丰富的英语情感分析相比,俄语情感分析在规模和数量上相对比较匮乏,因此每个资源更显得弥足珍贵,本章将介绍俄语的情感词典和带标注数据集两类资源。
表1 中列出了现有的俄语情感词典资源,其中LinisCrowd和RuSentiLex是两个规模较大、建设质量较高、引用频次较多的词典。它们都是采用半自动的方法创建,即先采用模式匹配的方法从大规模语料中自动抽取候选词列表,然后通过人工的筛选确定情感类别,例如RuSentiLex词典就采用了35种负面模式和20种正面模式获取候选情感词。自动构建词典多是采用与种子词计算相似度[13]、与带标注文档计算PMI[14]或者利用图传播[12]的方法。一般来说,完全自动的方式构建的词典规模较大,但质量相对较低。纯手工创建的情感词典虽然质量较高,但考虑人工成本,词典规模都不会太大,且大多局限于某个领域,例如Tutubalina2016 和Blinov2013语料分别来源于汽车和电影评论两个领域,规模都在5 000词左右。
表1 俄语情感词典汇总Table 1 Russian sentiment lexicon
情感词典的分类以三分类和二分类居多,三分类是将词汇分为正面、负面和中性,而二分类则是去掉中性类别,五分类就是在此基础上将正面和负面分别划分为强和弱两种。单分类的情感词典只有Kamil2021 的辱骂语词典,词表中词汇都是辱骂语。RuSentiLex词典是四分类的,它是三分类的基础上增加了一个亦正亦负的类别,就是说某些词汇具有情感,但在不同语境下情感类别不同,从单一词汇角度无法确定极性,这类词汇在词典中有291 个。其他词典并没有考虑词汇在不同语境中情感的差异性,一个词汇只能属于单一类别,这样会影响词汇表达语义时的多样性,因此,这将是未来俄语情感词典构建工作需要加强和改进的方面。
情感词典的数据来源主要集中在已有词典、新闻和评论几种语料。LinisCrowd、RuSentiLex、Chen2014 和Kamil2021 都利用了已有的词典和WordNet 等电子资源。而评论类语料来源既包括餐馆、酒店和银行等实体对象,也包括电影、书籍、相机和汽车等产品。产品评论类的情感词汇多与产品的不同方面有关,主要应用于方面级情感分析。语料大多源自相关的社交媒体平台,如VKontakte、Twitter和LiveJournal等。此外,质量较高的英语情感词典LIWC也有相应的俄语翻译版本,未在表格中列出。从来源看,情感词典在继承已有知识的基础上,语料来源比较广泛,保证了词汇的多样性。未来可以考虑整合所有的情感词典,同时还可以利用手工构建的词典进一步评估自动词典的质量,构建一个规模更大、词汇更加丰富和准确的高质量俄语情感词典。
表2中列出了俄语情感分析的相关数据集的规模、分类方法、数据来源和模态等信息。与词典构建不同,大部分数据集是人工参与标注和审核的,单纯自动方式构建的数据集只有7个,一般是根据用户评分结果直接分类[27-28]或者根据语句中的表情符号分类[25],目前还没有发现使用自动识别模型进行标注的数据集,这可能与俄语情感识别准确率总体比较低,难以保证情感分类质量有关。在所有的数据集中,RuSentiment 和LinisCrowd2016 的质量相对较高,都是五分类的语料,RuTweetCorp 和RuReviews 规模相对较大,均是以自动方式构建的。现有数据集以文本形式的语料为主,分为一般文本情感分析和方面级情感分析两类。
表2中包含8个与评测相关的数据集。俄语情感分析的评测从2011 开始出现,分别由俄罗斯信息检索研讨会(ROMIP)、SentiRuEval 和SemEval 发起。ROMIP是一个类似于TREC 的俄语竞赛,关于情感分析的竞赛项目集中在2011 和2012 年发布。SentiRuEval 和SemEval都是针对情感分析任务的竞赛,前者专门面向俄语情感分析,办了2015 年和2016 年两届。SemEval包含各个语种的情感分析任务,每年都会举办,其中2016 年的任务5 是针对俄语情感分析的。上述三个竞赛的语料均来源于用户评论,ROMIP 评测语料是来自Imhonet和Yandex网站用户关于电影、书籍、相机评论,训练集根据用户评分自动分类,测试集经过人工标注。SentiRuEval 是Twitter 中关于电信和银行的评论,2016年的数据是在2015 年的基础上追加了部分数据,两者有部分重合。SemEval 的任务5 是关于餐馆评论的,除了正面、负面和中性的三分类,还有少部分语料标注为“冲突”类。
表2 俄语情感数据集Table 2 Datasets of Russian sentiment analysis
SentiRuEval 和SemEval 都是对产品或餐馆的某个方面进行情感标注,因此可以应用于方面级情感分析的任务,但是语料中大部分数据都是一条数据对应一个方面,所以也可以用于一般的文本情感分类任务。需要注意的是方面情感标注中正面、负面和中性的数量是按方面计算,因为一个评论可以包含多个方面,因此每类标注数量的总和会大于总评论数。从数据来源看,新闻和用户观点类的语料主要来自VK、Twitter、LiveJournal和Censor,而产品评论类的语料主要来源是电子商务类的网站,包括Imhonet、Yandex、banki.ru、TripAdvisor 和Restoclub 等。从发布时间看,文本类的情感标注语料从2012年开始,前期主要以手工标注为主,近几年开始出现大规模的自动标注语料。语料发布集中在2012—2013 和2016—2017 这两个时间段内,这可能是因为俄语情感分析的研究工作在2016年以后逐步获得更多研究者的关注。从各情感类别的数据分布看,大部分语料中性类数据较多,正面和负面数据相对较少,正面和负面语料的比例也差异较大,数据的不平衡性比较明显,这也为俄语情感分析的自动识别提出了挑战。
此外,数据集中还有两个关于幽默的语料,Blinov Humor[26]和Pikabu2021[29]将文本分为幽默和非幽默两类,适用于俄语的幽默识别研究。除了文本语料外,表2还包含三个多模态语料,Ruslana[34]、Ramas[35]和Xu2021[36]。它们的情感类别比较多,主要分为惊奇、幸福、愤怒、悲伤、恐惧和中性,Ramas 在Ruslana 的基础上增加了“厌恶”类别,这两个语料库都是以视频形式展现,由专业演员演绎各类情感。Ramas除了视频模态,还采集了表演者的面部表情、语音、运动以及生理信号等信息。Xu2021则是以俄语情景剧《我是如何成为俄罗斯人的》的视频为数据源,人工标注完成。三个多模态语料中,Ramas 和Xu2021 都是会话式语料,数据包含多人的对话,上下句之间具有一定的情感连续性,而Ruslana是独白式的语料,视频中只出现一个人的自述,两种类型的语料在多模态情感分析的模型选择上差异较大,不同的应用场景需要选择不同类型的数据集。
俄语情感分析的研究分为几种类型,一类是针对固定领域的标注语料进行统计,解析社交网络数据的规律和特点,为相关政策的制定和调整提供依据。还有一类是从语言学的角度出发,重点分析俄语中情感词汇的表达方式。此外,更多的研究是先构建自动识别模型,获取大规模语料,然后在大规模语料上完成数据分析。成功构建自动识别模型是后续研究顺利进行的基础,模型结果的准确性也是研究结论正确与否的保障,因此这一章中侧重综述与俄语情感分析自动识别模型相关的工作,并补充部分俄语情感词汇分析和数据分析的研究文章。梳理过程中参考了已有的综述文献[37-41],但与其他相关综述不同的是本文以情感分析的流程为线索,分阶段总结当前俄语情感分析工作的特点,并且详细列出了自动模型的分类方法和实验结果等信息。
随着互联网的高速发展,数量庞大的社交媒体用户每天产生海量文本,单纯依靠人工标注方式难以获取大规模的用户情感数据,这就需要借助情感分析的自动识别模型。早期的情感分析方法有基于规则和机器学习两种,基于规则的方法通常以情感词典为基础,配合固定的情感表达模式,这种方法的准确率取决于词典的规模、质量以及归纳的模式是否全面,很难应对互联网中层出不穷的新词汇和表达方式。与基于规则的方法相比,机器学习的方法更节省人力资源,除了特征提取外多数工作依靠机器自动完成,其中特征提取和机器学习模型的配合是研究的重点。2016年后,随着深度学习方法广泛应用,许多研究者发现在俄语情感分析工作中,选择和搭配适当的深层神经网络和预训练模型更为重要。表3从数据来源、模型方法和分类结果几个方面对比和总结了俄语情感分析自动识别的工作。
表3中的数据大体按其发表的年份排列,其中编号1~19的相关研究针对一般情感分析,编号20~23的工作是关于方面级情感分析的。该表汇总了在特定数据集上的最好结果,为了兼顾分类结果的准确率和召回率,本文以分类评估最常用的宏平均(F1)作为主要的测量指标,对于没有提供F1值的部分研究,则给出其分类结果的准确率(accuracy,Acc)。有些工作中结合了多个模型实现俄语情感分析,表3中只列出了对应文献中特定数据集上效果最佳的模型及其实验结果。
从表3 中可以看出,2012 年到2016 年间,俄语情感自动识别模型以机器学习为主,效果较好的模型包括SVM、NB、LR 和MaxEnt,大多研究工作在对比多种机器学习算法之后,发现SVM 效果最好。机器学习模型分类的结果不仅依赖算法的选择,更依赖特征的选择,俄语情感分析中常用的特征包括词汇级和语句级两大类。词汇级特征在语料预处理阶段主要体现在词干化和形态还原等,模型输入层多以情感词典为基础[28,43],并通过同义词和近义词等方式进行扩充和分组。语句级的特征一般有Unigram、Bigram、Tf*idf[42]以及句法结构[31,55]和语法关系[44-45]等。2016 年以后,俄语情感分析中开始引入多种深度学习模型,其中包括CNN、LSTM和GRU 等,大部分研究者采用单一的神经网络模型[18,27,49,51,54],少部分研究者则针对不同模型的优点对其进行组合和改进[56]。
表3 俄语情感分析模型汇总Table 3 Summary of Russian sentiment analysis model
随着深度学习在自然语言处理领域的不断应用,基于语言模型的词向量技术也在不断发展。早期的研究者多数使用Word2Vec、GloVe 和FastText 等静态词向量,但由于同一单词在不同的语境中对应的词向量不变,故而很难解决一词多义问题。因此越来越多的研究者通过ELMo、GPT 和Bert 等预训练模型生成动态词向量,充分提取单词的上下文特征信息,根据不同的语境动态调整词向量,较好地解决了一词多义问题。RuBert[41]是Bert 模型在大规模俄文语料上训练之后得到的预训练模型,它受到了许多学者的青睐,并在很多研究中取得较好的结果。值得一提的是,还有一些学者试图融合重构基于特征提取的机器学习模型和基于词向量的深度学习模型,例如将词向量作为特征输入到传统机器学习模型中[50],或者将人工提取的特征加入到深度学习模型的各层架构中[54]。
除了RuSentiment、RuTweetCorp、RuReviews、Linis-Crowd等常见语料库之外,Kaggle、ROMIP和SentiRuEval等评测数据集也被众多研究者所采用。部分研究工作涵盖了多种数据集[29,46,51-53],大部分工作的实验结论仅针某个单一的数据集。在各常用语料库上,目前表现最好的模型及其分类结果依次为:在RuSentiment 上采用预训练模型ELMo 与CNN[47]模型结合,最终获得78.5%的F1值;在RuTweetCorp上采用双向GRU(BiGRU)模型[51]获得90.9%的F1 值;在RuReviews 上采用CNN 模型获得75.5%[27]的F1 值。而在各种评测数据集上的研究现状如下:RuBert 在SentiRuEval 的电信数据和银行数据中分别获得69.1%和79.5%的F1 值;Loukachevitch 等[28]将SVM 和最大熵模型分别应用在ROMIP2011 和2012数据集上,并完成二分类、三分类和五分类实验。观察表3中的三分类结果可以发现,其研究成果在2011年和2012 年的相机类评论数据集上表现差异较大,F1 值从62.3%下降为48.0%,可见即使在同一领域的数据中,模型的波动也较大。俄语情感分析领域的深度学习模型相对都比较简单,以RuSentiment 数据集上效果最好CNN模型为例,首先将词向量嵌入到三个卷积中,每个卷积具有相同数量的过滤器和不同的内核大小,经ReLU 激活后进行连接,最后通过softmax 激活,获取最终结果[47]。具体模型如图2所示。
图2 Shallow-and-wide卷积神经网络Fig.2 Shallow-and-wide CNN
从评测的总体结果看,二分类任务结果较高,接近90%,三分类任务一般在75%左右,五分类任务的结果最差,接近50%[19,28]。除了上述旨在提高自动分类结果的研究外,还有一些研究分析不同外在因素对分类结果的影响,如Rubtsova[58]研究不同年份数据的自动分类性能差异,Araslanov 等[59]基于NB 和LR 算法评估俄语短文本预处理对分类结果的影响。
在俄语情感分析中,以SVM、NB 等为代表的传统机器学习模型具有较完美的数学理论解释,面向海量数据时模型的训练时长相对较短。深度学习则更偏重经验主义驱动,其多数模型的可解释性研究进展较为缓慢。然而,近年来越来越多的实验表明,深度学习模型在进行训练学习时,能保留更多对于数据的拟合度、携带更多的语义信息,其性能优于传统的机器学习模型。
在深度学习模型中,主体由卷积层构成的CNN 模型结构相对简单,模型训练时并行运算能力更强,对识别目标任务的结构具有一定的优势。以GRU 和LSTM为代表的RNN 模型训练时间相对较长,但由于其记忆功能对序列识别建模具备优势,因此更为广泛地应用于多种NLP 任务。与上述深度学习模型相比,以ELMo、GPT 和BERT 等为代表的预训练模型提供了更好的模型初始化,通常具有更好的泛化性能,并能加速对目标任务的收敛。
从近年来的研究结果来看,在情感分析任务中深度学习模型并未能全面超越传统模型。例如,在Matheus2016 数据集上采用SVM 方法可取得61.0%的F1 值,其与CNN-BiLSTM 模型的结果相差不大。在多模态这一情感分析的最新研究领域中,目前针对俄语相关语料的自动识别研究很少,尚处于起步阶段。
综上所述,在基于规则的情感分析方法之后,俄语情感自动识别模型的发展具有较为鲜明的时代特征,可以划分为传统的机器学习和深度学习两个阶段,虽然分类算法的选择对模型的自动识别效果很重要,但语料的预处理方法、特征提取和预训练模型的微调也会对识别准确率产生较大影响,一个好的研究方案应该综合考虑上述多个方面。另外,俄语情感识别的结果普遍较低,当数据集的规模较大时,三分类的宏平均基本在75%左右,这与实际应用的需求还有一定差距,尚有较大的提升空间。此外,模型的稳定性也是自动情感分类算法未能大范围推广的重要原因,自动识别算法的鲁棒性和泛化性还有待进一步提高。
俄语情感的数据分析是在人工或者自动标注语料的基础上,分析数据中情感表达的特点,进而发掘公众对新闻事件的观点,探索用户评论中蕴含的情感以及情绪的分布和传播规律等。按分析对象的粒度可以分为词汇级和语句级,国内有很多学者研究了俄语词汇的情感表达,如研究俄语中带有情感意义的成语[60]、俄语情感类心理动词[61]、俄语情感态度动词以及俄语情感词汇的表达手段[62-63】等。国内以语句为单位的相关研究不多,原伟等[64]在构建并分析俄汉可比语料库的基础上,发现俄文评论趋向使用长评论、形容词和动词表达情感,而中文网评趋向使用短评论、名词和动词表达情感,俄文新闻评论中存在冗余消极评价的现象等。朱姗姗等[5]为考察俄语情感词汇的表达手段,人工标注了8 031条用户评论,构建了包括6 321条词汇的俄语情感词典,并在此基础上分析了俄语情感表达的手段。
除了文本模态的词汇外,语音等多模态情感词汇的研究很早就已经开展,它们多以Ruslana语料库为基础,探索俄语情感表达中的声学特征[65],分析情感状态对俄语擦音和塞擦音特征的影响[66],探查持续时间、能量、共振峰和动态范围对俄语情绪表达的影响[67],讨论加入表达者的信息是否有助于语音情感识别[68]。
在国外,以情感自动或手工创建的俄语情感语料为基础,统计和分析数据的研究很多,文献[40]中按数据来源的类型划分,详细梳理了此类相关的研究,这里不再赘述,本文在此补充部分未提及的俄语情感数据分析相关的研究。Litvinova等[69]研究欺骗检测的问题,分析俄语真假文本在统计上是否有显著差异,发现男性和女性说谎的方式不同,且应为不同性别、年龄和心理特征的人设计不同的模型。Bodrunova等[70]分析俄语可解性与情感的关系,用统计学的方法探究自动识别模型(LDA、WNTM 和BTM)和人工标注在可解性方面的差异,发现可解释的话题越多,负面情绪就越重。Alvarez等[71]研究Facebook广告文本中的情感,发现与负面广告比,大多数的广告都有积极情绪,且广告中的情感在2016美国总统大选前后波动比较明显。
本文以情感分析研究工作的具体流程为线索,详细梳理了俄语情感分析的资源、自动识别模型和数据分析三个方面的工作,总结了以往研究中的常用方法和当前的主流模型。现有的俄语情感分析资源包括情感词典和情感语料两种类型,在此基础上总结了主流的自动情感识别模型,机器学习模型和深度学习模型。主要的研究结论有以下几点:
(1)资源建设方面,俄语情感分析的资源建设目前已经初具规模,为情感分析的后续研究工作提供了保障。情感词典中词汇的数量已经能涵盖大部分俄语的常用情感词汇,现有的数据集中也包含了一些大规模、高质量的语料库,但数据来源有限,还需要进一步拓展,同时对各类资源的整合工作也需要加强。
(2)自动识别方面,主流的模型分为传统的机器学习和深度学习两种,整体识别的效率和准确率还有待提高。机器学习模型以SVM 算法为主,选择的特征有NGram、词法和句法等。深度学习模型选择算法主要有CNN、RNN和RuBert等。在几个大规模数据集中,三分类的宏平均最好结果基本在75%左右。
(3)数据分析及应用方面,目前大部分的数据分析工作是以大规模自动识别的语料为基础的,应用范围从宏观的热点话题监控和舆情分析到微观的产品和服务的创新和改进,在多个领域都有广泛的应用价值。然而自动识别模型的分类效果难以像人工一样准确,因此对研究结论的有效性会产生一定影响。
俄语情感分析的研究工作虽然已经取得了一定的进展,但是与比较成熟的英文情感分析的综述[72]和研究工作[73]相比,整体研究水平还处于初级阶段,存在着很多的不足之处,主要体现在以下几个方面:
(1)从俄语自身的特点出发构建的模型较少。当前的很多自动识别工作是简单地参考英文情感分析模型,没有考虑俄语自身的特性,导致识别的准确率普遍较低。俄语作为一种高度屈折的语言,情感表达的方式有很多独有的特点,未来可以将这些特性添加到模型中,提高识别的效果。
(2)资源共享性有待加强,语料来源需要不断拓宽。虽然现有俄语情感分析的词典和数据资源较多,但部分资源不能公开获取,例如大规模的语料资源RuSentiment,因为社交平台的信息授权问题不能继续提供下载。此外,方面级语料资源多来自电影、餐馆、银行和相机等领域,范围较窄,还需不断收集不同领域的数据,拓宽研究范围。
(3)利用资源丰富的其他语种语料库的迁移工作比较少。英语等语种的情感分析的研究资源比较丰富,可以考虑采用迁移学习等手段,利用其他语种的现有资源,不断扩展俄语情感分析的研究方法和资源。
(4)俄语情感分析工作基本上都是文本模态,语音和图像等多模态的研究工作还处于起步阶段。情感表达是一个多层次、多角度的展现过程,单纯依赖文本表达必然会损失很多情感信息,因此多种模态信息的互补以及与俄语语音等多个学科的交叉将是未来一个重要研究领域。