基于人工智能技术对网络舆情内容中语义情感分析的策略研究

2020-11-29 10:14伟,张
科技传播 2020年14期
关键词:舆情语义单词

孟 伟,张 黎

随着互联网技术的飞速发展,网络已经成为人们表达个人意见和观点的重要渠道。社会舆论也随之从线下转移到线上而演变为网络舆情。网络舆情信息已成为舆情信息的重要组成部分。在大数据环境背景下,网络舆情信息的挖掘比传统媒体更加难以规范。面对海量的网络舆情信息,就必须迅速掌握网络舆情参与者目前所持有的主要观点,而这些观点背后都带有对应的情感。因此,如何利用语义识别技术从海量的舆情信息中有效挖掘关键因素,指导决策和应急处理成为舆情研究的重要方向[1]。在文本情感识别领域,已有许多研究取得了合理的成果。使用真实世界的数据来改善先前的结果和情感识别仍然是一个巨大的挑战。

1 情感与舆情

舆论是对成年人的个人态度和信仰的综合看法。意见包括情绪。根据网民的不同情绪倾向,任何意见都可以分为积极、消极和中性[2-3]。公众舆论领域中情感倾向的研究更为复杂。情绪已被证明与人类生活具有持久的相关性,甚至对理性的行动至关重要,学术界越来越重视对人类情绪的研究。因此,关于情感在政治中的作用的学术研究也日益增加。情绪和公众舆论的研究是一个年轻但发展迅速的领域。最近的一些研究,虽然主要集中在直接影响上,但通过展示特定情绪对风险感知、因果归因和政策偏好的独特影响,推动了研究的深入。之前的研究证实情绪通过解释意见形成和政治选择过程中的个体和情境异质性,有助于调和相互矛盾的理论解释。同时,情感作为一种动机冲动,为学者们提供了一种方法,使公众意见和政治行动之间难以捉摸的联系通过对情绪及其功能的使我们认知,从而能够更好地理解媒体和政治环境中此前被忽视的部分[4]。

2 网络舆情语义情感分析的过程构建

2.1 语义识别技术分析及过程框架构建

网络舆情信息语义识别的关键技术包括采集技术、预处理技术、主题识别技术等。目前,用于网络舆情信息获取的技术主要是根据一定规则自动捕获网络信息的程序或脚本。目前,关于挖掘的研究主要集中在挖掘技术、挖掘算法、挖掘语言等方面。在海量的原始数据中,存在着大量杂乱、重复、不完整的数据。它严重影响了数据挖掘算法的效率,并可能导致挖掘结果的偏差。因此,在深度识别之前需要对信息进行预处理。主题识别是文本预处理后的一个步骤。网络舆情话题识别的工作多采用聚类分析算法。最后一步是结果的反馈。通过对情感强度的分析,及时识别轰动的热点话题,及时发出舆情预警,总结出针对不同情况的舆情引导策略,提供给用户参考选择。

2.2 传统的情感识别分析方法

传统的情感识别分析方法大致可分为两大类:一是基于词汇的方法;二是机器学习方法。基于词汇的方法是利用预先定义的词汇列表,根据不同的情绪进行分类分析。这些词典通常是手工编译的,继而用关键字加以匹配。例如:由加拿大国家研究委员会(简称NRC)的专家创建的情绪和情感词典,以及另一个常用于情感智能分析应用的英语字典WordNet,由情感概念代表的情感状态的单词通过同义词集标记单词情感分类标签。这类词典除了受到语言限制以外,是在大众外包的帮助下逐渐建立起来的,而不是由心理学研究领域的专家参与完成。虽然该词典具有广泛的应用价值,但将其直接应用与网络舆情分析中,仍然具有一定的局限性。此外,“情感语汇”(DepecheMood)也是另一个基于词汇的方法对情感进行识别的尝试,他们同样以众包的方式注释单词。以上这些基于词典的方法通常以其直接应用的功能而闻名。然而,手工标记是容易出错的,具有时效性低和不灵活的特点,而且具有地域性和语言的限制。其中衍生出来的启发式词汇被限制在一个狭隘的先验环境里,因此,这一过程在推广到其他情绪研究的应用中具有一定的困难。利用机器学习灵活性的方法对语义中的情绪进行分析,常见的方法是依赖于一般的语言特性,上下文语义关系等。传统机器学习平衡了有效的舆情信息收集结果与情感学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。为在自然语言处理、语音识别、图像识别、信息检索等技术在舆情分析领域的应用打下了基础。

3 人工智能对网络舆情内容中语义情感分析

3.1 自然语言领域模型和算法的发展对网络舆情分析的影响

自然语言研究是一门由计算机科学、人工智能和语言学三科融合的新兴领域,它的长远发展对每个学科都具有重大的意义和影响力。其发展趋势是从人工构建知识到自动构建。在舆情研究领域,有许多递归神经网络(RNN)方法被引入到情感识别任务中。由于缺乏情绪标签数据集,许多研究学者通过对情绪分类算法研究,对社交平台(如Twitter)收集的数据进行了分类,使用标签或表情符号作为数据的情绪标签。RNN 除了有用之外,也有一定的局限性,包括:RNN 体系结构示例只能够捕获语言的一个方向上的依赖关系,同时RNN 也不能很好地捕捉长期依赖关系,从而导致梯度消失的问题。为了解决这些问题,相关学者利用GRU 网络模型进行精细情感识别的研究。

为了避免梯度消失的问题,相关学者还应用一种特殊的RNN 即LSTM(Long-Short Term Memory)模型对网络舆情进行研究分析,例如Felbo(2017)利用长短时记忆模型(LSTM),根据推文中出现的表情符号进行预先训练。在语义情感分析方面,Gupta(2017)等学者利用定制的LSTM 架构来为社交媒体中的完整对话分配情感标签[5]。然而,这种方法是针对这类谈话式数据的特定特征和情感量身定做的,具有一定的局限性,其实验的结论不能推广到情绪识别。前向的LSTM 与后向的LSTM 结合成Bi-LSTM,Bi-LSTM 的优势在于可以考虑到词与词顺序上的关系而被广泛应用NLP 中,BiLSTM 也被用来识别跨语文本中的情绪,它利用跨语言特征和词汇级特征来分析多语言形式的文本。为了结合上下文相关的单词,基于注意力的BiLSTM 模型被引入相关研究,这有助于决定每个单词在情绪识别任务中的重要性。Bi-LSTM+Attention 就是在Bi-LSTM 的模型上加入Attention 层,Illendula(2019)等学者使用文本、表情符号和图像这三种模式来编码不同的信息来表达情感[6]。最近,谷歌开发了同样的注意力模型“Transformer”,彻底放弃了循环和卷积。实验表明,使用Transformer的模型的质量更优,同时所需训练时间也大大减少。

3.2 网络舆情语义情感识别研究中深度学习的方法

基于深度学习的方法多采用分布式单词向量,常用的方法有Word2Vec、GloVe、FastText。Word2vec 可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为网络舆情语义情感分析研究中自然语言处理的应用研究提供了新的工具。GloVeGloVe 相对于Word2Vec 是一个改进,因为它在Word2Vec 中训练全局共现计数,而不是单独的本地上下文窗口。fastText 是用线性分类器进行文本分类,线性结构相比于非线性结构的优势在于结构简单,训练地更快。Word2Vec 和Glove 将单词视为最小的原子单位。FastText 比其他两个模型更强大,因为它可以有效地处理字典中不存在的罕见单词。

另外,不少专家对情景化词嵌入展开了研究,即来自语言模型的嵌入模型(ELMo)、来自Transformer 的双向编码器表示(BERT)以及生成预训练模型(GPT),来整合上下文信息,解决传统词嵌入中的一词多义问题。EMLO 是一个 RNN-based的模型,只需要有大量句子就可以训练。BERT 是Transformer 中的 Encoder,由许多个 Encoder堆叠而成,在 BERT 里面,文本是不需要标签的,只有收集到一堆句子就可以训练了。GPT 则是Transformer 的 Decoder,在GPT 输入一些词汇,可以预测接下来的相关词汇。还有学者研究的情感丰富的词嵌入是在作品评论上学习的,语料库要小得多。

4 结语

基于以上相关研究证实,深度学习方法在情感识别任务中的表现优于机器学习方法。在网络舆情语义情感的研究中,基于之前的相关研究,可以为结合人工智能展开研究梳理出一个路线,即:在BiLSTM 模型和CNN 模型的看框架基础上建立新的模型,有效信息采集过程中可以结合使用嵌入Word2Vec、GloVe 和FastText 三个模型来捕捉词与情感词嵌入之间的语义关系,提取情感特征,与此同时借助Transformer 模型算法的优势对情景化词嵌入进行深度分析,得到相关应用领域有效的网络舆情语义情感数据和信息,最后对新的模型和其他相关模型进行比较,继而进行评估和完善。

猜你喜欢
舆情语义单词
语言与语义
单词连一连
看图填单词
看完这些单词的翻译,整个人都不好了
舆情
舆情
“上”与“下”语义的不对称性及其认知阐释
舆情
认知范畴模糊与语义模糊
微博的舆情控制与言论自由