基于CiteSapce的国内网民情感识别可视化研究

2021-04-05 13:47王艺霖赵文浦吴春颖
现代信息科技 2021年17期
关键词:语音文献领域

王艺霖 赵文浦 吴春颖

摘  要:近年来,国内情感识别领域研究发展迅速,但仍缺乏对已有进展的整理统计。为找出该领域内研究不足和未来发展趋势,文章基于中国知网(CNKI)中的国内情感识别相关文献进行样本检索,通过文献计量法对样本进行多维度分析;利用可视化工具(CiteSpace)探究样本关键词及发展阶段。结果表明其研究热点主要围绕语音情感识别、支持向量机、深度学习等;历经了起步探索、发展强化至深化研究三个阶段;未来情感识别领域的研究趋势将集中于语音情感识别等方向。

关键词:情感识别;网络舆情;文献计量学;CiteSpace

中图分类号:TP18;G353.1 文献标识码:A  文章编号:2096-4706(2021)17-0001-06

Abstract: In recent years, the research in the field of emotion recognition in China has developed rapidly, but there is still a lack of sorting and statistics of the existing progress. In order to find out the lack of research and future development trend in this field, based on the domestic emotion recognition related literatures in China National Knowledge Internet (CNKI), this paper carries out sample retrieval, multi-dimensional analysis of the samples through bibliometrics, and uses visualization tools (CiteSpace) to explore the sample keywords and development stages. The results show that it's research hotspots mainly focus on speech emotion recognition, support vector machine and deep learning; it has gone through three stages: initial exploration, development and strengthening to in-depth research; the research trend in the field of emotion recognition will focus on speech emotion recognition in the future.

Keywords: emotion recognition; internet public opinion; bibliometrics; CiteSpace

0  引  言

情感识别与交互是基于人工智能的方法和技術赋予机器或计算机以人类式的情感,使之具有识别、表达和理解情绪的能力,具有模仿、延伸和扩展人类情感的能力,从而建立和谐的人机环境,并使机器人智能化[1]。根据情感信息来源的不同,情感识别可分为语音情感识别、表情识别、身体姿势和生理信号等情感信息的识别[2]。近年,情感识别逐渐成为人工智能研究的重要领域,广泛应用在社会安全治理,网络舆论分析,医疗,教育等众多方面。

随着科学技术手段的不断发展,人们要求计算机、机器人能够辅助或替代人类分析海量数据,适应越来越复杂且广泛的工作。算法程序让计算机具有情感识别,表达,理解能力,从而能在愈多的方面替代、补偿和加强人的感知功能、思维功能和行为功能。Pang等最早将机器学习算法应用至文本情感分类任务中,利用不同的机器学习模型对影片评论进行情感分析[3]。1989年,LeCun通过反向传播和神经网络识别手写数字,是CNN的第一个实现网络[4]。2012年,Alex等人通过训练深度卷积网络,将120万张高分辨率的图片分为1 000个类别,在ImageNet LSVRC-2012 contest上,获得了惊人的准确度(top-5:15.3%)[5]。自2006年,深度学习在算法,应用等领域都获得引人注目的成就,成为人工智能时代不可或缺的强大支柱。2016年《地平线报告(高等教育版)》提出,之后的四至五年里,情感计算或将被大量运用于各个方面[6]。2020年,全球新冠爆发,徐永顺对核心疫区不同人群在疫情的各个拐点期的情绪进行识别并进行深度全面的需要分析,为政府部门解决实际民生问题提供了决策支撑[7]。

文献计量学是在科学计量学与数据可视化背景下逐步发展起来的一种可视化分析方法,其以知识图谱的形式对固定领域研究现状和发展态势有很好的分析及预测作用[8]。如今,文献计量法广泛运用于生物生态环境研究、城市风险预测和人工智能等多个领域。本文利用中国知网数据库(CNKI)作为文献数据检索来源,通过CiteSpace软件,对既往情感识别文献进行梳理整合,结合图谱辨析该领域的研究热点与演化路径,探究该领域国内未来可能的发展趋势。

1  文献来源及研究方法

1.1  数据来源

中国知网(CNKI)数据库拥有稳定广泛的数据来源,专业的信息资料通道,并且保持实时更新期刊、报纸、行业动态,具有权威性、规范性、前沿性等特点。本文以CNKI数据库为基础,在“高级检索”的检索方式下,以“主题”为检索项,“情感”+“识别”为检索词,全年份进行搜索,选择中文文库,经过人工筛选,剔除关联度较低的新闻报道、书评、导语序言及其他不符合本研究的文献后,最终得到并导出情感分析领域有效文献数据3 911篇。

1.2  研究方法及工具

文献计量学软件CiteSpace是由陈超美教授于2004年开发的一款科学知识图谱可视化软件。其作为近年来热门的文献可视化工具,通过绘制、生成、解读知识图谱来展示信息群间的网络、互动与衍生,实现对知识的梳理与整合。本文通过CNKI数据库检索得到文献数据并进行格式转换,以ReWorks数据格式导出;随后,运用CiteSpace对情感识别领域相关研究作者及机构的合作网络进行共现分析,从而展现该领域的基本现状;最终,通过高频关键词探究自该领域被提出以来其研究热点,通过时区热词探究情感识别学科演化路径及发展动态。

2  情感识别研究知识图谱梳理

2.1  发表年份和发表数量

本文基于CNKI数据库中现有的国内情感识别领域相关文献,对其发表年份与对应数量进行统计,如图1所示。

由图1可知1992年到2005年情感识别领域发表文献数量较少,表明该领域还处于起步发展阶段。2006年学科领域发文量出现了一个小高峰,由于该年1月,蒋丹宁等人运用统计特征和时序特征的情感识别算法对语音进行分类,引起学界广泛关注,将语音情感识别领域的研究推向高潮[9]。2019年至今,我國在该研究领域的文献数量呈现爆发式增长态势。“特征提取”“神经网络”“遗传算法”“机器学习”“深度学习”等新技术新算法的提出为情感识别体系构造开拓了研究范围,从而情感识别与人工智能不断融合,互相推进。从整体上看,学界对情感识别领域的研究从未停歇,直至今日仍然为共同关注的焦点。

2.2  研究作者及合作网络分析

通过对中文核心期刊发文作者的共现研究,可以明确该领域核心作者的合作情况[10]。对CNKI数据库中全部国内情感识别领域的研究作者进行统计分析,运用CiteSpace软件,参数选取(Selection Criteria)为Top50 per slice,时间跨度截取1996—2020年,时间切片为一年(Slice Length=1),得到情感识别领域主要研究作者及其合作网络图,如图2所示。

图2中每个节点代表一位作者,节点的大小与作者发文量及影响力呈正相关;节点不同颜色的线圈代表发文时间,随着图表上的时间轴色阶图而变化,每个节点内侧颜色代表该作者早期的发文时间,外侧颜色代表目前最新的发文时间;各节点之间的连线代表作者间的合作关系,线条越粗则合作联系程度越强。由图2可得,赵力(55篇)、张雪英(33篇)、刘光远(29篇)、孙颖(28篇)等为主要高产发文作者,在该学科领域中研究成果颇丰;孙颖、张雪英、张卫近年来合作共著与学术交流较密切,皆来自太原理工大学,形成稳固的合作关系群落。另有以赵力为核心的多位学者间存在密切联系,且大多为跨机构、跨院校合作,影响力较大。同时存在部分学者独立发文,如王志良、毛峡等。从整体上看情感识别学科领域内呈整体分散、部分集中的特点。学者间跨机构合作研究力度不深,同一合作群落中的学者多为同一科研院所。

2.3  代表性研究机构分析

分析文献的研究机构可以反应出该机构在该领域里的影响及地位,同时也能展示出不同机构之间的合作关系[11]。本文对情感识别领域样本数据的研究机构进行统计分析,并运用CiteSpace软件生成研究机构合作共现图,清晰展示出国内情感识别领域主要研究力量分布与联系。主要研究机构合作网络共现如图3所示。

图3中每一个节点代表一个研究机构,其表示含义与图2相近。如图3所示,从研究机构发文量看,合肥工业大学计算机与信息学院(71篇)、上海交通大学计算机科学与工程系(37篇)、东南大学信息科学工程学院(33篇)等高校或研究机构节点较大,发文量排名靠前,表明近年来这些高校或研究机构在情感识别领域有较为深入的探索;从研究机构类别来看,大多科研成果集中在高校,高校是研究领域的核心力量与研究阵地。同时,高校中的研究集中于计算机与信息工程学院,这也与情感识别领域研究特色与专业方向有关;从发文机构间合作群落来看,东南大学与复旦大学,南京工程学院、江南大学与武汉商学院,江苏第二师范学院分别形成机构间合作网络,皆为跨机构合作。其中仅有桂林电子科技大学与桂林海威科技股份有限公司存在校企间合作研究群落,表明当前该领域的研究大多汇集于高校内部,缺乏多校融合交流、校企合作共赢。总体来看,该领域研究,还主要聚焦在高校,缺乏产业支撑,需要在产业端发掘科研潜力。

2.4  发文期刊分布

对发文刊物分布进行分析可反映出该领域文献的主要分布脉络以及期刊对文献的认可度对CNKI上所有的国内情感识别领域刊载量最多的期刊进行统计,得到情感识别领域刊载量前十期刊统计表1[12]。

由表1所示,刊载量在20篇以上的期刊有8个,占期刊文献总量的20.07%。排名前三的期刊分别是《计算机工程与应用》《计算机科学》《计算机应用研究》,其发文量为53、44、37篇。《南京机械高等专科学校学报》是最早收录情感识别文献的期刊(2000年)其侧重于分析语音信号的韵律特征,运用主分量分析、GMM、神经网络进行分类识别,是情感识别在语音情感识别的启蒙文献。《计算机工程与应用》在2017年和2019年均收录了6篇情感识别领域的文献,主要探讨“深度学习”“脑电信号”与情感识别的有机融合。

2.5  高被引文献分析

对高被引文献进行分析能有效了解该学科领域的基础知识。对情感识别领域样本数据中被引频次排名前十的文献进行统计,如表2所示。其中8篇文献皆为语音信号与情感识别相关的研究。这些高被引文献的研究方向主要分布在三个方向:一是通过统计分类识别在影视、买卖市场、微博下的网络评论分析,方便人们在无须阅读评论的条件下,即可作出决策,如郝媛媛以体验型商品——电影为研究对象,深度考察正、负面情感对评论实用性影响的差异,并挖掘其他影响评论有效性的重要文本特征因素,建立高拟合度的评论有效性影响因素模型,有助于消费者更精确、及时地识评论有效性,提高决策效率和效果;二是归纳前人的研究成果,即对语音情感识别、情感分析的研究现状和进展进行归纳总结,展望未来领域内技术发展趋势,如韩文静综合总结情感描述模型、具有代表性的情感语音库、语音情感特征提取、识别算法和识别技术应用,对语音情感识别研究的主流方法及前沿进展进行总括、对照和分析[13];三是识别汉语中句主题和文章主题与情感描述项之间的联系以及计算主题的语义倾向,如姚天昉操纵领域本体来抽取语句主题及它的属性,在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定文句中每个主题的极性[14]。

3  情感识别研究知识图谱可视化

3.1  关键词突发性监测图

为更清晰展示出国内公共危机事件研究领域发展进程,利用CiteSpace中burstness功能进行关键词突发性监测。突变词指在短时间内出现较多或使用频次较高的词,依据突现词的词频变化可以判断研究领域的前沿趋势,同时可以展示该新兴热点在学科领域中受关注度与可挖掘性[15,16]。对情感识别领域突发词频排列前十的关键词进行整理,得到情感识别领域突现主题及对应的凸显率和被引历史曲线,如图4所示。

图4  情感识别领域关键词突发性监测图(跨年度:1年)

由图4可知,突显强度最大的是“深度学习”(41.31),其次是“情感计算”(21.73),随后是“情感识别”(20.74)。其中“脑电信号”“情感识别”一直都是该领域热词,“情感计算”自2003年起爆发性增长。同时“深度学习”“卷积神经网络”集中出现的年份在2018年。越来越多的学者将深度学习运用在情感识别、情感分析、情感计算领域。如刘鸿宇就评价对象抽取和倾向性判断进行深入研究,结合基于网络挖掘的PMI算法和名词剪枝算法对候选评价对象进行筛选,并使用无指导的方法完成评价对象在情感句中的倾向性判断,提高了信息处理精度[17]。总体来看,未来情感识别领域将向深度学习、卷积神经网络等方向进行下一步探索。

3.2  关键词共现网络可视化分析

基于CiteSpace可视化软件,以文献的关键词为节点,时间切片设置一年,阈值选择“Top N per slice”,并设定为任意时间片段内筛选排名前50的高频节点数据。结合图谱修剪及人工调整等处理手段,对情感识别领域核心文献进行关键词共现网络分析,如图5所示。图中每个节点代表一个高频关键词,节点内不同颜色的线圈代表其出现年份,外圈呈紫色说明该关键词出现的年份较早且仍为当前研究热点;节点间的连接则表示两个关键词在同一篇文章中共同出现,连接越粗则表示共现频次越高[18]。

由图5可知,情感识别、情感分析、情感计算、语音情感识别所在位置的节点较多,发文量最多,且其首次出现的年份较早(由表1可知),它们的出现伴随着各种分类、聚类算法的加速发展衍生。在二十一世纪初,关于情感识别主题的研究集中于情感识别基本计算理论和情感识别系统模型的建造;2004年,吴丹等人建立了一个大型人脸表情视频数据库并制定了一套人脸表情视频数据库技术规范,得到情感识别领域学者的关注[19];随后,自2005年起,人脸表情情感识别的研究进入高峰,相关论文数量飙升,人机交互领域与情感识别领域逐渐交叉融合,并在接下来的10年内,相关主题得到发展、完善。图中语音情感识别、支持向量机、脑电信号等主题对应的节点也相对较大,一直以来为情感识别领域的研究热点。2019年情感识别领域的发文量是历年最高的,其主要涉及的主题包括深度学习、主题模型、自然语言处理。目前,情感识别领域的覆盖面逐年增广,其主要涉及的主题包括机器人、科技教育、医疗、舆情预测、决策判断等,情感识别领域从以往的体系建设逐步发展到关系民生,社会稳定发展的重要辅助力量,这些事关民生福祉的主题工程很可能是该领域未来的研究趋势。

3.3  时间分区与演化路径

为更清晰地梳理该领域研究主题的演化轨迹,运用CiteSpace可视化软件中的Timeline View功能,以情感识别研究文献的转折时间节点和峰值时间节点为限,分3阶段进行整理归纳,如图6所示。

下文具体对各阶段进行阐述:

(1)起步探索阶段(1992年—2005年)。由图1和图6可知,这时期属于情感识别研究领域的探索阶段,研究成果数量相对较少,仅占总体的1.57%。研究主题主要集中于“情感识别”“卷积神经网络”“情感计算”“脑电信号”等方面。情感识别、人机交互、脑电信号、卷积神经网络这些词汇首次出现的年份较早(2000年之前),其词频数总和占比为48.06%,反映出情感识别领域在基础研究领域日趋完善。2004年起人脸表情视频数据库开始进入学者视野,受到情感识别体系学者广泛关注。随后,自2005年起,人脸表情情感识别的研究进入高峰阶段。此阶段人脸表情识别作为一个生物特征识别与情感计算领域中极富挑战性的交叉课题,鲁棒的自动人脸表情识别系统正在逐步建成[20]。同时,2005年,一家英国公司开发出一套软件可以识别文章褒贬,但该软件仍然不能判断讽刺和花言巧语此时主题识别首次传入中国,为之后主题模型的研究奠定了基础[21]。

(2)发展强化阶段(2006年—2018年)。由图1和图6可知,2006年—2018年时间段内国内情感识别研究领域不断发展壮大,此阶段内的中文文献发文量逐年递增,占总体的74.03%。同时,研究主题也逐步开始横向发展:语音情感识别、人工智能、意见挖掘、观点挖掘、情感分析、特征选择、特征提取、支持向量机等主题开始活跃起来。意见挖掘即对文本中隐含的情绪进行研判,主要采用基于機器学习、词典的方法等;情感分析领域的研究主要集中在对主观内容的识别、褒贬情感分析以及在线评论的经济价值挖掘等几大方面,大部分研究借鉴文本挖掘、信息检索、机器学习、自然语言处理、统计学等方面的技术和方法[22]。人工智能方面主要采用深度学习、大数据等手段。研究人机交互过程中机器识别情绪态度的途径,达到交流和互动的最佳效果[23]。自2010年后,文本意见挖掘,评论分析,语音情感识别的研究较为丰富。目前,世界上已有较多的语音特征提取方法,但研究者尚未针对特征提取方法对语音情感识别的有效性研究定论。整体上可将语音特征归为3个类别:韵律特征、谱特征、其他特征[24]。语音情感识别的兴起让学者将这一技术运用到文化遗产保护上,例如2017年李虹等人为了研究世界记忆遗产——东巴经典古籍的音频分类[25]。以基于语音情感特征提取的方法鉴别分类东巴音频,并实现对东巴经典语音的情感状态识别,并同时提高人机交互性能,提出采用Mel频率倒谱系数(MFCC)实现对语音情感特征的提取。

(3)深化研究阶段(2018年至今)。此阶段内情感识别领域的研究呈现平稳上升的趋势,约占总体的34.74%。由图6中年份栏可知:近年来并未出现新的热点研究主题,可能由于当前前沿理论研究仍处于萌芽阶段,范围较小,没有形成大规模的研究。随着“深度学习”和“大数据”的手段不断推进,该时期学界的研究主题转向社交媒体的舆论等,更加重视情感识别建设的社会稳定价值;2020年新型冠状病毒疫情蔓延全球,届时国内情感识别领域的热点集中于公共安全领域以及分析重大事件对网民情绪的影响有重大贡献。刘忠宝、秦权在情感词典的基础上,引用双向长短期记忆网络建立网民情绪模型,利用自注意力机制和Bi-LSTM模型对疫情事件与网民情绪进行关联分析[26]。多种机器学习预测模型的在线生态识别(OER)法和词典法等分析方法在此阶段得到很好的运用[27,28];同时在突发公共卫生事件、谣言传播、舆情分析等方向不断深化探讨,优化突发重大事件从被动处理到主动预防方向的转变,通过关联分析网民情绪与疫情发展,对构建科学性、先发性、战略性的重大事件防控体系有导向作用。

4  结  论

本文运用CiteSpace软件,对中国知网(CNKI)数据库中1996—2020年情感识别领域的中文文献生成的图谱及相关数据进行了不同层次的分析和可视化研究,研究得出以下结论:

(1)1992年—2020年国内情感识别领域研究呈现逐步增长的态势。对核心研究作者及机构合作网络分布研究可知,赵力为该领域发文量最多的作者,在语音情感识别、语音信号的建设方面有较为深入的研究。太原理工大学、西南大学、东南大学、合肥工业大学以及北京航空航天大学为情感识别研究领域较为活跃的研究院校,且东南大学与复旦大学之前存在合作关系;《计算机工程与应用》《计算机科学》与《计算机应用研究》等期刊在该领域的发文量最多,是学者认可度较高的期刊。

(2)通过对情感识别领域文献的梳理与图谱的分析,该领域未来可能呈现以下发展趋势:高校与企业间的合作力度将不断加深;通过情感识别对各个领域进行情感干预;识别精度不断提高;多学科融合助力发展情感识别领域。

参考文献:

[1] 张颖,罗森林.情感建模与情感识别 [J].计算机工程与应用,2003(33):98-102.

[2] 刘振焘,徐建平,吴敏,等.语音情感特征提取及其降维方法综述 [J].计算机学报,2018,41(12):2833-2851.

[3] MAURITIUS A R. Data classification using machine learning techniques:US8239335 [P].2012-08-07.

[4] LECUN Y,BOSER B,DENKER J S,et al. Backpropagation Applied to Handwritten Zip Code Recognition [J].Neural Computation,1989,1(4):541-551.

[5] WANG Y C,LI M T,PAN Z C,et al. Pulsar candidate classification with deep convolutional neural networks [J].Research in Astronomy and Astrophysics,2019,19(9):119-128.

[6] 金慧,刘迪,高玲慧,等.新媒体联盟《地平线报告》(2016高等教育版)解读与启示 [J].远程教育杂志,2016,35(2):3-10.

[7] 徐永顺,周宇,刘渊,等.重大突发公共卫生事件中的居民情感需求挖掘 [J].图书馆论坛,2021,41(9):76-86.

[8] 赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析 [J].中国图书馆学报,2010,36(5):60-68.

[9] 蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别 [J].清华大学学报(自然科学版),2006(1):86-89.

[10] 阳富强,林子燚,邱东阳.基于CiteSpace的国内城市公共安全可视化研究分析 [J].福州大学学报(自然科学版),2021,49(1):121-127.

[11] 韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述 [J].软件学报,2014,25(1):37-50.

[12] 郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究 [J].管理科学学报,2010,13(8):78-88+96.

[13] 韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述 [J].软件学报,2014,25(1):37-50.

[14] 姚天昉,婁德成.汉语语句主题语义倾向分析方法的研究 [J].中文信息学报,2007(5):73-79.

[15] 浦墨,郑彦宁,赵筱媛,等.基于词共现关系强度和关键词词频的叙词选词方法探究 [J].图书情报工作,2013,57(15):121-125+49.

[16] 王娟,陈世超,王林丽,等.基于CiteSpace的教育大数据研究热点与趋势分析 [J].现代教育技术,2016,26(2):5-13.

[17] 刘鸿宇,赵妍妍,秦兵,等.评价对象抽取及其倾向性分析 [J].中文信息学报,2010,24(1):84-88+122.

[18] 王义保,杨婷惠.城市安全研究知识图谱的可视化分析 [J].城市发展研究,2019,26(3):116-124.

[19] 吴丹,林学訚.人脸表情视频数据库的设计与实现 [J].计算机工程与应用,2004(5):177-180.

[20] 張家树,陈辉,李德芳,等.人脸表情自动识别技术研究进展 [J].西南交通大学学报,2005(3):285-292.

[21] 神奇软件能识别文章褒贬 [J].中国新技术新产品精选,2005(3):65.

[22] 张紫琼,叶强,李一军.互联网商品评论情感分析研究综述 [J].管理科学学报,2010,13(6):84-96.

[23] 丁汉青,刘念.情绪识别研究的学术场域——基于CiteSpace的科学知识图谱分析 [J].新闻大学,2017(2):119-132+152.

[24] 郭鹏娟.语音情感特征提取方法和情感识别研究 [D].西安:西北工业大学,2007.

[25] 李虹,徐小力,吴国新,等.基于MFCC的语音情感特征提取研究 [J].电子测量与仪器学报,2017,31(3):448-453.

[26] 刘忠宝,秦权,赵文娟.微博环境下新冠肺炎疫情事件对网民情绪的影响分析 [J].情报杂志,2021,40(2):138-145.

[27] LI S J,WANG Y L,XUE J,et al. The Impact of COVID-19 Epidemic Declaration on Psychological Consequences:A Study on Active Weibo Users [J].International journal of environmental research and public health,2020,17(6):1-9.

[28] LIU Z Y,GENG H J,CHEN H,et al. Exploring the Mechanisms of Influence on COVID-19 Preventive Behaviors in China's Social Media Users [J].INTERNATIONAL JOURNAL OF ENVIRONMENTAL RESEARCH AND PUBLIC HEALTH,2020,17(23):14.

作者简介:王艺霖(2001—),女,汉族,四川成都人,本科在读,研究方向:数据警务技术;赵文浦(2001—),男,汉族,山西怀仁人,本科在读,研究方向:数据警务技术;通讯作者:吴春颖(1977—),女,汉族,河北固安人,副教授,硕士,研究方向:大数据分析与大数据安全。

猜你喜欢
语音文献领域
电子战领域的争锋
Hostile takeovers in China and Japan
微信语音恐惧症
2020 IT领域大事记
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
领域·对峙
魔力语音
Magic Phonetics魔力语音
对方正在输入……
2018年热门领域趋势展望