小说《三体》中,“三体人”不会撒谎、彼此思维和情绪完全透明的情节你也许并不陌生。随着人工智能(AI)情绪识别技术的发展,机器已经能识别人类情绪的变化。情绪识别正被越来越广泛地应用于机器智能中,也许有一天,人类会被AI彻底看穿。
日前,中国台湾联合大学研究人员发表论文,提出用特定连续动作间骨骼点速度的变化程度,来区分人类微妙情绪变化的新方法。该方法与时空图卷积网络(ST-GCN)相比,“可有效地将识别精度提高50%以上”。
别动,动就被看穿
“通过面部特征、语义与脑波分析来识别人类情绪的研究已经比较多了,AI也能有效地识别出人类的情绪。我们试图提出一种新的情绪识别方式,可以让人们在不同场景下有更多选择,未来也可以通过多手段融合,更准确地进行情绪识别。”论文第一作者、台湾联合大学助理教授蔡明峰在邮件中写道,“基于Pose Net深度学习神经网络,我们提出时空变化图卷积网络(STV-GCN)技术,在进行情绪识别时,获得人体骨架关键点信息不受衣物、皮肤或肌肉等因素的影响。”
在人工智能情绪识别领域,基于面部、语义或脑电波识别技术需要大量的训练样本,通过ST-GCN的连续运动来训练和识别人类行为模式。但是,该技术难以区分微妙的情绪变化。STV-GCN识别训练方法采用骨骼检测技术,计算连续动作之间的骨骼点变化程度,并使用特定算法对速度水平进行分类,以区分快速和细微的动作。该系统对相同动作不同速度的识别精度达到88.89%,情绪状态的识别精度达到83.34%。在速度分类阶段和情绪状态分类阶段,STV-GCN的準确率比ST-GCN提高50%以上。
蔡明峰认为,在开放区域(如城市广场或交通系统)中,通过骨骼点变化进行情感识别,可以避免潜在的危险发生。系统可以主动识别具有特殊情绪状况(例如愤怒或悲伤)的人,并主动通知该区域的安全管理人员进行处理。由此可以在一定程度上避免暴力冲突或恶性伤害事件发生。
AI“懂你”九分
“并非只有面部才有微表情,身体姿态也有。”中国科学院自动化研究所研究员、模式识别国家重点实验室副主任陶建华说,“通过面部区域还是通过身体姿态来识别情绪其实各有优缺点,各有不同的适应场景,很难说谁比谁强。”
很多时候,人们的表情和动作带有比语言更丰富的信息。在AI情绪识别领域,多数识别方法在分析面部表情的背景下进行,现实生活中,人们有时会通过语言和表情来掩饰自己的情绪,而肢体语言很难操纵,相关的微表情很难掩饰,往往能传达出更细致、更真实的情感状态。
陶建华介绍说,目前主要有两种AI情感识别方式。一是接触式,即利用人的生理特征(包括脑电、皮肤电、心率心跳)等的信号变化,以生理参数来分析人的情绪变化。人类情感变化时,会伴随着出现一些生理特征的变化,这些生理特征的细微变化可以反映出情绪波动,比如测谎就是利用这样的原理。二是非接触式,包括利用音频和视频信息,如利用声音的特点进行分析,或者依靠视频信息中,表情、头部姿态、身体姿势的变化来进行识别。非接触式有基于音频的,有基于视频的,也有将音视频方式结合起来进行的。情绪识别通常都采取模式识别,或模式分类的方法进行。“无论是传统的统计模型,还是现在基于神经网络、深度神经网络的一些方法,都能取得比较好的结果”。
“机器不但能识别出人的情绪,还相当准确。总体来说,现在的准确率超过80%,在一些特定的场景中,甚至能达到90%以上。”陶建华说,“情感识别是一种信息通道,准确的识别能增强机器对人的理解能力,如果结合语义、周围环境等信息,机器可以综合判断人的心理状况和真实的意图,从而改善人机交互能力,增强人机交互的友好性。”
让AI成为有趣的灵魂
“能够识别出人类的情感和机器自己具备情感是两个概念。”陶建华说,“情感的产生涉及一系列复杂的心里过程,包括社会文化、周围环境情况、心理状态等多因素综合作用的结果。尽管人们对AI情感表现方面有些研究,但目前从全球范围内来说,机器产生的情感都比较初级的,离像人类一样还有不小的距离。”
陶建华介绍说,机器与人、机器与机器之间的交流和人们的理想尚有距离。在情感识别过程中,如何在一个数据集中做好一个模型,能够在更大范围使用也需要进一步去探索,“有些方面进一步需要去提高,但这些都不是难以克服的问题”。
AI更善解人意,就可以应用到更多的场景。比如,在全球疫情常态化的背景下,线上学习逐渐成为一种重要的学习方式。当学生面对屏幕时,他是否在认真听讲、是否听懂了?他的困惑、紧张或者觉得乏味时,都会有相应的情绪和表现,如果通过AI技术,识别出屏幕前学生的情绪并判断出学习状态,就可以更好地控制难度和进度。
目前,已经有不少AI情绪识别研究机构在远程医疗、远程教育、养老看护、打击犯罪、营销、游戏,定向广告投放等领域进行探索。据一家市场研究公司预测,2021年全球情感计算市场将达到540亿美元。
很多场景亟须更“懂你”的AI出现。我们期待更聪明的AI成为得力的助手、有趣的灵魂。