共情对话研究进展

2024-02-18 14:16何俊饶方喜周志豪徐秋
计算机应用研究 2024年1期

何俊 饶方喜 周志豪 徐秋

摘 要:人工智能驱动的对话是当前研究热点,有着广泛的应用前景。但目前这类对话系统普遍缺乏情感交互能力,限制了其在心理关爱、抑郁症等精神障碍疾病方面的应用。如何让对话系统充分理解用户情绪并生成带有共情的回复是目前对话系统面临的主要挑战之一。首先介绍了共情对话研究中情感感知和共情对话生成两大挑战,并分别调研归纳了相关研究方法。情感感知任务大致可分为基于规则、基于机器学习和基于深度学习三类方法,共情对话生成大致可分为基于检索和基于动态生成两类方法。接着介绍了共情对话的最新发展动向,并总结了共情对话数据集、通用对话数据集和多模态数据集的特点和链接,归纳了当前共情对话研究中不同的评估方法便于后续研究。最后对共情对话的研究工作进行了总结和展望。

关键词:共情对话; 情感感知; 对话生成

中图分类号:TP391.1   文献标志码:A   文章编号:1001-3695(2024)01-001-0001-09

doi:10.19734/j.issn.1001-3695.2023.05.0206

Research progress of empathetic dialogue system

Abstract:Artificial intelligence-driven dialogue is a current research hotspot with a wide range of promising applications. However, such dialogue systems currently generally lack emotional interaction capabilities, limiting their application in psychological care, depression and other mental disorders. How to make dialogue systems fully understand users emotions and generate responses with empathy is one of the main challenges facing dialogue systems today. This paper first introduced two major challenges in empathic dialogue research: emotion perception and empathic dialogue generation, and summarised the relevant research methods in separate studies. Emotion perception tasks could be broadly classified into rule-based, machine-learning and deep-learning approaches, while empathic dialogue generation could be broadly classified into retrieval-based and dynamic generation-based approaches. Then this paper introduced the latest developments in empathic dialogue, and summarised the features and links of empathic dialogue datasets, generic dialogue datasets and multimodal datasets, and summarised different evaluation methods in current empathic dialogue research to facilitate subsequent research. Finally, this paper presented a summary and outlook of the research work on empathic dialogue.

Key words:empathetic dialogue; emotional perception; dialogue generation

0 引言

随着人工智能驱动的移动社交网络的发展,智能对话系统已经进入人们的日常生活,人们也已经习惯与机器进行交流[1]。人工智能的发展促进了对话系统语音识别和语义理解的准确性,极大地提高了人机对话的体验,不只在日常生活,还涉及商业、业务支持、教育和医疗保健等多个应用领域[2]。早期的对话系统起源于20世纪60年代,对话系统被设计为执行特定任务,如机票预订[3]、医疗保健[4]、政治辩论[5],因此被称为任务特定对话系统,或者被设计为与用户进行闲聊,被称为聊天机器人[6],故对话系统也被分为任务型对话系统和非任务型对话系统[7]。由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT[8]最近在各大媒体平台受到极大关注,短短两个月其用户量过亿。它不只能够学习和理解人类的语言,还能够根据用户对话的上下文进行交流。目前国内市场上也有大量的聊天机器人,如图灵、小微、思知、小冰等机器人[9],它们通常也会具备一定的任务型对话能力,同时,也有着一定的闲聊能力。但这些语言模型普遍缺乏情感交互能力,限制了其在老年人心理关爱服务、抑郁症、焦虑等精神障碍疾病方面的应用。与此同时,人们对对话系统提出了越来越高的要求,其中一个关键目标就是使系统人性化[10],即对话系统能够理解用户对话中的情感,并生成带有共情的回复,以促进与人类进行更好、更有意义的情感交互。清华大学CoAI課题组在2018年提出了情感聊天机器人(emotional chatting machine,ECM)系统[11],旨在构建一个能够表达情绪反应的对话系统,但却并没有实现共情。情感对话系统是为了在用户中产生情感反应而设计的[12],它更加侧重识别情绪和产生情绪对应的反应。而共情对话系统侧重于设身处地为用户着想,理解他们的感受、情绪和精神状态,模仿用户的思维模式,它的目标是创造一个更像人类的互动。

共情最早是由人本主义创始人罗杰斯提出,也被称为同感、同理心、投情等,指的是能够想象自己置身于对方处境,并体会对方感受的能力[13],情感状态与对方一致。共情是一个宽泛的概念,包括情感共情、认知共情和同情同理心[14]三方面。情感共情涉及对用户体验的情感模拟,当看到别人伤心难过,自己也跟着伤心难过,情感共情是一种能够真正感受到他人的感受或至少感受到与他人相似的情绪的能力。认知共情旨在理解用户的处境和隐性的情感,当身边的人情绪低落时,通常还会对在脑海中猜想和理解对方的感受:为什么会哭?是因为难过吗?还是因为受了什么委屈?这些推理和理解,更多是认知共情在起作用。同情同理心是指双方有过共同的经历,能够理解对方目前的感受。共情对话系统要求具备情绪疏导或心理疏导的能力,有助于更好地理解人际关系,以完成复杂的情感交流任务[15~17]。一个完整的共情对话系统不只是包括情感,还必须要包含个性和知识[18]。个性化可以使系统根据用户的喜好量身定制回答,增加对话系统的连贯性和一致性。如Zhong等人[19]提出了一个基于个性的共情对话系统,研究人物个性对共情反应生成的影响。而外部知识补充了对话背景,使得生成回复更加丰富。近年,小米人工智能实验室在这方面做了一些探索并取得了初步成果,如小爱同学[20]创建了首个融合了社会常识知识和对话流信息的中文常识性对话知识图谱,来与用户进行合理的沟通,提高用户的满意度[21,22]。

近年来,不断有学者尝试将共情融入对话系统中,但关于共情对话的综述较少。如Pamungkas等人[23]只是介绍了加入情感的对话系统研究方法。Wardhana等人[24]对共情对话特征、对话系统模型和统计推断技术进行了回顾。Spring等人[25]只介绍了一个包括情绪表达、情绪检测分类、反应生成和反应表达四个阶段的框架,并没有对其中的算法进行介绍。本文以共情对话为研究对象,首先概述了共情的概念,详细说明了情感感知和共情对话生成的技术,以及共情对话的发展动向,接着总结了共情对话研究所需要的数据集和评价指标,最后总结了共情对话系统目前所存在的问题,以及未来的研究方向。

1 共情对话系统

共情对话系统是由多种技术共同构建的系统[18],包括自然语言预处理(nature language processing,NLP)、自然语言理解(natural language understanding,NLU)、对话管理(dialog ma-nagement,DM)和响应生成等多个模块[26]。原始的语料无法直接进行训练,需要进行前期预处理,NLP能够对原始文本进行预处理,使之标准化,而NLU就是让机器能够准确地理解人类生成自然语言的技术。DM可以通过理解对话上下文信息,生成对用户的反应。最常见的对话一般都是任务驱动型的多轮对话,如用户有着明确目的的订餐或者订票等,由于用户需求复杂,限制条件较多,需要分为多轮进行陈述。这类对话不但可以使用户在对话过程中完善自己的需求,也可以使对话系统在与用户交流中不断明确用户的目的,输出正确的结果。响应生成则是对话系统能够自动生成响应的过程或技术,一般也称做文本生成。共情对话系统的两大挑战分别为情感感知和共情对话生成,情感感知是指对话系统能够检测到用户当前的情绪状态;共情对话生成是指对话系统理解用户情感后,以人类的思维方式站在用户角度回应用户的情感需求。以下将对这两类任务所用的技术进行概述。

1.1 情感感知技术

对话系统与用户的对话中蕴涵着丰富的情感,获得对话语句的情感信息是更好地与用户沟通的关键[27]。目前的情感感知技术大致可以分为基于规则的、基于机器学习的和基于深度学习的三种方法[25]。

1.1.1 基于规则的方法

基于规则的方法是通过人工制定一套规则,根据对话中的一些单词或者短语来识别情绪,主要包括情感词典或词嵌入。

a)情感词典。情感词典是一种对文本进行情感分析的工具,它列出了包含情感的单词,并将它们分为单个或多个情感类别。基于情感词典,可以通过统计文本中出现的积极和消极情感词汇数量来计算文本的情感倾向。情感词典可以从头构建,如使用电影对话[28]或者故事读物[29]来构建情感词典,也可以使用现成的方案,如WordNet-Affect[30]。这些现成的解决方案在数量方面差别很大:WordNet-Affect包含近5 000个单词,而另一个流行词汇DepecheMood[31]则包含超过3.5万个单词。然而,词汇的质量并不仅仅取决于它的大小,词汇的使用也会影响词汇的质量。Bandhakavi等人[32]认为,WordNet-Affect等通用词汇的表现不如特定领域的情感词汇。因此,较小领域的特定词汇表可能比较大的通用词汇表产生更好的结果。而Wang等人[33]為了提高语音情感感知的能力,提出了一种原生词情感词典,该方法从不同情绪类别的原生词对情感信息进行建模,选择每个情绪中的顶级单词以生成向量;然后通过将话语级声学特征与特征相结合来构建模型。情感词典的构建可以分为人工和自动两种方式。人工构建获得数据之后进行人工标注,根据情感表达将词语进行正负向和强弱程度的区分。人工构建词典的方法在扩充词条方面比较方便,但需要耗费大量人工成本,且研究范围有限。自动构建包括基于知识库、基于语料库或者两者结合的方法。基于知识库就是对人工构建的词典进行拓展,加入动词、名词等,使情感词更加全面。基于语料库的方法就是利用相关领域的大量语料和相关度的计算规则,结合机器学习的相关方法,自动统计情感词的情感极性,自动构建情感词典。

b)词嵌入。词嵌入是将词转换为向量的方法。每个单词都表示为向量空间中的一个向量。因此,经常同时出现的单词被认为语义相似,在向量空间中接近。其中最流行的词嵌入方法是Mikolov提出的word2vec[34]和Pennington提出的GloVe[35]。word2vec有两种训练方式,即通过上下文来预测当前词或者通过当前词来预测上下文。但由于其训练出来的向量与单词是一对一的关系,没有考虑单词在不同上下文具有不同含义,无法解决一词多义的问题。GloVe是对word2vec的改进,它将全局词频统计和后者的基于局部信息的学习结合起来,有效解决了word2vec的部分缺点。

1.1.2 基于机器学习的方法

基于机器学习是一种使用给定数据训练模型,再通过模型得出结果的方法。机器学习方法大致可以分为无监督学习和监督学习。

a)无监督学习。无监督学习是指在没有标注情感数据的情况下,从数据本身中发现规律的一类机器学习方法,通常可以省去大量人工标注所耗费的成本。如文献[36]使用一种无监督的方法来自动检测文本中的情绪,如愤怒、恐惧、快乐和悲伤等。Barros等人[37]提出了一个无监督学习的神经框架,该框架通过学习如何描述个人的连续情感行为来提高情感感知能力。

b)监督学习。监督学习是指使用带有情绪标签的数据集来对模型进行训练,使模型能够根据给定输入得到一个预期输出。即在监督学习过程中,训练数据既要有特征,又要有标签,通过训练可以让机器找到特征和标签之间的关联,这样在给定没有标签的输入时就能根据其特征判断其标签。所以Seyeditabari等人[38]认为监督方法的主要挑战之一就是要有高质量的情感训练数据,比较著名的数据集有EmotiNet[39]和Sem-Eval2007[40]。除此之外,Banchs[28]分析了大量电影的对话,得到了数据集MovieDiC。Vijayaraghavan等人[41]就通过人们对药物评价的分析收集数据。而Wang等人[42]使用情感相关的标签创建了一个大型数据集,并通过两种机器学习方法进行情感感知。此外,由于传统基于监督的方法可能会在有限的标记数据下存在过度拟合的问题。为了解决上述问题,Wu等人[43]提出了一种新的监督学习框架,通过五个信号变换自动为大量未标记数据分配标签,并以信号变换识别对所提模型进行预训练。Pan等人[44]也提出了一种用于语音情感感知的模型,首先利用各种基于监督学习的预训练模型,构建了一个有效的情绪模型,然后将语音信号的情感和性别信息进行整合,提高了模型的情感感知能力。

1.1.3 基于深度学习的方法

目前,在情感感知领域最先进的方法就是深度学习。基于深度学习的情感感知方法主要是通过神经网络来进行的,故本文讨论的算法包括:卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrent neural network,RNN)、注意力机制、深度强化学习、seq2seq和Transformer等。

a)卷积神经网络。CNN是一种用于特征提取的神经网络。CNN由卷积、池化和全连接层三种结构组成。卷积层应用卷积核来进行卷积计算,滑动窗口特性使卷积层减少模型的计算参量,捕获局部特征。池化层主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。目前主要有最大池化和平均池化两类池化操作,最大池化指采取输入区域的最大数量,平均池化指采取输入区域的平均数量。全连接层的主要作用就是将前面计算得到的特征空间映射样本标记空间。换句话说,就是将特征表示整合成一个值,减少特征位置给分类带来的影响。

b)循环神经网络。RNN是一种用于处理序列的神经网络结构,它是基于“人的认知是基于过往的经验和记忆”这一观点提出的[45],即当前的输出与前一个时刻的输出有关。普通的神经网络只能单独处理一个输入,前一个输入和后一个输入是完全没有关系的,这样的神经网络是无法解决一些问题的,比如预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。而RNN对于处理此类问题非常有效。在RNN中,每个输出都是由当前输入和之前的信息共同决定,即隐藏层的输入不只包括当前的输入,还包括上一个隐藏层的输入。RNN的一些变体在对话系统中取得不错的结果,如LSTM、seq2seq(sequence to sequence)、GRU(gate recurrent unit)和BRNN(bidirectional recurrent neural network)等。Madasu等人[46]融合了CNN和RNN的优点,提出了顺序卷积关注循环网络(SCARN),与传统的RNN相比,在处理情感感知问题上有着更好的效果。

c)注意力机制。注意力机制是一种用来计算输入数据對输出数据的贡献大小的结构。当输入语句较长,信息较多的时候,传统的序列到序列模型有一定局限性,注意力机制则能够在很多的信息中注意到对当前任务更关键的信息,而对于其他的非关键信息就不需要太多的注意力侧重。即对于模型的输入,给每一个部分分配一个权重,这个权重的大小就代表模型对这一部分的重视程度。这样既提高了模型的性能,也在一定程度上降低了计算量。深度学习中的注意力机制大概可以分为软注意、硬注意和自注意机制三类。软注意机制是指对大部分信息都进行考虑,但有的部分关注多一点,有的部分关注少一点,关注程度是不一样的。硬注意机制是指只考虑需要关注的部分,对于那些不需要关注的部分直接舍弃,这样能够减少一定的时间和计算成本,但可能丢失一些本该需要关注的信息。自注意机制是指输入项分配的权重取决于输入项的相互作用,即通过输入项的相关性来决定应该关注哪些输入项。

d)深度强化学习。深度强化学习是一种结合深度学习和强化学习的方法,它的目的是让机器能够自行决策和行动。强化学习是指在与环境的交互过程中通过学习策略来达成回报最大化,而深度神经网络则有助于提取特征并增强模型的表达能力。因此,深度强化学习可以通过不断地在环境中尝试,并使用神经网络优化策略以最大限度地获得期望奖励。深度强化学习的算法比较多,常见的有:DQN(deep Q-network)、DDPG(deep deterministic policy gradient)、PPO(proximal policy optimization)等。

e)seq2seq。seq2seq模型是动态生成常用的模型,是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。它的实质是利用两个RNN组成encoder-decoder模型,一个RNN作为encoder,另一个RNN作为decoder。encoder将输入序列转换为固定维度的隐藏状态向量,该向量包含输入序列中的所有信息。而decoder则接收这个隐藏状态向量,并生成目标序列。

f)Transformer。Transformer是利用注意力机制来提高模型训练速度的模型。Vaswani等人[47]在2017年提出了Transformer,它完全利用了注意机制,没有任何循环单元,完全消除了递归和卷积,并部署了更多的并行化来加速训练。Transformer的结构由六个encoder和六个decoder组成。模型的第一步就是得到输入句子的每一个单词的表示向量,将得到的单词表示向量矩阵输入encoder中,经过六个encoder block后就可以得到句子所有单词的编码信息矩阵,然后再将编码矩阵传递到decoder中去,decoder会依次根据当前翻译过的单词翻译下一个单词。

目前情感对话研究主要基于文本数据库开展。Chen等人[48]提出了一个基于多层次的CNN模型,首先,使用CNN对每条独立的语句进行信息的提取,然后用另一个CNN 来处理对话中连续的句子表示,与单CNN模型相比,在Friends数据集上的加权准确率从59.2%提高到63.9%,在EmotionPush数据集上的加权准确率从71.5%提高到77.4%。Cheng等人[49]提出了一种交互式卷积神经网络(ICNN),将输入特征图分解为许多不同的频率尺度以获得交互式卷积。对ICNN的性能进行了大量实验评估,当卷积层数相同时,ICNN的情感感知准确率比CNN提高了17.5%。

近年,越来越多的情感对话研究基于语音数据库开展。Lyu等人[50]提出了一种基于BiLSTM和CNN的特征融合方法,用于识别语音情感特征,该方法结合了空间特征和上下文特征。利用BiLSTM提取语音信号的上下文特征,并利用频谱图提取语音信号的空间特征作为CNN的输入,以便一起学习特征,从而获得更好的情感识别率,在IEMOCAP数据集上的加权准确率和未加权准确率分别为74.14%和65.62%。Zhang等人[51]提出了一种用于语音情感识别的多尺度LSTM框架。首先,采用深度LSTM模型捕捉话语中所有分割片段之间的时间依赖关系,实现对话级情感识别。然后采用分数级融合策略,将CNN与LSTM结合在多个片段级频谱图上实现情感识别,在AFEW5.0数据集上的准确率达到了40.73%,在BAUM-1s数据集上的准确率达到了50.22%。对于标注数据较少的问题,Yi等人[52]提出了一种基于Transformer的模型来实现情感识别。首先,使用wav2vec 2.0来提取语音特征。然后,采用微调策略和基于自注意力的特征融合策略。最后,使用RoBERTa通过改进的加权策略进行情感识别,在IEMOCAP数据集上的加权准确率和未加权准确率分别为72.28%和74.01%,在CASIA数据集上的加权准确率和未加权准确率分别为99.17%和99.17%。

对以上情感感知模型的对比如表1所示。

1.2 共情对话生成

共情对话生成是一个生成任务,旨在使对话系统以人类的思维方式站在用户角度回应用户的情感需求。目前的共情对话生成技术大致可以分为基于检索和动态生成[25]两类。

1.2.1 基于检索的方法

基于检索的方法就是指从预定义响应的数据库中检索出最相关的响应,就是把一个对话问题等价成为一个搜索问题,然后从数据集中搜索答案。Henderson等人[53]就是在Reddit数据集上预训练了一个通用的回复选择模型,然后针对不同的对话领域对其进行微调,并通过实验证明了这种方法的有效性。在此基础上,Henderson等人[54]又提出了一个更轻量级的预训练回复选择模型ConveRT(conversational representations from Transformers),模型引入了更多对话历史信息。但是基于检索的方法从对话数据集中查找与用户话语有关的常见反应,为了得到一个较好的结果,往往需要大量的情感对话数据集。所以,基于检索的方法并不是共情對话生成研究中主要的响应生成方法。

1.2.2 基于动态生成的方法

基于动态生成的方法与情感感知的深度学习模型算法密切相关,不只涉及神经网络算法,还包括使用深度学习的encoder-decoder架构。生成的回复不依赖于特定的模板或者数据库,而是通过在大量语料中学习来进行对话。encoder的作用是将词序列转换成词向量,然后通过decoder将该向量转换成目标序列。换句话说,首先对句子进行编码,然后再将编码后的句子进行解码。Miao等人[55]提出了一种基于seq2seq的对话生成模型,并在解码器中添加了情感嵌入,以达到产生共情对话的目的。但是只使用基于RNN的seq2seq模型来实现生成式对话的结果往往是不尽如人意的。Zhou等人[11]首次将情感因素引入了基于深度学习的生成式对话系统,提出了基于记忆网络的对话系统。在传统的seq2seq模型的基础上,使用了静态的情感向量嵌入表示,使得模型可以根据用户的输入以及指定情感分类生成适当的回复。Sordoni等人[56]提出在encoder部分采用多层前向神经网络代替RNN模型,这样就能够把上下文的信息引入模型,使得模型能够处理长序列问题。注意力机制通常用于解决长期依赖的问题。利用注意力,解码器可以直接访问每个编码词的隐藏状态,并相应地对每个词进行加权。这使得解码器在生成输出时可以关注输入句子的重要部分。该机制也应用于神经机器翻译。Bahdanau等人[57]提出了加入注意力机制的seq2seq,可以最大限度地提高翻译性能。Serban等人[58]介绍了一种新的分层随机潜变量神经网络结构(VHRED)来解决序列之间的复杂依赖关系。VHRED在HRED的基础上,将潜变量结合到解码器中,将解码过程转换为对潜变量进行采样和有条件地生成响应两步生成过程。

Transformer是共情对话系统研究中响应生成模块中比较常用的模型。还包括其他基于Transformer改进的模型:GPT(generative pre-training)、GPT-2(generative pre-training-2)和text-to-text transfer Transformer。除此之外,BERT(bidirectional encoder representation from Transformers)模型及其不同的变体,如CoBERT(code BERT)、RoBERTa(a robustly optimized BERT pretraining approach)和ALBERT(a lite BERT for self-supervised learning of language representations)也被用于创建响应生成模型。DialoGPT(dialogue generative pre-trained Transformer)模型[59]在预训练的反应生成模型中被认为是较先进的。Zhao等人[60]以综合的方式构建了基于知识的对话系统。使用BERT和GPT-2共同进行知识选择和响应生成,其中BERT用于知识选择,GPT-2基于对话上下文和选择的知识生成响应。与此同时,RoBERTa-GPT2[61]被提出用于共情对话生成,其中预训练的自动编码RoBERTa用作编码器,预训练的自动回归GPT-2用作解码器。但是,其过于专注知识而忽视情感,只能片面理解用户的意思,无法使模型更好地表达情感。Chen等人[62]针对这个问题,提出了一种新的情感特征知识交互模型,用来增强响应生成性能。首先利用情感特征和常识知识来丰富对话历史以获得情感交互上下文。然后,利用情感互动上下文编码器来学习更高层次的情感互动信息,最后,提炼情绪状态特征以指导共情反应的产生。

共情是理解和关注他人感受和体验的能力,为了完整地生成共情对话,还需了解用户情绪背后的原因。为此,Li等人[20]开发了一个基于用户情感原因的共情对话系统,以GPT对文本进行预处理,根据对话历史、检测到的情绪类别以及情绪原因产生共情反应。而Qian等人[63]认为这些方法侧重于理解和复制上下文中的情绪原因,并没有真正过渡到以情绪为中心,理解情绪原因的逻辑性,为了解决这个问题,其提出了一个情感原因过渡图,以明确地模拟共情对话中两个相邻回合之间情感原因的自然过渡,而且下一个回合中的情感原因的概念词可以被预测,并专门设计一个概念感知解码器产生共情反应。对共情对话生成模型的对比如表2所示。

1.3 共情对话的发展动向

1.3.1 基于多模态的共情对话

目前较为常见的共情对话基本上是基于文本或者基于语音的这样单一模态的形式,但是这种单一模态的形式往往很难准确判断出情感状态。就比如,反讽往往结合中性或者积极的文本内容和与内容不匹配的音频表达来完成一个消极的情感表达,这种情形仅靠单模态很难从根本上解决。其次,单模态模型容易受噪声影响而导致效果问题,例如由自动语音识别转写的文本,上游出现的错误很多时候会对下游分类任务产生较大影响。因此,多模态模型策略在共情对话任务中是十分必要的,多模态情感感知旨在从不同的视觉、音频和文本模式中识别人类的各种情感。

Cai等人[64]则提出了一种将语音和面部表情的情感数据融合的方法。首先利用CNN和LSTM学习语音情绪特征;同时,设计了多个小规模核卷积块进行面部表情特征提取;最后融合语音特征和面部表情特征实现情感识别,与语音和面部表情的单一模态相比,模型的整体识别准确率分别提高了10.05%和11.27%。Dong等人[65]提出一种基于BiLSTM的多模态情绪识别方法,在视频序列中引入ResNeXt50网络和协调注意力机制,以获取视频图像的位置和空间的长期依赖信息,利用具有自我注意力机制的CNN来捕捉音频序列的语义特征。与此同时,为了消除冗余,采用了嵌入自我注意机制的双序列LSTM跨模态网络进行情感特征融合,最终实现情感感知,在eNTERFACE05数据集[66]上的准确率达到了81.04%。

在多模态融合模型中,特征来源单一容易导致模型过拟合,为了解决这个问题,Liu等人[67]提出了一种特征融合模型。首先,使用一维卷积将不同长度和维度大小的特征作为输入;然后,使用注意力机制捕获两个特征之间的相应关系;最后,使用双向时间序列模块来增强融合特征的上下文信息。实验结果证明,该模型有效地将不同长度和维度的声学特征与预训练特征融合在一起,在EMO-DB数据集上的识别准确率和F1得分分别达到了64.9%和84.1%。

近年也有研究将视觉、语音、文本三个模态融合识别情感,Firdaus等人[68]提出了一个Affect-GCN(affect-graph convolutional network)框架,该框架利用RNN-GCN作为话语编码器,然后使用多模态分解双线性池(MFB)來增强不同模态的表示,以便捕获上下文信息以及多模态知识,从而更好地进行情感感知。模型使用ResNet(deep residual network)来捕获视觉特征,VGG(visual geometry group)用于捕获音频特征,文本特征由RNN-GCN框架捕获,所有特征都作为MFB块的输入,输出作为任务特定层的输入进行分类,同时预测情感。如图1所示,与现有的多模态方法分析,准确率提高到了69.73%。

1.3.2 基于外部知识的共情对话

早期基于深度学习的共情对话生成大多是纯数据驱动的基于seq2seq框架的模型,生成的对话看上去很接近自然语言,但是往往缺乏实质信息的内容。比如,当人们在日常生活中与别人对话时,为了更好地理解对话中的情感,肯定会在对话的过程中加入个人的经验、常识等超出上下文内容的信息。因此,如果想要构建一个类似人类交流的共情对话模型,将外界知识引入是必不可少的。如小米人工智能实验室[20]为了更好地利用外部知识,构建了一个知识图谱。这个知识图谱的数据来源是一个大规模的常识知识库,涵盖了以事件为中心的社会方面有关的推理知识元组。但由于这个数据库中的知识元组存在多个尾实体,且每个知识元组也是孤立的,在构建知识图谱后可能会存在无法推测情感状态或者难以产生连贯回答的情况出现。为此,小米收集了日常场景中的大规模多轮对话,并手动注释对话的情感信息,根据标注信息提取与数据库中与对话相关的事件,可以让对话系统明白当前的状态,又定义了新的四种对话流关系,即事件流、概念流、情感原因流和情感意图流,把知识库中的事件归为事件流,把知识库的实体归为概念流,事件产生的原因归为情感原因流,事件发生后怎么做归为情感意图流,可以让对话系统明白下一步怎么样回复。如图2所示,这个知识图谱是以常识知识元组为基础,而且添加了小米人工构建的对话语料库的汉语常识对话知识图谱,图谱可以通过识别对话中的情感分类来定位知识库中对应的答案,举一个例子,知识库中有{x收养了一只猫,x effect,感到开心}和{x收养了一只猫,x effect,x对猫过敏}这样两个知识元组,当说出:我最近收养了一只猫,感到很烦恼。知识图谱就能够根据人工制定的语料库识别出对话的情感是悲伤的,就能够在知识库中精确定位到“x对猫过敏”,然后根据情感意图来选择合适的对话流,如当描述对话中的压力时,知识图谱可能会输出“减轻压力”之类的对话。实验结果表明引入外部知识后,情感感知和意图识别的准确率分别达到了93.6%和71.3%,与其他算法相比实现了更高的准确率。

2 共情对话系统的性能评价

2.1 数据集

随着深度学习技术水平的提高,共情对话系统也得到了越来越多的关注。本节总结了与共情对话系统相关的数据集,有助于接下来的研究。关于对话数据集大致可以分为共情对话数据集、通用数据集和多模态数据集,相关数据集的介绍和下载地址如表3所示。

适用于共情对话系统的数据集包括:EMPATHETICDIALOGUES[69]、CPED(Chinese personalized and emotional dialogue)[70]、XiaoAI empathetic conversation[71]和ESConv (emotional-support-conversation)[72]。EMPATHETICDIALOGUES包含24 850个对话,这个数据集是通过众包方法准备的,即公司或者机构把过去由员工执行的工作任务,以自由自愿的方式外包给大众志愿者处理。每个参与者讲述与所分配的情绪类别相对应的对话,并限制在4~8个话语中。CPED由与情感和个性相关的多源知识组成。这些知识包括性别、五大人格特征、13种情绪、19种对话行为和10个场景,包含超过1.2万段对话。XiaoAI empathetic conversation包含16 873个对话,它是通过对小爱在线日志的基础数据提取而成。基础数据被注释为四种情绪类别(悲伤、愤怒、快乐和其他)。ESConv包括了1 053个对话、31 410个语句,提供了7种负向情绪、5个负向情绪问题以及8种情感支持策略。

通用的对话数据集包括DailyDialog[73]、BookCorpus[74]、PersonaChat[75]和豆瓣conversation corpus[76]。DailyDialog数据集由13 118个关于日常生活的多轮对话组成,源数据提取自各个网站。这些对话有交换信息和加强社会联系两个目的,并且还有四个对话行为(通知、问题、指示和慰问词)。BookCorpus由11 038本书构建,包含大约7 400万句话。这些书分为不同的内容,如爱情小说、奇幻小说和科幻小说。PersonaChat数据集包括随机配对的众包参与者之间的162 064次对话,总共考虑了1 155个角色,每个角色都由至少五个句子来表示,这些句子给出了关于特定角色的描述。豆瓣conversation corpus是由国内流行的社交网站豆瓣群构建的开放领域数据集,包括110万段超过两回合的双人对话。

多模态情感数据集包括MELD(multimodal multi-party dataset)[77]、CMU-MOSEI[78]、PhotoChat[79]和IEMOCAP(interactive emotional dyadic motion capture)[80]。MELD数据集由电视剧《老友记》中的超过1 400个对话和13 000个句子组成,其中的对话是多模态的,包括音频和视觉模态以及文本。CMU-MOSEI数据集由1 000个不同说话者的22 856个视频片段组成。每个视频本身包含视觉、音频和文本三种形式,同时注释了愤怒、厌恶、恐惧、快乐、悲伤和惊喜六种离散的情绪。Photo-Chat数据集由10 917张图像和12 286个对话组成,每个图像都与对话过程中共享的用户图像配对,每个图像与其文本描述配对。数据集被分成10 286个训练实例、1 000个开发实例和1 000个测试实例。IEMOCAP包含了大约12 h的多模态情感分类数据,通过对10名男演员和女演员基于剧本的即兴演出进行录制得到,每个场景包含两个说话人。

2.2 共情对话系统常用评价指标

根据共情对话生成语句的质量来判断共情对话系统模型的性能。当前的评价指标可以分为自动评价指标或人工评价指标两类。

a)自动评价指标。目前主流的自动评价指标包括词重叠评价指标和词向量评价指标。词重叠评价指标主要有BLEU(bilingual evaluation understudy)[81]和METEOR(metric for eva-luation of translation with explicit ordering)[82]。BLEU常用于衡量机器翻译的性能,通过机器翻译的结果和标准人工翻译的结果比较是否相似,若相似,则机器翻译性能好。而METEOR解决了BLEU标准中的一些固有缺陷,扩展了BLEU有关“共现”的概念,同时将词序纳入评估范畴,设立基于词序变化的罚分机制。最终通过计算共现次数的准确率、召回率与F值,并考虑罚分,得到待测译文的METEOR值。词向量评价指标则是通过word2vec等方法将句子转换为向量表示,向量在一定程度上表达了句子的含义,在通过余弦相似度等方法就可以计算两个句子之间的相似程度。词向量评价包括greedy ma-tching[83]、embedding average[84]和perplexity困惑度[85]。greedy matching是在生成的句子和真实句子中寻找最相似的一对单词,把这对单词的相似度近似为句子的距离;embedding average是将每个单词的词向量取平均来作为句子的特征,计算生成语句和真实语句之间相似度;perplexity困惑度就是通过估算句子出现的概率或者语句是否通顺来评价模型的性能,模性能型越好,困惑度越小。

b)人工评价指标。人工评价的人力成本高,但准确率是最高的。最早期的对话系统是在实验室进行评价的,如文献[86]通过招募36名受试者,受试者被要求使用语音对话系统解决一项任务,并根据任务的完成度进行打分。此外,由于实验室环境是非常受控制的,这并不一定能与现实世界的实验环境一致,这导致结果有一定的局限性。现在主流的人工评估主要為众包的方式,平台通过大量招募员工,员工根据质量、流畅性或适当性对系统进行评分。如文献[87]评估了使用众包来评估对话系统的有效性,其实验表明,使用足够多的众包用户,评估的质量与实验室条件相当。共情对话系统评价指标的对比如表4所示。

3 共情对话系统存在的问题及未来研究方向

a)建立共情对话系统的目的是为了让用户与对话系统的交流更加流畅、准确。然而,目前大多数系统仅仅围绕文本数据构建,单一模态的数据是有限的,无法覆盖到大多数情况的情绪状态。因此,下一步可以从多模态数据入手,把对话系统的输出扩展到图像、视频、语音和文本等多种模式,以使其更具共情能力。现有的研究表明,多模态有助于提高对话中情感检测的能力,增强共情对话系统的共情回复生成能力。

b)由于数据集的来源不同,当前的共情对话系统可能不适应所有场景。如通过众包获得的数据集、注释媒体数据获得的数据集和注释公开可用的相关数据集,这些数据集来源不同,内容不同,复杂程度也不同。因此,下一步可以从跨领域的数据集入手,提高共情对话系统在不同数据集中的性能。

c)目前大多数共情对话都集中于显式的文本情感研究,采用的数据集也是带有明显的情感词汇,而对于一些情感倾向不是特别明显的文本识别率不佳。因此,下一步可以通过构建隐式情感词词典,或者通过使用更好的深度学习方法来更深层次识别文本中的隐式情感。

d)由于大多数对话语料库中存在个性化稀疏性问题,这使得对话系统在与人类交流时难以体现出人物的个性,而拥有个性化的共情对话系统是能够理解用户的个性化信息是精确感知用户的意图和内在状态并因此产生适当回复的关键,因此,下一步可以从融合个性化知识的共情对话出发,让对话系统以不同方式与用户进行互动。

4 结束语

本文回顾了近年来共情对话系统的研究进展。首先,本文介绍了共情对话系统的情感感知和共情对话生成两大挑战,并且分别使用不同的方法来解决这两个问题。随着对话系统的不断发展,共情功能给这个研究领域带来了更多挑战。近年共情对话系统索日益受到关注,并取得了相当不错的成果,越来越多相关研究成果出现在人工智能顶会上。但总体来说该领域研究仍处于初级阶段,有待进一步研究和探索。

參考文献:

[1]Cai Zhipeng, Xu Zheng. A private and efficient mechanism for data uploading in smart cyber-physical systems[J].IEEE Trans on Network Science and Engineering,2018,7(2):766-775.

[2]Motger Q, Franch X, Marco J. Conversational agents in software engineering: survey, taxonomy and challenges[EB/OL].(2021-06-21)[2023-06-26].https://doi.org/10.48550/arxiv.2106.10901.

[3]朱映波,赵阳洋,王佩,等.融合马尔科夫决策过程与信息熵的对话策略[J].计算机工程,2021,47(3):284-290.(Zhu Yingbo, Zhao Yangyang, Wang Pei, et al. A dialogue strategy incorporating Markovian decision processes and information entropy[J].Computer Engineering,2021,47(3):284-290.)

[4]王雨,袁玉波,过弋,等.情感增强的对话文本情绪识别模型[J].计算机应用,2023,43(3):706-712.(Wang Yu, Yuan Yubo, Guo Yi, et al. An emotionally enhanced model of conversational text emotion recognition[J].Journal of Computer Applications,2023,43 (3):706-712.)

[5]Khatua A, Cambria E, Khatua A, et al. Lets chat about Brexit! A politically-sensitive dialog system based on Twitter data[C]//Proc of IEEE International Conference on Data Mining Workshops.Pisca-taway,NJ:IEEE Press,2017:393-398.

[6]Adamopoulou E, Moussiades L. Chatbots: history, technology, and applications[J].Machine Learning with Applications,2020,2:100006.

[7]曹亚如,张丽萍,赵乐乐.多轮任务型对话系统研究进展[J].计算机应用研究,2022,39(2):331-341.(Cao Yaru, Zhang Liping, Zhao Lele. Progress in research on multi-tasking dialogue systems[J].Application Research of Computers,2022,39(2):331-341.)

[8]Guo Chao, Lu Yue, Dou Yong, et al. Can ChatGPT boost artistic creation: the need of imaginative intelligence for parallel art[J].IEEE/CAA Journal of Automatica Sinica,2023,10(4):835-838.

[9]Zhou Li, Gao Jianfeng, Li Di, et al. The design and implementation of Xiaoice, an empathetic social chatbot[J].Computational Linguistics,2020,46(1):53-93.

[10]徐晖,王中卿,李寿山,等.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S2):99-104.(Xu Hui, Wang Zhongqin, Li Shoushan, et al. Personalised conversation generation combined with emotional information[J].Computer Science,2022,49(S2):99-104.)

[11]Zhou Hao, Huang Minlie, Zhang Tianyang, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proc of AAAI Conference on Artificial Intelligence.2018:730-738.

[12]Madasu A, Firdaus M, Eqbal A. A unified framework for emotion identification and generation in dialogues[EB/OL].(2022-05-31)[2023-06-26].https://doi.org/10.48550/arxiv.2205.15513.

[13]杨建华,彭杨,杨茜.同理心地图联合情景教学在护患沟通技巧教学的应用[J].护理学杂志,2022,37(24):47-50.(Yang Jianhua, Peng Yang, Yang Qian. The use of empathy maps combined with scenario-based teaching in teaching nurse-patient communication skills[J].Journal of Nursing,2022,37(24):47-50.)

[14]Powell P A, Roberts J. Situational determinants of cognitive, affective, and compassionate empathy in naturalistic digital interactions[J].Computers in Human Behavior,2017,68:137-148.

[15]YalcinN, DiPaola S. A computational model of empathy for inte-ractive agents[J].Biologically Inspired Cognitive Architectures,2018,26:20-25.

[16]Yang Cai. Ambient intelligence in everyday life[M].Berlin:Springer-Verlag,2006:67-85.

[17]Aziz A, Jemili M F. Conceptual design of a socially intelligent agent with triadic empathy and theory of mind for mental health support[J].Journal of Human Centered Technology,2022,1(1):23-33.

[18]Ma Yukun, Nguyen K L, Xing F Z, et al. A survey on empathetic dialogue systems[J].Information Fusion,2020,64:50-70.

[19]Zhong Peixiang, Zhang Chen, Wang Hao, et al. Towards persona-based empathetic conversational models[EB/OL].(2020-04-26)[2023-06-26].https://doi.org/10.48550/arxiv.2004.12316.

[20]Li Dawei, Li Yanran, Zhang Jiayi, et al. C3KG: a Chinese commonsense conversation knowledge graph[EB/OL].(2022-04-06)[2023-06-26].https://doi.org/10.48550/arxiv.2204.02549.

[21]張雄涛,祝娜,郭玉慧.基于图神经网络的会话推荐方法综述[J/OL].数据分析与知识发现.(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.(Zhang Xiongtao, Zhu Na, Guo Yuhui. A review of session recommendation me-thods based on graph neural networks[J/OL].Data Analysis and Knowledge Discovery.(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.)

[22]Brave S, Nass C, Hutchinson K. Computers that care: investigating the effects of orientation of emotion exhibited by an embodied compu-ter agent[J].International Journal of Human-Computer Studies,2005,62(2):161-178.

[23]Pamungkas E W. Emotionally-aware chatbots:a survey[J/OL].(2019-06-24)[2023-06-26].https://doi.org/10.48550/arxiv.1906.09774.

[24]Wardhana A K, Ferdiana R, Hidayah I. Empathetic chatbot enhancement and development:a literature review[C]//Proc of International Conference on Artificial Intelligence and Mechatronics Systems.Piscataway,NJ:IEEE Press,2021:1-6.

[25]Spring T, Casas J, Daher K, et al. Empathic response generation in chatbots[C/OL]//Proc of the 4th Swiss Text Analytics Conference.(2019-06-18)[2023-06-26].http://arodes.hes-so.ch/record/4525.

[26]McTear M F, Callejas Z, Griol D. The conversational interface[M].Cham:Springer,2016.

[27]Wong M Y. Emotion as a language of universal dialogue[J].Dialogue and Universalism,2019,29(3):41-56.

[28]Banchs R E. On the construction of more human-like chatbots: affect and emotion analysis of movie dialogue data[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2017:1364-1367.

[29]Inkpen D, Strapparava C. Proceedings of the NAACL HLT 2010 workshop on computational approaches to analysis and generation of emotion in text[M].Stroudsburg,PA:Association for Computational Linguistics,2010.

[30]Strapparava C, Valitutti A. WordNet-Affect:an affective extension of WordNet[C]//Proc of the 4th international conference on language resources and evaluation.[S.l.]:European Language Resources Association,2004:1083-1086.

[31]Liu Bin, Zhang Lei. A survey of opinion mining and sentiment analysis[M]//Aggarwal C, Zhai C. Mining Text Data. Boston:Springer,2012:415-463.

[32]Bandhakavi A, Wiratunga N, Massie S, et al. Lexicon generation for emotion detection from text[J].IEEE Intelligent Systems,2017,32(1):102-108.

[33]Wang Wei, Cao Xinyi, Li He, et al. Improving speech emotion re-cognition based on acoustic words emotion dictionary[J].Natural Language Engineering,2021,27(6):747-761.

[34]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL].(2013-01-16)[2023-06-26].https://doi.org/10.48550/arxiv.1301.3781.

[35]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.

[36]Mac Kim S, Valitutti A, Calvo R A. Evaluation of unsupervised emotion models to textual affect recognition[C]//Proc of NAACL HLT Workshop on Computational Approaches to Analysis and Generation of Emotion in Text.Stroudsburg,PA:Association for Computational Linguistics,2010:62-70.

[37]Barros P, Barakova E, Wermter S. Adapting the interplay between personalized and generalized affect recognition based on an unsupervised neural framework[J].IEEE Trans on Affective Computing,2020,13(3):1349-1365.

[38]Seyeditabari A, Tabari N, Zadrozny W. Emotion detection in text:a review[EB/OL].(2018-06-02)[2023-06-26].https://doi.org/10.48550/arxiv.1806.00674.

[39]Balahur A, Hermida J M, Montoyo A, et al. EmotiNet: a knowledge base for emotion detection in text built on the appraisal theories[C]//Proc of the 6th International Conference on Applications of Natural Language to Information Systems.Berlin:Springer-Verlag,2011: 27-39.

[40]Strapparava C, Mihalcea R. Semeval-2007 task 14: affective text[C]//Proc of the 4th International Workshop on Semantic Evaluations.Stroudsburg,PA:Association for Computational Linguistics,2007:70-74.

[41]Vijayaraghavan S, Basu D. Sentiment analysis in drug reviews using supervised machine learning algorithms[EB/OL].(2020-03-21)[2023-06-26].https://doi.org/10.48550/arxiv.2003.11643.

[42]Wang Wenbo, Chen Lu, Thirunarayan K, et al. Harnessing Twitter “big data” for automatic emotion identification[C]//Proc of International Conference on Privacy,Security,Risk and Trust and Internatio-nal Conference on Social Computing.Piscataway,NJ:IEEE Press,2012:587-592.

[43]Wu Yujin, Daoudi M, Amad A, et al. Transformer-based self-supervised multimodal representation learning for wearable emotion recognition[J/OL].IEEE Trans on Affective Computing.(2023-04-03).https://doi.org/10.1109/TAFFC.2023.3263907.

[44]Pan Yu, Hu Yanni, Yang Yuguang, et al. Gemo-clap: gender-attribute-enhanced contrastive language-audio pretraining for accurate speech emotion recognition[EB/OL].(2023-09-13).https://arxiv.org/abs/2306.07848.

[45]Lipton Z C, Berkowitz J, Elkan C. A critical review of recurrent neural networks for sequence learning[EB/OL].(2015-10-17).https://arxiv.org/abs/1506.00019.

[46]Madasu A, Rao V A. Sequential learning of convolutional features for effective text classification[EB/OL].(2019-09-12).https://arxiv.org/abs/1909.00080.

[47]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[48]Chen S Y, Hsu C C, Kuo C C, et al. Emotionlines: an emotion corpus of multi-party conversations[EB/OL].(2018-05-30).https://arxiv.org/abs/1802.08379.

[49]Cheng Huihui, Tang Xiaoyu. Speech emotion recognition based on interactive convolutional neural network[C]//Proc of the 3rd International Conference on Information Communication and Signal Proces-sing.Piscataway,NJ:IEEE Press,2020:163-167.

[50]Lyu Huilian, Hu Weiping, Wang Yan. Speech emotion recognition based on BLSTM and CNN feature fusion[C]//Proc of the 4th International Conference on Digital Signal Processing.New York:ACM Press,2020:169-172.

[51]Zhang Shiqing, Zhao Xiaoming, Tian Qi, et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM[J].IEEE Trans on Affective Computing,2019,13(2):680-688.

[52]Yi Yufan, Tian Yan, He Cong, et al. DBT: multimodal emotion re-cognition based on dual-branch transformer[J].The Journal of Supercomputing,2023,79(8):8611-8633.

[53]Henderson M, Casanueva I, Mrkic' N, et al. Convert: efficient and accurate conversational representations from transformers[EB/OL].(2020-04-29).https://arxiv.org/abs/1911.03688.

[54]Henderson M, Vulic' I, Gerz D, et al. Training neural response selection for task-oriented dialogue systems[EB/OL].(2019-06-07).https://arxiv.org/abs/1906.01543.

[55]Miao Yisheng, Zhang Liu. Emotional dialogue generation with emotion embedding[C]//Proc of the 5th International Conference on Advanced Electronic Materials,Computers and Software Engineering.Piscataway,NJ:IEEE Press,2022:201-205.

[56]Sordoni A, Galley M, Auli M, et al. A neural network approach to context-sensitive generation of conversational responses[EB/OL].(2015-06-22).https://arxiv.org/abs/1506.06714.

[57]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://ar-xiv.org/abs/1409.0473.

[58]Serban I, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:3295-3301.

[59]Zhang Yizhe, Sun Siqi, Galley M, et al. DialoGPT: large-scale ge-nerative pre-training for conversational response generation[EB/OL].(2020-05-02).https://arxiv.org/abs/1911.00536.

[60]Zhao Xueliang, Wu Wei, Xu Can, et al. Knowledge-grounded dialogue generation with pre-trained language models[EB/OL].(2020-10-17).https://arxiv.org/abs/2010.08824.

[61]Liu Ye, Maier W, Minker W, et al. Empathetic dialogue generation with pre-trained RobERTa-GPT2 and external knowledge[M]//Sto-yanchev S, Ultes S, Li H. Conversational AI for Natural Human-Centric Interaction.Singapore:Springer,2022:67-81.

[62]Chen Ensi, Zhao Huan, Li Bo, et al. Affective feature knowledge interaction for empathetic conversation generation[J].Connection Science,2022,34(1):2559-2576.

[63]Qian Yushan, Wang Bo, Lin T E, et al. Empathetic response generation via emotion cause transition graph[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Pisca-taway,NJ:IEEE Press,2023:1-5.

[64]Cai Linqin, Dong J, Wei Min. Multi-modal emotion recognition from speech and facial expression based on deep learning[C]//Proc of Chinese Automation Congress.Piscataway,NJ:IEEE Press,2020:5726-5729.

[65]Dong Danyang, Ji Ruirui, Mei Yuan. Dual-sequence LSTM multimodal emotion recognition based on attention mechanism[C]//Proc of China Intelligent Robotics Annual Conference.Berlin:Springer,2022:145-157.

[66]Martin O, Kotsia I, Macq B, et al. The enterface05 audio-visual emotion database[C]//Proc of the 22nd International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2006:8.

[67]Liu Zheng, Kang Xin, Ren Fuji. Dual-TBNet: improving the robustness of speech features via dual-transformer-BiLSTM for speech emotion recognition[J].IEEE/ACM Trans on Audio, Speech, and Language Processing,2023,31:2193-2203.

[68]Firdaus M, Singh G V, Ekbal A, et al. Affect-GCN:a multimodal graph convolutional network for multi-emotion with intensity recognition and sentiment analysis in dialogues[J/OL].Multimedia Tools and Applications.(2023-04-27)[2023-06-26].https://doi.org/10.1007/s11042-023-14885-1.

[69]Rashkin H, Smith E M, Li M, et al. Towards empathetic open-domain conversation models: a new benchmark and dataset[EB/OL].(2019-08-28).https://arxiv.org/abs/1811.00207.

[70]Chen Yirong, Fan Weiquan, Xing Xiaofen, et al. CPED:a large-scale Chinese personalized and emotional dialogue dataset for conversational AI[EB/OL].(2022-05-29).https://arxiv.org/abs/2205.14727.

[71]Li Yanran, Li Ke, Ning Hongke, et al. Towards an online empathetic chatbot with emotion causes[C]//Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2021:2041-2045.

[72]Liu Siyang, Zheng Chujie, Demasi O, et al. Towards emotional support dialog systems[EB/OL].(2021-06-02).https://arxiv.org/abs/2106.01144.

[73]Li Yanran, Su Hui, Shen Xiaoyu, et al. Dailydialog: a manually labelled multi-turn dialogue dataset[EB/OL].(2017-10-11).https://arxiv.org/abs/1710.03957.

[74]Zhu Yukun, Kiros R, Zemel R, et al. Aligning books and movies: towards story-like visual explanations by watching movies and reading books[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:19-27.

[75]Zhang Saizheng, Dinan E, Urbanek J, et al. Personalizing dialogue agents: I have a dog, do you have pets too?[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2204-2213.

[76]Wu Yu, Wu Wei, Xing Chen, et al. Sequential matching network:a new architecture for multi-turn response selection in retrieval-based chatbots[EB/OL].(2017-05-15).https://arxiv.org/abs/1612.01627.

[77]Poria S, Hazarika D, Majumder N, et al. MELD:a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].(2019-06-04).https://arxiv.org/abs/1810.02508.

[78]Zadeh A A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild:Cmu-mosei dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2236-2246.

[79]Zang Xiaoxue, Liu Lijuan, Wang Maria, et al. PhotoChat:a human-human dialogue dataset with photo sharing behavior for joint image-text modeling[EB/OL].(2021-07-06).https://arxiv.org/abs/2108.01453.

[80]Busso C, Bulut M, Lee C C, et al. IEMOCAP:interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.

[81]Lin C Y. ROUGE: a package for automatic evaluation of summaries[M]//Text Summarization Branches Out.Stroudsburg,PA:Association for Computational Linguistics,2004:74-81.

[82]Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg, PA: Association for Computational Linguistics,2005:65-72.

[83]Tang Zhihao, Wu Xiaowei, Zhang Yuhao, et al. Towards a better understanding of randomized greedy matching[C]//Proc of the 52nd Annual ACM SIGACT Symposium on Theory of Computing.New York:ACM Press,2020:1097-1110.

[84]Wieting J, Bansal M, Gimpel K, et al. Towards universal paraphrastic sentence embeddings[EB/OL].(2016-03-04).https://arxiv.org/abs/1511.08198.

[85]Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J].The Journal of Machine Learning Research,2000,3:1137-1155.

[86]Zen H, Tokuda K, Kitamura T. Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences[J].Computer Speech & Language,2007,21(1):153-173.

[87]Jurccek F, Keizer S, Gaic M, et al. Real user evaluation of spoken dialogue systems using Amazon Mechanical Turk[C]//Proc of the 12th Annual Conference of the International Speech Communication Association.2011:3061-3604.