徐睿峰,邹承天,郑燕珍,徐 军,桂 林,刘 滨,王晓龙
(哈尔滨工业大学 深圳研究生院,广东 深圳518055)
情绪是人类的多种感觉、认知和行为综合的心理和生理状态,是对外界刺激所产生的心理认知和反射以及相应的生理反射和表达。情绪是人类生活的重要内容,因此致力于对人类情绪进行计算机感知和表达的情绪计算是人工智能和智能人机交互等研究的重要内容。考虑到文本中蕴含着精细化的情绪描述,特别是包含了情绪的刺激产生原因、刺激认知结果、情绪状态迁移和情绪外在表达等多方面信息,近年来陆续出现了分析文本中个体情绪状态及迁移、从文本中发现情绪的触发机制和认知结果,以及对个体接收到文本中包含的刺激可能产生的情绪进行预测等方面的研究。这些研究显著提高了情绪计算研究的深度和广度,使其不止限于计算科学领域,更为心理学、认知科学和社会学等研究提供新的动力,因此,文本情绪计算正在成为新的研究热点。
情绪词典是文本情绪计算的重要基础资源。目前典型的情绪词典包含英文中的 WordNet-Affect[1]以及中文的情绪词汇本体库[2]等。对应于六种基本情绪(anger/fear/joy/sadness/disgust/surprise),WordNet-Affect在 WordNet中标注了各类情绪对应词语和同义词集。中文情绪词汇本体库[2],则将情绪分为7个基本大类和21个小类,对词语表达的情绪类别和强度分别进行标注。这些词典有力地推动了文本情绪计算的研究,但在应用中也暴露出一些不足。首先,这些词典通常对描述个体情绪和引发个体情绪的词语未做区分,导致某些词语在作为主体情绪表达输出或者作为主体接收到刺激产生的情绪之间的差异无法一致地记录在词典中。例如,“鄙视”作为主体输出动作时,包含的主要情绪是“厌恶”;而作为主体接受到输入刺激时,激发的主要情绪是“愤怒”。如果不对词语作为个体的输出表达或者个体对输入刺激的认知结果进行区分,显然容易导致标注知识的疏漏或者冲突。其次,这些词典将词语视为一个整体标注,而由于词语语义歧义的存在,往往导致标注结果的歧义。例如,“兴奋”可以表达人的高兴和激动的情绪,也可以描述一种无情绪的神经生理活动。可见现有的基于词语的标注方案存在着一些不足。
为此,在对个体情绪产生、迁移机制及对应的文本表达特点进行分析的基础上,本文提出了一种基于“刺激认知—反射表达”的文本情绪计算框架,并在此框架下对情绪词语的功能和特性进行分析,探索了一种新型情绪词典建设方法。首先,针对词语歧义的问题,引入HowNet的词性和义项信息,将词语转换为按词性和语义区分的多个词条进行标注,以降低标注过程中的歧义。其次,对词语作为情绪表达方式和情绪认知结果的不同角度进行区分,对每个情绪词条进行基于角色的多维度情绪类别和强度标注。此外,对词语的不同情绪表达和情绪认知类型进行了细化分类和标注。目前已完成近1 300个词语的标注工作,通过对词语已标注信息的观察显示,本文提出情绪表达和情绪认知分离的情绪词典建设体系,可以对词语的情绪相关知识进行多角度的描述和表达,可以较好地支持多种文本情绪计算任务。此外,标注工作显示利用HowNet提供的词性和语义区分进行标注可以显著提高标注结果一致性。
情绪词典是文本情绪计算最重要的基础资源。英语中最重要的情绪词典资源是 WordNet-Affect。它是对应于Ekman六种基本情绪,通过选择和标注代表对应情绪概念的WordNet中的相关词语,然后利用WordNet中定义的关系、情绪标签和领域标签之间的相互关系对其进行扩展,找到情绪同义词所在的同义词集并进行扩展,从而得到最终的情绪词典。基于WordNet-Affect,陆续有其他研究将其扩展到其他语言如Bobicev,et al.通过机器翻译得到了罗马尼亚语和俄语的并行情绪词典[3];Torii,et al.直接根据 WordNet-Affect的同义集ID和对应的日语 WordNet创建了日语情绪词典[4];Xu,et al.利用机器翻译和基于对应翻译结果双语图过滤方法创建了中文种子情绪词典,再根据词语相似度计算从同义词词林中扩展该词典,获得词汇量较大、质量较高的中文情绪词典[5]。WordNet-Affect的缺陷在于仅对词语情绪类别进行标注,同时收录的词语多数为描述性情绪词,而从它翻译或扩展而来的词典也并未作更多的表达性类别扩展,因此是不够全面的情绪词典。
徐琳宏和林鸿飞等构建了中文情绪词汇本体库[2],将情绪分为7个基本大类和21个小类。利用相关情绪词典和语义知识库获得候选情绪词,再人工对部分种子词语的情绪类别和强度进行标注,最终使用基于互信息的方法在大规模语料中对所有情绪候选词进行自动情绪标注。该情感词汇本体共27 467个词语,每个词包括了词性、情绪类别、情绪强度值、情感倾向性等信息,该词典较完整地收录了表达性和描述性情绪词,但对同一词语作为情绪表达方式和情绪认知结果的不同功能未做明显区分。
另外一类特殊的情绪词典是情绪认知词典,也就是记录可能诱发个体情绪的词汇。这些词汇可以包含或不包含特定情绪,但会暗示或者诱发某些情绪的产生。Svitlanna Volkova建立颜色情绪词典CLex[6],标注了每一种颜色诱发的情绪,以及潜意识里联想的某一种事物。Saif Mohammad则对情绪诱发词语的歧义进行了研究[7]。
情绪词典资源是情绪计算的基础,而词典标注体系又是由情绪计算框架所决定的,因此要在情绪计算相关研究上有更大的突破,首先需要建立精确合理的情绪计算框架,使得对应的资源建设获得可靠支撑。
情绪心理学和认知科学的研究成果揭示出个体情绪的产生和迁移是由个体对接受到的动作性输入、其他感官输入、评价性输入等直接刺激和非直接作用刺激的认知结果决定的,而认知结果则是对输入刺激的常识性认知以及与个体情绪特质相关的个性化认知共同作用的结果。个体情绪的产生和迁移往往通过表情、动作、评价和其他方式进行反射和表达。“刺激激发认知、认知推动情绪产生和迁移、情绪迁移通过反射输出表达”构成了情绪产生、迁移和表达的基本机制。对应于这个机制,结合文本情绪计算的特点,本文提出了一种基于“刺激认知—反射输出”机制的文本情绪计算框架(图1)。
图1 基于“刺激认知—反射输出”机制的文本情绪计算框架
在此框架下,文本情绪分析研究从文本中识别个体情绪状态或者输出的描述,通过结合情绪表达常识及个体情绪迁移规律评估个体情绪状态的机制及对应计算方法;文本情绪归因研究利用个体情绪状态迁移为线索,从文本中发现和评估引起情绪迁移的刺激和认知的机制及对应计算方法;文本情绪预测研究从文本中识别可能引起个体情绪迁移的输入,利用对输入的情绪认知结果评估个体情绪迁移的趋势和情况的机制及对应计算方法。显然,对应于情绪表达和情绪认知,应分别建立对应的情绪词典。为此,本文探索在此框架下作为情绪表达常识库和情绪认知常识库重要组成的情绪表达词典和情绪认知词典的设计与建设。
3.2.1 初始情绪词表
初始情绪词列表是通过合并多个已有情绪词典获得,主要包括:中文情感词汇本体库[2]、Xu,et al.从WordNet-Affect翻译并从同义词词林中扩展而来的情绪词典[5]、北京大学 Xu,et al.构建的ICL基本情绪词典[8]等获得。对于部分词语不符合本文定义的情绪词典覆盖范围的情况,在标注过程会人工删除这些词语。
3.2.2 利用HowNet信息的词条生成
由于一些词语存在多个词性或者多个词义,而不同词性、词义表达的情绪可能完全不同,所以单独凭借词语本身在很多情况下无法确定情绪标注信息。为此,引入HowNet提供的词性和义项信息对词语本身进行划分,解决一词多义的问题。例如,“严峻”一词,具有相同词性的两个不同的含义,一个是用于形容形势的,而另一个是形容表情的,因此需要对应标注不同的情绪类别。此外,HowNet中对词汇的英语翻译、汉语例句、以及对评价词和情感词倾向性的特殊说明也可以作为人工标注的参考。
3.3.1 情绪表达、情绪认知的基本划分方法
本研究将情绪词划分为情绪表达和情绪认知两个大类。情绪表达是指该词用于描述个体所持有的某种情绪,或者对持有情绪的描述,或者由持有情绪而产生的行为。而情绪认知则指的是该词的作用对象会因为这一词汇所描述内容的刺激的认知结果而产生的情绪。
情绪表达词可细分以下五种情况:
1.个体自身情绪描述,如“悲伤”、“快乐”。
2.个体表情性输出,如“微笑”、“大哭”。
3.个体动作性输出,如“破口大骂”、“怒吼”。
4.个体评价性输出,如“混蛋”、“恶贯满盈”等。
5.特殊个体评价性输出,如“感人”、“美丽”等。
情绪认知则可细分为以下四种情况:
6.个体接受到的动作性输入,如“辱骂”“赞扬”等。
7.个体接受到的非直接作用输入,如“载歌载舞”、“行凶”等。
8.个体接受到评价性输入,如“混蛋”、“垃圾”等。
9.个体自身经历的事件或者承受的状态,如“惨祸”、“失恋”等。
情绪表达和情绪认知词语的基本划分就是围绕这9个类别进行。
3.3.2 情绪词的角色属性
在进一步的研究与试标注的基础中,本文提出将上述9种情绪类型划分按照情绪主体角色属性的不同归纳为以下4类角色类别,分别用ABCD标记。
药品专利链接制度的目的是在仿制药上市前解决潜在的专利侵权纠纷,而“停摆期”的意义在于为纠纷的解决提供必要的时间。其中,“停摆期”时长设置是制度的关键,时间过短难以解决存在的专利纠纷;而时间过长,则又可能不当地延迟仿制药上市时间。从实践情况来看,美国长达30个月的“停摆期”,也不能完全解决专利侵权纠纷。而事实上,即便设置更长时间的“停摆期”,也不可能彻底地解决所有纠纷。因此,在设计“停摆期”时,不应当不切实际地追求在此期间使所有纠纷获得终局结论,而是需要在公平与效率之间取得合理的平衡。
A.发出评价者的情绪:通常是作者或说话人的情绪,包括情绪表达中的“4.个体评价性输出”和“5.特殊个体评价性输出”两类。这两种情况的共同特点是,作者或说话人对其他事物进行了含有主观感情色彩的评价。4类含有的情绪较为明显,可以是说话人的感情宣泄,例如,对于“混蛋”一词,反映了作者的厌恶和愤怒的情绪。而5类别的情绪词所含有的主观感情色彩相对较弱,通常作为客观描述,加上程度副词后带有明确的感情色彩。例如,“这是个感人的故事”作为客观描述是无情绪的,而“真是太感人了”作为主观情绪表达带有明显情绪,类似的词语还有 “悲惨”、“富丽堂皇”等。
B.所属者或被描述者的情绪:包括情绪表达中的“1.个体自身情绪描述”、“2.个体表情性输出”和“3.个体动作性输出”三个类别。这种情况的共同特点是,情绪词是情绪主体所处的状态或发出的动作,对词汇进行标注的情绪内容是该词汇所属主体的情绪。例如,“他悲痛欲绝”、“她怒吼道”。
C.动作、评价、事件、状态受体的情绪:包括情绪认知中的“6.个人接受到的动作性输入”、“8.个体接受到评价性输入”和“9.个体自身经历的事件或者承受的状态”三个类别。类别6与类别8的共同点是情绪词本身是一种由他人发出的动作或作出的评价;类别6与类别9的区别在于类别9是强调自身经历,而类别6是强调由外界施加并且是个体直接接受的动作。例如,被“殴打”的人会感到悲伤和愤怒,被他人评价为“混蛋”通常会产生愤怒等情绪,经历“失恋”通常会产生悲伤、失望、烦闷等情绪,处于“形单影只”状态也会有悲伤等负面情绪。
D.旁观者或读者的情绪:是指事件、动作、状态等的旁观者或者读者所产生的情绪,包括“7.个体接受到的非直接作用输入”。这一类情况的情绪往往不是直接刺激作用于情绪主体而产生的,而是由于感知到的某种情况、状态产生了情绪。文中旁观者或者文章读者结合自己的常识、立场等产生相应的情绪,例如,“敲诈勒索”一词通常会令人产生厌恶和愤怒等情绪。
在情绪词典标注过程中,对每一个情绪词首先要进行其在不同情绪主体角色下对应的9个情绪属性的标注。标注的内容即为3.3.1描述的9种类别的具体标号。通常情况下,一个词往往会兼有以上四种情绪主体角色的情绪类别中的一种或几种,例如,“混蛋”一词的类别标注为4/0/8/7。其含义是,“混蛋”一词的评价发出者、评价接受者以及旁观者或读者都会有某种情绪。其中0代表没有或无法确定这一类别下的情绪,实际标注中通常略去。
上述归纳划分方法在一定程度上解决了表达/认知类别标注混乱的问题,有利于标注者清晰思路和理顺逻辑,从而提高多人标注的一致性,更重要的是,它能为实际应用该词典解决常见情绪研究问题提供可靠的依据。
3.3.3 情绪词标注方案
汉语里一个词往往有多种不同含义和用法,利用词性以及其他HowNet信息有时仍不足以严格地判断一个情绪词需要进行哪些类别情绪内容的标注。例如,作为角色类别A类的用于评价的词,可能是形容词,如“他干得不赖啊”,也可能是名词,如“XX是个混蛋”,甚至可能是动词,如“没完没了地扯皮,把事情都耽误了”。由此可见,需要分别针对各类词性的情绪词制定不同的类别划分方法。在这一问题上,总的原则是尽可能地对词的各种用法进行全面的考量,只要该词有可能被用于符合某个角色类别的情况,就对其在此类别下的具体情绪属性类别及具体情绪内容进行标注。表2是各个词性类别对应情绪角色和情绪属性的例词,如下所示。
表2 词性对应各情绪属性的例词
在确定情绪词所属的类别信息之后还要对其包含的情绪信息的具体内容进行标注。这部分标注包括两方面的内容:情绪类别及其强度。情绪类别指的是通常所说的基本情绪,如快乐、悲伤、愤怒、厌恶等,具体类别划分与大连理工大学的情感词汇本体[2]中使用的体系相一致,共7大类21小类,包括:乐(快乐、安心),好(尊敬、赞扬、相信、喜爱、祝愿),怒(愤怒),哀(悲伤、失望、疚、思),惧(慌、恐惧、羞),恶(烦闷、憎恶、贬责、妒忌、怀疑),惊(惊奇)。在实际标注过程中发现,只有相对少量的描述基本情绪的词具有单一的情绪类别,大部分的词语其内涵情绪都是多种情绪的搭配组合。对于具体每个情绪类别的强度,本文采用0,1,3,5,7,10的数值标注,用数值的大小表示情绪的强烈程度,0表示没有该情绪,10代表情绪的强度极为强烈,1,3,5,7则对应于轻微,小量,明显,强烈的由弱到强的不同强度级别。完成多人标注后,最终的强度值是由多人的标注数值的均值确定。
3.3.5 完整标注示例
综合上述标注体系,一些典型例词的部分实际标注效果如表3所示。
表3 标注实例
续表
3.3.6 词典应用方法
与本研究所构建的情绪词典相比,传统的情绪词典通常并不对情绪的角色属性加以区分,对各种类型的情绪词都应用相同的处理方式。而在实际文本中,由于词语作用的个体不同,针对不同的文本情绪计算任务,每个情绪词所体现出的作用也是不同的。从目前已有情绪研究所涉及的不同角度来看,典型的情况可以分为以下三大类。
1)针对传统的作者情绪分析任务。发挥作用的情绪词主要体现在情绪角色属性为A所标注的内容;
2)针对文本细粒度情绪分析任务。在分析文中角色的情绪内容时主要采用情绪词的角色属性类别为B、C、D;
3)针对读者情绪预测任务。需要重点关注的是情绪词在D类别下标注的情绪内容。
例如,“敲诈勒索”一词,如果需要分析的是文中所描述的“遭到敲诈勒索”的人的情绪,则关注的是该词在C类别下所标注的情绪(在此为情绪属性类别6),即愤怒、恐惧等;而对于读者情绪预测任务则需要重点关注D类别下(即为情绪属性类别7)标注的内容,即贬责、憎恶、愤怒等。
第一阶段标注选取了较典型和明确的情绪词进行标注,借助HowNet中正面情感词、负面情感词的标注信息进行挑选,总计1 259个词语,对应获得1 500个HowNet义项,以下表格为各项标注结果的统计数据。表4是对情绪属性、情绪类别对应的词语数及平均情绪强度值的统计结果。可以发现典型情绪词较多为表示情绪描述的词语,而情绪认知词语使用相对较少,这符合常规语言现象。标注词语中具有较高词语数量的情绪类别主要为:快乐(323)、喜爱(351)、愤怒(310)、悲伤 (566)、烦闷(295)、憎恶(394)、贬责(342),这些是代表了具有明显褒贬倾向的情绪类别,也是在文章中较常表达的情绪。对于主要的情绪属性和情绪类别来说平均情绪强度值分布在3.5~4.5,说明大部分情绪表达均在中等强度水平,太过强烈或者轻微的情绪表达较少。
表5给出已标注词条中情绪属性和词性相关性统计结果。结果显示作为情绪属性4和5的情绪词大部分为形容词,符合评价词多为形容词的特性;作为情绪属性1、2、3的情绪词大部分为动词,符合情绪所属者表达自身情绪多为心理、表情、动作的特性;作为情绪属性6、8的情绪词大部分为动词和形容词,与3和4的词性相对应;作为情绪属性7的情绪词多为动词、形容词,符合读者或旁观者由于动作、评价输出引起相应情绪的特性;作为情绪属性9的情绪词多为动词、名词、形容词,符合表示事件、状态等词语的词性分布。
表4 情绪属性与情绪类别标注分布统计结果(词语数及平均情绪强度值)
表5 情绪属性与词性标注分布统计结果(词语数)
表6给出了已标注词条的词性与情绪属性兼类情况的统计结果。可以发现,由于中文词语表达的多样性和复杂性,情绪属性兼类的情况也比较多。目前出现的各类组合兼类共有19种,现阶段已标注的典型情绪词中主要为类别1.个体自身情绪描述的词语,此类词语较少出现兼类情况。兼类主要分布在类别3/7、4/7、4/7/8、5/7、6/7、7/9之间,并且大部分兼类中都包括属于情绪认知的情绪类别7,代表对读者/旁观者情绪的考虑,而这类标注内容将在情绪预测和基于角色的情绪分析中得到充分的应用和验证,体现了本词典的特性。
表6 词性与情绪属性兼类标注分布统计(词语数)
目前情绪词典的建设已完成标注方案设计和完善,通过多轮试标注,实现了标注体系的不断完善。先后解决了一词多义带来的歧义性、近义词分散带来标注的不一致性、角色观测角度不同带来的不确定性等问题。目前正在第一阶段标注的基础上进行进一步完善标注体系,并逐步完成全部情绪词典标注。
相比现有情绪词典,本文提出的情绪表达和情绪认知分离的情绪词典建设方案可以对词条从不同角度观测到的情绪状态或认知结果及其强度进行区分标注,显著降低了传统情绪词典中由于描述角度不一致带来的问题。同时,基于HowNet词性和义项的标注明显降低了由于词义歧义带来的情绪标注歧义。此外,这种基于义项的标注提高了标注结果的精度和一致性。初步实践显示本文开发的新型情绪词典可以更好地支持多种文本情绪计算相关研究。后期工作将逐渐扩展到更多词汇进行标注,增加标注工作参与人数,利用对标注结果进行多人综合的方法,增强标注可信度。同时计划对大量词汇进行半自动标注,以提高标注效率。
[1]C Strapparava,A Valitutti.WordNet-Affect:An Affective Extension of WordNet [C]// Proceedings of LREC 2004:1103-1106.
[2]徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185.
[3]M Sokolova,V Bobicev.Classification of Emotion Words in Russian and Romanian Languages[C]//Proceedings of RANLP-2009:415-419.
[4]Y Torii,Dipankar D,S Bandyopadhyay,et al.Developing Japanese WordNet Affect for Analyzing Emotions[C]//Proceedings of ACL-WASSA 2011:80-86.
[5]J Xu,R F Xu,et al.Chinese Emotion Lexicon Developing via Multi-lingual Lexical Resources Integration[C]//Proceedings of CICLing 2013:174-182.
[6]Volkova S,Dolan W B,Wilson T.CLex:a Lexicon for Exploring Color,Concept and Emotion Associations in Language[C]//Proceedings of EACL 2012:306-314.
[7]S M Mohammad,P D Turney.Emotions Evoked by Common Words and Phrases:Using Mechanical Turk to Create an Emotion Lexicon [C]//Proceedings of NAACL-HLT 2010Workshop on Computational Approaches to Analysis and Generation of Emotion in Text,2010:26-34.
[8]G Xu,X F Meng,H F Wang.Build Chinese Emotion Lexicons-Using a Graph-based Algorithm and Multiple Resources[C]//Proceedings of COLING 2010:1209-1217.