情感隐喻计算及其应用研究

2015-03-20 08:03林鸿飞张冬瑜郑朴琪
大连理工大学学报 2015年6期
关键词:源域语料隐喻

林鸿飞,张冬瑜,杨 亮,郑朴琪

(大连理工大学 计算机科学与技术学院,辽宁 大连 116024)

0 引 言

人工智能是一门致力于赋予计算机拥有人类智慧的学科,旨在让计算机既具有超越人类的感知计算能力,同时又能够具有较好的情感交流能力.为了让计算机理解人类的情感,需要深入了解和挖掘人类自身的情感特征,而情感隐喻是人类情感表达的重要方式.在此背景下,情感隐喻计算的研究具有重要的理论和应用价值.

随着互联网的蓬勃发展,特别是微博、论坛、社交网站等网络媒介的迅速崛起,公众广泛参与到社会事件、政治活动、产品服务等方面的评论中,由此产生了海量具有丰富情感倾向的评价性信息.这些信息往往含有大量的隐喻,人们迫切希望计算机能够快速地分析和处理这些文本评论所传递的情感,从而满足产品销售、舆情监控以及信息预测等方面的需求.

隐喻不仅在语言交流中占有重要地位,也是人们理解抽象概念的主要方式,人们常常使用隐喻对难以描述的未知概念进行认知与表达[1].例如,在隐喻句“时间是金钱”中,通过“金钱”这个熟悉而具体的源域概念实现了对“时间”这个抽象目标域概念的表述.基于生理体验的人类情感也是一种抽象、难以描述的概念,通常需要用隐喻来表达[2].

一般来说,隐喻有两种情感表达方式[3]:一是用隐喻直接描写情感,指用隐喻描写情感状态和行为.例如使用隐喻句“He was boiling inside”“他的肺要气炸了”来表达“生气”的情感;“I′m feeling down”“她整日以泪洗面”来表示“伤心”;“She beamed with pleasure”“小明顿时心花怒放”来表达“高兴”.二是通过隐喻构建情感,即用隐喻观察、传递、构建情感.例如“整条马路都瘫痪了”“会议引发了一场暴风雨”“Lisa is a peach”.这些隐喻虽然不是对情感的直接描述,但是却传递出了“焦虑”“厌恶”“喜爱”等情感.情感隐喻是用以描述或构建情感的隐喻[2],它们比“生气”“伤心”“高兴”等对情感的直接表达更加生动、形象,是情感概念建立与表达的主要方式.

日常交流中每3 个句子就会出现一句隐喻[4],隐喻的普遍性以及在情感表达中的重要地位决定了情感隐喻计算研究的重要性.然而情感隐喻属于思维领域[5],认知的特性决定了其计算模型和方法需要模拟人类智能,对诸如“How can I kill a process”“她是只母老虎”这样具有非字面义(non-literal meaning)的语言进行分析和解释.因此,情感隐喻计算是自然语言处理及人工智能研究面临的一项棘手任务和严峻挑战,是情感计算向纵深发展的关键问题之一.

情感隐喻的研究开始于Lakoff等的《我们赖以生存的隐喻》[1],距今已经有30多年的历史,期间涌现了大批学者和研究成果.尤其最近十余年,随着互联网技术迅猛发展和人工智能的迫切需求,隐喻及情感计算研究有了很大的进展.学者们重视隐喻在思维和语言中的核心地位,提出了大量隐喻计算模型以及隐喻的情感分析方法.由此,情感隐喻计算开始了全新的探索并取得了很多有价值的成果,但同时也面临着巨大的困难和挑战.

基于上述分析,可以认为对于情感隐喻的计算应以认知语言学为理论指导,以情感词汇本体、情感常识库、情感隐喻知识库等为基础,以机器学习、自然语言处理、文本挖掘等方法为技术支撑,实现由定性到定量的情感隐喻分析与计算,从而辅助相关隐喻研究者开展相应的工作,提高隐喻识别和理解的效率与精度.

本文首先对情感隐喻计算的发展历程加以梳理,然后从相关情感隐喻理论基础出发,从资源建设、隐喻的识别与理解、情感隐喻识别与理解三个方面总结和分析情感隐喻计算的研究进展,并探讨情感隐喻计算研究的应用,最后提出面临的挑战和对未来的展望.

1 历史回顾

1.1 初始阶段

这个阶段从两千多年前的亚里士多德时期一直到20世纪的七八十年代,以隐喻的语言学研究为主要成果,构建了隐喻本质和工作机制等主要理论框架.早在两千多年前的亚里士多德时期,隐喻被看作是用一种事物替代另一种事物的修辞现象,这种修辞观在隐喻研究中占据了长期的统治地位.直到20世纪七八十年代,以Lakoff为代表的学者们从认知语言学角度对隐喻进行了研究,指出人类思维的概念体系是通过以人体体验为基础的隐喻建立起来的,把隐喻看作是对抽象、复杂的情感进行概念化的重要手段.其中以Lakoff的《我们赖以生存的隐喻》以及Ricoeur[6]、Ortony[7]等学者的论著为主要代表.对情感隐喻进行深入研究并做出突出贡献的是语言学家Kvecses,他以Lakoff的概念隐喻理论为框架,发展和完善了情感隐喻相关的理论和研究方法[8].Lakoff建立在认知基础上的隐喻理论几乎渗透到了隐喻研究的每个学科和领域,成为当代隐喻研究最重要的理论依据.

1.2 形成阶段

从20世纪的80年代到21世纪初,隐喻的跨学科研究越来越广泛和深入,尤其是自然语言处理的不断成熟,隐喻自动处理研究正式开始并形成了基本的计算思路和框架.这个时期出现了许多隐喻自动处理和情感分析的技术和方法,其中以基于知识和基于统计为两种主要方法,并且开展了通用的语义知识库以及专门的隐喻知识库语料资源建设研究.例如WordNet[9]是通用知识库的代表,组织了词汇语义信息及其相互关系;专门的隐喻知识库包括 Master Metaphor List(MML)[10]等.

“情感计算”是由美国麻省理工学院的Picard在1997 年提出的研究领域[11],当初主要关注图像识别领域的人脸表情识别.后来随着互联网的迅速发展,逐步扩展到文本情感计算,主要通过文本包含的情感语义因素进行情感分析,而对于隐喻的情感计算研究还没有开展.语料资源建设也以手工构建为主,规模较小,缺乏隐喻知识自动获取及推理等功能.

1.3 发展阶段

进入21世纪以来,随着自然语言处理、人工智能技术的突飞猛进以及情感计算研究的深入,基于隐喻语料库的统计研究方法相对于手工构建规则的方法表现出越来越强劲的优势和发展势头,学者们提出了基于统计技术的隐喻计算模型和方法[12-14],隐喻的情感计算研究也逐步展开[15].具体地说,词汇语义及词汇获取技术的提高使准确获取语料库中的词汇、领域、关系等信息变为可能,再加上机器学习性能的改善,大规模情感隐喻自动处理具有了新的方法和途径.

与传统的基于手工构建知识的方法相比,基于统计的方法更加高效、准确、稳定,还可以处理大规模数据,情感隐喻语料资源的规模进一步扩大.隐喻计算和情感计算研究虽然都取得了进展,但是两者结合的情感隐喻计算研究缺乏,情感隐喻计算研究仍处在初步探索阶段[16-19]:大部分隐喻识别与理解研究仍局限于某一领域或者特定类型的语篇;面向隐喻的情感计算多数停留在对情感隐喻褒贬的分析上而缺少喜怒哀乐等多类别情感的研究;情感隐喻的语料资源建设数量不足,尤其在隐喻的情感标注等方面缺乏系统、深入研究.

在这个阶段,情感隐喻计算得到了一些会议、期刊和组织机构的关注.国际著名的计算语言学会议ACL从2012年起主办了关于自然语言处理技术下隐喻计算模型专题研讨会,至今举办三届,收录了关于隐喻语料标注、隐喻情感计算模型以及隐喻情感特征提取等研究成果.一些自然语言处理的著名国际会议EMNLP、LREC 以及人工智能领域的AAAI、ACII、HCI等最近几年都出现了隐喻及情感计算相关主题研讨会.国内外许多大学和研究机构也广泛开展了情感计算研究,例如欧洲的日内瓦大学、伯明翰大学、约克大学、飞利浦公司;美国的卡内基梅隆大学、麻省理工学院、IBM 公司;日本的东京大学、早稻田大学、索尼公司;国内的北京大学、厦门大学、浙江大学、哈尔滨工业大学等.另外,值得注意的是近几年的公共评测,推动了情感隐喻计算方法的进步.ACL在2015年组织的语义评测中首次加入了Twitter中比喻性语言的情感分析任务;著名的国际文本检索会议(TREC)以及亚洲语言信息检索评测会议(NTCIR)每年都有情感分析相关任务;国内第一个中文情感分析评测COAE 开始于2008年,极大地促进了中文情感分析的发展.

2 理论基础

2.1 概念隐喻理论

概念隐喻理论认为隐喻是用已知概念理解未知概念的认知过程,其工作机制是从源域到未知概念目标域的映射[1].人类在认知过程中会遇到许多难以描述的复杂概念,这时就会通过隐喻的方式用其他已知概念去理解和构建复杂的未知概念.例如在隐喻“效率是生命”中,就是利用“生命”去解释“效率”这个概念,“生命”的属性诸如“珍贵”通过映射的方式延伸到了“效率”的概念上.隐喻映射的基本表达式是“X is Y”,其中X 代表未知概念,Y 代表已知概念.“X is Y”,即用Y 来构建概念X 的时候,是把Y 的概念结构映射到了X上.事实上,X 映射的只是Y 的部分而非全部属性,至于映射与Y 的哪部分属性相关由经验知识、文化、语境等因素决定.Lakoff等[20]把隐喻源域到目标域概念结构的映射分为源域结构的位置、源域的关系、源域的属性和源域的知识.例如,在“LIFE IS A JOURNEY”这个概念隐喻中包含了如图1所示的映射.

图1 概念隐喻映射LIFE IS A JOURNEYFig.1 Mapping of conceptual metaphor LIFE IS A JOURNEY

2.2 情感隐喻理论

情感建立在人类体验的基础上,是认知过程中重要的组成部分[2].然而情感抽象且丰富,诸如喜、怒、哀、乐等情感很难表达与描述.在这种情况下,人们常常把情感隐喻化,使用隐喻描述与表达抽象的情感.例如“怒发冲冠”“跑断腿”“眉开眼笑”“I′m six feet off the ground”等.因此,以人类经验为前提的情感隐喻是将抽象、模糊情感概念化的主要方式.情感隐喻主要分为两类:一类是情感的隐喻构建,即用隐喻观察、传递、构建情感,隐喻并不是对某种情感的直接描述,例如“这是部让我这辈子都不想再进电影院的电影”;另一类是情感的隐喻表达,即用隐喻描写情感状态和情感行为,例如“She got red with anger”.

人类具有很多共同的生理机制和心理体验,因此以人体体验为基础的情感隐喻在不同语言中具有相似的概念映射系统[5].例如英语和汉语都存在以“体温下降”作为“恐惧”情感的隐喻,因此出现了“她的话使他不寒而栗”“他吓得手脚冰凉”“The story chills my blood”等隐喻表达.研究显示,人类语言分享着很多基本相同的情感概念隐喻[2].语言学家Kvecses[21]在对多种语言大量分析的基础上对情感隐喻共性以及跨语言与文化的多样性进行了广泛深入研究,依据心理状态概括总结了体温变化、皮肤颜色(状态)变化、身体动作等七大类基本情感概念隐喻.

3 资源建设

3.1 Master Metaphor List(MML)

Master Metaphor List[10]是一个以情感和心理为主要方面的隐喻数据库,包括203个隐喻映射以及对应的隐喻实例.数据库中的映射以本体的方式组织(例如,隐喻“Anger is hot fluid in a container”是更加普遍的隐喻“Anger is heat”的特殊示例),从出版文献、在线论坛以及学生作文中收集隐喻实例,手工编辑而成.

数据库包括心理事件(mental events)、情感(emotions)、事件结构(event structure)和其他(others)4个隐喻范畴.在此范畴下根据隐喻的目标域划分为69个词条以及词条下的203个隐喻类别及映射.在情感(emotions)隐喻范畴中,共有愤怒(anger)、爱(love)等6个词条.词条下的隐喻类别又包括源域、目标域、例句和注释,个别类别中还有特殊情况下的子类别(special sub-case).

例如,在词条“EMOTION”下的“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”类别示例如图2所示.

该示例由6 个部分组成.首先是词条“EMOTION”下的隐喻类别“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”,然后列出了8个例句以及此类隐喻的源域(Source domain)和目标域(Target domain).注释对此类隐喻的来源和相关类别进行了解释说明,最后还列出参考书目.

图2 词条示例Fig.2 Demo of lexical item

Master Metaphor List(MML)以概念隐喻理论为指导,对隐喻进行了较为清晰、系统的分类与解释,是较容易理解的概念隐喻资源.因此,大量隐喻计算研究以MML 为基础展开,同时很多隐喻数据资源在建设中都借鉴了MML的理论和方法,其中包括MetaBank、Metalude、Hamburg Metaphor Database等许多有影响力的隐喻数据库.但是MML中对映射的理论框架并不明晰,并且根据专家的直觉建立隐喻概念,缺少充足的词汇证据证明其重要性,这导致了诸如情感概念化等结论令人质疑.另外,MML 情感隐喻的目标域概念中只包含了生气、爱、希望等最基本类别,划分层级过于粗略;虽然源域概念相对较多(34个),但是也没有更细层级的划分.

3.2 Metalude

Metalude[22]是一个包括9 000多个词条的英语隐喻在线交互语料库.与MML 相同,Metalude也是以概念隐喻理论为基础,根据源域和目标域来排列和组织语料库中的隐喻.其语料主要来源于 The Oxford English Dictionary、 Collins COBUILD English Dictionary、 Cambridge International Dictionary of English等英语词典.Metalude最大的特点是其收集的隐喻都是已经固定的/词汇化的隐喻,这点与MML凭借知觉的隐喻研究完全不同.Metalude根据词汇学理论对“词汇化隐喻”制定了严格的识别标准:所收录词汇必须在当代英语词典中有隐喻义项出现,收录的隐喻基本类别出现在词典中的词汇数目不能少于6个,并且这些词汇在Cobuild Bank 英语数据库中出现的频率至少要达到200次.

Metalude把隐喻目标域分为6个基本类,源域分为4个基本类,此外目标域和源域还包括不同层级的子类别.

目标域6 个基本类:(1)价值、数量、质量(values,quantities &qualities);(2)情感、经验、关系 (emotions,experience & relationship);(3)思维、言语(thinking &speaking);(4)活动、运动(activity & movement);(5)人类、人类感知、社会(human,senses &society);(6)事物、物质(things &substances).

源域4个基本类:(1)事物和物质(things &substances),包括物体、植物、物质、金钱、液体、食物等;(2)人体、动物和感觉(human body,animal &senses);(3)活动和运动(activity &movement);(4)位置和空间(place &space).例如,“情感是空间”就是源域与目标域基本类别构成的概念隐喻,此概念下又包括源域为“上下”的4类情感隐喻“情感是高”“高兴是高”“伤心是低”“平静是平衡”以及相应的例句.如图3所示(坐标的列是目标域基本类,坐标的行是源域基本类).每个隐喻类别下又包含若干词条,词条由字面义、隐喻义、词性、实例等信息组成.

图3 Metalude的源域和目标域的基本类Fig.3 The root analogy of source and target domain in Metalude

Metalude从概念和词汇两个层次标注了语料,对隐喻的源域和目标域进行了较为细致的划分,并且词条的字面意义和隐喻意义都有中文标注,非常有利于中英隐喻对比研究以及面向中国学生的英语教学.但是,构建初期在词汇数据收集的时候,对于隐喻类别项的选择过分依赖认知科学理论而忽视了隐喻的语义网络,因此Metalude中隐喻类别的选择和划分还不够系统.并且由于该语料库的构建目的之一是帮助英语学习者的词汇学习,所以规定每个基本类别所辖的词条不超过50个,这样就不得不减少一些类别中具有价值的词条.在这种情况下,各类别下词条的数量设置也不够完善.

3.3 Hamburg Metaphor Database(HMD)

Hamburg Metaphor Database[23]是一个包含了1 656个隐喻实例的法、德双语隐喻知识库.语料主要来源于一些特定领域的报纸等媒体资源,从概念和词汇两个方面进行语料标注.其中的概念隐喻标注部分以Master Metaphor List为基础并加以扩充,使用WordNet数据库作为词汇标注的资源.HMD 建设项目从2002年开始,初期160多条实例由汉堡大学的硕士研究生手工编辑,按照概念隐喻的基本框架对法语和德语隐喻源域和目标域进行了对应的翻译和标注.

起初的目标并不是为了自然语言处理提供数据资源,而是用于社会语言学的研究.后来HMD在隐喻实例概念标注的基础上增加了词汇标注,并开发了自动标注技术,获取1 000多条新增隐喻实例,并逐渐发展为主要服务于隐喻计算的语料资源.

HMD 的标注结构如图4所示.从图中可以看出,HMD 标注了隐喻实例的来源信息,包括语料库中书籍、刊物的作者、标题、卷号、页数、出版日和文件名,文章来源信息的作者、标题、年份、地址、出版者等信息.给隐喻实行编号,并标注语言类型、实例、隐喻词、隐喻意义、字面意义、源域和目标域.其中源域和目标域的标注使用了两套标签,一套是根据MML 的概念隐喻建立的英语标签,另一套是对应的德语或者法语标签.

图4 HMD 标注结构Fig.4 HMD label structure

HMD 使用德语和法语语料建设资源,是隐喻资源建设跨语言研究的代表.但是由于文化等原因,概念隐喻在不同语言中存在着不对应的问题.例如,HMD 构建中发现,德语的概念域标签有时会比英语的Master Metaphor List 更加具体,甚至有时候在德语语料库中发现的隐喻概念在MML中根本不存在.尤其对于表述社会团体的概念较为常见,例如,德语的概念隐喻“政党是家庭”在英语的MML数据库中并不存在.

3.4 VU Amsterdam Metaphor Corpus

作为BNC Baby语料库的子库,VU Amsterdam Metaphor Corpus[24]是目前规模最大的手工标注隐喻语料库.它在2010年10月完成语料标注,包括新闻文本、学术文本、小说和会话4种体裁,规模达到200 000个英语单词.VU Amsterdam Metaphor Corpus从语言方面对隐喻词汇进行了标注,并没有涉及隐喻概念标注.按照隐喻标记词(例如like、as等)的有无对语料库中的隐喻进行分类和组织,并把“拟人”单独列为一项隐喻类别.

Pragglejaz Group在标注中设计了一套隐喻识别程序 MIPVU (Metaphor Identification Procedure VU),依据严格的词汇界定及词义的字典释义对隐喻进行字面义与隐喻义的划分并进行系统识别.这是在他们以前的MIP识别程序基础上的改进和补充,利用Fleiss′Kappa统计分析方法得出其标注一致性达到了0.85.

VU Amsterdam Metaphor Corpus已经广泛应用到隐喻计算的研究中,并对俄语等其他语言的隐喻语料库标注起到了指导作用.其中的隐喻识别程序MIPVU 降低了隐喻识别中的主观性,也得到了广泛的应用.但是研究仍然停留在语言层面上,并没有对隐喻在概念层面上的识别给予关注.

3.5 SentiWordNet

SentiWordNet[25]是一个面向情感分类和观点挖掘应用的开源词汇资源.从SentiWordNet 1.0到升级版的SentiWordNet 3.0,目前全世界已有超过300个研究组织得到授权,在各种情感研究课题中使用.SentiWordNet 是 在SentiWordNet同义词集自动标注的基础上建立起来的.每个同义词集都包含褒、贬、中性3个级别及每个级别下的得分pos(s)、neg(s)和obj(s).每个得分在[0,1.0].具有多种语义的词语可能具有不同的级别和得分,其得分总和为1.例如在形容词“estimable”语义为“may be computed or estimated”的同义词集中的情感标注为中性得分1.0,贬0,褒0;然而在语义为“deserving of respect or high regard”的同义词集中为褒0.75,贬0,中性0.25.

该词典为情感分析提供了重要的资源,但是情感分类仍简单划分为褒、贬、中性,缺少更细致的情感划分.

3.6 中文情感语义资源建设

中文的情感语义资源随着中文信息处理技术和情感分析技术的发展,也获得较为长足的发展,从无到有,主要体现在北京大学的“汉语概念词典CCD[26]”,Dong 等 的“知 网Hownet[27]”,台湾大学的“情感极性词典NTUSD”[28],大连理工大学的“情感词汇本体[29]”“情感语料库[30]”“情感常识知识库[31]”等一系列情感语义资源,初步解决了情感分类的语义基础,但是对于隐喻的情感分析所需要的知识体系更为复杂和精细,构建的成本更大,牵涉到认知科学、语言学和计算机科学,造成目前的汉语情感隐喻的知识库和评测语料极度缺乏.

4 情感隐喻识别与理解

情感隐喻识别与理解是情感隐喻计算的主要部分,重点研究作者如何通过隐喻把文本话题的情感传递给读者,是一种更具挑战性的情感计算研究.与字面语言相比,隐喻是典型的非字面表达,常常通过隐晦、间接的语言表达情感.例如在句子“你就是个备胎”中,并没有情感词汇出现,“备胎”的字面义也没有情感因素,但是其隐喻义“排在第二的情人”却能传递出说话者不满、生气的负面情感.如果再去考虑隐喻出现的语境或者作者对于目标域概念的态度,情感隐喻计算将更具挑战性.

目前情感隐喻识别和理解处在刚刚起步阶段,对词汇特征关注较多,以识别和理解本体、喻体语义的矛盾冲突为总体思路,包括基于语义知识和基于机器学习两种主要方法.基于语义知识方法的基本思路是把情感隐喻知识和规则形式化为语义分析器,可以对输入情感隐喻进行分析和理解.基于机器学习的基本思路是从大规模语料资源中“学习”领域知识,从而进行情感隐喻识别或实现以源域与目标域间相似度计算为基础的情感隐喻理解.早期研究中基于语义的方法较多,近10年来随着机器学习的飞速发展,基于机器学习的方法在情感隐喻计算中得到了较快的发展.下面对主要工作加以简单回顾.

4.1 基于语义知识的方法

Fass[32]是最早对隐喻文本识别技术进行研究的学者之一,在Wilks[33]有关语义选择优先中断工作的基础上,手工构建语义选择限制知识,判断字面意思和语境意思是否存在语义上的冲突,从而完成隐喻识别.例如,在句子“My car drinks gasoline”中,动词“drink”的主语应该是具有生命的语义类,而“my car”是没有生命的,句子主语和谓语产生了语义冲突,据此识别为隐喻.Fass开发了一个met* 系统,能够对字面义、隐喻、转喻和异常进行区分.该系统首先根据是否违反语义选择限制判断是字面义还是非字面义,在非字面义的情况下,继续使用手工构建的语义限制(例如container for content),检验是否是转喻或者具有转喻关系.如果系统不能识别出转喻,就继续在知识库中寻找隐喻或者隐喻关系.例如,句子“My car drinks gasoline”的框架结构可以表示为(car,drink,gasoline),因为car并不具有animal语义下位关系,所以不能满足优先语义的框架(animal,drink,liquid).另外,系统在非转喻和隐喻的情况下,会给出语义异常类的辨别结果.Fass的方法依靠手工构建的语义选择限制知识,其规模有限.

在最近的研究中,Wilks等[34]改进了Fass的方法,从词典VerbNet和WordNet中获取语义优选知识,自动识别那些已经固定的、词汇化的隐喻.这种方法假设一个单词在WordNet中的首要(最主要)词义并不是它在所在句子的语境词义,但是有一个WordNet中的次要词义满足该词的语境,那么这个词就是隐喻用法,WordNet中的次要词义就是它的隐喻义.例如在句子“She married a brick”中,“brick”的首要词义是“a physical object”,而“marry”的语义优先选择应该是“people”,但是“brick”的第二个词义是“a reliable person”,满足优选语义,判定为隐喻,“a reliable person”为隐喻义.Wilks等使用语义分类器识别词典注释中动词的名词主题和它们的语义角色,从而提取出WordNet中上位词,并把它们定义为语义优选.与手工构建语义知识相比,这种方法自动获得语义优选限制,但是这种依靠词典中词义注释顺序的方法有时候并不准确.例如,有些词在WordNet中的首要词义就是隐喻的词义,而第二词义才是字面意思,此外Wilks等对自己工作的评价是没有对隐喻和转喻进行区分.

Strzalkowski等[35]从词汇和语义特征两个方面对情感隐喻进行了研究.隐喻映射被划分为概念和关系两种主要表达方式.概念包括源域概念和目标域概念,关系是指从源域中“借用”到目标域的概念.例如,在隐喻“Government regulations are crushing small businesses”中,句子主语“government regulations”和谓语动词“crush”产生了语义冲突,crush是从源域概念(例如physical burden)中借用的动词应用到目标域概念中,这种隐喻映射表达被称为“关系”表达式.据此,Strzalkowski等把目标域和源域(概念或者关系)的隐喻表达分别根据情感词典划分出情感,再通过社会语言学理论基础上建立的模型Affect Calculus识别整个隐喻句子的情感极性.实验表明这种方法对于本体的情感为中性(neutral)的情感隐喻识别具有较高的准确率,但对情感词典依赖性较大,并且是对隐喻内部的情感识别,对于语境等因素没有考虑.

4.2 基于机器学习的方法

Zhang等[36]对几种特别类型隐喻表达的情感进行研究,包括:实体隐喻(即概念隐喻“情感是实体”下的隐喻表达,例如“Anger ran through me”“Fear drags me down”);食物隐喻(即概念隐喻“情感是食物”下的隐喻表达,例如“X is a pizza”);动物隐喻(即概念隐喻“情感是动物”下的隐喻表达,例如“Lisa is a pig”);愤怒隐喻(即概念隐喻“愤怒是容器里液体中的热”下的隐喻表达,例如“She exploded completely”);尺寸隐喻(即隐喻中传递情感的尺寸的形容词,例如“Shut your big fat mouth”).其基本思路是在句法和语义分析基础上,使用包括决策树、朴素贝叶斯、支持向量机的机器学习方法,并根据WordNet和WordNet-affect词典中的领域知识辨别语义和情感等信息.以“实体隐喻”为例,对于句子“Anger runs through me”,Rasp句法识别工具首先识别出句子的结构“nnl(a singular common noun subject:anger)+vvz(present-tense lexical verb phrase:runs)+ppiol(object:me)”,并把主语名词“anger”送到语义词典中,然后句子的语义和句法结构就被标记出来“e3-(semantic tag:anger)+vvza(runs)+ppiol(me)”.标注的句子作为分类器(决策树、朴素贝叶斯、支持向量机)的训练集,用于识别此类型的隐喻表达.然后识别出的隐喻表达通过WordNet-affect的情感领域标签进行情感处理.例如,当分类器识别出输入句子“Panic is dragging me down”为实体隐喻类型后,再使用WordNet-affect辨别其主语“panic”的情感为“害怕”“负面情感”,即panic:fear(negative emotion).Zhang等尝试了对多种类型的情感隐喻进行研究,但其概念隐喻并没有考虑文化差异性,其研究对英语之外其他语言并不具有普遍适用性.

Kozareva[37]开展了多语言隐喻情感极性和效价识别研究.从政治演讲、政治相关网站和在线报纸等资源中收集数据,建立了英语、西班牙语、俄语和波斯语4种语言的数据集.其中以句子级别的隐喻句为主,也包括一些短语.一般情况下,其语境定为隐喻句前后的一个句子(最多3个句子).采用人工的方式对隐喻句的情感极性和效价进行标注,其中情感极性分为“正”(positive)、“负”(negative)两种,效价级别从-3 到+3.并且标注者还要提供语境、本体、喻体、比喻部分的信息.然后利用机器学习的方法,把情感极性任务作为分类问题处理.同时参考心理学家关于语境特征和触发词表的研究建立特征集,从隐喻本身、语境和源域、目标域等几方面研究其对于情感的影响.但是其研究仅限于政治管理领域,应用范围较小,情感种类也仅限于褒贬而没有涉及多种类情感.

近年来,深度学习研究方法在许多研究领域取得了不错的效果,其中词嵌入[38]是一种将词表示为连续词向量的技术,其已被广泛用于多个自然语言处理的任务中.然而,词嵌入技术也存在一些弊端,即所得到的词向量的质量依赖于训练的语料,且不能有效地利用结构化数据,缺少语义信息等.最近一些研究表明[39],将语义信息等结构化数据加入词向量训练过程中,可以得到更为高质量的词向量.基于丰富的隐喻语料库资源,可将结构化的隐喻语料知识融入词向量训练过程,使得词向量可以学习到相关隐喻信息,即获取一些概念层面的词义信息.在“学习”了结构化的隐喻语料知识后,根据该词向量间的相似度进行重排序,可以在一定程度上帮助研究者解决隐喻识别和隐喻理解的问题.

此外,语言通常被认为具有明显的树结构,也就是说,在进行语法或语义组合时,通常不是按照词的顺序进行组合,而是先组合语法或语义关系比较近的词或短语.基于以上的语言学理论,在引入深度学习技术处理自然语言问题时,可利用语言的树结构来构建深度神经网络结构,即递归神经网络[40].在隐喻识别方面,很多研究人员采用基于语法搭配的方法进行隐喻识别.而隐喻识别在一定程度上可被看作是语义关系分类任务,用以识别两个距离较远的实体之间的语义关系,它们中间的词往往对序列模型构成干扰,通过结合语句的句法分析树型结构,则有助于排除这些干扰,再结合以句法树结构构造的递归神经网络等相关深度学习模型,可对隐喻较为有效地识别.

5 情感隐喻计算应用

网络评论的急速增加迫切需要利用计算机自动分析处理这些情感信息,这使得情感计算研究得到了广泛的关注和应用.目前的应用领域主要包括智能机器人、用户评论分析、信息预测、舆情监控、问答系统、机器翻译等.但是情感隐喻的应用研究还处于起步阶段,所以下面以机器翻译、问答系统、评论分析为例,对情感隐喻计算的应用前景进行简要论述.

5.1 机器翻译

情感隐喻的识别是机器翻译最棘手的问题之一,目前句子层面的机器翻译主要采用直译的方法,其结果和人工翻译具有很大差距.在机器翻译中融入情感隐喻计算可以很大程度上提升翻译的性能,具体来说,就是在翻译的过程中搭建一个隐喻识别引擎,以情感词汇本体和隐喻本体为基础,以机器学习技术和模式识别方法为手段,将包含隐喻的句子作为输入,对源语言与目标语言的隐喻关系进行匹配和识别,输出隐喻的本体和喻体等信息,从而进一步提升机器翻译的精确性,弥补隐喻内容因直译而带来的歧义,辅助并提升机器翻译的整体性能.

例如“她是父母的掌上明珠”这个隐喻句的百度翻译结果是“She is a pearl in the palm of parents”.由此可以看出,直译的翻译方式不能翻译出像“She is the apple of her parents′eye”这样地道的译句.其根源在于计算机对复杂语言知识和规律认识有限.在这种情况下,情感隐喻语料资源可以让计算机获得人类具有的“知识”,采用以语义为核心的翻译方法,实现从源语到译语语义层面的转换,使机器翻译更加接近人类对语言的理解,从而提高翻译性能.例如,情感隐喻语料资源可以帮助机器翻译实现以下功能:通过英汉喻底建立关联,获取知识库中已有且标注的同喻底隐喻;对输入的隐喻句子进行成分分析,运用实体识别与抽取算法抽取句中对应的本体与喻体信息,并计算该信息与知识库中情感隐喻的语义相似度;根据相似性结果排序,推荐相似性较高的K个翻译结果作为候选结果;引入Frequently Asked Questions(FAQ)机制,即常见的问题项目与对应问题的解答,记录用户的采纳结果,重复利用,实现高质量的情感隐喻的机器翻译.因此,情感隐喻计算研究,尤其是情感隐喻识别在机器翻译中具有广阔的应用前景.

5.2 聊天机器人

聊天机器人是一个用来模拟人类对话或者聊天的程序,作为问答系统的延伸和扩展,聊天机器人不仅需要对用户所提出的问题进行回答,同时要充分地把握用户在聊天中的情感趋势,给出符合用户情感状态的答案,并能够适当对后续聊天中的情感走向进行引导.因此,情感隐喻计算对聊天机器人性能的提升至关重要.例如,聊天机器人需要根据对话内容,理解用户在聊天中所提到的双关语,并根据其隐含的意思给出符合用户心理的回答.

聊天机器人的隐喻理解同样也需要搭建一个情感隐喻识别引擎,该引擎将用户聊天内容作为输入,以情感隐喻的喻底作为输出,充分领会本次会话的上下文信息,同时借助情感隐喻语义资源和各种领域知识,给出相应的回答内容.通过情感隐喻识别引擎聊天机器人能够更深层次地把握用户所关心的话题和情感的变化,从而展开更为人性化的对话.

5.3 评论分析

对于产品或者服务的用户评论分析是情感计算中的应用热点.分析和挖掘用户评论中所蕴含的情感需要借助情感常识库和情感隐喻本体等资源.首先,需要基于这些资源对用户评论中的情感隐喻词汇进行抽取;然后,根据词汇所具有的情感来判别句子整体所具有的情感倾向性,特别是与隐喻相关的情感;最后,从整体上挖掘出用户的情感状态,并根据用户现有状态调整产品和服务的供应,提升用户的满意度.

国内外很多产品评论的海量信息中会有大量情感隐喻存在,例如评论电影时人们会说“真是个鬼才导演!”“国产片的顶配”;对一款旅行社旅游产品可能评论“太腐败了!”.但是目前对于用户评论情感分析基本方法是在自动获取评论的基础上,挖掘出产品主要评价词和属性信息,然后分析处理.据此国内外研发了很多评论情感分析系统:例如对产品网络评价信息进行情感分析,并提供个性推荐[41];对在线购物产品评价意见进行分析和可视化展示[42],根据在线评论的情感分析结果进行广告推荐等[43].由于情感隐喻计算研究刚刚起步,在以上过程中很少有研究关注其中的情感隐喻.这导致了情感计算中因为忽略大量存在的非字面语言——情感隐喻而出现精度问题.因此,情感隐喻计算有助于对网络评论中情感的理解,可以进一步提高人机交互的性能,为用户和制造商提供决策参考.

6 结 语

本文从情感隐喻计算研究历程回顾开始,从情感隐喻资源建设、情感隐喻识别与理解相关研究及应用几个方面论述了情感隐喻计算的研究进展,最后提出以下几点面临的问题和挑战.

(1)情感隐喻分类问题.目前情感隐喻计算中对于情感类别基本上是“褒、贬”的二情感分类,而很少有“喜、怒、哀、乐”等多情感分类研究.然而现实文本中存在着丰富情感,因此要求计算机能够理解甚至生成人类的各种情感.但是由于多类别情感语料的缺乏,多类别情感隐喻计算成为了一项困难的任务和有待解决的问题.

(2)资源建设问题.情感隐喻的认知性决定了它对知识具有很强的依赖性.因此情感语料库、情感词汇本体等资源建设对于情感隐喻计算非常重要.但是目前专门用于情感隐喻计算的资源建设极度缺乏,现有的隐喻资源主要针对普遍出现的概念隐喻,较少考虑到隐喻的情感计算问题.面向情感隐喻计算的资源建设也需要结合语言学研究成果,开展情感隐喻的概念层面和语言层面的研究.目前面临着情感隐喻的特征形式、情感语义标注体系、人工标注的主观性和个体差异等诸多具有挑战性的问题.

(3)文化差异问题.情感隐喻在不同语言和文化中存在显著的差异.语言学家对于情感隐喻在不同文化中的形成机制以及相似性和差异性做了大量研究,但目前这些研究成果并没有广泛应用于情感隐喻计算研究中.因此,利用语言学与心理学研究成果,充分考虑情感隐喻在不同文化中的差异性,建立具有适用性的计算模型将是一个新的课题.

(4)研究方法问题.目前情感隐喻研究仍较为依赖语义关系,基于机器学习的方法主要通过在海量语料中“学习”得到相应的模式或规则,对情感隐喻进行识别,但是缺乏对隐喻的“理解”,缺乏先验知识引导,识别的精度不理想.随着深度学习的兴起,通过深度学习技术对语料中的情感隐喻知识进行“提炼”,可以更好地辅助计算机理解情感隐喻,以指导计算机更为准确地识别情感隐喻,实现情感隐喻的可计算化.

[1] Lakoff G,Johnson M.Metaphors We Live By[M].Chicago:The University of Chicago Press,1980.

[3] Goatly A.Metaphor as resource for the conceptualization and expression of emotion[M]//Ahmad K.Affective Computing and Sentiment Analysis:Emotion,Metaphor and Terminology.Berlin:Springer-Verlag,2011:19-27.

[4] Richards I A.The Philosophy of Rhetoric [M].London:Oxford University Press,1936.

[6] Ricoeur P.The Rule of Metaphor[M].London:Routledge,1978.

[7] Ortony A.Metaphor and Thought[M].Cambridge:Cambridge University Press,1979:72-123.

[9] Miller G A.WordNet:a lexical database for English language[J].Communications of the ACM,1995,38(11):39-41.

[10] Lakoff G,Espenson J,Goldberg A,etal.Master Metaphor List,Second Edition[DB/OL].(1991-01-01)http://araw.mede.uic.edu/~alansz/metaphor/METAPHORLIST.pdf.

[11] Picard R W.Affective Computing[M].Cambridge:MIT Press,1997.

[12] Shutova E.Models of metaphor in NLP [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.East Stroudsburg: Association for Computational Linguistics,2010:688-697.

[13] Shutova E,SUN Lin.Unsupervised metaphor identification using hierarchical graph factorization clustering[C]//Proceedings of NAACL-HLT 2013.Atlanta:ACL,2013:978-988.

[14] 田 嘉,苏 畅,陈怡疆.隐喻计算研究进展[J].软件学报,2015,26(1):40-51.TIAN Jia,SU Chang,CHEN Yi-jiang.Computational metaphor processing[J].Journal of Software,2015,26(1):40-51.(in Chinese)

[15] 林鸿飞,许 侃,任 惠.基于词汇范畴和语义相似的显性情感隐喻识别机制[J].大连理工大学学报,2012,52(5):761-766.LIN Hong-fei,XU Kan,REN Hui.Mechanism of dominant sentimental metaphor identification based on lexical domain and semantic similarity [J].Journal of Dalian University of Technology,2012,52(5):761-766.(in Chinese)

[16] Ghosh A,LI Guo-fu,Veale T,etal.SemEval-2015 task 11:Sentiment analysis of figurative language in Twitter [C]// Proceedings of the International Workshop on Semantic Evaluation.Denver:[s n],2015.

[17] Reyes A,Rosso P.On the difficulty of automatically detecting irony:beyond a simple case of negation [J].Knowledge and Information Systems,2014,40(3):595-614.

[18] Veale T.A context-sensitive,multi-faceted model of lexico-conceptual affect [C]//50th Annual Meeting of the Association for Computational Linguistics,ACL 2012- Proceedings of the Conference.East Stroudsburg:ACL,2012:75-79.

[19] Turney P D,Neuman Y,Assaf D,etal.Literal and metaphorical sense identification through concrete and abstract context[C]//EMNLP 2011-Conference on Empirical Methods in Natural Language Processing,Proceedings of the Conference.East Stroudsburg:ACL,2011.

[20] Lakoff G,Turner M.More Than Cool Reason:A Field Guide to Poetic Metaphor [M].Chicago:University of Chicago Press,1989.

[22] Goatly A,Project LLE,Lingnan University.Metalude—Metaphor at Lingnan University [DB/OL].(2002-01-01)http://www.ln.edu.hk/lle/cwd03/lnproject_chi/introduction.html.

[23] Lonneker-Rodman B.The Hamburg Metaphor Database project:issues in resource creation [J].Language Resources and Evaluation,2008,42(3):293-318.

[24] Steen G J,Dorst A G,Herrmann J B,etal.VU Amsterdam Metaphor Corpus[Z].Oxford:Oxford Text Archives,2010.

[25] Baccianella S,Esuli A,Sebastiani F.SentiWordNet 3.0:An enhanced lexical resource for sentiment analysis and opinion mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation.Valletta:LREC,2010.

[26] 于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002,16(4):12-20.YU Jiang-sheng,YU Shi-wen.The structure of Chinese concept dictionary[J].Journal of Chinese Information Processing,2002,16(4):12-20.(in Chinese)

[27] DONG Qiang,DONG Zhen-dong.Hownet and the Computation of Meaning [M].London:World Scientific Publishing Company,1988.

[28] Ku L W,Lo Y S,Chen H H.Using polarity scores of words for sentence-level opinion extraction[C]// Proceedings of NTCIR-6 Workshop Meeting.Tokyo:NTCIR,2007:316-322.

[29] 徐琳宏,林鸿飞,潘 宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185.XU Lin-hong,LIN Hong-fei,PAN Yu,etal.Constructing the affective lexicon ontology [J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.(in Chinese)

[30] 徐琳宏,林鸿飞,赵 晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122.XU Lin-hong,LIN Hong-fei,ZHAO Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22(1):116-122.(in Chinese)

[31] 陈建美,林鸿飞.中文情感常识知识库的构建[J].情报学报,2009,28(4):492-498.CHEN Jian-mei,LIN Hong-fei.Constructing the affective common sense knowledge base [J].Journal of the China Society for Scientific and Technical Information,2009,28(4):492-498.(in Chinese)

[32] Fass D.met*:A method for discriminating metonymy and metaphor by computer [J].Computational Linguistics,1991,17(1):49-90.

[33] Wilks Y.A preferential pattern-seeking semantics for natural language inference [J].Artificial Intelligence,1975,6(1):53-74.

[34] Wilks Y,Adam D,James A,etal.Automatic metaphor detection using large-scale lexical resources and conventional metaphor extraction[C]//Proceedings of the First Workshop on Metaphor in NLP.Atlanta:NLP,2013:36-44.

[35] Strzalkowski T,Shaikh S,Cho K,etal.Computing effect in metaphors[J].Communications of the ACM,2008,57(1):107-113.

[36] ZHANG Li,Barnden J.Affect and metaphor sensing in virtual drama[J].International Journal of Computer Games Technology,2010:512563.

[37] Kozareva Z.Multilingual affect polarity and valence prediction in metaphor-rich texts[C]//ACL 2013-51st Annual Meeting of the Association for Computational Linguistics,Proceedings of the Conference.East Stroudsburg:ACL,2013.

[38] Mikolov T,Sutskever I,Chen K,etal.Distributed representations of words and phrases and their compositionality [J].Eprint Arxiv,2013:3111-3119.

[39] Rothe S,Schütze H.AutoExtend:Extending word embeddings to embeddings for Synsets and Lexemes[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing:Association for Computational Linguistics,2015.

[40] Mikolov T,Karafiát M,Burget L,etal.Recurrent neural network based language model [C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,INTERSPEECH 2010.Bonn:International Speech Communication Association,2010:1045-1048.

[41] LI Nan,Wu D D.Using text mining and sentiment analysis for online forums hotspot detection and forecast [J].Decision Support Systems,2010,48(2):354-368.

[42] XU Kai-quan,Liao S S,LI Jie-xun,etal.Mining comparative opinions from customer reviews for competitive intelligence [J].Decision Support Systems,2011,50(4):743-754.

[43] QIU Guang,HE Xiao-fei,ZHANG Feng,etal.DASA:Dissatisfaction-oriented advertising based on sentiment analysis [J].Expert Systems with Applications,2010,37(9):6182-6191.

(第55卷卷终)

猜你喜欢
源域语料隐喻
基于参数字典的多源域自适应学习算法
成长是主动选择并负责:《摆渡人》中的隐喻给我们的启示
《活的隐喻》
基于语料调查的“连……都(也)……”出现的语义背景分析
从映射理论视角分析《麦田里的守望者》的成长主题
对《象的失踪》中隐喻的解读
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
德里达论隐喻与摹拟
Reliability assessment consideringdependent competing failure process and shifting-threshold