白振凯,黄孝喜,王荣波,谌志群,王小华
(杭州电子科技大学 认知与智能计算研究所,浙江 杭州 310018)
基于主题模型的汉语动词隐喻识别
白振凯,黄孝喜,王荣波,谌志群,王小华
(杭州电子科技大学 认知与智能计算研究所,浙江 杭州 310018)
隐喻是人类语言不可缺少的组成部分,隐喻处理的好坏将直接影响到自然语言处理和机器翻译的发展,其中隐喻识别作为隐喻处理中基础性的工作,越来越得到研究者们的关注。目前,汉语隐喻识别的研究大部分都集中在短语级别的名词性隐喻的识别上,然而,实际文本中动词性隐喻出现的频率更高,更应该受到更多中文隐喻研究者们的重视。为了提高汉语隐喻的识别率,针对句子级别的汉语动词性隐喻,提出了基于主题模型的识别方法,将主题模型LDA(Latent Dirichlet Allocation)应用于汉语的动词隐喻识别过程中。该方法利用句子的主题分布作为特征,结合机器学习的方法对动词隐喻进行识别,得到的平均正确率为76.46%,在加入主题标注特征后,平均正确率达到80.42%。实验结果表明,基于主题模型的识别方法是有效的。
隐喻识别;主题模型;LDA;机器学习;自然语言处理
隐喻是人类语言中不可缺少的组成部分,它不仅是一种修辞手段,更是人们理解和思维的手段[1]。如果隐喻的机器理解问题无法得到有效解决,将会对自然语言的理解和机器翻译技术的发展带来更多的限制[2]。所以隐喻的处理工作越来越得到自然语言领域的研究者们的重视。
在人们的生活中,隐喻随处可见。英国修辞学家理查兹发现,在日常会话中,平均每三句话就会使用一个隐喻[3]。因此,识别隐喻表达成为自然语言处理研究中一个重要且基础性的工作,并且动词隐喻的识别工作在隐喻研究中占有重要的地位。束定芳[4]归纳了隐喻表达中经常使用的语言信号和标记,包含了领域或话题的标志、元语言、强调词语、模糊限制词、明喻以及引号等,比如:词语“如、像、好似”等出现在语句中时,经常会是隐喻用法,在英语表达中,如:“as,like,same as”等比喻词也是隐喻表达的信号标注。在基于语义知识的方法中,Wilks[5]认为隐喻的使用会导致语义上的优先中断,因此他提出了根据语义选择限制的异常来进行隐喻识别。Fass[6]在Wilks的选择优先中断思想的基础上,对转喻、隐喻和词义异常的使用情况进行了解释,并给出了一个Met*系统来解释隐喻性语言。针对“A is B”,“verb+noun”,“adj+noun”型的隐喻表达,Krishnakumaran和Zhu[7]在Wilks提出的选择优先中断思想的基础上,通过对数据的分析,提出了一种通过WordNet中的上、下位义关系来进行识别的方法。Mason[8]从大规模的领域数据库中抽取动词的语义知识,并通过动词的语义在不同领域中的差异性对比识别出句子中的隐喻表达。在语料库的基础上,他提出了隐喻识别的CorMet系统。围绕隐喻的计算模型,张威、周昌乐[9]提出了基于逻辑的方法去分析挖掘隐喻表达中的潜在含义。杨芸[10]设计了一种计算模型用于对汉语隐喻进行识别与解释工作。黄孝喜[11]提出了一种反映隐喻映射机制的形式及推理方法。
近年来,机器学习方法得到了广泛应用,基于统计机器学习的隐喻处理已成为目前主流的处理方法。Shutova[12]通过对名词、动词的聚类实现隐喻识别。Gedigian[13]利用最大熵模型对动词性隐喻进行了识别,他通过对空间动作、操作、健康等语义类的动词在华尔街日报(WSJ)中使用频率的统计,发现这些动词中隐喻的用法占到了90%以上,说明了隐喻表达具有普遍性。Birke等[14]提出的弱监督的聚类方法TroFi(Trope Finder),在动词隐喻的识别工作中取得了不错的成果。王治敏[15]釆用机器学习和规则相结合的方法对“n+n”型的名词性隐喻进行了识别,她分别使用了基于实例的方法、基于朴素贝叶斯的方法和基于最大熵模型的方法对词语的隐喻用法进行识别,发现基于最大熵模型的方法效果最好。李斌等[16]结合条件随机场模型和最大熵模型解决了“像”的明喻计算,并对本体、喻体和它们的相似点进行了识别。赵红艳[17]在条件随机场和最大熵模型的基础上,又结合《知网》的语义信息和《同义词词林》的同义词信息,实现了动词的隐喻识别。文中针对汉语句子中的动词隐喻提出了基于主题模型的识别方法,并通过实验表明该方法取得了较好的效果。
2.1 隐喻识别
Fass[6]把违反语义选择限制的使用情况进一步细化,并认为隐喻是两个概念的相似,可以看作是一种相似性推理的结果。研究的不足之处是该方法中的语义知识是由人工构建,并且规模较小,使实验结果具有局限性。
Gedigian[13]利用最大熵模型对动词性隐喻进行了识别。该方法中需要使用语义角色标注技术对论元特征进行提取,但是当前的语义角色标注技术还不够成熟。
冯帅等[18]提出了基于百科资源的名词性隐喻识别方法,他们从网络百科知识中挖掘出词语概念的背景世界知识,并对其量化,以此判断它们是不是来自于同一个概念域,从而确定是否是隐喻表达。该方法只是对释义文本的知识进行了量化,而没有把其语义内容考虑在内,并且实验语料的规模较小,句式较单一,实验的扩展性还有待进一步验证。
近几年主题模型在自然语言处理研究中得到了大量应用,在隐喻识别研究中也表现出了显著的成果。Hana Heintz等[19]利用LDA主题模型对特定目标域(government)进行了隐喻的自动提取,Steven等[20]利用LDA主题模型对部分常用动词隐喻用法的使用频率进行了研究,他们都取得了不错的成果。然而国内对主题模型在汉语隐喻上的应用还没有相关研究,并且对隐喻的识别工作大部分都集中在短语级别的研究,如文献[7]中“A is B”,“verb+noun”,“adj+noun”型,文献[15]中“n+n”型等隐喻短语结构的识别,而针对句子级别的研究相对较少。鉴于此,文中针对隐喻句子级别的识别方法进行了探究,将LDA主题模型应用于汉语动词隐喻识别研究中。
2.2 LDA模型
LDA模型最早于2003年由Blei[21]提出,用于对文本建模。LDA模型是一个多层的贝叶斯结构模型,将模型中的参数当作一个随机变量,通过使用控制参数的参数,彻底实现了模型的“概率化”。
作为一种常用的主题模型,LDA模型自提出起便受到广泛应用,常用于对文本建模。LDA模型是一个“文档-主题-词”的三层贝叶斯生成式模型,将词和文档通过潜在的主题联系在一起。在LDA中,每个文档dj是由一系列的主题k组成,而每个主题k由一系列的词项xij组成,文档dj和主题k之间服从狄利克雷分布θj,参数α来自于一个先验(Dirichletprior)函数,主题k和词项xij之间服从一个多项式分布xij。这样一篇文档中每个词xij来自于φk,对应的主题来自于θj。因此LDA生成一篇文档的方式可以理解为:
θj~Dir(α),φk~Dir(β),ziy=k~θj,xij~φk
(1)
其中,Dir(*)表示狄利克雷分布。
文档的联合分布为:
(2)
其中,“主题-词”分布φ和“文档-主题”分布θ是模型中的主要变量。
对LDA模型的参数进行估计的方法有很多,常用的有EM算法和Gibbs抽样,由于直接使用EM算法估计φ和θ时有可能会陷入局部极值的情况,所以常利用Gibbs抽样的方法进行参数估计。对于给定的词汇xij,参数取词汇在主题z上的后验概率p(xij|z)的近似值。Gibbs抽样首先给语料中所有词汇随机分配一个主题,构成初始的Markov链;然后使用下列公式对词-主题分布和文档-主题分布进行计算,获取Markov链的下一个状态;
每次通过式(3)进行采样,得到wij的新主题zij,不断重复这个过程,直到迭代次数完成或分布收敛后,可得到LDA的两个参数θ和φ:
(4)
其中,θkj表示文档dj中主题k的概率;θwk表示词w上主题k的概率。
2.3 支持向量机
在机器学习中,支持向量机(SVM)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。支持向量机方法根据特征空间的数据是否线性可分,分为线性支持向量机和非线性支持向量机。非线性支持向量机的原理是把输入向量从低维特征空间映射到高维特征空间,从而把非线性问题转换成线性问题,而这种变换是通过核函数k(x,xi)来实现的[22]。支持向量机的特点在于根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以获得最好的推广能力。
动词隐喻是人类表达中较为常见的隐喻手法,在隐喻识别中占有重要位置。
例:
(1)据德国《世界报》报道,德国家庭每人年均“丢弃”垃圾为335 kg。
(2)一个“丢弃”传统的民族是没有希望的民族。
在现代汉语词典中,丢弃的解释是:
[丢弃]diu1 qi4扔掉;抛弃;虽是旧衣服,他也舍不得~。
在动词语义的形成过程中,人们将最先出现的语义认为是动词的字面义。在这两个例子中,动词“丢弃”分别修饰了“垃圾”和“传统”,宾语“垃圾”是一个具体的概念,“传统”是一个抽象的概念,根据词典的解释可以看出,例1使用了“丢弃”的字面用法,而例2使用了“丢弃”的隐喻用法。
由于目前在中文隐喻处理上还没有相对比较成熟的句法或者语义角色分析工具,因此文中旨在句子层面上对汉语动词隐喻进行识别,通过对大量隐喻表达的观察不难发现,动词隐喻的使用与句子结构和所表达的主题思想有很大联系。比如,当“丢弃”这个动词与“传统”、“文化”、“民族”、“素质”等主题词一同出现时,更倾向于使用隐喻表达,而与“水果”、“食物”、“木材”等主题词一同出现时,更倾向于使用常规表达。所以假设动词隐喻的使用与句子潜在的主题相关,而主题模型是获得文本潜在语义和主题分布的最好方法,故将主题模型引入到动词隐喻识别中。
文中从两方面对动词隐喻识别进行研究。一方面是考察LDA的“文档-主题”分布,提取实验数据的这部分主题分布作为句子的特征进行实验;另一方面考察LDA的“主题-词”分布,通过主题标注,引入主题标注特征进行实验。最后分别使用支持向量机(SVM)作为分类器进行训练和预测。实验总体流程如图1所示。
图1 实验总体流程图
3.1 LDA主题建模
首先在一个大的文本语料集上运行LDA,进行主题建模。通过对语料进行分词、去除停用词等预处理,以预处理后的文档集合中的句子作为LDA的输入文档,使用LDA为句子集合进行建模,然后采用Gibbs抽样方法对参数进行估计,得到句子在语料集上的“文档-主题”分布和“主题-词”分布。
采用GibbsLDA++工具包实现主题模型的训练与测试,使用《人民日报》在2000年的语料,经过Gibbs抽样迭代后提取100个主题,α和β采用GibbsLDA++工具包中的默认参数。其中主题数利用困惑度(Perplexity)指标[21]确认,该指标表示预测数据时的不确定度,取值越小表示性能越好。从LDA主题建模后的“主题-词”分布中可以看出,一个主题是由与这个主题相关词语的概率分布构成,相同或相近主题的词语被分在同一个主题下,从而实现了词语按主题的一个聚类,使文档的主题分布具有了一定程度上的语义信息。
3.2 特征提取
3.2.1 主题分布特征
通过LDA对《人民日报》语料集进行主题建模后,利用已训练好的模型对预处理后的实验数据进行预测,得到实验数据的“文档-主题”分布和“主题-词”分布。其中,“文档-主题”分布代表了每条语句在所有主题上的分布情况,句子的主题信息可以很明确地通过在每个主题上的分布概率得到,所以提取实验数据的这部分主题分布信息作为句子的特征,利用这个句子级别的主题概率分布作为实验特征向量的一部分放入分类器中进行训练。
3.2.2 主题标注特征
隐喻被普遍认为是由具体的源域到抽象的目标域的一种映射,但是LDA主题模型中并没有直接反映出词语的具体和抽象概念。为了表现出词语的具体抽象信息,提出一种标注方法,使用“具体”“抽象”“混合”“其他”四个标签对模型中的100个主题进行标注,标注实验的Kappa值等于0.75,标注结果满足一致性指标。
4个新的特征通过计算每一个特征对应主题的概率之和得到。例如,主题07、13、20和65被标注为抽象主题,那么“抽象”这个特征的表示就等于主题07、13、20、65在“文档-主题”分布中对应的概率之和。在之前主题分布的100特征上进一步加入4个新的主题标注特征放入分类器中进行训练。
3.3 分类器
采用SVM作为分类器进行实验,将提取的句子特征作为输入,使用台湾大学林智仁博士等开发设计的LIBSVM工具包对动词隐喻的识别进行训练和测试,实验参数均使用工具默认参数,结果均采用十折交叉验证得到。
4.1 实验数据
文中选择包含了“编织”、“丢弃”、“培植”、“提炼”、“品尝”、“咀嚼”6个常用动词的句子进行实验,数据来源为北京大学中国语言学研究中心的语料库(CCL),通过检索分别随机抽取含有这6个动词的句子,并进行人工标注,将句子标注为隐喻表达和常规表达,其中隐喻句子仅选择动词的单一隐喻表达进行实验。实验数据如表1所示(其中,Baseline指句子中隐喻句所占比例)。
表1 实验数据
4.2 实验设置
(1)主题数。
利用困惑度指标来确定主题模型的主题个数,将LDA模型的主题数预设置为10~200,通过实验得到Perplexity随主题个数的变化情况,如图2所示。困惑度数值随着主题数的不断增加而逐步下降,当主题数达到100时,下降趋势趋于稳定。实验中的主题数目越多,LDA模型进行参数估计的次数就越多,从而会导致计算的难度增加,因此文中取主题数T=100。
图2 不同主题下的困惑度
(2)对比试验。
为表明实验的有效性,文中设计了两组对比实验:第一组采用赵红艳[17]的实验,针对相同的动词,采用最大熵模型(MEM)和条件随机场模型(CRF)进行动词隐喻的识别;第二组采用基于TF-IDF为特征的方法来代替中文方法中提取特征的方法,在这种方法下,数据中的每个词的权重使用式(5)表示:
4.3 实验结果分析
文中将采用分类的正确率(Accuracy)和隐喻识别的准确率(Precision)、召回率(Recall)作为实验结果的评测标准,实验结果如表2、3所示。其中,TF-IDF+SVM表示基于TF-IDF做特征的对比实验,LDA+SVM表示仅使用主题分布特征的实验,LDA+SVM+LDAgroup表示在主题分布基础上加入主题标注特征后的实验。
表2 实验结果与对比实验正确率对比
表3 准确率、召回率、F值
从分类的正确率来看,对比文中方法与对比实验1的结果可以看出,文中方法整体效果明显要好于文献[17]的实验效果,除了“编织”一词的正确率稍低一点外,其他五个词语的分类正确率明显要高于其最大熵和条件随机场模型的结果;与对比实验2结果比较可以看出,用TF-IDF做特征的分类正确率明显较低,而LDA+SVM模型的方法将正确率平均提高了将近10个百分点,这是由于TF-IDF只是对词语在句子中的出现情况进行了简单统计,无法直接表示词语在句中的语义关系导致,而LDA可以很好地表现出词语的主题分布这一信息,从而使文本具有一定的语义特征,使得分类识别的效果要优于TF-IDF。从这一方面也可以看出,主题模型要优于传统的空间向量模型。从实验LDA+SVM+LDAgroup可以看出,在进一步加入主题标注特征后正确率又有所提升,说明了标注主题具体抽象信息的有效性。如表3所示,文中实验在准确率、召回率和F值上也体现出了明显的优势,每组实验的F值均有提升,最高可达81.79%。
文中提出了一种针对动词隐喻表达的句子级别的识别方法,首次将LDA主题模型应用到汉语隐喻识别的研究中,利用句子的主题分布作为特征,并加入了具有具体、抽象信息的主题标注方式,使识别效果得到了进一步提升。实验的平均正确率为80.42%,F值最高可达81%,识别结果令人满意。
实验中,训练主题模型仅仅使用了《人民日报》在2000年的语料,下一步将考虑加大语料的规模,使得模型训练效果更好。另外LDA模型中是在词袋模型的基础上做的假设,没有考虑词语的语义信息,也没有考虑句子中词语之间的语法结构关系,所以之后的工作将考虑在主题模型中加入句法结构信息,并结合语义和抽象度等知识来进行探索。文中实验主要识别的是动词隐喻的表达,下一步可以扩大识别类型,考虑对其他类型的隐喻进行识别。
[1] 冯立新.隐喻的认知语用研究[J].华南农业大学学报:社会科学版,2012,11(3):145-149.
[2] 周昌乐.探索汉语隐喻计算化研究之路[J].浙江大学学报:人文社会科学版,2007,37(5):43-50.
[3]RichardsIA.Thephilosophyofrhetoric[M].USA:OxfordUniversityPress,1965.
[4] 束定芳.隐喻学研究[M].上海:上海外语教育出版社,2000.
[5]WilksY.Apreferential,pattern-seeking,semanticsfornaturallanguageinference[J].ArtificialIntelligence,1975,6(1):53-74.
[6]FassD.Met*:amethodfordiscriminatingmetonymyandme-taphorbycomputer[J].ComputationalLinguistics,1991,17(1):49-90.
[7]KrishnakumaranS,ZhuX.Huntingelusivemetaphorsusinglexicalresources[C]//Proceedingsoftheworkshoponcomputationalapproachestofigurativelanguage.NY:Rochester,2007:13-20.
[8]MasonZJ.Cormet:acomputationalcorpus-basedconventionalmetaphorextractionsystem[J].ComputationalLinguistics,2004,30(1):23-44.
[9] 张 威,周昌乐.汉语隐喻理解的逻辑描述初探[J].中文信息学报,2004,18(5):23-28.
[10] 杨 芸.汉语隐喻识别与解释计算模型研究[D].厦门:厦门大学,2008.
[11] 黄孝喜.隐喻机器理解的若干关键问题研究[D].杭州:浙江大学,2009.
[12]ShutovaE,SunL,KorgonenA.Metaphoridentificationusingverbandnounsclustering[C]//Proceedingsofthe23rdinternationalconferenceoncomputationallinguistics.Beijing:[s.n.],2010:1002-1010.
[13]GedigianM,BryantJ,NarayannanS,etal.Catchingmetaphors[C]//Proceedingsofthe3thworkshoponscalablenaturallanguageunderstanding.[s.l.]:[s.n.],2006:41-48.
[14]BirkeJ,SarkarA.Aclusteringapproachforthenearlyunsupervisedrecognitionofnonliterallanguage[C]//Proceedingsofthe11thconferenceoftheEuropeanchapteroftheassociationforcomputationallinguistics.[s.l.]:[s.n.],2006:329-336.
[15] 王治敏.汉语名词短语隐喻识别研究[D].北京:北京大学,2006.
[16] 李 斌,于丽丽,石 民,等.“像”的明喻计算[J].中文信息学报,2008,22(6):27-32.
[17] 赵红艳.基于语义知识的动词隐喻识别与应用[D].南京:南京师范大学,2012.
[18] 冯 帅,苏 畅,陈怡疆.基于百科资源的名词性隐喻识别[J].计算机系统应用,2013,22(10):8-13.
[19]HeintzH,RyanG,MaheshS,etal.AutomaticextractionoflinguisticmetaphorwithLDAtopicmodeling[C]//ProceedingsofthefirstworkshoponmetaphorinNLP.Atlanta,Georgia:AssociationforComputationalLinguistics,2013:58-66.
[20]BethardS,LaiVT,MartinJH.Topicmodelanalysisofmetaphorfrequencyforpsycholinguisticstimuli[C]//ProceedingsofNAACL-HLTworkshoponcomputationalapproachestolinguisticcreativity.[s.l.]:[s.n.],2003:95-106.
[21]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.
[22]CristianiniN,Shawe-TaylorJ.Anintroductiontosupportvectormachinesandotherkernel-basedlearningmethods[M].Cambridge:CambridgeUniversityPress,2000:169.
Chinese Verb Metaphor Recognition Based on Topic Model
BAI Zhen-kai,HUANG Xiao-xi,WANG Rong-bo,CHEN Zhi-qun,WANG Xiao-hua
(Institution of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,China)
Metaphor is an integral part of human language,and the quality of metaphor processing will directly affect the effectiveness of natural language processing and machine translation.Metaphor recognition is an essential task in metaphor processing as a foundational work and has got the attention of the researchers.At present,most Chinese metaphors recognition has focused on identifying the phrase level of noun metaphor,however,verbal metaphors has higher frequency in the actual text,which should be paid attention by more Chinese metaphor researchers.In order to improve the recognition rate of Chinese metaphor,in view of the Chinese verb metaphor,an approach to metaphor recognition is proposed based on topic model.In this method,sentence topic distribution generated through LDA model is used as a feature,and the metaphor recognition is implemented with SVM.The average accuracy of the method is 76.46%,after further joined the feature of topic annotation,the average accuracy of the method is 80.42%.The experimental results show that the method is effective.
metaphor recognition;topic model;LDA;machine learning;natural language processing
2015-08-09
2015-12-23
时间:2016-10-24
国家自然科学基金资助项目(61103101,61202281);教育部人文社会科学研究项目(10YJCZH052)
白振凯(1991-),男,硕士研究生,研究方向为自然语言处理、隐喻识别;黄孝喜,博士,讲师,研究方向为自然语言处理、认知逻辑学;王荣波,博士,副教授,研究方向为自然语言处理、篇章分析;谌志群,硕士,副教授,研究方向为中文信息处理、语言网络;王小华,硕士,教授,研究方向为自然语言处理、认知逻辑学、模式识别。
http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1105.006.html
TP391
A
1673-629X(2016)11-0067-05
10.3969/j.issn.1673-629X.2016.11.015