赵怿怡,刘海涛
1.厦门大学人文学院,福建厦门 361005
2.浙江大学外国语言文化与交流学院,杭州 310058
歧义结构理解中的依存距离最小化倾向
赵怿怡1,刘海涛2
1.厦门大学人文学院,福建厦门 361005
2.浙江大学外国语言文化与交流学院,杭州 310058
用依存句法分析汉语歧义结构发现人脑在句法加工时倾向选择最小化依存距离的句法结构。该发现从依存理论角度解释了以往依照短语结构句法分析潜在歧义结构“VP+N1+的+N2”无法说明心理学实验结果的原因,找到了歧义结构实时阅读过程中倾向选择特定句法结构的语言学依据。最小化依存距离的认知机制是降低言语工作记忆成本的有效方法,是言语理解过程中的重要机制之一。
依存句法;依存距离;言语工作记忆;歧义结构;句法分析
言语工作记忆在句子理解中的机制和作用是认知心理学研究的热门课题。在众多的言语理解实验中,歧义结构是重要的实验材料,是言语工作记忆中的焦点问题。
从计算语言学角度来看,歧义作为任何语言中普遍存在的现象是自然语言处理中的难点。计算语言学发展的历史就是与歧义做斗争的历史[1]。冯志伟[2]提出的“潜在歧义理论”明示了汉语中存在潜在歧义格式,潜在的歧义格式可以产生两种以上的合理解释,消除歧义往往需要上下文来辅助理解。传统语言学和计算语言学试图通过句法规则和上下文约束来限制合理句法结构的生成,以实现计算机对自然语言的理解。
而心理学的研究关注人在言语理解过程中句法结构选择的过程和机制。张亚旭、张厚粲、舒华[3]从心理学实验角度对潜在歧义格式进行研究,注意到均衡歧义结构的存在,这种结构被分析成歧义结构中的任何一种都是合理的。该文以歧义结构“VP+N1+的+N2”为例(如“关心学校的老师”),发现在实时阅读过程中,人们往往按偏正(而非述宾)结构来分析均衡的偏正/述宾歧义短语,而以往的针对花园幽径句(garden-path)的解释原则(最小附加和迟关闭)并不能对这一现象进行很好的解释。该文猜测潜在歧义结构“VP+N1+的+N2”多被分析为偏正结构的分布“很可能是某种机制的结果,而这种机制也是被试者实时阅读中按偏正结构分析均衡型歧义短语的原因。”
那么,这种言语理解过程中的机制是什么?它怎样运作?又是否存在合理的可计算的语言学依据呢?
本文从这些问题出发,尝试从语言学角度对已有的心理语言学实验成果进行深入挖掘,探索人在言语理解过程中的认知倾向。第2章,以依存句法为理论基础进行语言分析,以依存距离为衡量标准提出了“歧义结构理解中存在依存距离最小化倾向”的假设。第3章,利用心理语言学已有的实验材料与结果对假设进行验证与深入讨论,证明了在均衡歧义结构理解中人总是倾向选择依存距离较短的句法结构进行分析。结论部分,认为这种句法结构的选择是减小言语工作记忆负担的语言学表现,是经济(省力)原则的语言学体现,是言语理解的重要机制之一。
依存句法是描述词间关系的句法。句法分析的三个要素是:从属词、支配词和词间关系[1]。用依存句法分析潜在歧义结构的实例“关心学校的老师”,得到两个结构不同的依存图:图1(a)的最终支配词是“老师”,表示出该短语被分析成名词为中心词的偏正短语,即潜在歧义结构实例“关心学校的老师”被实现为偏正结构的分析;图1(b)的最终支配词是“关心”,表示该短语被分析成以动词为中心词的述宾短语,即潜在歧义结构实例“关心学校的老师”被实现为述宾结构的分析。
图1 (a)名词为中心词的偏正短语
图1 (b)动词为中心词的述宾短语
Lin[4]用依存句法分析了英语的中心嵌套结构(Center embedding)和外置结构(Extraposition),试图用依存连接的总长度衡量句子结构复杂程度,解释句法变换的目的是降低句子的复杂程度。
Gibson[5]从人脑计算资源的角度提出依存局部性理论(Dependency Locality Theory,DLT),他认为人类分析句子的过程包含两个资源的利用:结构整合和结构储存。结构整合是把听到的词整合到已有的句法结构中;结构储存是把接受的词储存在短期记忆中,以便整合时使用。这个过程也是计算机分析句子的过程。在这个过程中,句子处理的复杂程度和句法依存的长度相关:依存成分距离越长句子越难处理。与基于短语结构的句法理论相比,依存句法更为直接地描述了人脑接受单词并将其整合到已有的句子片段中的过程。用依存的方法分析语言结构,可以清楚地表示DLT所描述的句子理解的两个过程:短期记忆储存输入词并把输入词整合到已有的句法结构中,实现句子理解。
认为经过大量语言现象验证的DLT理论对解释人脑或计算机句子理解过程有着普遍性的贡献。那么,影响人类和计算机对潜在歧义结构理解的“某种机制”是否可以从依存成分的距离角度来解释呢?
Temperley[6]基于DLT理论提出句子处理的复杂程度和句法依存(syntactic dependencies)的长度相关,句法依存越长句子越难理解。他针对宾州树库(Penn Treebank)中的部分语料充分分析了英语书面语中多种类型的语言结构,来验证其“英语书面语依存长度最小化”的观点。
Liu[7]提出“依存距离(Dependency Distance,指支配词和从属词间的线性距离)”可以作为衡量语言理解难度的标准之一。他考察了20种语言,认为人类理解句子中存在最小化平均依存距离的倾向。为了考察在歧义结构理解过程中短期记忆的储存情况,使用这一指标来衡量两个歧义结构的区别。
Liu,Hudson和Feng[8]提出了依存距离的计算方法。这种方法计算依存距离的对象可以是短语结构、句子结构,也可以是大规模的依存树库。依存距离作为一种线性距离,首先定义词按线性顺序编号“W1…Wi/…Wn”,支配词Wa和其从属词Wb的依存距离为a-b;相邻词对间具有依存关系,依存距离为1。若a>b,依存距离大于0,表明支配词的线性顺序在从属词之后;若a<b,依存距离小于0,表明支配词的线性顺序在从属词之前。在依存距离的相关实验中,研究者往往考察依存距离的绝对值。整个句子(或短语)的平均依存距离计算公式为:
公式中,n是句子中词的数量;DDi是第i个依存对间的依存距离。在依存句法分析的句子中,原则上只有一个根节点没有支配词,它的依存距离被定义为0。这个公式可以被用来计算更大的句子集合(例如,树库)的平均依存距离。按照上述方法,实例“VP+N1+的+N2”为“关心学校的教师”,计算该短语按不同结构分析时,短语内部的平均依存距离。当短语被分析成偏正结构时,平均依存距离为1;而当短语被分析成述宾结构时,平均依存距离为1.25,如图2所示。
图2 潜在歧义结构“VP+N1+的+N2”的平均依存距离
“潜在歧义结构‘VP+N1+的+N2’多被分析为偏正结构的分布”可用上一章中提到的依存距离最小化来解释。潜在歧义结构“VP+N1+的+N2”按照偏正、述宾结构分析得到的结构内部的平均依存距离存在固定的差距。为了进一步证实在包含潜在歧义结构的句子理解过程中同样具备最小化依存距离的倾向,收集了20组经过心理学测试的句子[3]。这些句子是由16名本科生在7点量表中对部分取自真实文本语料,部分取自有关汉语语言学的公开出版物的170条偏正/述宾型歧义短语进行评分筛选得到。7点量表[9]旨在分析歧义短语分别以实例为偏正或述宾两种结构的合理性。评分接近1说明该歧义结构更倾向于被实例为偏正结构,接近7说明该歧义结构更倾向于实例为述宾结构。评分接近4说明该歧义结构被实例为偏正结构或述宾结构等同合理。本文实验材料为20条均衡型歧义结构补足语境后的20组(a)(b)对照的句子。这些句子中的歧义结构被心理学实验证实为均衡型歧义结构,即歧义短语两个可能的结构在语义或语用方面的比较是相当的;而这些歧义短语不同结构所对应的意义在日常生活中是典型合理的。相关心理学实验[3]已经证明:被试者在理解这些包含均衡歧义结构的句子时,歧义结构部分倾向按照偏正结构来解析;均衡型歧义短语按照述宾结构来解析容易出现加工困难。
对这些包含均衡型歧义结构的句子进行了依存句法分析,并在依存句法分析的基础上计算了句子的平均依存距离。以第一组句子为例,首先依照依存句法关系[10]对图3(a)、图3(b)进行标注,并在计算依存距离时去掉了句末和句中标点,来减少句子非必要成分对依存距离的影响。在图3(b)“保护小徐的战马不成,孙刚感到非常内疚”中,前后两分句各自表达完整的意思,在依存句法中两分句的支配词“不成”、“感到”应由承接关系连接,同样为了避免过长的依存距离把两分句视为句子单独处理。即“感到”句法上的支配词是上一分句的“不成”,依存距离为2,剔除分句承接关系的影响后,“孙刚感到非常内疚”单独成句,“感到”成为第二分句的根支配词,依存距离为0。
图3 含均衡型歧义结构句子的平均依存距离
经过依存句法标注和计算,得到了20组句子的平均依存距离(表1)。在这20组句子中,90%均衡型歧义结构实例为偏正结构句的依存距离均小于实例为述宾结构句。例外的两组,第8组与第15组的偏正结构句子均包含以“认为”、“担心”为谓语动词的小句宾语结构。这种结构的依存分析规定谓语动词支配小句的动词,是产生较大的依存距离的一种依存结构。小句宾语结构的出现干扰了全句的平均依存距离,是出现异常数据组的原因。
表1 20组句子的平均依存距离1)
从语言学角度来看,发现在20组实验材料中,述宾结构句的表达形式多为两个分句。位于第一分句的均衡歧义结构后接时间指示词“之前”、“之后”实例为述宾结构,做事件型时间状语,例“护理丽丽的养父之前”、“接触小陈的医生之后”。这种语言现象在实际语料库中的数量有限,这说明在现实言语交际中此类语言现象的使用率并不高。这类语料的低使用率证明了:潜在歧义结构“VP+N1+的+N2”实例为述宾结构相对于实例为偏正结构,存在平均依存距离较大,导致句法复杂性增加,容易产生加工困难,不利于理解。
Kimball[11]在短语结构句法基础上提出的表层句法处理7策略来解释复杂句子的生成(这7条原则因为翻译的问题常被误读)。其中第二个原则是:终极符号与最底层的非终极符号结合,被引申为右结合原则;第五个原则是:句法结构尽早关闭,除非下一个节点是该短语的直接成分,被引申为早关闭原则。这两条原则可以很好地解释歧义结构“VP+N1+的+N2”倾向被理解为偏正结构的原因。名词N1根据右结合原则被连接到前一节点动词V上,根据早关闭原则形成了一个述宾结构的“的”字短语。这样的表层句法分析原则的实质就是尽量减小工作记忆的储存量。Frazier[12]为解决花园幽径句[13]的句法分析问题,在花园幽径模型(Garden Path Model)中提出了两个更为著名的句法分析策略,即迟关闭原则和最小附加原则。它们针对性地解决了花园幽径句句法分析常常需要回溯的难题,目的是实现花园幽径句的高效分析。如果用该句法策略来解释歧义结构“VP+N1+的+N2”就不十分有效了。注意到,这所有的句法分析策略都是在短语结构语法基础上进行自动句法分析的原则性规定,针对特定问题提出,但观点很不统一。用这些基于短语结构语法的计算机处理特定语言问题的句法规则来解释心理学实验发现的歧义结构理解中的差异并不充分,没发现问题的本质。而依存句法体系中依存距离最小化倾向是通过大量实际语料的统计得出的规律[7],这可能正是人类言语理解的重要机制之一,是均衡型歧义结构“VP+N1+的+N2”倾向于被理解为偏正结构的合理解释。
研究者普遍承认[4-7],句子的句法复杂性影响对工作记忆的要求。而关于句法复杂性的探讨往往局限于关系从句等特定的句式、句型,这些语言使用中形成的习惯和语法规则属于传统语言学的范畴,往往缺乏可计算的性质。这直接导致研究者难以判断“一种语言的语言学特性,如何制约言语工作记忆过程在句子理解中的作用机制和性质”[14]。如果把依存距离视为语言学特征的可量性指标,运用简单的句法分析就不难发现人脑对于特定句式、句型,特殊句法现象,包括对歧义结构的句法理解、语义选择都朝着最小化该指标的方向发展。
本文从语言学角度对认知科学领域普遍关心的言语理解中的工作记忆进行了探讨,结合心理学的实验结果和材料,证明了人类的言语理解机制与语言学可量性特征——依存距离存在关联,认为人在句法加工时存在最小化依存距离的句子理解倾向。最小化依存距离和人脑的短期工作记忆容量密切相关。本研究为心理学实验检测到的被试者在均衡型歧义结构“VP+N1+的+ N2”理解时偏好以偏正的结构进行句法处理提供了一种合理的解释,也印证了Gibson,Pearlmutter[15]大脑运算系统中句子剖析理论中“整合成本”的语言学含义。最小化依存距离就是降低整合成本的方式之一。
鉴于实验用语言材料数量和形式的局限,依存距离作为语言的可量特征参与到言语理解机制的运作中仍旧需要专门、专业的心理学实验设计来证明。但本文结合语言学理论和心理学成果的研究方法,对人类言语行为模型和理论的探讨是有益的。
[1]刘海涛.依存语法的理论与实践[M].北京:科学出版社,2009.
[2]冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,9(4):14-24.
[3]张亚旭,张厚粲,舒华.汉语偏正/述宾歧义短语加工初探[J].心理学报,2000,32(1):13-19.
[4]Lin D K.On the structural complexity of natural language sentences[C]//Proceedings of the16th Conference on Computational Linguistics,1996,2:729-733.
[5]Gibson E.The dependency locality theory:a distance-based theory of linguistic complexity[M]//Marantz A,Miyashita Y,O’Neil W.Image,Language,Brain.Cambridge,MA:MIT Press,2000:95-126.
[6]Temperley D.Minimization of dependency length in written English[J].Cognition,2007,105:300-333.
[7]Liu H T.Dependency distance as a metric of language comprehension difficulty[J].Journal of Cognitive Science,2008,9(2):159-191.
[8]Liu H T,Hudson R,Feng Z W.Using a Chinese Treebank to measure dependency distance[J].Corpus Linguistics and Linguistic Theory,2009,5(2):161-174.
[9]张亚旭.汉语局部句法歧义句的加工[D].1998.
[10]Liu H,Huang W.A Chinese dependency syntax for treebanking[C]//Proceedings of the 20th Pacific Asia Conference on Language,Information and Computation.Beijing:Tsinghua University Press,2006:126-133.
[11]Kimball J.Seven principles of surface structure parsing in natural language[J].Cognition,1973,2(1):15-47.
[12]Frazier L.Sentence processing:a tutorial review[M]//Coltheart M.The Psychology of Reading.Hillsdale,NJ:Lawrence Erlbaum Associates Inc,1987:559-586.
[13]Bever T G.The cognitive basis for linguistic struction[M]// Hayes J R.Cognition and Development of Language.New York:Wiley,1970:253-279.
[14]张亚旭,蒋晓鸣,黄永静.言语工作记忆、句子理解与句法依存关系加工[J].心理科学进展,2007,15(1):22-28.
[15]Gibson E,Pearlmutter N J.Constraints on sentence comprehension[J].Trend in Cognitive Sciences,1998,7(2):262-268.
ZHAO Yiyi1,LIU Haitao2
1.School of Humanities,Xiamen University,Xiamen,Fujian 361005,China
2.School of International Studies,Zhejiang University,Hangzhou 310058,China
Human beings tend to choose the structure with the minimum dependency distance during ambiguous structure understanding in order to reduce the burden on working memory.This paper reanalyzes the psychological experimental results within the framework of dependency grammar.The measurement of dependency distance provides the linguistic criteria for why is the potential ambiguity structure“VP+N1+the+N2”considered as the Modifier-Noun Construction(MNC)rather than Narrative-Object Structure(NOS).Minimizing dependency distance is an important mechanism during natural language understanding and an effective way to reduce the memory cost.
dependency grammar;dependency distance;working memory;ambiguous structure;syntactic analysis
A
TP391
10.3778/j.issn.1002-8331.1309-0429
ZHAO Yiyi,LIU Haitao.Minimizing dependency distance in understanding of ambiguous structure.Computer Engineering and Applications,2014,50(6):7-10.
国家社会科学基金重大项目(No.11&ZD188)。
赵怿怡(1982—),女,博士,助理教授,研究领域为应用语言学,语言复杂网络;刘海涛(1962—),男,博士,教授,研究领域为人类语言的结构模式与演化规律,语言复杂网络。E-mail:zhaoyiyi@xmu.edu.cn
2013-09-27
2013-11-13
1002-8331(2014)06-0007-04
CNKI网络优先出版:2013-11-15,http://www.cnki.net/kcms/detail/11.2127.TP.20131115.1121.010.html