刘美平
(北京大学 哲学系,北京 100871)
机器翻译中引入“词化”模式的初步设想
刘美平
(北京大学 哲学系,北京 100871)
机器翻译作为自然语言处理的重要分支领域,涉及语言、数学和计算机等学科。目前机器翻译的译文质量并不理想,尤其是对汉语动结式的处理。“词化”模式理论或可用于改善汉语动结式语义自动分析,提高机器翻译的质量。本文就此提出一项初步解决方案。
机器翻译 “词化”模式 动结式语义分析
当前机器翻译的译文质量还很难达到实际应用的要求,有悲观论调认为几十年内都难有大的突破。“计算机领域的人工智能、机器翻译等都需要精准的语言规律。要让机器理解自然语言、模仿自然人思考,必须准确揭示语言的运作原理及相关的具体规律。目前这些领域的进展尚不能尽如人意,其根源则在于语言研究的滞后,自然语言中的很多规律尚未搞清楚”(石毓智,2010)。其实问题不仅在语言规律的探索,已有语言知识实用价值的转化也亟待提高。本文将就“词化”模式理论对提高汉译英译文质量等问题进行探讨。
“词化”模式理论提出不同语言的动词所表达的事件信息存在差异,据此可进行语言类型划分。该理论把词汇区分为开放与封闭两大类,前者主要指动词、名词和形容词等实词,其余都可归入后者。封闭类词汇主要用于构建概念框架,实词则为相应的框架提供概念内容。在表达运动事件时,一些封闭词类作为动词的卫星语素起作用。英语中的卫星语素是与动词词根有姊妹关系的成分,但不包括做补语的名词和介词短语,大致相当于小品词(verb particle)。这些词在形式上与动词区别明显(一般是副词或动词前缀),比如:
He ran across\along\through\past\by.
The bolt must have unscrewed(from the plate).
汉语也有与动词相互配合的卫星语素成分,如述补结构中的补语,常常是一类动词或者形容词。例如:大风吹垮了房子。其中“吹”作为表达运动的动词,另一动词“垮”充当补语。英语卫星语素多用于表达运动事件的路径,通常表现为一个卫星语素加介词的组合,如:I ran out of the house.卫星成分也可不依赖介词单独出现,如:(After rifling through the house,)I ran out.当然,有些语言通过动词表达路径,比如:法语、西班牙语、日语等。
语言模式的划分还与事件整合类型学相关。这一理论提出概念的深层组织与表层语言现象相对,可分析成基本的事件复合体——“宏事件”(The Macro-event)。复合体中包括主事件和伴随事件。前者在整个事件中起到框架设置的作用,因此被称为“框架事件”(Framing Event)。伴随事件指与框架事件相伴发生的事件。据框架事件的意义结构可把“宏事件”分为五种类型:运动事件、状态的改变、体相、行为相关及实现。分别示例简介如下:运动事件中的路径:The ball rolled in./体相中的体:They talked on./状态变化中的性质:The candle blew out./行为相关事件中的相互关系:She sang along./实现事件中的完成:The police hunted the fugitive down.事件的语义层面和语言形式表达都可以分析为多种独立成分。意义层面包括运动、路径、焦点和背景等;语言形式涉及动词、附置词和卫星语素等。两个层面之间存在系统性对应,只不过并未在总体上展现出规整的一一对应,通常是一对多或者多对一的关系。根据对应的具体情况便可以实现上述的语言类型划分。
借助动词(可以是表达运动语义的动词,也可以是表达处所或者位置等的词)描述的典型运动事件,其主事件(框架事件)在意义层面同样可以分析出四种成分:焦点:运动体;背景:焦点运动的参照体;路径:焦点所经过的路线或所占的地点;运动。另外还包括与伴随事件相关的非中心元素,分为以下两种:方式:焦点运动的方式。使因:致使焦点产生运动。核心动词一般同时对运动主事件和伴随事件进行表征。伴随事件则可以对运动主事件的方式、使因等给出附加描绘。因为主事件(框架事件)中的路径提供了对“宏事件”抽象框架的表征,从而被称为框架事件的核心图式(Core Schema)。其余的语义元素(焦点、运动、背景等)可以被填充入这一框架。核心图式可通过动词表达,也可通过卫星语素,这直接导致“词化”模式的差异。具体来说,动词表征的语义成分可以是运动+路径,也可以是运动+方式或者运动+原因。比如在英语中:The bottlefloated out of the cave.其中动词float对运动和方式同时进行了编码:The bottle moved out of the cave with-the-manner-of The bottle floated.路径通过卫星语素与介词的组合“out of”表达出来。与此相对,西班牙语描述同样的意义时其表层语言形式为:La botella salióde la cueva flotando.形式上对译为英语为:The bottle exited from the cave,floating.动词exit编码的是运动+路径,方式则通过分词形式floating表达出来,并没有被并入核心动词。上述西班牙语句在字面上对译出的英语句子表现得明显不自然,所以不属于英语通常的表达方式。两大语言类型(动词框架语言和卫星语素框架语言)的区分正是基于这种差异,区分标准在于框架事件的核心图式是由语句中的动词还是卫星语素表达的。卫星语素框架语言在使用动词表达框架事件的同时常常对伴随事件加以描绘,而核心图式一般通过其他卫星语素表达。在这类语言中,通过分析动词的语义结构就可以推出伴随事件。这种语义推理示例如下:
方式类伴随事件
Nonagentive(非施事性语句):The rope hung across the canyon from two hooks.=The rope was across the canyon withthe-manner-of The rope hung from two hooks.
Agentive(施事性语句):I bounced the keg into the storeroom.=I moved the keg into the storeroom with-the manner-of I bounced the keg.
使因类伴随事件
Nonagentive:The napkin blew off the table.=The napkin moved off the table with-the-cause-of Something blew on the napkin.
Agentive:I kicked the keg into the storeroom.=I moved the keg into the storeroom with-the-cause-of I kicked the keg.
基于句法规则的自然语言处理方案较为依赖规范性语言研究。但句法形式与语义结构之间并不存在严格的同构关系,词汇意义的丰富性远大于包括词汇形态在内的表层语言形式。形式与意义在复杂性上的不对等直接导致同一句法形式可以表示差别极大的意义结构。自然人之间实现复杂意义交互的基础在于,每个自然人都通过“具身经验”储存了相对自足的关于词汇的语义信息。上述句法和语义之间的对应问题不可能局限在形式领域内部得到解决,这属于一类在形式上不能自足的语言现象。这类语言知识的归纳整理工作量非常繁重,当前主流的研究倾向于使用统计方法。只不过统计研究说到底还是需要基于特定的统计模型,由于统计模型必须由自然人基于语言知识构建,最终还是绕不开语言知识的归纳整理。“以多义现象分析为例,从目前已经开发的系统来看,大约50%到70%的多义语言现象可以通过单纯的句法分析来解决,而其余30%的多义语言现象必须通过语义分析甚至语用分析才能解决……”(冯志伟,2012)。这类层级结构通常是基于自然人往返交互的语言实践并通过约定俗成产生的,既有认知的理据性,又无法排除实践中的偶然因素,只能通过理清语言形式背后的认知原理才可以解释清楚。形式主义语言研究倾向于由相对抽象的语言规则统摄具体的语言现象,在追求抽象规律时丢掉了太多具体意义,不能很好地解释表层结构与语义内涵的对应模式。语言习得研究表明,任何一个儿童都无法单独依赖抽象语言模式掌握语法。儿童要掌握一种语言的语法结构,不仅要通过观察现实中的事件结构,而且要在长期的语言实践中不断积累才可以掌握大量约定俗成的搭配方式。这些具体搭配作为固定的语言单位储存在语言使用者的记忆中,高度依赖随机经验,不可能靠规则临时产生。“生成学派夸大了语言规律的能产性,而低估了语言中广泛存在的约定俗成的用法,而且忽略了人们记忆的巨大潜力”(石毓智,2010)。我们认为,通过将相关语言知识编辑成机器词典的方式可以为机器注入“记忆”。
语言对于经验的依赖性体现为:任何语言的语法结构都不是无限能产的,特定语法结构对于语言中同一类属的词汇有些可以很好地适配,有些则不可以。判断可行与否的依据都需要在经验中获取。另外,由于不同语言表层形式的差异,包括“词化”模式的差异,任何两种语言之间都很难在词汇层面实现一一对应。比如:汉语中“哭哑”,如果将其视为一个整体的复合动词,在英语中就找不到可以直接对应的单词,必须通过“cry”和“hoarse”的组合才可以较为恰当的翻译。笔者尝试了百度翻译和google翻译对“他哭哑了嗓子”这一语句的翻译,最终得出的结果分别为“He cried and cried.”和“He cried hoarse.”两者都不能很好地把汉语词义恰当地翻译为英语。“他喊哑了嗓子”的翻译结果相对较为理想,都是“He shouted himself hoarse.”。究其原因:英语中有一个和汉语“喊哑”基本对应的惯用语“shout oneself hoarse”,实现了词汇层面的直接对应,互译中才表现出高度的切合。所以,当前的机器翻译在很大程度上仍然依赖不同语言词汇层面的直接对应。汉英两种语言在“词化”模式上又存在较大差别,很难实现词汇层面的直接匹配,这便是当前机翻译文的质量不高的一个主要原因。语言表层形式的差异体现的是语言使用群体深层概念化模式的差异,概念化模式正是认知语义学的核心议题。从认知语义学角度展开的汉语研究已经持续了数十年,目前已有的很多理论成果对工程领域的技术提高而言可资借鉴之处颇多。
机器翻译汉译英一旦遇到动结式,往往就会生成一些莫名其妙的英语结构,可见当前的处理方案还不能恰当地分析动结式的复杂语义结构。语言学领域并不缺少对动结式语义结构的研究,只是还未能被工程领域充分吸收利用。为达成对动结式语义结构的自动分析,从述语动词意义和补语意义整合来的动结式整体的意义必须得到精确的描述,并通过形式化的方式表达,最终才能实现句法层面的机器操作。“词项”的语义可以简单也可以复杂,由于语义的组合性,“复杂词项”的意义结构通常都可以分解成“简单词项”意义结构的特定组合。动结式的意义结构就是如此,通过分解可实现与底层述语和补语动词意义结构的对应。
动结式表达的“致役事件”通常包含参与者、事件发生的方式及造成的结果等语义信息。“在汉语复合动词的构造中,动作的方式或达到某一结果的途径和动作的结果是比较凸显的语义因素。汉语复合动词的优势语义模式可以概括为:方式或途径+行为或结果”(董秀芳,2005)。上述概括可更详细地表述为:方式+行为、途径+结果,分别对应状中式复合词和动结式复合词。就动结式来看,述语动词一般表示达成结果的途径。 如:“撞开”、“踢开”、“撬开”、“推开”,结果动词“开”前的述语动词就表达了达成这一结果的途径,或者说原因;补语动词则表达引发的结果,如:“开”。事实上,因为动结式的存在,整个汉语系统对信息的组织都表现为非 “伴随特征+谓语中心+结果状态”这一总体模式。由于不同语言之间简单句法结构存在共性的可能性更大,更容易实现异种语言之间的词汇直接匹配,更容易达到更高程度的互译准确度。以“撞开”、“踢开”、“推开”为例,百度翻译中可得出如下结果:1.他撞开了门。→He broke the door./2.他踢开了门。→He kicked the door open./3.他撬开了门。→He opened the door./4.他推开了门。→He pushed the door open.语句1与3翻译效果很不理想,1译文直接在意义上无法对应,而3则未能把相关的动作方式体现出来。语句2、4翻译较为恰当,因为在英语中kick…open和push…open属于比较通用的组合用法,可归入惯用语,实现了语言表层的直接对应。对语句1可进行以下语义分析处理:他撞开了门。→他撞门,门开了。“他撞门。”经百度翻译得到结果:He knocked the door.“门开了。”经百度翻译得到结果:The door opened。两条独立的翻译经过句法组合操作可表述为:He knocked the door so the door opened.经过上述处理意义上的对应显然更恰当。对语句3也可做类似的处理。这种可以落实到句法层面的语义分析正是当前机器翻译所急需的。通过将这类语言规则编辑成机器词典以知识库的形式整合进智能系统,并保持这类知识库的开放状态,不断扩充与优化,再与其他方法配合,机器翻译生成的译文甚至可以拥有自然语句的质量。
[1]Talmy,Leonard.Toward a Cognitive Semantics[M]. Massachnsetts:MIT Press,2000.
[2]阚哲华.汉语位移事件词汇化的语言类型探究[J].当代语言学,2010(2).
[3]董秀芳.汉语的词库与词法[M].北京:北京大学出版社,2005.
[4]冯志伟.自然语言处理简明教程[M].上海:上海外语教育出版社,2012.
[5]石毓智.汉语语法[M].北京:商务印书馆,2010.