计算语言学及其视角下的翻译平台建设

2013-05-17 01:36张晓艳宋铁花
关键词:语言学范式语料库

张晓艳,宋铁花

(1.太原理工大学 外国语学院,山西 太原030024;2.山西农业大学 文理学院,山西 太谷030801)

人类使用的语言文字是信息和知识的最主要载体。在互联网时代,研究人类语言的计算机理解和生成的语言信息处理成为当代热点学科之一。社会和科技的发展渴求兼通语言学、计算机技术、数学和认知科学的人才。计算语言学结合了计算机科学、数学和语言学等学科的知识,不仅深入研究和归纳语言学现象,而且还为计算机应用技术提供了科学的理论指导。计算语言学与语言学的分析方法结合形成混合系统,对翻译平台建设有积极作用。

计算语言学是采用计算机技术来研究和处理自然语言的一门新兴学科,[1]是涉及语言学、心理学、心理语言学、脑科学、计算机科学、哲学、逻辑学、人工智能、数学、信息论、文学、美学等诸多领域的一门交叉学科。计算语言学和自然语言信息处理研究的核心问题是语言的自动理解 (Language Understanding)和自动生成(Language Generation)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。目前计算语言学主要从事自然语言处理,其应用目标是使人与计算机之间用自然语言进行交流。具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。但这些研究或多或少的受到语言学的指导和影响。在语言学的研究中,出现了许多表达相似概念的术语,如传统的语言学、理论语言学等,本文统一采用语言学这一术语。

以往研究多为讨论计算语言学对语言学的影响,冯志伟 (1992)用人类对自然语言符号认识水平的新理论,探讨计算语言学对传统语言学的挑战。[2]布买热木·阿布拉 (2004)认为计算语言学对语言学分支带来了不同的冲击和挑战的同时又推进了语言学的发展。[3]计算语言学对传统的句法学、形态学、语义学、逻辑语法、词汇学等方面有着重要的影响作用。同时计算统计学的发展也给语言学带来新的视角,例如,冀铁亮等(2007)将语言学与统计方法结合建立汉语动词子类框架类型集。[4]姚敏锋 (2010)描述了一种基于短语译文组合的汉英机器翻译系统,对构建一个汉英机器翻译平台有积极影响。[5]计算语言学与语言学之间的影响作用应该是相互的。这些研究中侧重讨论了计算语言学对语言学的影响,接下来笔者将重点探讨语言学对计算语言学的影响,以及计算语言学在翻译方面的应用。

一、计算语言学与语言学

随着计算语言学在语言处理的理论与应用方面研究不断演化发展,语言学与计算语言学之间模糊的多面性关系逐渐形成。语言学在计算语言学的发展过程中,发挥着重要作用。计算语言学将计算科学与语言学结合并形成了对两者分工明确的混合系统,这个混合系统对翻译平台的建设具有很强的实践指导作用。

(一)语言学对计算语言学的影响作用

计算语言学并非探讨计算机语言的学科,[6]不是分解出来的关于数学语言学或者应用语言学新的语言学分支,其研究对象既不是二进制的机器语言,也不是编写计算机程序所用的程序设计语言,而是在人类认识世界和创造文明的过程中形成的自然语言。上世纪80年代,Lauri Karttunen发现应用计算语言学与理论计算语言学共存且相互促进,同时理论计算语言学的分支也为理解人类语言结构和使用发挥了重要作用。然而语言学和计算语言学之间关系随着时间发生了很多变化。这些变化通过计算语言学的五个范式体现出来,在每一个范式中,语言学理论都发挥一定的作用,都对计算语言学研究产生不同的影响。

第一个范式是直接启用程序处理语言。操作者接受了相关的语言学理论教育,直接启用如FORTRAN,COBOL等计算机程序或者汇编程序等进行语言处理。这个阶段对语言学知识和处理方法之间没有系统性分别。第二个范式是语言处理专业算法与方法的发展,如解析算法,限定性分析以及扩大的短语结构语法。这种范式下发现了语言学知识和处理程序之间的分别,但研究方法的改进离不开语言学理论的指导,需要一定程度地运用语言学理论知识。第三个范式是语言学形式体系的出现。20世纪80年代出现了一系列新的语法形式体系,如 HPSG (Head-Driven Phrase Structure Grammar,中心语驱动短语结构 语 法, 吴 云 芳,2003),[7]LFG (Lexical-Functional Grammar,词汇功能语法)等理论体系对计算语言学产生了影响,出现了形式与语义系统集合的语法模式体系,其形式模型与语言学理论紧密相连,因此许多模型体系被安排在语言学课程里教授探讨。

当这些语言学的形式主义模型不能满足实际应用时,第四种范式很快运用于自然语言处理当中并成为主导方法,即自然语言处理的专业方法。这样研究者们将注意力集中于处理技术的提高,对语言及语言学的重视程度降低。第五种范式的出现是在计算语言学中的统计学方法在一些应用领域难以进行时,自然语言处理开始重新考虑语言学的方法和知识源泉。自然语言处理中的统计学方法专家试着回归语言学中的词汇学或是试着建立基于短语结构的统计模式。统计学和语言学方法模式的结合促成了计算语言学第五种范式的生成,即统计的和非统计的机器学习方法与语言学方法的创新性结合。

随着计算机技术的发展与语言理论的深入研究,前三种范式渐渐退出研究的中心地位,后两种范式将计算语言学的重要方法统计学与语言学结合起来,成为自然语言处理的一个新的进步范式。语言学与计算语言学中的统计学方法的合理应用才能促进语言研究的深入开展。因此,对二者的分工与结合形成的混合系统进行探讨就显得格外重要。

(二)计算语言学和语言学的分工与结合——混合系统研究

统计学的发展不断改变着计算语言学与语言学之间的关系。统计学运用于计算语言学方面,与语言学理论相结合,其促进作用体现在混合系统研究中。在语言处理的一些领域中,设计混合系统的方法已经显示出了前景性的成果。第一个设计混合系统既包含语言学也包括计算机技术成分,使这两种语言分析方法共同完成对词汇短语句子等的处理任务。在混和机器翻译研究中,混合系统的任务就是系统地为输入的语言探索统计学与语言规则最理想的结合结果。由经验丰富的语言学家对输入的语言进行一个详细的语义分析,由最好的统计系统发现相对应的输出语言的词汇短语或者句子链,并决定哪一类的输出结果是最恰当的翻译。系统利用事先给定的语言学语法转换规则对这些词汇短语句子链集合进行译文选择组合,从而得到对应的输出语言语句。这种利用计算语言学技术与语言规则结合系统对词汇短语句子进行翻译探索的方法只是对混合处理系统的尝试。另一个混合系统的设计方法就是基于对于整个语篇的研究理论。这种语篇混合系统是对第一个混合系统的补充,它不仅研究短语结构,更将短语结构的匹配上升到了语篇的高度,是一个更高层次的探索。这样,计算语言学与语言学的发展对于混合系统研究、混合机器翻译与翻译平台的建设发挥着重要的作用。

二、计算语言学视角下的翻译平台建设

在中国对外贸易、文化以及科技交流的蓬勃发展对翻译行业需求高涨的背景下,语言信息处理技术的进步给翻译事业带来的巨大变革和冲击。环境的变化要求语言服务企业发现新的商业模式、采用新的战略和新的管理模式,提高生产效率[8](俞敬松,2010)。很多语言服务企业每月百万字级别的翻译项目已经屡见不鲜,要求在很短的时间按照预定的质量标准完成大量的翻译。对语言服务工作者提出全新的要求。然而传统小作坊模式的 “译、审、校”手工翻译流程显然已经不再适应当今大批量的、团队协作的翻译业务流程。现代语言信息处理等行业需要精通机器辅助翻译的原理和应用技术的人才及相关的自然语言处理技术的发展提高,因此探讨在计算语言学视角下的翻译平台建设显得格外重要,尤其是混合系统研究下的混合机器翻译系统。

(一)语言规则是翻译平台建设中混合系统研究的前提条件

机器翻译是当前计算语言学研究的热点和难点。要提高机译的质量,首先要解决的是语言本身问题而非程序设计问题;单靠程序来做机译系统,无法提高机译质量。目前的机器学习方法就是从相似的文本中获得统计翻译模型,但是对很多句法现象却难以像传统的语言学语法一样正确地分析。如果语言学家们已经理解并形成了对语言文本特殊情况的潜在分析,那么从句法和语义注解语篇学习中总结复杂规则是可能的。

每种人类语言的语法都包括一小部分高度复杂的规则和一大部分相对简单的现象。这一小部分高度复杂的现象要比那部分相对简单的现象出现的多。这种倾斜的分布体现了的学习语言规则的价值和重要性。至今为止,我们还没有自动的机器学习方法,正确的产出复杂的语言现象。这样就提出疑问,如果没有人类语言学习者开发的句法——语义正确方法的指导,这些机器学习规则是否能够被运用?另一方面,词典和简单筛选匹配的限定能够容易地理解,很大程度上是因为其复杂性在于词汇本身类别的结构,而不是词语类别之间的简单划分。理解语言规则,设计这种混合机器翻译系统的平台显得尤为重要。

(二)语料库资源建设与语言信息处理技术的提高为翻译平台建设中混合系统研究提供了资源与技术保证

语言信息处理技术是新一代知识工程处理的核心支撑技术,[9]更是机器翻译中重要的技术保证。近年来,在自然语言处理技术等方面的研究中,语料库资源的巨大价值已经受到越来越多学者的关注和认可,特别是包含两种语言互译文本的语料库,如双语语料库已经成为机器翻译、翻译知识获取、数据挖掘以及双语词典编纂研究不可或缺的重要资源。

关于国内汉外双语语料库的建设以及对齐加工和标注多级自动对齐技术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技术目前已经取得了很大进展。机器翻译新技术的发展得益于双语语料库的出现,有效改善了翻译质量。同时,双语语料库又是汲取翻译知识的重要源泉,如翻译词典和翻译模板等,从而进一步改进传统的机器翻译技术。

(三)混合机器翻译系统是翻译平台建设的核心动力

目前翻译平台有很多,如网络翻译译言网、谷歌翻译等。但是翻译平台建设的核心动力在于机器翻译系统。机译系统可划分为基于规则 (Rule-Based)和基于语料库 (Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机器翻译的研究是建立在语言学、数学和计算机科学这三门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也取决于这三个方面,而且直接关系到翻译平台的建设。

计算语言学提供了一个新的视角,研究将计算语言学技术、语言学规则与大型语料库有效结合,构成一个语言处理的混合系统。利用计算机技术实现双语对齐,结合语言学规则及专业术语语料库,将计算机技术、语言规则与语料库结合构成全新的语言翻译的标准库,形成相对完善的语言资源库,进一步促进翻译平台的建设和完备。计算语言学视角下的翻译平台建设可以应用于语言服务产业,不仅能够快速有效地提高翻译的效率及准确率,而且有利于综合性语资源库的建设,如大型语料库建设等,以适应国际间多层次全方位的交流及信息化时代语言服务的要求。

三、结语

计算语言学与语言学的发展及其相关理论研究为翻译平台建设提供了技术支持与理论保障。翻译平台建设的核心动力是混合机器翻译系统的设计。语言规则为翻译平台建设中的混合系统设计提供了前提条件。语料库资源建设与语言信息处理技术的提高是混合系统研究的重要资源与技术保证。计算语言学与语言学之间的相互促进对翻译平台的建设发挥着重要作用。目前虽然计算语言学在一些语言学研究领域取得了不错的进展,但随着互联网的广泛普及,语言信息处理需求越来越大,人们迫切需要用自动化的手段处理语言信息,仍需要语言工作者的深入研究。因此,未来的研究中应重视理论语言学与计算语言学的影响作用,进一步探索计算语言学在语言研究、语言信息处理等领域的重要应用。

[1]雒自清,张雪荣,苗传江.计算语言学——一门新兴的交叉学科 [M].科学学研究,2003(12):46-50.

[2]冯志伟.计算语言学对理论语言学的挑战 [J].语言文字应用,1992(1):84-97.

[3]布买热木·阿布拉.浅谈计算语言学及其对理论语言学的影响 [J].和田师范专科学校学报,2004(1):79-80.

[4]冀铁亮,孙薇薇,穗志方.语言学与统计方法结合建立汉语动词子类框架类型集 [J].中文信息学报,2007(5):118-125.

[5]姚敏锋.基于短语译文组合的汉英翻译系统 [J].广东外语外贸大学学报,2010(2):75-77.

[6]俞士汶,柏晓静.计算语言学与外语教学 [J].外语电化教学,2006(10):3-11.

[7]吴云芳.HPSG理论简介 [J].当代语言学,2003 (3):231-242.

[8]俞敬松,王华树.计算机辅助翻译硕士专业教学探讨 [J].中国翻译,2010(3):38-42.

[9]才让加.面向自然语言处理的大规模汉藏 (藏汉)双语语料库构建技术研究 [J].中文信息学报,2011(6):157-161.

猜你喜欢
语言学范式语料库
以写促读:构建群文阅读教学范式
范式空白:《莫失莫忘》的否定之维
孙惠芬乡土写作批评的六个范式
《语料库翻译文体学》评介
管窥西方“诗辩”发展史的四次范式转换
认知语言学与对外汉语教学
基于JAVAEE的维吾尔中介语语料库开发与实现
社会语言学名词
语料库语言学未来发展趋势
基于认知语言学的“认知修辞学”——从认知语言学与修辞学的兼容、互补看认知修辞学的可行性