英汉商务信函语料库中语块提取研究

2015-03-12 16:40张博
科技资讯 2015年24期
关键词:语料库

张博

摘 要:英汉商务信函语料库中语块提取研究在借鉴语块理论研究的基础上,提出商务信函中英语和汉语语块的界定标准,对其进行了分类和形式化描述,提出了一种基于规则匹配的方案,通过自动在互联网上采集网页构筑动态语料库,利用英汉商务信函语块的结构、意义和功能等方面的特征制定英汉商务信函语块自动提取规则,从而实现从未经人工校对、自动分词以及词性标注的生语料中自动提取英汉商务信函语块的功能。该文依据语块理论来探讨英汉商务信函语料库中语块提取研究的研究目的,主要工作和研究成果。

关键词:英汉商务信函 语料库 语块提取 研究目的

中图分类号:F711 文献标识码:A 文章编号:1672-3791(2015)08(c)-0190-02

1 语块理论

语块研究在国内外语言学界已引起广泛的重视。该研究的热潮可从2009年5月在对外经济贸易大学英语学院成功召开的“首届全国语言语块教学与研究学术研讨会”得到印证。国内的语块研究越来越细致、深入,主要涉及搭配的研究;揭示词块运用与英语口语和写作之间的关系;强调词块学习在二语习得中的重要地位;语块提取等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。由于商务信函中的语言大多是具有一定的言语程式或行话,如:Enclosed please find…(随函附寄……,请查收),cash on delivery(货到付款)等。此种言语程式或行话由于出现频率很高, 并且形式和意义较固定, 使用的语境也较固定, 就像一个板块一样。可以预测,借助于语料库、统计分析、认知科学等方面的知识和方法,语块理论应用于语言教学、信息检索和机器翻译等方面的研究将更为明确化和具体化。因此,英汉商务信函语料库的构建及语块提取具有重要意义。

国内外学者对“语块(chunks)”的表述有多种形式,如: “lexical phrases”(Nattinger & DeCarrico,1992),“formulaic sequence” (Wray,2002)。虽然名称不同,且这些名称所指的内容也有一定的差别,但其探讨的本质基本相同。Lewis (1997) 认为,语言不是由传统的语法结构与词汇组成,而是由多词的语块组成的。Altenberg & Granger(2001)发现,大约70%的日常口语都是由预制语块构成的。半固定化的结构和其它预制语言或“板块”结构在语言习得和语言运用中起十分重要的作用。因此,我们不应该仅仅在课堂中提供给学生大量的抽象的语法结构、孤立的单词或者大段语篇的输入,而应该教给学生类似语块这种结合了语法结构、意义和功能的语言单位,且通过大量重复性的操练使这些语块固定在学生的心理词库中。

关于语块的研究方法,现有的研究主要使用了语法学方法、语料库语言学方法、语言心理学研究方法以及近年来才出现的教学实验研究方法。语法学的研究方法出现得最早,这种方法强调要对语块的定义和所包含的范围进行严格的界定。但从研究成果来看,语块的名称、定义和分类有很多种,没有形成一个统一的受到普遍认可的理论框架。且现有的对语块的定义和分类都是在对英语这一语言进行分析的基础上进行的,不能确定这种定义和分类方法也适合其他语言。并且,语块的范围是可变的,在不同的领域,如语言教学领域的语块,就不同于文学创作领域的语块。语料库语言学方法注重通过考察在大规模语料库中的出现频率再加上常识判断来识别多词结构、固定搭配和其他反复出现的语块。在语料库语言学的研究领域,语块的提取一直是个难题。现有的词块提取方法主要有搭配法、词丛法和搭配——词丛法,在此基础之上,濮建忠(2007)独辟蹊径,构建了语料库数据驱动的连续词块自动提取模型,这不仅有效地排除了“结构”和“意义”不完整的噪音序列,而且较好地避免了词丛法选取的词块之间的重叠部分,提取出的词块准确地反映了真实语言的使用情况(李晶洁,卫乃兴2010)。

笔者认为,上述方法都有各自的优点和不足之处。同时,各种方法又相辅相成、互为依据、互相补充。语法学研究方法是所有其他研究之根本,不对语块的概念进行严格的定义,不按照统一标准对语块进行分类,就无法使用筛选、统计、分析等语料库语言学方法; 不通过语言心理学的相关研究方法,使用语法学研究方法研究出的理论就会缺乏相应的科学依据;不通过教学实验,使用语法学研究方法提出的关于语块作用的理论也得不到验证。

总的来看,语块研究在国内刚起步,还有许多问题尚待研究,应加强语块本体和应用的研究,特别是笔者关注的语言教学和翻译领域。因此,英汉商务信函语料库的构建及语块提取具有重要意义。

2 研究目的

到目前为止,国内外鲜有学者专门针对英汉商务信函语料库中的语块提取展开研究。由于商务交往中有相当的一部分内容是通过信函形式进行,针对英汉商务信函语块对商务英语教学、信息检索和机器翻译等方面工作造成的障碍,英汉商务信函语料库中语块提取研究在借鉴其他语块研究的基础上,提出了商务信函中英语和汉语语块的界定标准,对其进行了分类和形式化描述并提出了一种基于规则匹配的方案,通过自动在互联网上采集网页构筑动态语料库,利用英汉商务信函语块结构、意义和功能等方面的特征制定英汉商务信函语块自动提取规则,从而实现从未经人工校对、自动分词以及词性标注的生语料中自动提取英汉商务信函语块的功能。

3 主要工作和研究成果

(1)在借鉴英语和汉语对语块概念与分类研究的基础上,将英汉商务信函语块分为三种类型:全称缩略语块、惯用表达语块、专业术语语块。(2)为了制定英汉商务信函语块自动提取规则,通过对大量英汉商务信函语料的分析,将基于规则的英汉商务信函语块自动提取共包括三个步骤:文本预处理、英汉商务信函语块识别和后期处理,并对其进行了形式化描述,分析了基于规则的英汉商务信函语块自动提取的关键技术。(3)设计制作英汉商务信函语块自动提取实验系统,通过“网页自动下载模块、语料信息抽取与格式化模块、文本预处理模块、英汉商务信函语块识别模块、后期处理模块”五个模块,采用基于规则的方法实现了从未经人工校对、自动分词以及词性标注的生语料文本中自动提取英汉商务信函语块的功能,取得了较好的提取效果。

4 研究意义

语块数量如此之多,仅靠死记硬背是不现实的,因此,研究如何利用语料库进行语块的提取,在语言教学和机器翻译等方面的研究中具有十分重要的意义。英汉商务信函语料库中语块提取研究是利用计算机进行基于英汉商务信函双语语料库的语块提取研究,具有多方面的重要意义:(1)该研究为开展对外经贸交流和向国外有关企业机构提供经济技术合作和贸易方面的信息咨询服务并解决英汉商务信函中的语言沟通障碍。(2)英汉商务信函语块自动提取的实现为英汉商务信函机器辅助翻译系统的译准率提高起到关键作用,为研制在互联网上进行机器辅助英汉商务信函翻译系统提供基础,为研制经贸专业机器翻译系统创造必要的条件。(3)英汉商务信函语块自动提取方法对进一步对大规模各种专业的双语语料利用计算机自动提取语块提供了思路。(4)构建的一个规模为100万词次的英汉商务信函语料库(包括四个子库:英语商务信函语料库,汉语商务信函语料库,英汉商务信函平行语料库,汉英商务信函平行语料库)该库为动态的,可以自动获取服务于语块自动提取的知识资源,是面向商务领域的一个特定的语料库,它对商务英语学习者、商务汉语学习者、翻译学习者及工作者的研究与学习起到指导作用。

参考文献

[1] 濮建忠.英语词汇教学中的类联接、搭配及词块[J].外语教学与研究,2003(6):438-445.

[2] Wray, A. Formulaic Language and the Lexicon[M].Cambridge: Cambridge University Press,2002.

[3] Altenberg B.& Granger S.The Grammatical and Lexical Patterning of “Make”in Native and Non native Student Writing[J].Applied Linguistics,2001,22(2):173-194.

[4] 王立非,陈香兰.语言语块教学与研究在中国的进展—— “首届全国语言语块教学与研究学术研讨会”综述[J].外国语,2009(6):90-94.

[5] 曹合建.基于语料库的商务英语研究[M].北京:对外经济贸易大学出版社,2008.

[6] 李晶洁,卫乃兴.学术英语文本中连续短语单位的提取方法[J].解放军外国语学院学报,2010(2):45-50.

猜你喜欢
语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究