郑媛媛
广西外国语学院广西南宁530222
基于自建语料库的四字格语块特点研究
郑媛媛
广西外国语学院广西南宁530222
语块是指语言中出现频率较高,形式和意义较固定,以整体形式储存在大脑中的一串词,可整体或稍作改动后作为预制语块供学习者应用,具有整体储存、整体提取、整体使用的特性。本研究借助Antconc3.4.3软件,以中国国家政府报告英译本为语料并自建语料库;提取语料库中的四词语块,进行结构上和功能上的分类;然后对库中的四词语块进行分析,最后剖析四词语块结构和功能的关系,探讨四词语块用词特征。
语块;语料库;特点;中国政府工作报告
(一)语块
又称词块,是指语言中出现频率较高,形式和意义较固定,以整体形式储存在大脑中的一串词,可整体或稍作改动后作为预制语块供学习者应用。虽然学术界对语块的定义和称谓各有差别,如Pawley&Syder(1983)更侧重于其语法功能于作用,把它定义为“具有固定的语法形式和词汇意义的分句单位”;Biber et al(1999).将其定义为“由三个或以上的单词构成,在一个特定的语域里以一种高频共现的方式出现的结构”;Wray(2002:94)将之称为程式化序列(formulaic sequence),定义为“作为整体使用和整体储存的词语程式”;NattingerandDeCarrico(1990:1)认为语块是“介于句子和词汇之间的模式化短语,是一个词汇-语法单位”。
(二)语块的分类和功能
Cortes(2004)把语块分成九种结构,分别是名词短语+of、名词短语+that从句、其它名词短语、介词短语、介词短语+of、it+be+adj+that、联系动词be+补语结构、动词短语、其它结构。
从功能上看,Biber将语块分成三大功能:指称功能、文本衔接功能和态度立场功能。
(一)研究工具
本文运用日本早稻田大学Laurence Anthony教授研发的绿色免费语料库软件AntConc为工具自建小型语料库,对中国政府工作报告里的四词语块进行研究。
(二)研究文本
中国政府报告作为一种官方文件,其文体正式,用词严谨,表达精确,内含大量固定的表达和措辞,以体现政府的权威性和严谨性。政府报告的词块的提取、归类和分析有助于译者更直观、更迅速地保证翻译的准确性、流畅性和得体性。本文里的中国政府报告英译本的文本来源于中国政府编译局的官方网站(http://www.cctb.net/),以2012-2014年这三年的政府工作报告英译本为例。
(三)研究过程
文本被建立成库前,所有的文本应先用文本处理器经过格式的净化处理,由word文档模式变成text模式,完成格式处理之后可建库如下:
完成语料的建库之后,需要从中提取出四词词组。在提取过程中,四词词组出现的频率很重要。一方面,频率决定着语块的辨析,某个结构共现的频率越高,那么它越有可能会被识别称为语块以省去使用中的认知和加工过程;另一方面,一旦这个结构被整体存储和整体记忆以后,当再次表达相关意思或概念时,它会被优先使用和表达(Wray,2002)。
Altenberg(1998)认为,任意一个以固定形式和固定意义出现2次或以上的结构被称之为语块;Butler(1997)认为语块至少包含3个单词并共现超过10次以上;DeCock et al (1998)指出语块的频率和语块的长度成反比,即一个词汇短语的长度越长,频率越低;因此对不同长度的语块频率标准也应该有所不同:2词语块的频率应为9次或以上;三词语块的频率为4次或以上;四词语块的频率为3次或以上;5词语块的频率为2次或以上。因此,本数据库里,选项“theCluster/N-grams(词簇)”的参数被设定为最小值(Min size)4,频率(Frequency)3。
(四)研究结果
本数据库含有38,416形符(tokens)和3,444类符(types)。形符类似于我们日常说的“词”,总形符数是语料库容量的最常用的测量单位;类符作为一个统计量,指语料库文本中的任何一个独特的词形,即重复出现的形符只能记做一个类符,如Gertrude Stein的“Rose is a rose is a rose is a rose”这句话中,形符一共有10个,而类符只有3个(rose,is,a)(梁茂成,李文忠,许家金,2010:9)。按照之前设定的参数,把一些不合格的四词结构剔除后,本库四词语块的总数为714,由3,203形符以1229的频率出现在库中。下图为本库中出现频率前15的四词语块。
表一
从前15个高频出现的四词语块分布来看,动词词组(we will continue to,we will improve the,deepen reform of the,we will deepen reform,improve the mechanism for,give high priority to,improve the system of)和名词词组(economic and social development,the past five years,central and western regions,reform and opening up,agriculture rural areas and,rural areas and farmers,the people’s wellbeing)分别占据了47%的比例,而介词短语占据了余下的大约6%.
1、四词词块的结构性分析
对所提取的四词语块进行分析提炼后,结构分布频率图如下:(见表二)
本库共有符合要求的四词语块共714个,比例分布较大的为名词短语(Other NP)(30%)、动词短语(V)(20%)、介词类(Other PP)(17%);名词短语+of结构(NP+of)占16%.而其余的结构,如名词短语+that从句(NP+nominal),介词短语+of(PP+of),其余类型(Others)and系动词be+表语/补语成分(V be),分别占据了整库不到10%的比例。值得注意的是在本库中,“It+V be+adjective+(clause fragment)”缺失,没有出现。
表二
在本库中,与名词相关的语块(NP+of,NP+nominal, OtherNP)占据了将近一半的比例,说明政府工作报告里面涉及到的名词指称相当庞大和多样。作为面向全国的政府工作总结,囊括国家各行各业的发展,更有对未来的展望和计划,因此名此类词块独占榜首也不足为奇,通常来说,名词类结构在文章里主要是解释概念,指代以及具体化。
介词短语限定或界定了名词的范围,也使得表达更精确和流畅,由于和名词关系密切,因此所占比重也较大。
动词类语块在本库中占据了21%的比例,其中,主动语态高达93%而被动结构结构仅占7%左右,可以看出,虽然政府报告属于政论文,但其由总理代表政府述职的形式也影响了语态的选择;更重要的是,政府报告还承担着为未来做计划,向人民展示政府的成就、继续推进改革开发让人民享受更好的发展的决心,因此,主动语态成为报告中的主要语态。
短语类语块(NP+of,Other NP,PP+of,Other PP,V be,V, Others)和分句类语块(NP+nominal,It+V be+adjective+ clause fragment)相比,短语类比重高达95%,而分句类语块仅占5%;而It+V be+adjective+clause fragment该结构在库中甚至是缺失的,这个研究结果和前人的研究相符合,即短语类语块比分句类语块要更常见,频率更高(Biber at al, 1999;Biber&Barbieri,2007;Yu 2013)。
2、四词词块的功能性分析
本库中的四词语块的功能频率分类如下:(见表三)
四词语块在本库中功能频率的分布依次为:指称功能(69%),态度立场功能(23%),文章衔接功能(8%)。这一结果和Biber&Barbieri(2007)的研究相符。此前研究发现,几乎70%的语块都是指称类的,而语块的指称作用也是正式文体中的主功能(Biber&Barbieri 2007:278)。作为官方文件,所述理当客观,不偏不倚,因此态度立场功能所占比位于指称功能之下;从态度立场的子功能里也可看出,认知态度和预测态度占比较大,愿望、职责和能力态度所占比极小,体现出了客观、中立的表述态度。
表三
3、四词词块的结构和功能的关系
表四
以上图表体现了四词语块的结构和功能分布频率的关系。指称功能往往由名词类语块和介词类语块充当(NP+of structure,PP+of structures,NP structures and PP structures)。几乎所有的表示态度的功能都由动词类语块充当(V be,V),文章的衔接功能则主要由分句类语块实现(NP+nominal,It +V be+adj),部分由名词类语块(Other NP)、介词类语块(Other PP)和其它结构实现(Others structures)。
从上述分析可看出,中国政府报告中的四词语块出现频率较高;从结构上看,最主要的结构是名词短语语块(Other NP),共占比30%;频率较高的还有动词语块(V),介词语块(Other PP)以及名词+of(NP+of)语块;由此可见,中国政府工作报告英译文偏向于采用包含名词和介词的词块来表达指称、概念、质量以及限定性,侧面展示了报告内容的综合性、复杂性和精确;而动词结构多用于表达政府不遗余力地推动经济改革,改善民生,促进社会公正公平的坚定信念和决心,故主动语态以93%的高频成为译本的主要语态。
从功能上看,指称功能居于首位,随后是态度立场功能和文章衔接功能,体现了中国政府报告译文所含的内容量的丰富、广度,文体正式,分析客观。在本库中,指称功能占比69%,其所包含的子功能里,指称时间地点文本的功能(Time/ place/text reference)以及属性细化功能(Specification of attribute)占比最重,这一点和结构上多使用名词类以及介词类语块相呼应;在篇章衔接功能里,鉴定说明(elaboration/clarification)居首位,而这个功能和指称功能相互依赖、密不可分。在态度立场功能的子功能里,分量最重的当属认知态度(epistemic stance)和倾向预测态度(Intentional/prediction stance),这与报告剖析过往发展成就和展望下一年的内在属性息息相关。
从两者的关系上看,某些特定功能的语块往往由相对固定的结构实现。指称功能往往由带“of”结构的语块实现,包括(NP+of,PP+of)名词类语块和动词类语块也主要体现在指称功能上;态度立场功能由动词类语块完成,衔接功能主要由分句类语块体现;而前两类功能主要由短语类语块完成。
因此,在对中国政府工作报告进行翻译时,译者可根据语块特点而进行针对性翻译,如表示实体或概念指称作用多用含“of”结构以及名词、介词类语块(NP+of,PP+of,other NP,other PP...);对于动作、质量的指称多用(V,V be)语块;文本衔接常用短语类语块表达等。对于一些出现频率较高的语块,可整体使用,以保证译文的准确、通顺、流畅。
最后,本语料库建库较为简单,容量较小,也仅分析了四词语块,还有许多亟待完善之处,关于语块的学习与研究也可在此基础上不断深化与改进。
[1]Wray.A.Future Directions in Formulaic Language Research[J].Wang Lifei,Advances in Theoretical and Empirical Research on Formulaic Language[C].Shanghai:Shanghai Foreign Language Education Press,2012.
[2]梁茂成,许家金,李文中.语料库应用教学[C].北京:外语教学与研究出版社,2013.
[3]俞苗.不同学科学术语篇中四词语块的研究——以食品科学与教育学为例[M].大连海事大学,2013.