陈 颖 梁甜甜
(沈阳建筑大学外国语学院 辽宁沈阳 110168)
基于语料库的专门用途英语文体研究
——以土建英语为例
陈 颖 梁甜甜
(沈阳建筑大学外国语学院 辽宁沈阳 110168)
本文拟以自建土建英语语料库为例探讨如何使用语料库词表、检索和主题词功能对专门用途英语的文体特征和语言特点进行分析。借助语料库工具,采用实证手段对目标文本的文体特征进行定量描写和定性分析,进而可以拓展到对其他领域的专门用途英语文体进行分析。
专门用途英语;语料库;文体
随着国际间各领域的交往日益加深,专门用途英语顺应各行业对英语的特殊需求而产生,各领域专门行业对于英语的需求从通用英语逐渐过渡到专门用途英语的需求上。不同学科的专业人才需要阅读大量相关专业的英文文献和书籍来获取和了解本专业最前沿的信息,撰写或发表的学术论文需要符合国际标准,参加国际研讨会议时需要使用英语对本专业的理论进行探讨或者进行成果和应用方面的说明。但是中国学者在运用英语与本专业同行进行口头或书面的交流能力方面还存在欠缺。特别是对于某一专业领域文献的文体特征还缺乏整体的、系统的、理性的认识。专门用途英语文体的特殊功能使其在语言上具有区别于其他文体的显著特点。语法上正确的句子不一定是特定交际场合里最得体的语句。文体规范就是要解决语言运用里的优化问题,说明在若干个准确的用法中哪一种用法最适合特定语言的交际目的[1]。
为了详细说明各类文体的语言特点,研究者们一直采用比较或分类分析的方法对各类文体的语言特征进行详细的观察和研究。在对文体特征进行描述时鲜见准确数据支持,通常使用如“多”“少”“常常”等类似的模糊词语。语料库语言学为语言学研究提供了一种全新的研究思路,它以真实的语言数据位研究对象,从宏观的角度对大数量的语言事实进行分析,从中寻找语言使用的规律;在语言分析方面采用概率法,以实际使用中的语言现象的出现频率为依据建立语法分析(杨慧中,2004,4)。
本文拟以自建土建英语语料库为例探讨如何使用语料库对专门用途英语的文体特征和语言特点进行分析。借助语料库检索工具,采用实证手段对目标文本的文体特征进行定量描写和定性分析,进而可以拓展到对其他领域的专门用途英语文体进行分析。
基于语料库的语言研究通常采取定性和定量相结合的研究方法,利用计算机强大的计算和信息处理功能,快速、便捷、彻底的在语料库中对所需要的内容进行检索,并根据检索结果和统计数据进行综合观察,从而发现语言的真实特点,例如目标文本的用词特点、语法特征和语言风格等。本文使用Wordsmith软件对目标文本的形式特征进行考察和数据统计。
文本的形式特征主要包括:文件的字节数(bytes)型符数(tokens),类符(types),类符/型符比(type/token ratio),标准化类符/型符比(standard type/token ratio),平均词长(average word length),句子数(sentences),平均句长(sentence length),句长标准差(standard deviation of sentence length),段落数(paragraphs),平均段落长(paragraph length),段落长标准差等(standard deviation of paragraph length)(杨惠中,2002)。
目标文本语篇的大小或长度可以依据文本的字节数、型符数和句子数判断。为了了解某一专门用途英语的用词特点可以利用频次计算型/次。根据文本的型符数和类符数可以进行词汇变化程度分析。一般来说,型/次比值越高,使用的词形就越多,意味着文本使用了比较多样的词汇,重复词较少。比值小则说明文本的词汇有限,经常使用同样的词汇。但简单的计算型/次比不一定能反映出不同文本中的词汇变化度。因为词汇总是相对有限的,因而文本越短,型/次比就会相对越高。文本长了,词汇被重复使用,型/次比就会降低。为此,为了使型/次比有可能性,可运用wordsmith做标准化处理,对文本的每1000个词的型/次比都依次重新计算,最后算出各个1000词的平均型/次比,即标准型/次比,据此可以判断词语使用的多样性程度。
高频出现的核心词汇可以帮助区分不同的文本类型。运用检索工具对具体语言项的词形出现频次进行统计,观察排在最前面的词。不同文体语料中抽取的词表的高频词汇差异显著。因此某些词类在不同文体文本中出现频率上的差异可以作为判别不同文体的主要标志。利用词汇频率(包括使用频率、覆盖率和分布率)的统计对目标文本可以进行体裁及体裁差异分析[2]。
在语料库分析中,主题词指在单篇或多篇语篇中具有超高复现频率的词汇。利用检索软件提取专门用途英语语篇中的专业词汇进行主题词分析,可以得出该语篇的主题相关性。语篇的主题取决于该词在与之相对比的参照语料库中的出现情况。选取某一参照语料库(长于被检索文本)与观察语料库进行对比,生成主题词表。通过表中排在较前的主题词,可以得到该文本的关键信息。在某个特殊的科学领域里时,这些词汇具有特定的含义,有些词汇甚至仅在其特定的领域里使用。通过进一步观察这些词语在多个文本中的分布及内部意义和关系,可获得某一知识领域的词句集合相互联系的概念群。
下面以自建土建英语语料库为例,利用Wordsmith等工具对文本进行分析,自动生成词表和相关信息(如表1所示)。
表1数据表明,土建英语库中型符数为498,174,类符数为28,497 。为判断词形使用多少,根据表2计算型/次比为5.82。考虑到BNC的平均标准型/次比为43.02 ,结果表明BNC的内容覆盖面较广,需要较多的词型,而土建英语库中词型变化少,表明语料库围绕土木行业建设,用词比较集中,可见专业性词汇比通用性词汇应用范围要窄一些。
土建英语库中文本的平均词长是5.21,表明语料库的另一个特点:它的短词数目较少,而长词的数目较多。数据显示出的平均句长是22.15,这意味着土建英语整体上句式要长,句子结构也略复杂。长句能够表达较为复杂的概念,准确传递表达信息,多出现在
表1 土建英语文本总体统计数据(部分)
表2
书面语和正式场合中。土木英语属于科技文体,因此长句所占比例较大。
将土建英语语料库中最显著的名词检索排序。由表3可以看出:所列出的土建英语当中前10个最常用的名词,完全与土建专业密切相关,可见不同文体在常用词汇的使用方面有着显著地不同。这说明专门用途英语在词汇的选用方面有相当区别,因此在学习和使用专门用途的词汇时需要特别注意。
G212
A
1000-9795(2014)08-000272-02
陈 颖(1976-),女,辽宁抚顺人,副教授,研究方向:语料库语言学。
沈阳建筑大学青年基金项目(2013211)。