张丽平
(中国人民解放军理工大学理学院外语系,江苏南京210011)
基于语料库的英语科技论文文体特征分析*
——以历年国际数学建模特等奖论文为例
张丽平
(中国人民解放军理工大学理学院外语系,江苏南京210011)
利用语料库检索工具Word Smith对国际数学建模论文进行检索,并在考察数学科技论文的文体特征基础上。描述了数学科技论文的总体特征,还通过从词汇、词语搭配等方面详细分析了数学科技论文在词汇、句子和语篇三方面的要素,为科技论文的写作教学提供有价值的参考。
语料库检索;数学科技论文;文体特征
随着我国教育改革的深入,国内大学生参加的重大国际赛事越来越多,国际大学生数学建模竞赛(MCM/ICM)就是这些赛事之一,它是美国国家科学基金会、美国数学会、美国运筹与管理学会及其应用联合会联合举办的在世界上影响范围最大的高水平大学生国际级的竞赛项目,这项赛事包括从1985年开始举办的数学建模竞赛,英文全称“Mathematical Contest in Modeling”,缩写为“MCM”,和2000年开始举办的交叉学科建模竞赛“Interdisciplinary Contest in Modeling”,缩写为“ICM”。这项赛事自诞生起就引起了越来越多的关注,并逐渐吸引了世界各地著名学府学生的参加。我国一些著名大学如清华大学、北京大学、上海交通大学、浙江大学、西北工业大学等从1989年起开始参加这项赛事,并经常在该项赛事中取得令人瞩目的成绩,大大提升了学校的国际知名度。
国际赛事的通用语言一般是英语,这对我们当前的英语教学尤其是英语写作教学提出了新的挑战。只围绕四六级作文写作的非英语专业学生的写作教学已满足不了当前的这种需求,大学英语的写作教学还应关注科技论文的写作。这里的科技论文指“用英语撰写的有关自然科学的学术论文、实验报告等”[1]。对于英文科技论文的探讨,国内的研究大多是关于科技论文英文摘要的研究,也有部分研究是对英语科技论文文体的描述,这些研究基本展现了英语科技论文的文体特征,但多为主观判断。语料库语言学强调利用语料库收集的真实语料对文本进行量化分析,因此可以较为客观地展现英文科技论文主体部分的文体特征,是科技论文文体特征研究方法的有益补充。本研究尝试利用语料库语言学的研究方法,通过对自建的美国大学生数学建模特等奖论文语料库的文本分析,客观地描述科技论文,尤其是数学科技论文的文体特征,以期对我国的本科科技英语写作教学以借鉴。
本文的研究选取近五年国际大学生数学建模竞赛特等奖论文为语料建立一个小型语料库,具有一定的代表性。用自建的一个由新闻报道、文学作品等非科技论文组成的语料为参照语料库,利用语料库检索软件Wordsmith工具,采用定量和定性相结合的方法,对大学生数学建模竞赛特等奖论文进行分析,以揭示数学科技论文的文体特征。
将自建的国际大学生数学建模竞赛特等奖论文语料库用Wordsmith中的统计功能,可以统计出该语料库的总体特征,如字节数(Bytes),形符数(Tokens,文本中总的单词数),类符数(Types,文本中不同的词形数),类符形符比(Type/Token Ratio,在一定程度上反映用词的变化性),标准化类符形符比(Standardised Type/Token,反映用词的变化性),平均词长(Ave.Word Length),平均句长(Sent.length),平均段落长(Para.Length)等等。统计结果如表1所示。
?
类符形符比可以反映作者用词的变化性,本语料库的类符形符比是5.03,而BROWN语料库的类符形符比为4.21[2],可以得知获奖大学生已经能较好地掌握词汇及其应用。类符总数为3541,可见虽然数学论文需要解决的问题不一样,但作为专业化的科技英语,其核心词汇量并不大。平均句长是23.04,和标准句长15.23相比要偏长,也比各类英文文体的平均单句句长17.8个词要长[3]。数学论文的句长长于一般文体,这可能是句子所容纳的信息较多的缘故。平均段落长是98.11,比标准平均段落长106.07稍短,这和数学论文中假设和结论部分的内容有关,这两部分一个段落大多是由只含有一个假设或一个结论的单个句子构成。平均词长中,单个字母词的数量接近7个字母词的数量,单个字母构成的单词只有不定冠词a和第一人称单数I,其中字母a出现1627次,除去75次不是作为冠词使用,冠词a占单字母词的33.2%。字母i出现了93次,从语境中的关键词观察,没有一个字母i是作为人称词使用。所以大多数的单个字母多为作者计算时所设的某个值。把两个字母的词,三个字母的词,四个字母的词和五个字母的词相加,共有39006个,占文本总形符数66,818的58.4%。六个字母以上的大词共有23142个,占总形符数的35.6%。在日常谈话,即席解说,甚至广告中,六个字母以上词的百分比都没有超过20%[4]。所以数学论文基本上具有书面语特征。
关键词指的是跟某一标准相比其频率显著偏高的词,偏高的程度就是该关键词的“关键性”[2]。这也就是说,和参照语料库相比,关键词是指在某个文本中出现频率偏高的词汇,关键词的关键值越大表明该词在文本的的使用频率越大,因此关键词能在一定程度上代表该文本的用词特征。笔者将自建的一个由新闻报道、文学作品组成的共25,983,254词的语料作为参照语料库,利用语料库检索软件Wordsmith工具的keyword searching功能对特等奖论文库文本进行分析,生成关键词表,分析关键词表中关键值在1100以上的词汇,并利用词语索引(concordance)分析这些词在语境中的词汇意义,发现数学论文词汇使用主要具有以下特征。
1.大量使用数学词汇
数学论文不可避免要使用公式、方程等进行运算,用图表加以显示结果,因此关键词表中出现了不少数学专业词汇,按照关键值大小的顺序排列主要使用了这些词汇:model(建模),algorithm(算法),diagrams(图表),equations(等式,方程式),parameters(参数),cm(厘米),radius(半径),figure(图形),nodes(节点),values(值),calculate(计算),coefficient(系数),compute(计算),linear(直线的,线性的),graph(图表,曲线图),variables(变量),ratio(比率),interations(),subtracting(减法),interative(),vertex(顶点),nonlinear(非线性),correlation(相关性),integer(整数),quotient(商),functions(函数)。
2.普遍使用第一人称代词we
在频数最高的前10个词中,第一人称词we在词频表中位列第八,这和黄橙紫(2003)[5]统计的JDEST语料库中人称词的使用情况不一样,JDEST语料库前20位词中没出现人称代词,在当时由350万词组成的JDEST语料库中,we出现了2018词,而本语料库却出现了1041次。显然,相对于包括各类专业的科技英语语料库,数学科技论文并不排斥第一人称we的使用。而关键词表显示we的关键值是15420.6,可见数学论文中we的使用频率是相对偏高,在数学论文中的使用是很普遍的。
通常人们会认为,过多使用第一人称句会造成主观臆断的印象,这和强调客观准确的科技论文写作是相违背的。那么本语料库中we在其中起着怎样的作用呢?将we置于语境中的关键词中进行搜索分析发现,以we为主语的句子的主要功能是:提出假设(we assume/hypothesize),提出使用某种算法,进行计算和怎样计算(we use/set forth/calculate/compute/neglect),定义数值(we define),数值比较(we compare),得出计算结果(we get/obstain/find),进行建模(we model),解决问题(we solve),得出结论(we conclude/present the results)。从这些功能可见,数学论文中第一人称句的使用可以使句子更为简洁,其提出假设、进行建模、提出算法、定义数值、进行数值比较和得出结果等正体现了作者在解决问题方面的独特之处,不会削弱数学论文的客观性,反而使得表达更为清晰简洁,直接有力。
1.时态特征
从词频统计来看,频率居前200位的动词有is,are,be,have,has,use,given,set,do,does,was,were,make,take,transplants,expected,assume,see。大多数动词都是用的现在时态,用了过去式和过去分词的只有was,expected和given,而语境中的关键词显示927处expected只有39处是用于过去时态或完成时态,其余的都是用于被动语态;100处given都是用来表示被动或条件。进一步观察其他动词可以得知,数学论文一般是用数学思想解决社会生活中某些具体问题,其操作和结论具有科学性和普遍性,文中多有对方程式或公式的解说以及图表的说明,使用现在时态来表述,排除了任何与由于时间而引起的误解,使文章更为客观和生动,令人信服。
2.语态特征
一般科技英语为了描述客观事实,常常会将要强调的事实置于句首,以突出重要信息,因此被动语态使用较多。根据英国里兹大学约翰·斯威尔斯(John Swales)的统计,科技英语中的谓语至少1/3是被动语态[6]。通过考察系动词be,is,are,was,were,been,发现本语料库被动语态一共使用522次,占句子总数的22.5%,这虽然和约翰·斯威尔斯的统计有所出入,但是已经在文本中占有相当大的比例。通过语境中的关键词concordance功能检索,进一步观察发现,被动语态多用于描述问题、模型、方法、计算过程和结果等。
3.句式特征
数学科技论文好用it引导的句子结构来描述所要解决的问题,讲述模型设计,评价计算过程。本语料库中it出现253处,concordance显示75处用在这四种句子结构中:It is/seems/was/may be/would be+形容词+that…/to do…,It+被动结构+that…,It assumes that…,It takes/took+时间+to do…,其中第一种句子结构使用最多。
1.文体框架特征
从词频表显示来看,位列前150位的词中涉及论文主体部分框架结构特征的词依次是:model,algorithm,method,data,figure,simulation,solution,assumption,results,problem。进一步到语境中的关键词发现,除了本研究所建语料库时不包括的摘要和参考文献部分,数学建模论文主体部分有一定的标准格式,主要包含有假设、建模、方法、算法、数据和结论几个部分。这种格式合乎科学推理的思维逻辑:首先确定问题,建立假设,然后设计模型加以验证,这涉及到采用何种方法、何种算法,通过计算得出数据和图表以验证模型的有效性,最后得出结论。
2.语篇衔接
语篇不是句子的简单堆砌,而是由意义和结构相关的句子组成。语篇意义之间的连贯通常以这些衔接手段来实现:指称、替代、省略、连接和词汇衔接[7]。这里主要通过词频表和语境中的关键词来考察语篇的衔接。
根据词频表前300个词汇词语使用频率的高低排列,数学科技论文的衔接主要通过以下逻辑语法词汇来实现:and,for,that,as,which,if,so,only,but,since,where,when,given,however,because,while,thus,after,assume,therefore,until,before。其中包括表达时间顺序的since,after,until,before表达因果的for,so,because,therefore,表达条件的if,only,given,assume和表达逻辑语义的and,but,however,that,as,which。从语境中进一步重点考察词汇频率排在前列,既可以做连词又具有其他功能的and,for和that的用法。首先观察词汇频率居于第五的and出现的语境发现,1429处使用and的地方,只73处是表达增补、因果、顺序、对比等连接关系[8],and基本上都是用于并列结构中,所以,科技论文很少使用and来实现语篇的连贯。使用频率较高的that,723处中作为指代作用的只有55处,其余都是起连接作用。位列词汇频率表第九位的for既可作表达原因的连词,也可以作介词,742处for中,只有5处用作连接词表达原因,所以数学论文通常不用for来表达原因关系。
由以上分析可知,数学科技论文由于长于推理论证,句子比较长,因此使用较多的外显衔接词汇来实现语篇的连贯。而在具体使用时又有所偏好。
本文利用语料库的定量分析方法,结合定性分析,客观地描述和研究了近几年大学生数学建模获奖论文在用词、句子特征和篇章等方面的特点,改变了以往只以经验和直觉分析研究科技论文文体特征的研究方法,使我们对科技论文文体特征的认识更为科学合理,对我国大学生的科技论文的写作教学提供了更为可信的科学依据。本研究的不足之处在于所搜集的大学生数学建模特等奖论文数量比较有限,如果能收集到所有特等奖论文并建库,结论将更为客观。
[1]秦秀白.英语语体和文体要略[M].上海:上海外语教育出版社,2004.
[2]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2004.
[3]钱瑗.实用英语文体学[M].北京:北京师范大学出版社,1991.
[4]熊莉.从就职演说辞看肯尼迪演说的文体风格[J].西南民族大学学报人文社科版,2004,(6):407-410.
[5]黄澄紫.科技英语词汇的统计特征[J].同济大学学报(社会科学版),2003,(2).
[6]辜嘉铭.英语科技论文写作精要[M].武汉:武汉大学出版社,2006.
[7]M.A.K.Halliday,Ruqaiya Hasan.Cohesion in English[M].张德禄,等译.北京:外语教学与研究出版社,2007.
[8]金春霞,胡清平.“and”的语法功能及作用[J].徐州教育学院学报,2000,(4):133-134.
2012-05-19
张丽平(1976-),女,广西平乐人,讲师,硕士。