王志娟, 于 丽(. 北京师范大学 外国语言文学学院, 北京 00875;. 黑龙江大学 应用外语学院, 黑龙江 哈尔滨 50080)
学科英语指用来组织不同领域的经验知识所采用的英语变体,为高校英语教育的基本内容,属于专门用途英语[1] 81。作为一组功能变体,学科英语内容既涉及某一学科的专业书籍、研究论文等高度专业化的语类,又包含专业报纸、印刷品等科普类读物[2] 5,以及教学过程中涉及的教师话语、学生笔记、小组讨论等教学话语[1] 73。它们在复杂度与难度上形成一个连续体。在不同的发展阶段,专门用途英语有其不同时代的特点[3]。在如今的大数据时代,学科英语也应紧跟大数据这一时代特点。工科英语作为学科英语重要的研究领域之一,下设39个一级学科,不同子学科间的语言特点差异及同一学科中不同语域中的特点差异,需要借助专门用途语料库从量化和质性两方面进行系统、全面地描写及功能、认知方面的阐释。
目前,国际上具有代表性的专门用途语料库有Hyland[4]研制的“多学科期刊论文语料库”,包括8个不同学科共240篇论文,合计约130万词次,Swales建立的“密西根学术口语语料库”(the Michigan Corpus of Academic Spoken English)[5],美国考试服务公司的“T2K-SWAL语料库”(the TOEFL 2000 Spoken and Written Academic Language Corpus)[6],“印第安纳跨文化交流中心筹款语料库”(the Indiana Center for Intercultural Communication (ICIC) Fund-raising Corpus)[7]等。国内也根据研究和教学的需要,相继建立了各种专门用途语料库,如上海交通大学的“科技英语计算机语料库”(JDEST Computer Corpus)[8],桂诗春和杨惠中主持的“中国学习者英语语料库”(Chinese Learner English Corpus),“中国学生英语口笔语语料库”[9],解放军外国语学院的“军事英语语料库”,大连海事大学的“海事英语语料库”,黑龙江大学的“商务英语语料库”,国家语委的“计算机专业双语语料库”[10],“东华科技英语语料库”[11],“评价语料库”[12]等。但现有相关专门用途语料库的结构、规模,或者标注详实度不能准确、全面地反映工科英语不同子学科及不同语类的特点差异,如上海交通大学的“科技英语计算机语料库”的语料由篇幅约500字的2 000个采样单位组成,而非完整语篇,这样的语料对于很多研究具有限制性;Hyland的“多学科期刊论文语料库”收录30篇工科期刊论文,未考虑不同语类的语篇和子学科的覆盖性;“东华大学科技英语语料库”的子库“专业科技英语”语料库虽然对语料的语类给予了一定的考虑,但语料仅涉及论文、书评和科技新闻三个语类,没有纳入专业教材和书籍及科普文章,与Hyland的“多学科期刊论文语料库”类似,没有考虑子学科因素。虽然这两个语料库都对工科英语有所涉及,但鉴于语料选取在语类和子学科覆盖性两方面的局限性,仍无法满足比较不同子学科、不同语类语篇特征的需求。另外,现有语料库未对语料进行词汇语法的标注,很难进行深入的语言学研究。因此,本文提出工科英语语料库的研制方案,以期全面、系统地研究工科英语子学科间,以及语类间在词汇语法维度上的异同,揭示工科英语的本质特征,为高校专门用途英语教学模式[13]中的工程学科提供内容参照。
工科英语在理论和知识表征中有其独特的词汇语法模式。除了语言(这里指英语),还涉及大量的公式、定理、数学、物理、化学等符号。这些公式、定理和符号,精确、高效地表达着工科知识系统,在体现工科理论和知识内在的逻辑性的同时,也具有排外性,将对工科知识感兴趣但不是工科专业的人士挡拒在工科大门之外。其虽然重要,但目前由于语料库软件无法读取该类符号,故在语料库研制之初,我们暂不予以考虑。
鉴于此,笔者尝试从语言符号这一表征系统入手,着重考虑以下三方面内容:①语料涉及的子学科和语类,以及各子学科和语类的代表性和平衡性;②语料的收集、整理和清洁;③语料的标注及标注工具的选取。
工程学包括力学、机械工程、光学工程、仪器科学与技术、材料科学与技术、冶金工程、动力工程及工程热物理、电气工程、电子科学与技术、信息与通信工程、控制科学与工程、计算机科学与技术等39个一级学科。为此,工程学语料涵盖39个一级学科。在语料选取中我们力求语料的“代表性和平衡性”[14] 26。代表性指选取的语料的文类具有代表性,这里指所选语料既能够反映出工科英语作为科学语言的高难度的专业化,又能反映工科英语作为科普信息载体的一般难度化。平衡性指每类语料的比例要均衡。依据工科英语语料库的建库目的、代表性及平衡性原则,工科学生学习资料的来源途径及可操作性,语料来源规定为3种文类:科普文章,专业书籍和SCI期刊论文。暂且框定每个子学科科普文章40篇、专业书籍2本、SCI期刊论文25篇,语料收集过程中灵活调整此比例以保证语料库的平衡性。故工科英语语料库的语料结构如图1。
图1工科英语语料库的语料结构
语料库建设阶段的主要任务包括文本收集、整理、清洁和文本的标注等[14] 21,文本标注包括元信息标注和语言学信息标注。
(1) 文本的收集、整理和清洁。学术期刊论文从SCI期刊上获取,专业书籍由相关专业人士推荐,科普文章从Scientific American,How Stuff Works,Live Science, Science Daily,Popular Science等科普网站上获取。
所有文本最终都转换成纯文本格式。CAJ格式论文通过另存功能转换成纯文本格式;PDF格式论文使用Adobe Acrobat X 10.1.1软件转换成Word文档,然后另存为纯文本格式;专业书籍等印刷制品文本需要研究人员采用扫描仪进行高清扫描后获取图像文件,然后使用OCR软件进行文字识别,完成校对后将文本另存为纯文本格式;科普文章从网站上拷贝进纯文本文档,完成格式校对。同时,课题组人员需要将文本中的图表、公式等不能为语料库检索软件识别的部分删除。
完成纯文本格式转换后,采用“文本整理器”将不符合英文文本规范的“全角字符”“跳格”“多余空格”“软回车”等问题进行整理和替换,批量生成清洁文本。经过该软件批量处理后的文本仍会存在个别小的问题,需要研究人员手动排查。最后将整理好的文本保存在名为“生文本”的文件夹内。
(2) 元信息标注。元信息标注包括文件名标注和文件头标注。文件名标注包含学科类别、文本类别、篇数序列等信息,均采用英文名称首字母大写标注。SCI期刊论文的英文采用RESEARCH ARTICLE,专业书籍的英文采用TEXTBOOK,科普文章的英文采用POPULAR SCIENCE ARTICLE。例如,信息与通信工程学术期刊文章的文件名标注方式为:ICE_RA_01,其中ICE代表信息与通信工程(Information and Communication Engineering)学科,RA代表学术期刊论文(Research Article),01表示第一篇。文件头标注包含作者姓名;出版日期;文章题目/书籍名称;期刊名称/出版社名称等信息,均使用英文全称标注。此外,课题组还对期刊论文进行了包括ABSTRACT,INTRODUCTION,METHODOLOGY,RESULTS,DISCUSSION,CONCLUSION的文本结构标注,目的是为了后期根据具体研究的需要生成子语料库。
(3) 语言学信息标注。语言学信息标注包括词性赋码、句法标注、语义标注和词汇语法标注。
在词性赋码操作中,可以使用德国斯图加特大学计算机语言学研究所Helmut Schmid设计的Tree Tagger自动词性赋码器对生文本进行词性赋码。为了可以更方便地在Windows环境中运行程序,笔者打算使用梁茂成、李文中和许家金[14]30在不改变其性能的情况下简化了的程序,最后生成扩展名为.pos的文本,保存在名为“词性赋码”的文件夹内。句法标注使用Standford Parser软件,生成的文本保存在名为Syntactic Tagged的文件夹。然后使用USAS online English tagger进行语义标注,生成的文本保存在名为“语义标注”的文件夹内。
目前关于语料库文本词汇语法的标注还没有相关的自动标注软件,需要手动标注,本研究采用UAM Corpus Tool(V2.0)软件在电子文本上进行手动标注。
词汇语法信息的标注包括两部分:词汇和语法。
词汇方面主要是相关学科领域的专业术语和写作过程中常用的词汇表达。前者主要体现为名词、名物化或者名词词组(名词串),后者主要体现在起连接作用的动词成分(包含动词的语法隐喻形式),这些都需要在语料库中标注出来。自然科学中的专业概念本身没有意义,分类使其产生意义[15]164。专业术语主要依据两种关系进行分类:上下义关系(aisakind ofb)和组成关系(bisapart ofc)[15]164,因此术语之间的分类关系也需要标注。除此之外,术语的名词词组(名词串)表征还会隐含各个组成成分内在的逻辑语义关系,这也是学科英语中句法歧义的原因之一[15]171。如theheat-drivenquantumrefrigerator,中心词是refrigerator,quantum是类别词,heat-driven是表征词,the是指示语,该术语的逻辑语义关系可以显性表达为:Quantumprovidesheatwhichdrivestherefrigerator。因此,在词汇标注方面,不仅要标注出专业术语的体现形式,还要标注出术语之间的分类关系,以及名词词组各成分间的逻辑语义关系及其显性表达式。
语法方面主要关注小句中动词成分体现的连接功能:复杂因果关系(complex causal(e.g.prevent,increase))、时间关系(temporal(e.g.follow))、识别关系(identifying(e.g.be,constitute))、象征关系(symbolizing(e.g.signal,mark))、投射关系(projecting,‘cause to know/think’(e.g.prove,suggest))、附加关系(additive(e.g.complement,accompany))[16]85,以及其他的逻辑语义结构,如条件-结果(结果-条件)结构(IfA…,Bmaybe….Thisleadsto…;IfA…,andifB…,Cshouldhave…;SinceA…,Bisalways…;Giventhat…,wecan…andthus…;Ais…,asitis…;LetusassumeA,sothatB…等)、详述关系(forexample;forinstance; …,whichis…)等。以上连接功能及逻辑语义结构的语法隐喻形式也需在文本中标注出来。
经过词汇语法标注的文本统一存放在名为“词汇语法标注”的文件夹内。
以上5个平行的文件夹组成工科英语语料库,其构架模拟图如图2。
图2工科英语语料库构架模拟图
相关研究人员可以根据具体研究的需要,使用不同标注内容的文本语料,也可根据不同的变量,生成子语料库,如根据语料类型生成工科英语学术期刊文章子语料库、专业书籍子语料库、科普文章子语料库,也可依根据变量Introduction生成工科英语学术期刊文章的Introduction子语料库等。
工科英语语料库的建设有两方面的考虑:一是基于语料库开展相关的语言研究;二是将该语料库引用到工科英语语言教学中,使其成为教师备课及学生自主学习的有效工具。
该语料库特色之一就在于它不仅囊括了工程学不同的学科,还涉及工科英语不同的语类。语言研究者既可以横向对比不同学科同一语类中的一种或者多种句法、语义和词汇语法特点,又可以纵向对比同一学科不同语类间的一种或者多种句法、语义和词汇语法特点,揭示不同学科或者不同语类的知识表征或建构模式。语言研究者也可通过检索不同的变量生成适合特定研究需要的子语料库,如将期刊论文不同的部分作为研究对象,开展期刊论文不同结构部分的对比研究。另外,本语料库除了可以像其他语料库一样开展词块分析、句法结构、类联接研究和话语研究[14]212外,由于本语料库标注信息涵盖语法隐喻,也可开展基于语料库的语法隐喻研究。除了可以开展语料库内的对比研究外,工科英语语料库还可以开展语料库间的对比研究。与其他语料库(如通用语料库,或者其他学科的语料库)的跨语料库对比研究,可以揭示工科英语与通用英语、其他学科英语的区别,为揭示背后的学科规律、相关的语用和功能阐释提供翔实的语料基础。此外,该语料库也可考虑为基于叙词表的方法[17]153研发工科英语术语词典提供语料来源。
除用于语言研究外,工科英语语料库还可用于工科英语教学。该语料库建成后会请专业技术人员将该语料库上传到公共的网络平台供包括学生在内的相关人员(语言研究者,教师等)免费使用。此做法既可以改善以往学生无法接触语料库,语料库被神秘化的境况,又可以为形成“教师引导为辅,学生自主学习为主”[18]的语料库教学模式提供实践机会。在初始阶段,教师主要指导学生进行特定词项、词语搭配、类联接等单项检索任务操作;进入熟练阶段,以教师引导为主,学生可自主分析特定语类或者特定结构部分(如期刊论文的Introduction)的词汇语法、句法和语义特点;高级阶段,学生可借助语料库进行论文写作或者翻译等工作。此过程不仅能够提高学生的论文写作水平,还可以帮助学生从整体上把握工科知识潜在的表征系统。
虽然工科英语语料库的建设充分考虑到子学科和语类的覆盖性,力求语料的代表性,但正如前文所述,工科英语中涉及大量的公式和符号,它们在构建工科知识和理论过程中起着举足轻重的作用。然而,在语料库中并未体现,这未免是我们语料库建设中的一大遗憾。技术的局限性既是我们研究的不足,同时也是我们未来备以突破的方向。
参考文献:
[ 1 ] HALLIDAY M A K. Aspects of language and learning[M]. WEBSTER J J. Berlin & Heidelberg Springer: 2016.
[ 2 ] MARTIN J R, VEEL R. Reading science: critical and functional perspectives on discourses of science[C]. London: Routledge, 1998.
[ 3 ] 宋阳,王亦兵. 专门用途英语:界定、分类及国内研究现状[J]. 沈阳大学学报(社会科学版), 2014,16(4):554-557.
[ 4 ] HYLAND K. Disciplinary discourses: social interactions in academic writing[M]. Ann Arbor: University of Michigan Press, 2004.
[ 5 ] SIMPSON R. Stylistic features of academic speech: the role of formulaic expressions[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.
[ 6 ] REPPEN R. Academic language: an exploration of university classroom and textbook language[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.
[ 7 ] CONNOR U, UPTON T A. The genre of grant proposals: a corpus linguistic analysis[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.
[ 8 ] 杨惠中,黄人杰. JDEST科技英语计算机语料库[J]. 外语教学与研究, 1982,4:60-62.
[ 9 ] 文秋芳,王立非,梁茂成. 中国学生英语口笔语语料库[M]. 修订版. 北京:外语教学与研究出版社, 2009.
[10] 董爱华. 专门用途语料库的建设、应用、问题与发展趋势[J]. 北京印刷学院学报, 2013,21(5):59-74.
[11] 吴蕾,赵晓临,张继东. 专业科技英语语料库的建设与应用[J]. 东华大学学报(社会科学版), 2014,14(2):81-85.
[12] 彭宣维,刘玉洁,张冉冉,等. 汉英评价意义分析手册[M]. 北京:北京大学出版社, 2015.
[13] 王亦兵,宋阳. 高校ESP教学模式. 沈阳大学学报(社会科学版), 2014,16(3):366-369.
[14] 梁茂成,李文忠,许家金. 语料库应用教程[M]. 北京:外语教学与研究出版社, 2010.
[15] HALLIDAY M A K. Some grammatical problems in scientific English[C]∥WEBSTER J J. The language of science: Vol.5. London: Continuum, 2004.
[16] HALLIDAY M A K. Things and relations: regrammaticising experience as technical knowledge[C]∥WEBSTER J J. The language of science:Vol.5. London: Continuum, 2004.
[17] HALLIDAY M A K. General linguistics and its application to language teaching[C]∥WEBSTER J J. The language of science: Vol.9. London: Continuum, 2004.
[18] GAVIOLI L. Exploring corpora for ESP learning[M]. Amsterdam: John Benjamins Publishing Company, 2005.