CivDEAP土木工程学术英语语料库的创建

2020-07-02 10:36:08重庆交通大学章柏成
语料库语言学 2020年1期
关键词:语料语料库学术

重庆交通大学 章柏成 杨 玲

提要:CivDEAP土木工程学术英语语料库是DEAP学术英语语料库的子库之一。本文从建库目标、建库方案、文本采集、文本命名、文本清理、文本标注6个方面介绍该语料库的创建过程,进而就CivDEAP在学术研究和课程教学中的应用进行初步探讨和前景展望,最后对该语料库的后续扩容建设提出初步建议。

1.引言

语料库是语言使用的实例汇集,根据建库目的并按照相应标准抽样采集语料样本,具有一定的代表性。20世纪50年代,美国结构主义语言学家普遍通过收集语言实例开展语言学研究,“基于真实语料开展研究”的观念应运而生并迅速盛行起来。结构主义语言学家们重视真实语料,致力于将其置于语言学研究的核心,是语料库语言学的先驱(Leech 1992);20世纪50年代后期,用计算机处理真实语料并生成索引得以实现(Parrish 1962);20世纪70年代,语料处理与分析技术不断进步,“语境中的关键词”(KWIC)模式代替了原来的“目录索引卡”,成为自动化主题分析的手段;20世纪80—90年代,语料库技术高速发展,成为语言学家从事研究的得力工具(McCarthy & O’Keeffe 2010)。

按建库目的、语料特点等进行划分,语料库有不同类型,如通用语料库、专用语料库、共时语料库、历时语料库、口语语料库、笔语语料库、本族语者语料库、学习者语料库、单语语料库、平行语料库/双语和多语语料库等(梁茂成、李文中、许家金 2010)。相对于大型通用语料库而言,专用语料库服务于特定研究目的,通常收集特定领域的语料样本。学术英语语料库是专用语料库的一个子类,在学术英语特征及其应用研究方面发挥了重要作用。国际上已建成并产生重要影响的学术英语语料库主要有密歇根学术口语语料库(MICASE)、英国学术口语语料库(BASE)、密歇根大学高水平学生论文语料库(MICUSP)、英国学术书面英语语料库(BAWE)、鲁汶英语本族语学生作文语料库(LOCNESS),以及国际英语学习者语料库(ICLE)等。在我国,代表性学术英语语料库主要包括20世纪80年代建成的上海交通大学科技英语语料库(JDEST),以及本世纪初建成的中国学习者英语语料库(CLEC)、英语专业学习者语料库(SWECCL)、中国学习者英语口语语料库(COLSEC)等。中国外语教育基金DEAP专用英语语料库建设项目于2016年启动,将分若干批次投放,旨在建成总容量1亿词次以上,涉及人文社会科学及自然科学主要学科领域的学术英语语料库。

国内工程领域的学术英语语料库建设也初显成效。中国知网(CNKI)检索结果表明,该类语料库建设与研究主要涉及机械工程英语语料库(张亚峰 2019)、农业工程英语语料库(樊绪岩 2019;祁雨思 2019)、建筑工程英语语料库(刘佳2016;张弛 2016)、交通运输工程硕士论文英文摘要语料库(齐琳琳 2017)、飞行器制造工程英语语料库(王晓英 2015)等。在土木工程学术英语语料库建设与应用方面,刘国聪和高军(2016)从中国知网和美国土木工程师学会数据库各抽取120篇土木工程学术论文摘要,考察其语言特征;佟星和邱鹏程(2016)简介了小型土木工程英语语料库的创建及教学运用效果评估,但对该语料库的指标数据没有具体说明,也未见基于该库的后续研究发表。有鉴于此,我们认为土木工程学术英语语料库的建设十分必要。

2.建库目标

根据中国外语教育基金专用英语语料库建设项目——DEAP学术英语语料库总库的设计方案和基本要求,CivDEAP旨在覆盖“土木工程”一级学科下的6个二级学科,选取24种高质量英文学术期刊发表的研究论文、综述论文和社论文章,建成库容为500万词次且均衡性、代表性和时效性强的“土木工程学术英语语料库”,服务于学术话语研究和课程教学实践。

3.建库方案

3.1 学科领域

国务院学位委员会、教育部印发的《学位授予和人才培养学科目录(2011年)》中,在“工学”门类(代码08)下,“土木工程”(代码0814)一级学科设立了6个二级学科,分别是岩土工程(代码081401)、结构工程(代码081402)、市政工程(代码081403)、供热、供燃气、通风及空调工程(代码081404)、防灾减灾工程及防护工程(代码081405)、桥梁与遂道工程(代码081406)。

土木工程学术英语语料库CivDEAP的语料文本覆盖上述6个二级学科,均衡性好、代表性强。

3.2 来源期刊

通过文献检索,我们首先列出了“土木工程”一级学科下每个二级学科10种(共60种)备选高质量国际学术期刊。然后,通过咨询土木工程领域的相关专家、学者,初步选定了每个二级学科5种(共30种)期刊。最后,参考相关期刊的影响因子和分区信息,确定了每个二级学科4种(共24种)期刊作为CivDEAP语料收集的来源期刊(见表1)。

表1 CivDEAP的语料来源期刊

(待续)

(续表)

3.3 文献类型

根据来源期刊特征,CivDEAP选取了24种学术期刊共有的3种文献类型:研究论文、综述论文和社论文章。参考上述期刊的发文情况,语料收集时大致平衡每个二级学科3类文献的文本数量,研究论文占90%左右,综述论文约占6%,社论约占4%。

3.4 出版时间

为保证语料的时效性,CivDEAP原则上选取2018年出版的文献,但由于部分期刊在2018年刊发的综述论文和社论文章数量较少,为了使各二级学科3类文献的文本数大致均衡,我们补充收集了2019年(6篇)、2017年(1篇)和2015年(2篇)发表的综述和社论。

4.文本采集

首先,在Web of Science数据库里检索选定的期刊名称,得到该期刊的全部文献列表。其次,将“出版年”设定为2018,并依次选择“Article”“Review”和“Editorial material”,筛选出相关类型的文献。最后,按“被引频次”排序,从高到低选取一定数量的文本,研究论文35篇、综述论文3篇、社论2篇,若文本数量不够,则将“出版年”依次扩展到其他年份(2019年、2017年、2016年、2015年),直到文献数量达到设定要求。

具体采集文本时,考虑到土木工程学科的学术论文中大量图表和公式给文本清理带来巨大工作量,我们没有采用下载PDF文档后进行转换的方法,而是先准备好Word文档,然后从“Full Text from Publisher”获得网页格式的全文,并按文献的内部结构顺序,依次将文献的标题、作者、摘要、关键词、正文、致谢等复制并粘贴到准备好的Word文档里(按照建库方案,收集文本时删除了参考文献和附录等部分)。

第一阶段,我们共收集960个文本(每个二级学科160个,每种期刊40个),容量为620多万词次;第二阶段,按照“DEAP学术英语语料库每个子库容量500万词左右”的设计要求,我们尝试删除部分文本并统计语料规模,最终保留780个文本(每个二级学科130个,每种期刊30—35个),其中,研究论文文本712个,综述论文42个,社论文章26个。未标注的CivDEAP容量为5,040,349词次1,添加文本头部信息和结构信息后为库容5,088,754词,具体信息见表2。

表2 CivDEAP学术英语语料库概况

5.文本命名

CivDEAP土木工程学术英语语料库采用“一级学科代码+二级学科代码+文献类型代码+文本编号”的方式对780个文本进行命名。一级学科“土木工程”(Civil Engineering)代码为首字母C,6个二级学科代码分别用学科名称前两个实词的首字母表示(详见表3);3种文献类型中,研究论文用RA表示,综述论文为RV,社论文章是ED;文本编号用三位数字表示,从001到780,先排列研究论文(001-712),其次是综述论文(713-754),最后是社论文章(755-780)。例如,CBTRA001表示该文本为“土木工程”一级学科下“桥梁与隧道工程”二级学科的研究论文,是CivDEAP语料库的第一个文本,而CSEED780则是“结构工程”二级学科的社论文章,是CivDEAP的第780个文本。

期刊信息没有包含在CivDEAP的文本名中,而是在每个文本的头部信息中,如表示该文本对应的文献发表在期刊Journal of Bridge Engineering(《桥梁工程杂志》)上。

表3 土木工程各二级学科名称、代码及文本编号

(待续)

(续表)

6.文本清理

文本清理分为两个阶段,分别对Word文档和TXT文本进行清理。清理Word文档时,我们首先采用查找和替换的方法,批量删除换行符、多余空格以及大量的图(保留图标题);然后用Word的宏命令剔除所有表格及其内容(保留表标题)2;最后将Word文档转换为TXT纯文本,保存为UTF-8编码格式。

对TXT纯文本进行清理时,我们采用了文本整理器(TextEditor)V3.0,设置批量整理方案,进一步处理段落首尾空格、段落间空行、标点符号全角转半角、字母全角转半角、修正局部乱码等问题,然后采用“界限查找”和“替换”,批量删除原图标题下端所附的下载链接。

经过上述两个阶段的工作,我们完成了对CivDEAP语料库780个文本的清理,为文本标注作好了准备。

7.文本标注

CivDEAP学术英语语料库采用可扩展标记语言(extensible markup language,以下简称XML)进行文本标注。XML标注将相关内容放在成对出现的起始标签(标示一个特定区域的开始)和结束标签(标示一个特定区域的结束)之间,起始标签和结束标签名称分别置于一个小于号(<)和大于号(>)之内,结束标签则在名称前加上斜杠(/),如为该部分的结束标签。

本语料库的文本标注包括文本头部信息和文献结构信息两个部分。

7.1 头部信息

实际上,文本头部信息的标注在首次采集文本时就开始了。我们采用XML格式,在每个空白Word文档开头预置了具体的头部信息,以标签结束(详见表4)。在采集每一个文本时,将相关元信息复制并粘贴在相应位置,如2018,等。

表4 CivDEAP语料库文本头部信息标注对照表

部分来源期刊出版的文献只有“卷”(Volume),没有“期”(Issue),还有部分期刊文献只有文献编号,没有页码。对于缺失的期号和页码信息,我们均标记为“unknown”。CivDEAP语料库中,525个文本对应的文献只有卷号,没有期号;189个文本没有页码信息;所有文本都有数字对象识别码(DOI)等其他元信息。

7.2 结构信息

文献结构信息也采用XML格式,在TXT纯文本上进行标注。我们运用PowerGREP,在正则表达式检索模式下,采用查找和替换的方法,批量添加相关文献结构信息3,然后进行人工检查,更正标注错误。

由于CivDEAP语料库的文本涉及3种文献类型,不同期刊的文献体例或多或少存在差异,即便是同一种期刊出版的同类文献,结构也不尽相同,因此,我们仅对大多数文献共有的结构信息进行标注(见表5)。根据文献在期刊发表的自然状态,我们标注的文献结构信息包括标题、作者、摘要、关键词、引言、方法、结果与讨论、结论、致谢等内容。限于时间和精力,对于部分文献中不属于上述结构部分的内容,或一个部分包含几个结构类型的内容,则没有进行细致区分和标注。

表5 CivDEAP语料库文献结构信息标注对照表

8.应用展望

CivDEAP土木工程学术英语语料库的应用主要体现在学术研究和课程教学两个方面。

学术研究方面,可利用该语料库进行土木工程领域的学术话语特征研究,在词汇、短语、句法、修辞、篇章等层面,考察土木工程学科学术话语特征。也可以在二级学科层面进行相关学术话语特征的比较研究,或在文献类型层面进行学术话语特征比较研究。还可以在DEAP学术英语语料库的各子库间进行相关学科的学术话语比较研究。

课程教学方面,CivDEAP学术英语语料库可在“专门用途英语”“学术论文写作”“话语分析”之类的本科生或研究生课程教学中使用,一方面可提供大量真实、规范的学术语言使用实例,使学生获得土木工程学科学术话语特征的感性认识;另一方面,也可为本科生或研究生的学术写作训练与国际发表实践提供高质量的范例。

9.结语

本文从建库目标、建库方案、文本采集、文本命名、文本清理、文本标注等方面回顾了CivDEAP土木工程学术英语语料库的建设情况。作为DEAP学术英语语料库的子库之一,CivDEAP必将和其他子库一起,在进一步促进专用学术语料库建设、推动相关理论与应用研究方面发挥重要作用。然而,语料库建设与应用研究并非一蹴而就,为了更加充分地发挥CivDEAP学术语料库的作用,可以考虑后续扩容建设问题,具体而言,可以从以下思路开展后续建设工作。

第一,从历时的思路进行后续扩容建设。可以按照现有语料收集方案,一方面回溯24种期刊2018年以前的文献,采集上述期刊在相关年份发表的3类文献,时间间隔为5年,即2013年、2008年、2003年、1998年、1993年等,依此类推,一直追溯到各期刊创刊初期的年份;另一方面,2018年以后的文献,同样每隔5年采集1次,即2023年、2028年等。如此,可建成时间跨度数十年的“土木工程学术英语历时语料库(CivDDEAP)”,便于在共时描写的基础上,开展历时研究,考察相关学术话语特征的历时变化。

第二,从语种的思路进行后续扩容建设。可根据现有语料收集方案,选取国内用中文出版的土木工程6个二级学科的相关学术期刊,采集3种文献类型的文本,建成土木工程英汉双语学术语料库(CivBDAP),可用于对比研究,考察相关学术话语特征在国内外学术期刊的异同。

第三,从平行的思路进行后续扩容建设。在上述第二个思路所选定并收集的土木工程中文学术文献中,采集每个文献的标题和摘要部分的英译,建成土木工程学术文献标题摘要英汉平行语料库(CivPDAP),便于考察学术文献标题和摘要的翻译策略、特征,同时也可以在翻译和学术写作类课程教学中使用。

注 释

1.CivDEAP语料库容量(词数)的具体数据均使用正则表达式[a-zA-Z0-9-]+在PowerGREP中获得。

2.感谢吉林师范大学李亮老师提供技术支持,编写宏命令,批量删除表格。

3.感谢中国科学院大学彭工教授、北京外国语大学许家金教授和吉林师范大学李亮博士提供PowerGREP使用及正则表达式编写等方面的支持和帮助。

猜你喜欢
语料语料库学术
《语料库翻译文体学》评介
如何理解“Curator”:一个由翻译引发的学术思考
中国博物馆(2019年2期)2019-12-07 05:40:44
对学术造假重拳出击
商周刊(2019年2期)2019-02-20 01:14:22
把课文的优美表达存进语料库
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
学术