AgriDEAP农学学术英语语料库的创建*

2021-01-22 06:04:14华南农业大学
语料库语言学 2020年2期
关键词:农学语料语料库

华南农业大学 吕 靖 邓 飞

提要:AgriDEAP农学学术英语语料库是DEAP学术英语语料库的农学子库。本文主要介绍AgriDEAP的建设目标、语料来源和建库方法。同时,本文对AgriDEAP的基本构成和应用前景也做了介绍和探讨。

1.引言

随着学术英语研究的蓬勃发展,当前国内外已建成不少学术英语语料库,有据可查的至少有数十种。国外的如1:兰卡斯特学术英语笔语语料库(LANCAWE)、英国学术英语笔语语料库(BAWE)、英国学术英语口语语料库(BASE)、英语作为世界语的学术英语语料库(ELFA)、学术英语口语语料库(CASE)、英语科学写作Coruña语料库(CC)、密歇根学术英语口语语料库(MICASE)、密歇根高年级学生英语论文语料库(MICUSP)、古英语医学写作语料库(CEEM)、Pearson国际学术英语语料库。国内的如:交大科技英语语料库(杨惠中、黄人杰 1982)、广州石油英语语料库(祝启波 1991)、中外科技期刊论文语料库(胡志清 2007)、《应用语言学》期刊论文语料库(梁茂成、刘霞 2014)、学习者英语学术论文语料库和国际期刊论文语料库(娄宝翠 2017)等。现有的学术英语语料库从库容看,最高的也没有超过千万量级,低的只有数十万词;从抽样数量看,每个学术英语语料库包含的文本数量也不尽相同,少的仅有几十篇,多的有数千篇,前者如哲学英语语料库(CEPHiT)只有近40篇,后者如英国学术英语笔语语料库有2,700多篇;从时间跨度看,既有中古学术英语,又有现代学术英语;从储存格式来看,不少语料库既有纯文本格式,又有XML格式。当前已有的语料库涵盖了口语与笔语、专家与学生、本族语与非本族语、古语与现代语等多种类型,可谓资源丰富,但在学科门类的覆盖面和代表性、团队合作的广泛性和系统性、语料使用的共享度和利用率等方面还有很大的提升空间(崔维霞、王均松 2013;卫乃兴 2016;徐秀玲、许家金 2017)。

就专门的农学学术英语语料库而言,有多位学者曾提出过建设农业或农科学术英语语料库的设想(如范晶晶、李丽霞 2014;刘萍等 2015;栗娜2015;张律2019),但真正建成的很少,目前已经建成且对外开放的只有华中农业大学的农科学术英语语料库2(刘萍等 2016),而且这些语料库的构建设想自成体系,没有系统考虑与其他学科学术英语语料库的一致性和可比性。

鉴于以上情况,本课题在中国外语与教育研究中心学术英语语料库建设项目(DEAP)的统一指导下,建设了农学学术英语语料库,库容540万词,含1,112篇论文,简称AgriDEAP。AgriDEAP将同DEAP的其他子库一起通过BFSU CQPwe6语料库平台面向社会开放,以下将主要介绍该库的建设目标、建设过程和应用前景。

2.建库目标

本课题以“中国外语教育基金专用英语语料库(DEAP)建设项目”的整体理念和方案为指导,在充分考虑农学学科和农学期刊个性的同时,尽力保持与DEAP项目的整体一致性。总体来说,AgriDEAP主要为了实现以下目标:(1)建成一个500万词以上、能够反映农学国际核心期刊论文的语言特征的语料库;(2)支撑农学高质量论文的英语写作和跨学科对比研究,助力我国农学科研的国际交流与竞争;(3)支撑农学学术英语教学的开展,推动农业院校英语学科的特色化建设,特别是为促进农学学术英语词典及教材的编写或术语库的建设,为学术英语教学提供更多的语言资源。

3.语料收集

根据McEneryet al.(2006:5)的定义,语料库应具备四大基本特征:(1)可机读;(2)来自于真实语言;(3)经过抽样选取;(4)有代表性。对建库最有挑战的是第(3)和第(4)项要求。代表性是语料库的灵魂,是语料库与文本素材库的重要区别,而保证代表性的关键是抽样的科学性。

3.1 学科

根据国务院学位委员会第六届学科评议组编制的《学位授予和人才培养学科目录(2018年4月更新)》,农学专业一级学科“农学”之下包含了9个二级学科:作物学、园艺学、农业资源与环境、植物保护、畜牧学、兽医学、林学、水产和草学。各二级学科之下又有3—9个三级学科,覆盖面较广。但需要注意的是,农学研究实际上未必就只存在于这9大二级学科及其子学科之中,由于学科交叉普遍存在,农学期刊也未必会清晰地按照这些子学科来划分界线。为了既能反映一些期刊的学科定位,又能反映另一些期刊的综合特征,我们在每一级学科分类上都设置了综合类。具体的学科分布情况如表1所示。

表1 AgriDEAP语料的学科分布

各二级学科的语料是通过随机抽样来收录的,抽样篇数在保持总体平衡的同时,也与它们三级学科的数量多少有一定的关系,其中水产学、林学和兽医学的三级学科数量最多(各有8—9个),因此被抽出来的总数也相对会多一些。抽出来的语料按照二级学科来编号,语料命名方法是:三个字母的学科简称+三位数的顺序编码。

3.2 期刊

在期刊的选择上,主要收集了各子学科的专业期刊及其综合期刊的论文,侧重考虑期刊的学科代表性和期刊的影响因子,下载了影响因子在各子学科内相对较高的论文,时间跨度为2016—2018年。

期刊的确定主要参考了4个方面的信息与标准:(1)属于SCI国际核心,影响因子在本三级学科或综合学科内较高;(2)参考了《中国农业科学院院选SCI核心期刊目录》;(3)咨询了相关学科的专家教授;(4)网上搜索国内各子学科的学术带头人,根据公开的成果介绍,参照了他们论文发表的期刊名录。最终确定收集以下期刊中的文章来创建语料库(见表2)。

表2 AgriDEAP的语料来源

(待续)

(续表)

(待续)

(续表)

以上是AgriDEAP规划的语料来源,但在实际的下载过程中,每种期刊的下载数量不完全相同。一是因为各种期刊本身的刊期不同,刊文量不一;二是因为有些期刊只在网上公开了部分论文的下载链接。基于以上情况,AgriDEAP建设团队采集了表2中能够下载到的近三年的文章,共下载了将近2.5万篇论文,总词次逾亿词。

3.3 语料下载及抽样方法

在论文下载前,根据表2的期刊种类,提前设计好文本下载时需要保存的文件夹和子文件夹层级,目的是避免混乱,减轻后期的元信息标注工作。以三级学科茶学的论文下载为例,文件层级设计为“农学-园艺学-茶学-期刊名-年份-刊期(卷号)-文章”。论文下载后,使用Python命令把每篇文章的路径提取出来,存入Excel,就相当于完成了每篇语料元信息的提取。

使用以上方法,团队在Excel中汇总了近2.5万条语料的信息,对这些语料进行编号,然后使用Excel函数进行“不放回随机取样”,先后抽取了约1,150篇文章,将其中的通告、刊讯、其他信息舍弃,剩下的1,112篇论文被纳入语料库。

4.语料整理

语料整理主要包括格式转换、文本清洁、格式整理和标注等环节,对于一些程式化的问题尽量寻找自动化、半自动化的方法解决。

4.1 格式转换

网上下载的期刊论文一般都是PDF格式,需要转成语料库通用的TXT格式。首先,我们先将PDF转换为DOC(X)格式,然后再转换为TXT格式,因为这样处理便于在WORD上删除图形、公式和参考文献等信息。同时我们使用了Adobe Acrobat DC,可以直接在上面编辑PDF文档,删除无关内容,然后直接另存为TXT格式即可。接下来,所有的文件转换成功之后,在Excel中按照表1的命名规则对语料进行编码,再用Python程序读取Excel的新编码自动对语料重命名。最后,打开保存语料的最外层文件夹,使用右上角Windows系统自带的搜索功能,搜索所有的TXT文档,全部存入新文件夹。此时,语料库已初具雏形。

格式转换时还应注意编码问题,英文语料一般应转换为ANSI编码。用Adobe Acrobat DC直接转换的TXT格式为UNICODE编码,但不宜马上将其改换为ANSI编码,因为UNICODE可以表达更多的字符,贸然转换会造成很多乱码,影响语料的质量和可读性。因此,要先选取少数TXT文档,将其副本转换为ANSI编码,然后跟UNICODE原本对比,找出易乱码的字符,用ANSI可识别的字符统一替换之后再转换。AgriDEAP主要对两类情况进行了替换:(1)多字母合体造成的乱码。多个字母合为整体,无法对单个字母进行修改操作。这种情况多是含f的字母组合,如fl、ff、ffi,看似是2—3个字母,实际只占了一个位置;(2)非西方语言的文字符号容易造成乱码,如ĉ、å、ö等,可改为拼写相似的c、a、o。因为这些符号多出现在姓名或公式当中,改变后并不影响语料的学术语言特征。由于异常符号较多,这样处理虽然无法杜绝乱码,但至少可以减少乱码,增强语料的可读性和整洁度。确定替换项目后,使用EmEditor等文本编辑器可以实现对全部语料的批量替换。替换完毕后,再使用EditPlus将所有语料批量转换为ANSI编码。

4.2 文本清洁及预处理

文本清洁及预处理涉及了许多细节,这里仅列举几项最常见或比较难处理的任务,包括:(1)消除多余的空格、空行;(2)全角、半角标点转换;(3)删除文内注(in-text citation);(4)纠正断头句;(5)纠正连体句。

对于前两项任务,使用“文本整理器”可一键实现“全角—半角”的全部转换,并可消除部分冗余的空格或空行。但是“文本整理器”的处理能力有限,一些特殊的空格和空行无法用其消除,而且不支持UNICODE编码的文本。使用EmEditor结合正则表达式清除了其他多余的空格和空行。

删除文内注时,考虑了两种情况:一是“作者+年份”式的文内注,如:“(Johnson 2020)”,需要全部删除;二是只有年份的文内注,作者是正文的一部分,如:Johnson(2020),只需删除年份。使用正则表达式在EmEditor中分别删除了这两种文内注。

断头句又称折腰句,指一些句子还没有结束就突然断开,出现非自然换行。这种情况在语料库建设中很常见,往往数量众多,无法用手工排查和纠正。由于干扰因素多,正则表达式分成以下几步可以实现较好的纠正效果。

(1)断头句的基本判断标准是:上一行以换行符结尾( );下一行以小写字母或标点符号(逗号/句号)开头。打开EmEditor,导入所有语料的TXT文本,点击“搜索-替换”,勾选“使用正则表达式”和“区分大小写”,输入以下公式后,点击“全部替换”,然后点击“文件-全部保存”。

查找框: ^s{0,2}([a-z.,])| ^s{5,}([a-z.,])

替换框:1

注意:有些正常换行的首个单词也可能是小写,特别是一些论文的abstract和keywords这两个词全部小写,它们单独占一行。可以先用正则表达式在这两个词前面自动加上一个大写的辅助标记,再执行以上操作,之后再自动去除辅助标记。

(2)断行处的新行开头是数字,弥补办法如下。

查找框: ^(s{0,2}[0789])| ^(s{0,2}d{2,})

替换框:12

注意:1前有1个空格,同时勾选“区分大小写”和“使用正则表达式”。本操作无法解决由1—6开头断行的数字,因为有些论文的小标题是以1—6作为编号开头的,它们不是断头句,所以不能使用本方法排除。

(3)断行处是大写字母或1—6的数字,弥补办法如下。

查找框:s(of|by|with|the|around|for|in|on|above|is|was|are|were|can|would|should|a nd|this)$

替换框:1

注意:1前有1个空格,勾选“使用正则表达式”,不勾选“区分大小写”。该公式是用介词、冠词、助动词等非自然结尾词为判断标准来迂回查找断头句。因为这些词一般不用句尾,后面紧跟换行符往往属于异常情况。完成了这一步,绝大多数的断头句可以被批量纠正过来。

文本清洁和预处理还有一个常见的棘手问题是连体句,即有些词句甚至段落在格式转换过程中丢失了所有空格,如“Ilovecorpuslinguistics”。这种情况也很难在大量的语料中用肉眼识别。AgriDEAP使用Python程序3自动判断寻找语料中的连体句,并抽取出语料所在的文档,然后再手工整理。

4.3 格式整理及XML标注

在格式整理方面,AgriDEAP主要对以下三类情况进行了整理和标记:(1)删除了行文中的数学公式。虽然在最初的格式转换时,已删除大量的数学公式,但有些公式不是独立列出的,而是句子中的一部分,当时没有删除。现在需要手工删除这些公式,同时用两个“$”占据原来的位置,以免影响语料的可读性,使人误以为缺少了句子成分。(2)删除了文章中的网址。用正则表达式查找、删除了语料中的网址,并用三个@来代替,避免成分缺失。(3)排查了每篇论文的结构,必要时打上辅助标记。通过观察,可以发现农学学术语料最典型的结构是“题目-作者-单位-摘要-关键词-引言-文献综述-研究方法-实验结果-讨论-结论-鸣谢”。该结构很模式化,可以用来实现XML的自动标注,但也有例外,如有些语料没有小标题,这时就可以使用Python程序提取出缺少引言的语料,然后手工核对,对于少数有引言内容但没有引言标题的语料,添加辅助标记“(Introduction)”,以方便计算机自动识别。

经过格式整理后,对有规范标题的论文,先使用Python程序自动进行XML标注,再手工校对一遍。对没有标题的论文,使用手工标注。

5.应用前景

AgriDEAP有着广泛的应用前景,包括但不限于以下方面。

(1)便于开展跨学科的对比研究,本课题的语料库融入DEAP这一大型学术英语语料库的架构之下,统一了与其他学科学术语料库的尺度,为跨学科比较研究提供了可能(许家金、梁茂成 2011)。

(2)可以用于研究农学学术英语的语言特征,如:搭配、措词、短语结构、句法结构分析,学术话语分析等。

(3)可以用于研究农学学术英语的语篇特征和写作特点,如:引言、研究方法、结果与讨论等篇章结构的写作方法和语步分析等。

(4)可以用于农学学术英语写作或翻译教学课程的开发与教材的编写。

(5)可以用于提取农学各领域的专业术语和短语,编写术语词典和短语词典,DEAP的医学子库已在词典编纂方面进行了成功探索(许家金 2017)。

(6)可以用于AI的学习和训练等。

随着语言学和计算机科学的发展,相信语料库越来越多的应用潜力会被发掘出来。届时AgriDEAP将会同DEAP的其他子库及其他各类语料库一道,继续为语言乃至人工智能的研究和应用发挥基础性的作用。

注 释

1 Corpus Finder [EB/OL].[2020-02-01].http://www.helsinki.fi/varieng/CoRD/corpora/corpusfinder/.

2 华中农业大学农科学术英语语料库,网址:http://211.69.132.28/,访客的账号和密码都是test。

3 限于篇幅,本文无法列出Python的程序代码,该代码将会发布在www.corpus4u.org论坛里,具体操作视频会上传到bilibili.com网站,搜索用户名biggertree即可见。

猜你喜欢
农学语料语料库
中国古代农学风土论的形成、演变与价值
古今农业(2022年4期)2023-01-30 06:31:44
蒲松龄《农桑经》的农学思想及其当代启示
古今农业(2021年2期)2021-08-14 01:43:16
《广西农学报》投稿指南
广西农学报(2020年2期)2020-08-03 06:26:18
《语料库翻译文体学》评介
把课文的优美表达存进语料库
基于语料调查的“连……都(也)……”出现的语义背景分析
农学
新校长(2016年5期)2016-02-26 09:29:00
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
《苗防备览》中的湘西语料