动物科学国际期刊论文语料库的创建与应用

2014-04-29 18:52王敏李丽霞
安徽农业科学 2014年20期
关键词:期刊论文语料语料库

王敏 李丽霞

摘要 随着语料库语言学的快速发展,专门用途英语语料库的建设与研究逐渐成为语料库语言学的研究热点,作为专门用途英语教学和科研的重要组成部分,农业英语语料库的建设和研究在国内尚属空白,更没有动物科学国际期刊论文语料库方面的研究。在简述建设动物科学国际期刊论文语料库的背景和意义的基础上,探讨了动物科学国际期刊论文语料库的创建原则、思路和基本步骤,指出动物科学国际期刊论文语料库的创建是可行的;并从科研、教学、翻译领域阐述了建设和开发动物科学国际期刊论文语料库的应用价值,指出动物科学国际期刊论文语料库的创建是必要的。

关键词 语料库;动物科学国际期刊论文语料库;建设;应用

中图分类号 S-058 文献标识码 A 文章编号 0517-6611(2014)20-06854-03

动物科学国际期刊论文语料库是农业学术英语语料库下的一个子库,农业学术英语语料库又是农业英语语料库的一个分库;基于语料库的农业英语的研究属于专门用途英语语料库研究范畴,专门用途英语语料库研究又属于语料库语言学研究领域。

语料库是指按一定原则取样获得的大规模电子文本汇集[1-3],近年来,语料库作为一种新的研究方法广泛应用于词典编撰、外语教学、外语学习、翻译研究、学术英语和专门用途英语等领域[4-5]。在语料库语言学中,专门用途语料库指的是出于某种特定研究目的需要,只收集某特定领域的语料样本建成的语料库[6]。近年来,专门用途语料库发展迅速,许多与专业相结合的专用英语语料库纷纷建设起来,目前国内已经有已建成的或建设中的众多与专业英语相结合的专门用途英语语料库,如航天航空英語语料库、医学英语语料库、商务英语语料库等。这些语料库的建立及其研究成果,推动了专门用途英语教学的发展,对提高国内专门英语教学水平有重要意义,同时也为进一步建成和完善农业英语语料库提供了宝贵的借鉴。如今国内农林院校拥有农学、林学、植物保护、动物科学和生命科学等优势学科和专业,如果这一优势能够和专门用途英语教学相结合,建立相应的农业英语语料库,将能大大丰富专门用途英语语料库的研究。

但是,作为专门用途英语教学的重要组成部分,农业英语语料库及研究仍然没有得到足够的重视,农业英语语料库的建设和研究在国内尚属空白,更没有动物科学国际期刊论文语料库方面的研究。我国作为农业大国,农林院校未来发展目标是要建成世界一流的农业大学,在学校努力提升国际化办学水平和加强农业科技学术交流的大背景下,建设农业英语语料库并开展农业英语的研究具有必要性。然而,目前农林院校师生在农业英语应用中还存在很多问题,影响了他们在国际期刊发表学术论文的数量与质量。外语教学在农业英语教学和农业英语翻译方面也表现出一些问题,一方面,英语教师缺乏农业专业知识和专业词汇,很难开展结合农业特色的英语教学;另一方面,研究生和科教人员虽然有农业专业背景,也熟悉专业词汇,但因为他们英语语言基础差,缺乏英语学术论文写作规范的训练,不了解学术论文的语篇特征和农业英语语言特征,即使有很好的研究成果,但是因为写不出符合国际学术规范的论文,很难在高水平的国际期刊发表他们的论文。因此,建设动物科学国际期刊论文语料库,开展基于农业英语语料库的农业英语语言的研究更具有紧迫性。

1 建设动物科学国际期刊论文语料库的意义

该研究力图建设动物科学国际期刊论文语料库,它是农业学术英语分库下的一个子库,并在此基础之上开展动物科学学术英语语言特点的研究。这一研究将有助于填补学科专业语料库的空白,丰富专门用途语料库的研究内容、农林院校专业英语和学术英语教学水平、师生学术英语写作水平、农林院校在外文期刊发表论文的成功率等,具有重要的现实意义和应用价值。动物科学国际期刊论文语料库建成之后,为农林院校动物科学专业英语教学和学术论文写作服务,可供外语系教师高效学习专业词汇,为农业英语教学,特别是学术词汇教学,提供新途径,发挥语料库语言学在农业英语词汇、短语及语篇等研究方面的作用,对探索围绕某一主题,以语义联想为中心的农业英语词汇学习有一定帮助作用;为农林院校动科专业的师生和研究者开展学术英语阅读和学术论文撰写提供大量的、可直接检索的、真实的学术论文学习资源,外语学院教师和研究生也可以利用该库开展语言学研究,包括语法层面、词汇层面、句法层面,甚至是篇章层面的研究。此项研究还有利于提高师生的农业英语翻译水平,对提高他们英语论文的写作质量有一定意义。同时,通过建立农业题材的英语语料库,对探索解决目前农业英语教学中的问题,丰富和完善语料库的类型,推广基于语料库的农业英语语言研究及语料库驱动的农业英语教学模式,提高农林院校农业英语教学水平具有实用价值,更重要的是提高教学界对农业英语教学改革和学科建设的重视,培养农业英语高水平人才,加快与世界农业科技接轨的步伐。

2 动物科学国际期刊论文语料库设计与建设

2.1 语料的采集

该研究语料的采集主要考虑以下3个方面:①语料的时代性:尽量选择近期的英文语料,以后不断更新,滚动补充。该研究文本选取2009~2012年动物科学领域SCI收录的5个重要国际期刊中200篇期刊论文,期刊分别为Animal Feed Science and Technology、Animal Genetics、Domestic animal endocrinology、Applied Animal Behaviour Science、Poultry Science,库容量为100万词。②语料的代表性:参考SCI 动物科学期刊影响因子因素,确定5种专业期刊,采取等距抽样的原则,进行全文录入。③语料的权威性:语料库反映的是某一语言全面的语言事实,因此,语料的地域分布十分重要,通常的解决方法是充分考虑到某一语言的最广泛的地域分布,并且重点关注代表性的语言区,广泛抽样。为了得到更为可靠的语料,本语料库抽取的是以母语为英语的国家的语料,如英、美、加、澳等以英语为本族语者撰写的论文,以减小语言差异对研究结果造成的影响,保证其具有权威性。

2.2 语料的加工

语料库开发遵循国内外信息处理领域通用的语料库技术路线和流程,重视为语言学教研服务,采用机助人校的加工方式,并利用最新流行的开发语料库切分标注和文本分析等软件来提高加工精度,控制使用质量,因此,该研究语料的加工主要有以下步骤。

2.2.1 文档清理。

目前主流的语料库分析软件(如Wordsmith,AntConc,PowerConc等)只能对纯文本格式的语料进行分析。因此,为了使用专业的语料库分析软件对语料进行深度和精确挖掘,动物科学国际期刊论文语料库中的所有PDF文件都是人力单篇转换为TXT文档;然后,再使用文本整理器3.0对TXT文本进行批量清洁,以去除所有全角空格、段首跳格、段落间空行,半角标点替换全角标点,处理文本中文字符号类、空格段落类以及标点符号类的问题,形成由清洁文本组成的动物科学国际期刊论文语料库(TXT文本文档);最后,随机抽取动物科学国际期刊论文的10篇文本进行验证分析,主要检查文本是否存在乱码和空行,是否包含其他语言文字,是否包含混杂的标点符号或字符等,以保证最终研究结果更加科学严谨。

结果发现:①在将PDF格式的语料转换为纯文本格式时,文档格式转换软件无法转换PDF文档中的图片、表格及公式等内容,这部分内容会在纯文本格式文档中对应生成空格、乱码等内容;②PDF文档保留了论文的排版格式,在进行文档格式转换时,会产生很多空格和回车,甚至会打乱上下文的顺序;③论文原文中注释、页码、参考文献等部分属于论文正文的附属部分,对于语料库研究作用不大。这些原因导致文档中存在许多无效的字符,降低了文檔的可读性和检索结果的准确性。因此提出如下建议:①鉴于图片、表格及公式等内容对语言的研究没有作用,该研究手工删除图片、表格及公式等内容;②先使用文本整理器3.0对TXT文本进行批量清洁,再用PowerConc语料库检索软件里的NGram进行单个词频的统计,肉眼观察空格和回车乱用的地方,并回到原文进行再次清洁;③人工删除注释、页码、参考文献等论文正文的附属部分,只保留论文的摘要和正文。

2.2.2 文本元信息标注。

元信息即关于信息的信息。该研究通过BFSU Qualitative Coder 1.1语料库软件进行元信息的批量标注,对每篇文本的标题、发表时间、来源、作者、期刊名称、发表时间、建库人和组织信息等信息进行标注,以便使用者清楚地知道文本信息的信息,也便于应用者单文本的查找。

2.2.3 文本词性赋码。

为了对语料进行词性和句法结构等方面的深度研究,也为了对语料库数据分析能够更加系统精确,对特殊数据信息进行提取和处理。该研究对生文本语料进行了词语切分和词性赋码标注。经过比选,该语料库的创建选用了比较成熟的Helmut Schmid设计的TreeTagger词性赋码软件,TreeTagger词性赋码软件可以根据概率的原则,用计算机来进行自动化处理,是目前最权威的英语语料赋码软件之一。将清洁文本用Treetagger进行词性标注,标注后的文本可以进行微观的词汇研究,通过检索软件可以得到相应的名词词表、动词词表等。

2.2.4 重命名。

由于文本处理过程中运用到了词性标注软件,而词性标注软件在对文本进行词性标注的同时,将文本的域名也进行了批量的改写,域名从原来的“.txt”改为了“.txt.pos”。所以必须运用重命名软件将域名改回原来的“.txt”,才能被接下来的检索软件识别,因此,该研究利用Super Batch Renamer语料库软件进行了批量改名。

2.2.5 未来检索。

日本早稻田大学Laurence Anthony设计的Antconc、许家金等研制开发的PowerConc软件、英国利物浦大学Mike Barlow设计的Word smith Tools、北京外国语大学中国外语教育研究中心设计的PatCount等语料库软件都可以进行单词或者多词的检索,包含词汇索引、词表生成、主题词计算等功能。这样就为对动物科学学术英语的高频词进行量化分析提供了充分技术保障,尤其PowerConc 软件对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化,以正则表达式(Regular expressions)的N元组(Ngram)为基础,功能强大,为利用正则表达式检索语态等复杂语法形式提供了强有力的技术支撑。此外,还有BFSU Collocator搭配分析软件、BFSU colligator类联接分析专用工具及SPSS、Excel等统计分析工具等,为进行搭配、类链接等后续研究提供了技术支撑。

3 动物科学国际期刊论文语料库的应用价值

3.1 在研究领域的应用

我国大学英语教学的主要目标是使学生能以英语为工具进行学术交流,但是各农林院校在农业英语应用中还存在很多问题,影响了他们在国际期刊发表学术论文的数量与质量,研究生和科教人员虽然有农业专业背景,也熟悉专业词汇,但因为他们英语语言基础差,缺乏英语学术论文写作规范的训练,不了解学术论文的语篇特征和农业英语语言特征,即使有很好的研究成果,但是因为写不出符合国际学术规范的论文,很难在高水平的国际期刊发表他们的论文。通过自建的动物科学国际期刊论文语料库,开展词频统计、搭配分析和句式分析等语言特点的研究,帮助专业学生掌握高频词汇,固定搭配和惯用句式,对于国内动物科学研究者和学生写出优秀的、符合国际水平的动物科学英语论文有着积极的指导作用,帮助他们的研究论文更快、更多地被国际学术期刊所采用,提高各农林院校在外文期刊发表论文的成功率。另一方面,以往农林专业语料库的研究多局限在单个文本或者是小文本的词汇、语法等方面,动物科学国际期刊论文语料库可以保证国内动物科学研究者和学生使用相关软件,如PowerConc和PowerGrep等,对较大语言单位进行研究,如进行文体、体裁、语步、语义关联、语义韵律、语篇建构等分析。

3.2 在教学领域的应用

语料库可以提供大量可靠性高的参照数据和新鲜实例,使语言研究更具概括性和说服力。一方面,英语教师一旦掌握了语料库研究的使用技能,就可以通过语料库进行动物科学学术英语和通用英语词汇、句法等方面的比较,进行主题分析、例句援引、词语搭配、词素分析、话语分析等,从而在掌握学生语言学习的过程中,根据语料样本来解决学生语言学习中遇到的问题。这种数据驱动学习的教学模式,把建成之后的动物科学国际期刊论文语料库直接应用于课堂教学,解决了英语教师缺乏农业专业知识和专业词汇及很难开展结合农业特色的英语教学的矛盾,减少了实际使用与课堂教学的差距。另一方面,语料库能让学习者在掌握了相关技术之后,根据自己的具体情况利用已经建成的动物科学国际期刊论文语料库进行操练,在没有教师指导答疑的情况下,借助语料库的相关功能同样可以解决疑问,直到最终掌握相关的内容,这也体现了人本主义教育思想,值得国内农林院校大力探索和提倡。

3.3 在翻译领域的应用

动物科学国际期刊论文语料库的建立可以为动物科学翻译工作者提供一个学习的平台,通过比较译语文本和其对应的母语中的语言特征及其出现的频率来研究翻译过程,对动物科学学术文本译文风格特点进行量化分析,找寻翻译规律,便于更准确地学习国际先进农业科技论文中的成果,并应用于国内农业的研究和发展中,提升我国农业的整体发展水平。同时,语料库对专业词典编纂的积极作用也会促进专业学科翻译的准确性,通过语料库中词的共现使释义更完善更准确;语料库专用的统计分析软件中的关键词功能,将使那些有各自专业特点的词汇凸显出来,使编写词典水到渠成,也使得翻译研究有据可循。

3.4 在后续研究方面的应用

①研究者可以根据具体的研究目的,对动物科学国际期刊论文语料库进行广扩充、深加工。目前语料库语言学中发展较为成熟的词频统计、搭配、类连接和语义韵等研究方法為专门用途英语的研究提供了从词汇到语篇,从语言理论到语言教学的全方位、多层次的研究途径。动物科学国际期刊论文语料库的创建标志着研究者们可以借助语料库语言学的方法进行语言特点、语篇特点等的内部研究。②研究者也可运用于农业专业的其他学科研究中,建立园艺学科,动物医学,植物保护等农业领域分支学科学术英语语料库,建成后的大型语料库涵盖农业的各个学科,并促成学科间对比研究[7]。总之,动物科学学术英语语料库为以后的研究提供了新的方法和更丰富的课题。

4 结语

借助宏大的计算机数据库——语料库,动物科学国际期刊论文语料库的建成,为动物科学研究者和教学人员提供一个分析、研究、描述和应用动物科学英语的载体,为编写动物科学英语辞典、研究动物科学英语语言特点、各种论文写作教材编写提供重要的语料源,而且也为英语研究和教师发展提供了全新的途径。由于客观原因,动物科学国际期刊论文语料库的建设和应用仍然存在缺陷,主要表现在语料采集的深度和广度不够,但是语料库不是一次成品,相信在今后的研究中,动物科学国际期刊论文语料库会更加发展成熟完善,为农业专业其他学科的语料库建设打下基础,为国内同行的类似研究提供一定的启发。

安徽农业科学 2014年

参考文献

[1] SINCLAIR J.Corpus,concordance,collocation[M].Oxford:Oxford University Press,1991.

[2] HUNSTON S.Corpora in applied linguistics[M].Cambridge: Cambridge University Press,2002,27(3).

[3] 许家金.语料库语言学的理论解析[J].外语教学,2003(6):6-9.

[4] 刘满堂.近40年英语语料库及语料库语言学研究的回顾与展望[J].陕西教育学院学报,2004(1):98-103.

[5] 罗卫东.近五年国内语料库语言学研究综述[J].当代教育理论与实践,2011,3(11):138-140.

[6] 梁茂成.理性主义、经验主义与语料库语言学[J].中国外语,2010(4):90-97.

[7] 许家金,梁茂成.创建子语料库,促成对比研究[J].当代外语研究,2011(10):6.

猜你喜欢
期刊论文语料语料库
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
中文科技期刊论文LaTeX模板的研究与实践
公共图书馆不应认可的职称期刊论文探析——基于重庆图书馆职称期刊论文的实证调研
人文社科期刊论文被引频次和下载频次相关性研究
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
三、期刊论文目录