学术英语语料库Beijing CARE简介

2020-07-02 10:36北京航空航天大学卫乃兴王冰昕

语料库语言学 2020年1期

北京航空航天大学卫乃兴王冰昕

提要：Beijing CARE是一个大型可比学术英语语料库，由中国学者子库和西方学者子库组成，分别涵盖多个学科领域的期刊论文。本文介绍Beijing CARE语料库的创建和应用概况。首先，说明Beijing CARE的创建目的和基本构成；其次，论述语料采集、文本命名、语料整理和标注等；最后，简要介绍目前基于该库的学术话语研究。

1.引言

Beijing CARE语料库（全称为Beijing Collection of Academic Research Essays）是北京航空航天大学语料库语言学团队承担的国家社科基金项目“基于大型可比语料库的中国学者（科学家）学术英语现状研究”（13BYY074）1的成果，于2015年初步建成，并逐年持续更新至今。Beijing CARE的创建主要由北京航空航天大学语料库语言学卫乃兴教授团队完成。同时，华中科技大学潘璠教授、大连海事大学邓耀臣教授、东华大学赵晓临教授、李晶洁教授也对该库的建设作出了重要贡献。该库基本信息如下。

（1）规模。全库共计收录六千余篇学术论文，总库容达3,000万词。规模远大于BAWE、BASE等学术英语语料库和BNC学术子库2。

（2）学科范围。语料涵盖自然科学、人文与社会科学等领域的23个学科门类。学科覆盖面广泛。

（3）子库构成。该库包含两个子库，即中国学者语料库和西方学者语料库。两个子库分别涵盖多个学科领域的论文，支持中西学者间、学科间等多层次、多视角的对比研究。

（4）版本。该库包括纯文本语料库和词性赋码语料库两个版本。

Beijing CARE语料库的建库目的、语料构成、语料采集与命名、整理与标注以及应用情况如下。

2.建库目的

Beijing CARE语料库的创建目的主要如下。第一，为学术英语研究提供较大量的数据支持。具体而言，借助Beijing CARE语料库，可考察学术文本的形式、意义与功能特征，以及探究学术作者，尤其是中国学者学术文本中采用的话语策略、意义方式、知识构建方式、态度资源等。第二，为跨文化、跨学科等学术话语对比研究提供数据资源。第三，为学术英语写作与教学提供检索与实例数据。

3.语料构成

Beijing CARE语料库包括6,155个文本，总库容为33,415,707形符。该库由中国学者子库和西方学者子库组成，分别涵盖航空航天科学技术、化学、计算机科学、经济学、医学、社会学等23个学科门类的期刊论文。其中，中国学者子库包含2,237个文本，总形符10,743,841词次，各学科子库库容在459,110形符到495,085形符之间。西方学者子库包含3,918个文本，总形符22,671,866词次，各学科子库库容在975,649形符到998,532形符之间。Beijing CARE语料库的具体信息见表1。

表1 Beijing CARE语料库基本信息

（待续）

（续表）

4.语料库建设

4.1 语料采集与命名

Beijing CARE语料库所采用的文本为2000—2017年间国际学术期刊上中国学者和西方国家学者发表的英语论文3，主要源自Elsevier Science学术论文数据库。期刊论文的选取标准为：（1）期刊能够反映学科特点且具有较高的影响因子；（2）论文为研究性论文，排除综述性等其他类型论文；（3）中国学者子库论文的第一作者来自中国大陆，西方学者子库论文的第一作者来自英国、美国、加拿大、澳大利亚、新西兰等英语国家，判别标准主要为作者姓名与工作单位。

遵循以上标准，每个学科选取6种或6种以上国际期刊，总计150种。每种期刊中随机抽取10—20篇符合标准的论文组成中国学者子库，随机抽取20—40篇组成西方学者子库。如抽到同一作者的多篇论文，最多收取其中2篇，以保证语料的代表性。

文件命名。西方学者子库文本的文件名采用10位编码方式，格式为“学科+期刊号+年份+流水号”。其中，学科名称采用4位编码，选取学科英语名称的前4个字母（参见表1），其余信息均采用2位编码（如期刊号02代表第2种期刊，年份13代表2013年）。例如，chem011001代表西方学者子库化学学科第1种期刊2010年第1篇论文。中国学者子库文本的文件名采用12位编码方式，在西方学者子库文件名10位编码的基础上，添加作者信息CH，代表Chinese，表明文本是中国学者撰写的论文。如chem011005CH代表中国学者子库化学学科第1种期刊2010年第5篇论文。

4.2 语料整理与标注

语料整理包括删除txt文件中论文题目、作者信息、摘要、关键词、致谢、参考文献等部分，仅保留正文；同时，删除正文中的图、表、图表名称以及单独成行的公式，并在原位置用@代替，以保证上下文的衔接。

清理完成后进行篇首元信息标注。标注内容包括论文标题、作者姓名、作者国籍、出版年份、期刊名和出版社。其中，论文标题、期刊名和出版社均为相应全称。若论文有多位作者，只提供2到3位作者姓名。中国学者子库的作者国籍为2位编码，CH代表Chinese。西方学者子库的作者国籍为1位编码，选取作者国籍的首字母，即A 代表American（美国）、B代表British（英国）、C代表Canadian（加拿大）、U代表Australian（澳大利亚）、N代表New Zealander（新西兰）。出版年份为2位编码，格式同文本命名中的年份。

经以上步骤得到Beijing CARE纯文本语料库。另外，使用CLAWS（C7码集）对纯文本语料进行POS词性标注，得到Beijing CARE词性赋码语料库。纯文本语料库易于使用者检索和观察节点项的共选信息，赋码语料库则便于准确无遗地检索语言形式的总体数据。

5.Beijing CARE语料库的应用

基于Beijing CARE语料库数据，北京航空航天大学语料库语言学团队开展了一系列学术话语研究，探讨了中国学者和国际学术话语社团学术文本中的话语策略、局部功能与局部语法特征、意义方式、知识构建方式等，具体如下。

学术话语策略指学术话语社团为构建知识采用的方略和手段，主要包括准确表述策略（accurate presentation strategy）、声言责任策略（claim commitment strategy）、追求共识策略（consensus-seeking strategy）和介入策略（involvement strategy）。准确表述策略指准确有效地提出研究问题、描述研究方法、报道数据结果等。实现形式通常为精确的数值、图表呈现，详尽的方法、过程描述等。然而，由于客观世界存在不确定性，研究方法、研究者的认知水平等可能有一定局限，模糊表达也是该策略的重要体现。此外，学者在表述个人研究时应承担相应观点或声言的责任，即是声言责任策略。在解释或讨论结果部分，学者多使用委婉词语，以减轻责任，规避潜在的风险。另外，学术知识的构建也需学者有效地表达立场与态度，以劝服读者接受其研究并推销成果。追求共识策略则是实现这一交际目的的重要手段。学者在文本中援引他人，评述文献，试图与读者达成共识，进而结成联盟。另一手段是介入策略。作者与读者互动协商，或将读者拉入意义构建过程，或引导读者跟随文章思路，使其接受观点或结论。研究发现，中国学者在准确表述策略与追求共识策略方面与国际话语社团无明显差异。然而，他们较少使用声言责任策略和介入策略。也就是说，中国学者不善于表达主观评价与态度意义。

局部功能指有限类别文本或局部语境下频繁发生的话语事件或行为方式。学术文本的局部功能即为学术文本这一有限类别文本中的具体话语行为。如“定义”“引述”“推断”“例举”“结论”等。这些并非一般语言的普通功能，而是仅在学术论文等类别的文本中高频出现。通过探索特征性的词语手段可考察学者群体在局部功能方面的使用趋势。例如，中国学者论文中多“报道结果”“表述效果”“时间定位”等局部功能，“解释数据”“推理/结论”“援引他人”等功能则远少于国际话语社团论文。这说明中国学者趋于采用整体综合的话语行为，而较忽略对结果或发现的细微分析。

局部语法是一条崭新的语法描写路径。它不同于普通语言学的通用语法描写，而是针对有限类别文本，聚焦于一个特定的意义或功能，对其语法结构与功能成分进行结构化描写。如学术论文的“评价局部语法”涵盖实现评价功能的、最频繁使用的结构形式，以及“评价对象”“评价范畴”“评价者”“链接语”“对象行为”等功能成分。通过局部语法路径下的语料库数据分析，可以发现中国学者与国际话语社团的话语行为与意义方式差异。例如，中国学者评价局部语法型式的使用频数明显低于国际话语社团，“评价对象”等功能成分的使用也呈现一定差异。就“评价范畴”而言，国际话语社团较多评价命题或事件的“重要性”和“似然性”，中国学者则更多评价其“难易度”和“确定性”。本质上说，上述关于局部功能与局部语法的研究体现了不同学者群体的不同意义方式。语言使用差异实质上是话语意义、认识状态的差异。

跨学科对比分析是探究学术话语行为与意义方式的另一重要研究方法。学术文本的知识构建与学科认识论、学科文化密切相关。我们从Beijing CARE语料库中选取物理学、计算机科学、历史学和教育学四个学科4，以分别代表纯理型硬学科、应用型硬学科、纯理型软学科和应用型软学科四大学科群落，探索不同学科类别话语行为与意义方式的异同。从研究客体、知识发展方式、获取途径与判别标准来看，各学科群落呈现出对比性特征，如物理现象：社会现象、原子型：整体型、线性累积式：反复迭代式、稳定型：易变型、普适型：个体型等。研究发现，知识特征、认识论与学科文化是学术话语行为的底层制约。其中，硬、软学科的规律性制约较明显。如硬学科学者多注重精确、详尽地表述数据与研究过程，软学科学者则更倾向于论证和阐释个人观点。硬学科学者多评价研究方法的有效性和数据结果的重要性，以突出研究对相关知识领域的贡献，软学科学者则因知识的主观性与不确定性而多评价命题的似然性。相比之下，纯理学科和应用学科的规律性制约仅大体可见，并不明显。这可能是因为两个学科群落的划分并非泾渭分明，且随着学科的发展以及学科间的交叉与融合，语言使用也在不断变化，话语行为和意义方式更加多样杂合。

6.结语

本文介绍了Beijing CARE语料库的基本信息及其建设与应用。Beijing CARE语料库库容规模大，学科覆盖面广，支持跨文化、跨学科等多层次、多维度的对比研究。同时，其纯文本与词性赋码“双版本”的设计也为使用者提供了检索与观察的便利。目前，基于Beijing CARE语料库的学术话语研究已取得一定成果，今后可继续探究学术文本语言使用的特征与规律。此外，Beijing CARE语料库也为学术英语写作与教学提供了资源和工具，可借助该库开展数据驱动等方式的学习与教学。

注释

1.该项目于2018年结题，并获优秀等级。

2.BAWE和BASE语料库库容分别为6,506,995和1,644,942形符（参见 https://www.coventry.ac.uk/research/research-directories/current-projects/2015/britishacademic-written-english-corpus-bawe/和https://warwick.ac.uk/fac/soc/al/research/collections/base），BNC学术子库库容为15,331,668形符。

3.本库语料的版权归原出版社所有，仅供学术研究与教学使用，请勿用于任何商业用途。

4.该研究使用的是Beijing CARE语料库的早期版本。最终版本已删除历史学子库。