历时追踪性英语学习者语料库的建设研究

2022-05-12 05:41
安顺学院学报 2022年2期
关键词:历时语料语料库

柴 能

(安顺学院外国语学院,贵州 安顺561000)

一、英语学习者语料库的建设现状

语料库(corpus)是指以电子文本形式收集和存储的语言材料,可以通过计算机进行标注、检索和分析,为研究语言使用规律提供重要的语料基础。现代信息技术的发展极大地促进了语料库的研究,出现了各种专门用途的语料库。英语学习者语料库收集英语学习者的语言输出材料,是研究英语中介语(interlanguage)[1]特点的重要数据。通过定量分析大量的英语中介语语料,可以对英语学习机制有更深刻的理解。

英语学习者语料库在过去30年里迅速发展,目前国外已建成的主要的英语学习者语料库有:1.国际学习者英语语料库(International Corpus of Learner English,ICLE)[2],由比利时Louvain大学Granger于1990年建立,现已更新到第3版,容量2,000,000词,语料来自世界各地大学英语学习者的书面材料,是影响力最大的英语学习者语料库;2.USE语料库,由瑞典Uppsala大学于1999年建成,容量1,000,000词,语料来源于瑞典高校的英语学习者的书面材料;3.剑桥学习者语料库(Cambridge Learner Corpus,CLC),容量20,000,000词,语料来自不同母语的学习者参加剑桥大学英语考试的作文;4.朗文学习者语料库(Longman Learner Corpus, LLC),容量20,000,000词,语料来自世界各地不同母语背景和水平的英语学习者的作文。

国内英语学习者语料库的建设几乎同时开始,目前已建成的主要的学习者语料库包括:1.中国学习者英语语料库(Chinese Learner English Corpus, CLEC)[3],1999年建成,容量1,000,000万词,语料来源于英语四、六级考试的作文以及部分中学生的英语测试作文;2.中国大学生英语口语语料库(College English Learners' Spoken English Corpus, COLSEC)[4],容量720,000万词,语料来源于2000-2004年全国大学英语考试的录音;3.中国学生英语口笔语语料库1.0[5]& 2.0[6](Spoken and Written English Corpus of Chinese Learners, SWECCL),容量二百多万词,语料来源于1996-2007年大学英语考试的口试录音和作文;4.中国学生万篇英语作文语料库(Ten-thousand English Compositions of Chinese Learners,TECCL)[7],2015年建成,语料涵盖了大学、中学、小学三个阶段,写作类型包括课内限时写作、课后作业、期中和期末考试写作、课堂讲稿、小组合作写作等多种类型;5.iWritebaby Chinese Learner English 语料库[8],2019年建成,语料取自iWrite英语在线写作系统的英语作文,容量八百多万词。

二、建设历时追踪性学习者语料库的必要性

随着现代信息技术的飞速发展,国内外英语学习者语料库的规模不断扩大,但各类专业语料库的建设仍需进一步探索。以上所述的英语学习者语料库都是对不同学习者语料的一次性采集(大部分是基于英语考试的命题作文),缺乏对同一学习者的持续追踪,因而无法体现出英语学习者的语言发展特点。

何安平认为,因为信息技术的发展,建设大容量的语料库已不再困难,我们更应该关注怎么建立特色语料库[9]。Granger指出,在学习者语料库的发展方向上,我们未来应该更关注历时语料库方面的研究[10]。王立非也认为,为了描述中介语的发展过程,有必要建立历时性学习者语料库[11]。然而,由于难以追踪和收集大量学习者语料,国内外对历时追踪性学习者语料库的建设极少,目前仅有个别的发展性语料库。例如,Housen开发的“青少年学习者中介语语料库”收集了部分欧洲国家小学生不同阶段的英语语料[12];李文忠构建了“学习者电子档案语料库”,关注学习者不同阶段的历时语料[13]。此外鲁东大学建立的国别化汉语中介语动态语料库[14],收录了韩国留学生历年在校期间的作业和考试语料。但是这些语料库由于建库限制,还不能达到对同一学习者语言发展进行持续追踪的目的。

笔者认为,无论是从语料库语言学的研究角度,还是从实际语言教学需要出发,都有必要建立历时追踪性英语学习者语料库,丰富学习者语料库的类型,为研究英语学习者中介语的发展规律提供语料平台。

三、历时追踪性语料的收集

1.语料规模

历时追踪性英语学习者语料库是专门用途语料库,笔者通过对100名大一学生持续收集英语作文,追踪学生的英语发展过程。每周收集学生的英语作文1篇,长度为200词左右,涵盖说明文、记叙文、议论文、小说等体裁。语料收集可以持续2~3年,收集过程越长,对研究中介语的发展规律越有价值。建成后,收集到每名学生的语料达20,000词,整个语料库累计词汇达2,000,000,基本形成一定规模,成为国内领先的英语学习者语料库,为研究英语中介语发展规律提供语料平台。

2.语料采集原则

语料的采集有两种方法:学生在纸上写作,然后再输入电脑存储为电子文本;或者直接让学生在线写作提交电子文档。为了避免简单的重复劳动,提高效率,我们将采用在线写作的方式。根据我们的建库目的,本语料库收集的语料必须要满足有效性、追踪性、均衡性三个要求。

追踪性:每周收集一次学生的英语作文,持续时间2-3年,达到对英语学习者中介语发展进行追踪的要求,是本语料库的特色,也是建设的难点。对比其他学习者语料库,研究者收集历时追踪性语料比较困难。如何持续稳定地从同一英语学习者收集语料,还没有统一的标准模式,处于小范围探索阶段。然而追踪语料库的重要作用不可替代,积极探索历时追踪语料库的建设可以为研究中介语的发展变化提供重要的数据平台。本研究需要每周收集一次学生的英语作文(200词),由于多数学生缺乏英语写作实践,培养学生良好的持续写作习惯是关键之处。

均衡性:收集的语料涵盖记叙文、说明文、议论文等各个体裁,话题尽可能广泛,每种体裁的语料数量基本均衡,以全面反映学生的英语能力。国内常见的主要的学习者语料库(CLEC、SWECCL等)都是基于各类英语考试的限时命题作文,题材固定、单一,学生语言趋于保守,并出现大量套用公式化句式的现象,是学生应试教育的产物,用来分析学生实际的英语能力有所欠缺。本研究拟建的英语学习者语料库,语料源于学习者每周自由时间的写作练习,是学生自然语境下的语言输出,改进了学习者语料库的语料采集方式,更能体现学习者的实际英语能力。

有效性:电子文档语料的收集,要对所有收集到的语料进行鉴别,剔出抄袭、机器翻译等无效语料,确保语料来源地真实有效。由于本语料库收集自然语境下的学生语言输出材料,我们主要以写作任务的形式让学生在课外时间完成,这样可以避免考试作文的弊端,但是也带来新的问题:怎么避免学生抄袭与机器翻译。过往的教学经验可知,学生可能会为快速完成写作任务,从网络上抄袭英语作文,或者使用机器翻译,这都会导致语料的无效性。为此我们必须鉴别分析收到的每一篇英语作文,确保语料的有效性。每周对100篇语料进行整理分析,对我们来说也是一个挑战。

3.收集过程

整个语料采集过程持续2~3年,每周提取100名大学生的英语作文、日记等素材。为了确保语料收集顺利,采集前的准备工作与先导研究阶段必不可少。

准备工作:提前确定好学生要写作的题目,可以是宽泛的话题,也可以是具体的题目。每周向学生说明英语写作任务,采用在线写作形式。鼓励学生大胆进行写作练习,不允许抄袭与机器翻译。

试收集阶段:先进行一个月的先导研究,试收集学生的作文语料,检验方案的可行性,根据学生的完成情况对写作题目、要求、长度等进行调整,贴合学生的英语水平与兴趣,消除学生潜在的抵触情绪,有效地完成写作任务。

正式收集阶段:进行正式的语料采集工作,培养学生形成良好的写作习惯,对表现优秀的学生给与一定奖励,建立起你追我赶的竞争机制,使学生乐于写作,在写作中进步,完成语料收集任务。

下图为本语料库的建设流程,其中语料的收集与标注是重点,每周一次,持续两年至三年的时间,收集200万词的学习者语料。

图1 语料库建设流程图

四、历时追踪性语料的标注

语料采集完成后还只是生语料库,需要对学生信息、采集时间、文本题材等信息进行标注,以及对语料进行赋码处理,对语言错误进行标注,方便计算机对其进行检索使用。标注与收集同步进行,每周一次。

本语料库的标注方法借鉴SWECCL等国内学习者语料库的标注方法,但是我们仍需要探索针对追踪性语料的特殊标记。虽然目前已建成的学习者语料库确定了一套事实上的标注规范,研发了相应的语料标注软件与检索软件,本语料库可以参照使用。但由于追踪性语料库建设极少,如何对同一学习者不同阶段的动态语言材料进行标注和分析,还没有可靠的先例,需要研究者在具体标注中实际探索,以实现语料库的追踪性功能,从大数据层面展现学习者在不同阶段的中介语发展特点。

本研究拟采用XML格式对语料库的头文件信息及词性等进行标注。

头文件信息包括学生代码()、语料收集学期()、星期()、限时/非限时(/)、体裁(///)、题材()等。头文件信息都是语料库的变量因素,体现出了不同因素对于学习者英语使用的影响。研究者可以利用不同的变量生成子语料库,即进行相互对比研究。其中最重要的变量是时间,通过时间维度,研究者可以对英语中介语的历时发展变化规律进行相关研究。

词性赋码标注一般采用CLAWS、AGTS等工具进行。这些标注工具是针对英语为母语开发的,用于中介语标注时,会有部分赋码错误的情况,有必要再进行人工校对完善。后期随着研究需要,我们还可以对中介语的语言错误进行标记编码,提高语料库的应用价值。

用CLAWS赋码标注后展现的结果:

The_AT0 university_NN1 began_VVD to_TO0 recruit_VVI international_AJ0

students_NN2 in_PRP 1986_CRD and_CJC had_VHD trained_VVN more_DT0 than_CJS

20,000_CRD international_AJ0 students_NN2 from_PRP more_DT0 than_CJS 80_CRD

countries_NN2 by_PRP 2019_CRD,_PUN says_VVZ Huang_NP0 Xiaojuan_NP0 ,_PUN

the_AT0 university_NN1 's_POS vice-president_SENT ._PUN

每个单词之后的下划线标注字符,表示了该单词的词性特征。用检索软件可以利用这些标注字符,对特定用法或句式结构进行检索。

五、历时追踪性语料库的应用

语料库建成后,即可用Wordsmith与AntConc等软件对语料数据进行统计分析,就英语学习者在语言准确性、词汇变化、句式复杂度等方面,结合时间维度进行定量分析,为探索英语学习者的中介语发展规律提供大量真实的语料数据。

由于收集历时语料费力费时,要对英语学习者进行跨时间观察追踪几乎没有现成的语料平台。通过大量的历时性中介语语料可以深刻认识英语学习者的英语发展路径,研究英语学习者的中介语在词汇运用、语法错误、句法特点等方面的语言发展特点,对中介语发展规律进行验证。这方面的作用是共时语料库不可替代的。虽然很多学习者语料库也可以按照学习者的英语水平不同,对比研究不同水平学习者的中介语特点,推导中介语的发展规律。但是这种对比没有基于同一批学习者,难以推导出可信的结论。历时语料库的优势就在于可以跨时间纬度对语言的发展变化进行追踪,体现出语言的演变特征。对同一批学习者中介语发展变化进行追踪分析,可以对中介语的发展变化规律得到更加清晰的认识。

结 语

虽然国内有众多规模庞大、上千万词的英语学习者语料库,但因为其缺乏追踪性,无法对英语学习者的语言发展路径进行深入探讨。历时跟踪性英语学习者语料库,持续跟踪收集同一批英语学习者的语料, 突出语料的自然性特点,为研究英语中介语发展规律提供重要语料平台。这对以后的历时追踪性语料库建设,为后期更大规模更广范围的历时追踪性语料库开发提供方法参考。

猜你喜欢
历时语料语料库
海量标注语料库智能构建系统的设计与实现
基于语料库的清末民初日源外来词汉化研究
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
对《红楼梦》中“不好死了”与“……好的”的历时考察
运用语料库辅助高中英语写作
语料库与译者培养探索
英语教学中真实语料的运用
安静