张 惠
(武汉软件工程职业学院,湖北 武汉 430205)
写作是职场中的重要工作,书信、通知、电子邮件等应用文是现代职场中常见的书面沟通形式。一方面,作为重要的语言输出能力,英语应用文写作能力是高职生在校期间重点培养的诸项能力之一;另一方面,受汉语环境的影响,中国学生的整体英语写作情况并不乐观,就高职生群体来讲,其英语水平相较偏低,他们写出的英语应用文质量总体堪忧,引人思索解决之道。
语料库语言学为高职英语应用文写作教学提供了一种思路。在某种意义上,语料库语言学是一种研究方法,此方法借助计算机来实现。它以大量精心采集而来的真实文本为研究素材,主要通过概率统计的方法得出结论,其本质是实证性的。外语学习者语料库根据Granger所指,是“根据明确的设计标准,为了某种二语习得或外语教学的目的,以电子形式收集的真实二语或外语文本数据库”,它为重建学习者的输出提供大量可靠的数据,使实证分析了解学习者语言的运用成为可能,可使英语教学的针对性和实效性更强,为语言习得研究和外语教学研究提供巨大的潜力。
为了给高职生英语应用文写作习得研究和相关教学研究提供真实可靠的数据,建设这类学习者语料库是有必要的。根据笔者所了解的信息,目前中国大陆影响较大的英语学习者书面语语料库有桂诗春、杨慧中主持建设的《中国学习者英语语料库(CLEC)》和南京大学建设的《中国学生英语口笔语语料库(SWECCL)》,前者的语料采自高中到大学各年级各专业的试卷作文和自由作文,后者的书面语语料采集高校英语专业1-4年级的课堂限时和课外非限时作文,两者的语料文体主要为议论文、记叙文和说明文。另外,知名学者许家金团队创建于2015年的《中国学生万篇英语作文语料库(V1.1)(TECCL)》中的作文涵盖大学、中学、小学三个学段,其中以大学为最多,但主要也是本科类院校的语料样本,语料文体同样主要是议论文、记叙文和说明文。因此,还没有针对中国高职生群体,且语料为英语应用文文体的中国英语学习者语料库可以获取。鉴于此,笔者及其团队设计和建设了一个高职生英语应用文写作语料库,英文名全称为Vocational College Students'Practical English Writings Corpus,缩写为 VCSPEWC。
基于本研究中的语料库开发目的是针对高职生的英语应用文写作教学与研究,学习者集中为高职一年级非英语专业学生,所以语料主要采集他们所写的不同主题的应用文,有询问信、通知、求职信、邀请信和电子邮件,并分别命名为 pw1、pw2、pw3、pw4 和 pw5。为了避免抄袭,采取课堂指定题目并限时25分钟写作的形式进行采集,允许学生使用纸质词典,不能使用智能手机。因为客观条件的限制,该语料库在规模上设计得比较小,约15000词,作文数量共计不少于200篇。表1为该语料库的语料分布情况:
表1 VCSPEWC的语料分布
VCSPEWC语料样本来源于学习者的手写文字,需要笔者及其团队收集纸质作文后,分工进行人工输入,在输入前,团队进行了输入工作培训,统一了输入标准,输入后由专人进行了校对。语料处理程序借鉴了CLEC语料库的样本处理程序,但略有不同。具体如下:
a.选好样本:首先将作文题目印制成试卷形式,然后,将不同的写作任务指定给专人在一定的时间周期内组织学生完成,最后将学生完成的试卷在指定的时间上交给总负责人对其进行分类、编号和复印存档。
b.输入样本。
c.校对。
d.确定失误类型和标注码。
e.根据失误分类表对言语失误和格式失误进行标注。
f.指定专人对标注进行核查。
g.选定语料库处理工具。
h.利用工具对言语失误进行统计分析。
对VCSPEWC中的语料进行失误标注是建设该语料库的初衷,也是其主要特点。在参考了CLEC语料库的言语失误分类方法后,笔者及其团队将VCSPEWC中的语料失误分为两大类:言语失误和格式失误。
对于言语失误,直接借用CLEC语料库的失误分类体系,采取两级分类:第一级包括11类(词形、动词短语、名词短语、代词、形容词短语、副词、介词短语、连词、词汇、搭配、句法),第二级为第一级11类的细分,细分后同一大类下的小类用阿拉伯数字标识以示不同。如[fm]为词形类失误,细分后,[fm1]表示拼写失误,包括字母拼写错误、学生自造词错误、缩写错误、省略符号使用错误;[fm2]表示构词失误,包括词语派生的错误、屈折变化的错误、复合词错误、名词复数变化错误、动词不规则变化错误、第三人称谓语动词单数形式错误、音节划分错误、断字错误、字的分解和融合错误;[fm3]表示字母大小写失误。CLEC语料库中言语失误分类表的确定办法是对常见的失误从细,对少见的失误从粗,共有61个失误码。
对于格式失误,由于CLEC语料库没有此类失误标注,因此笔者及其团队为了保持VCSPEWC语料库整套失误标注体系的完整和统一性,依据两级分类标准,在研究讨论的基础上,编制了格式失误分类表,格式失误这一类的赋码确定为[ft],细分为8个小类,依次用阿拉伯数字1-8标识,即[ft1]-[ft8]。
因此,VCSPEWC语料库的整套失误分类确定为12大类69小类,表2列出其中的“格式”类失误表。
表2 VCSPEWC“格式”类失误表
语料库建好后,需要相应的处理工具才能发挥作用。语料库语言学从20世纪60年代至今的迅速发展,在很大程度上得益于计算机技术的进步和支持。在语料库语言学的发展中,很多工具和软件的开发起着至关重要的作用。WordSmith是当今语料库语言学中公认的权威工具之一。它由英国利物浦大学开发,牛津大学出版社出版。然而尽管它功能强大,但它是一种商业软件,而且在某种程度上代价高昂。日本学者Laurence Anthony开发了一款免费的检索软件AntConc,其界面和操作简单方便。它的版本不断更新,基本上实现了WordSmith的所有功能,用户可以在http://www.laurenceanthony.net/software下载后直接使用。它包含了许多工具,包括索引(Concordance)、索引定位(Concordance Plot)、文件查看(File View)、词丛(Clusters)、N元模式(部分词丛)(N-Grams(part of Clusters))、搭配(Collocates)、单词列表(WordList)和关键字列表(KeywordList),可以满足本研究的需求。本研究使用的是目前最新的AntConc3.5.7版本。
为了了解高职生英语应用文中的失误情况,本研究通过前文介绍的AntConc软件的“索引”工具进行了统计,具体步骤如下:
a.双击运行AntConc3.5.7,选择界面上的“索引(Concordance)”工具;
b.依次选择“文件(File)”菜单、“打开文件(Open File(s))”选项,打开VCSPEWC语料库的txt文件;
c.在界面上的搜索框内输入失误码(如“fm1”);其他选项选择默认设置;
d.点击“开始(Start)”按钮,软件开始自动检索并在主窗口内显示失误码所对应的检索行;
e.失误码对应的检索行全部显示完毕后,主窗口上端会显示一个总的频数(Concordance Hits),见图 1。
通过检索,得出高职生英语应用文写作中出现的12大类69小类失误的频数,通过比较这些数据,发现频数最高的前十位失误类别由高到低依次是:fm3字母大小写错误、fm1拼写错误、fm2构词错误、sn9标点符号错误/标点法错误、wd3选词不对(词性正确,但不应选择用该词)、sn8句子的语法结构错误、ft4日期错误(形式错误、缺失、位置错误)、np6名词“数”的错误、ft7落款错误、wd5单词的冗余,具体频数可见表3。对它们做进一步归类分析发现,高职学生在词形、词语使用、句子结构和应用文格式这四个方面的问题最为突出,而其中的词形和应用文格式是基本的英语语言学习内容,也是比较容易掌握的,但失误比例却依然很高,说明高职英语应用文写作教学仍然要重基础。高职学生擅长图式思维和实例思维,将学生自己的作文实例放到他们面前,使他们对失误的印象更深,降低今后再次犯错的可能性。
表3 VCSPEWC失误频数前十位列表
提高高职英语应用文写作的教学质量,首先必须了解教学对象,了解高职生在语言使用中的各种言语失误,并且找出产生这些言语失误的原因,以便改进教学,帮助学生掌握规范的、地道的英语。笔者及其团队设计建设了《高职生英语应用文写作语料库(VCSPEWC)》,对语料进行了失误标注,为研究高职生学习英语的中间语提供了科学的依据。另外,利用先进的检索软件对语料库进行检索,初步掌握了高职生在英语应用写作方面发生失误的情况,如学生英语应用文写作中出现的12大类69小类失误频数,高频失误类型是哪些,针对这类型失误应设置怎样的教学重点等,对高职英语应用文写作教学是一大支撑。