殷铭
摘 要: 本文采用中介语对比分析方法,将搜集到的独立学院学生英语写作文本自建语料库,与LOCNESS语料库中英、美大学生写作语料进行对比分析,运用语料库检索、标注、统计等一系列工具,研究并分析独立学院学生英语写作词汇的宏观特征,并对独立学院大学英语写作教学提出一些建议。
关键词: 语料库 独立学院 英语写作 词汇特征
1.引言
2017年最新发布的《大学英语教学指南》(以下简称《指南》)对中国大学生的英语能力提出了全新的要求,除了能用英语进行日常沟通与交流外,还要能有效地传播中华文化,这已经上升到国家战略需求的层面。《指南》要求学生在高中英语的基础上进一步提高英语听、说、读、写、译的能力。作为五项基本技能之一,写作是最能体现学生语言综合运用能力的部分,同时是目前英语教学中最薄弱的环节(鹿青,2017)。写作需要英语教师给予及时、有效的反馈,反馈不足甚至零反馈只能导致学生去网络上寻找良莠不齐的范文作为参照,久而久之便失去写作的热情和信心,只能期望在四、六级考试前突击背誦作文模板或经典例句。
语料库语言学的目标之一是解释各种语言现象是否可能发生及发生概率的大小(Kennedy,1998:270),语料库相关研究中的对比最终常常落实到频率的对比,语料库内部词汇或短语的比较和两个乃至更多语料库见的比较最终是频率的比较(梁茂成,2010:10)。本研究从写作词汇特征入手,因为词汇是英语写作最基本的材料,词汇运用的丰富程度是高质量作文的显著性特征之一(Reed,2000),并对各类词汇特征出现的概率和频率进行量化分析。对比独立学院学生与英、美大学生写作用词的特点及差异,并分析原因,提出相关的写作教学建议,使学生尽快适应《指南》的最新要求。
2.研究设计
2.1研究问题
本研究期望解决如下三个问题:独立学院学生与英、美大学生英语写作词汇各自有哪些特征?这些词汇特征是否存在显著差异?是否有行之有效的措施提升独立学院学生英语写作词汇水平?
2.2研究方法
本研究采用语料库中介语对比分析方法,参照英语母语成人语料库,对自建的独立学院语料库进行观察和分析,运用语料库工具分析词汇密度、词级、词长、词频及词性分布情况,试图从宏观上揭示独立学院学生英语写作词汇特征。
2.3研究对象
本研究所选取的观察语料来自南京某高校设在泰州的一所独立学院。该校自2015年起每年举行一次同命题英语写作比赛(见表1),笔者共收集到2015年—2018四年间的学生作文共计7841篇。为保证本研究的信度和效度,笔者从每年比赛文本中各随机抽取500篇共计2000篇自建语料库,库容量为497915词,并将其命名为NNUTC。
用于参照的语料库是由比利时Louvain大学Sylviane Granger教授主持建立的英、美本族语大学生作文语料库LOCNESS(The Louvain Corpus of Native English Essays)。该库容量为265695词,包括英国和美国大学生议论文和说明文共322篇,涉及若干主题。
2.4研究工具
本研究使用一系列语料库检索、标注、统计工具分析各种词汇特征出现的概率和频率,分别为用来测量词汇密度和词长的WordSmith,统计词级分布的Range,检索词频的AntConc,进行词性标注的TreeTagger和用来检验频数差异的Log-likelihood Ratio Calculator。
3.发现与讨论
3.1词汇密度
类符/形符比是衡量文本中词汇密度的常用方法(梁茂成,2010:9)。笔者使用WordSmith对两库中的类符/形符比进行分析发现,NNUTC的形符数为497915词,类符数为12631词,LOCNESS的形符数为265695词,类符数为16055词,类符/形符比分别为2.54%和6.04%。但由于写作中不可避免会重复出现大量诸如the, a, of等功能词,且文本越长功能词重复次数越多,密度反而会降低,因此标准化类符/形符比被认为是较为可靠的词汇密度的测量工具(梁茂成,2010:10)。将二者的标准化类符/形符比进行对比发现,NNUTC的标准化类符/形符比为37.53%,要略低于LOCNESS的40.13%,可见独立学院学生的作文中词汇密度较低,主要体现为写作用词变化不多且种类单一,缺乏一定的变化。
3.2词级
笔者利用Range软件分别统计两个语料库的词级分布和词汇复现率情况。如表2所示,独立学院学生所使用的一级、二级、三级和超纲词汇的百分比分别为82.95-9.34-2.32-5.39,而表3中英、美大学生各级词汇使用比例分别为80.93-7.61-2.29-9.17。Cobb(2003:393-423)经过研究发现,英语母语者作文的词频比分别为70-10-10-10,高级英语学习者的作文词频比分别为88-3-3-6,而中国高水平英语学习者的书面语词频比为84-6-5-6(文秋芳,2003)。
可以看出:(1)独立学院学生和英、美大学生都偏重于使用高频词汇(list one),且比例均超过80%,而独立学院学生超纲词汇使用比例要远低于英、美大学生;(2)英、美大学生所用词汇的词族(Families)和种类(Types)明显高于独立学院学生,体现出独立学院学生词汇使用的丰富性不足,重复使用部分单词;(3)从词汇复现率(Tokens/Types)来看,独立学院学生的高频词汇和次高频词汇的复现均远远高出英、美大学生,特别是高频词汇高出一倍多。综上所述,独立学院学生高频和次高频词汇的掌握情况基本达到英语母语者和中国高水平英语学习者的平均水平,但学术词汇的掌握能力亟待提高。
3.3词长
Karlgren(1996),Attali and Burstein(2004),桂诗春等(2003)都提出词长是比较语料库常用的参数。笔者运用WordSmith工具對两个语料库中的平均词长、词长标准差和不同字母数构成的单词数进行了统计。由于15字母以上的单词数量偏少,不具备典型性,因此本研究仅选取1-15字母数的单词数量进行对比分析,得出表4所示数据。
从平均词长看,两库的平均词长均为5个字母,词长标准差没有太大的差异。随后笔者将不同字母数构成的词数进行标准化处理(词数/总形符数×10000000),以折线图形式呈现。从图1的对比中发现,两库中使用最频繁的单词均由2个—4个字母构成。LOCNESS中3字母词最多,其次是2字母词、4字母词、5字母词和6字母词。NNUTC中2字母词最多,其次是3字母词、4字母词、5字母词和7字母词。在5字母以上的单词数中,NNUTC中除了7字母词高于LOCNESS外,其余均略低。
为了进一步弄清NNUTC中为何出现7字母单词比例过多的情况,笔者通过编写正则式检索出所有7字母单词,发现除了ability, against, another, because, between, various, whether, without等各类作文中普遍出现的高频词外,其他一些高频出现的7字母词诸如AlphaGo,booming, Chinese, English, connect, broaden, culture, foreign, reading, science, society, stories, telling, Western均为各年作文比赛中的主题词或关键词,出现高频使用的情况也就不足为奇了。
虽然词长参数不能全面准确地测量英语写作水平,但至少从一个侧面反映出学生在英语写作水平上确实存在差异(文秋芳,2003)。上图说明母语学习者能较为熟练地使用词长较长的词,而独立学院学生则需要提高多字母单词的使用能力,尽量避免使用简单、通用和口语化的词语来表达思想,而应多使用书面文体进行写作。
另外需要补充一点,自动分词工具虽然提高了信息处理的效率,但其分词的依据是单词之间存在的空格。当词与词之间或单词后出现标点却没有跟下一个单词之间留有空格时,工具将默认为是一个单词,如*handsome,rich,因为handsome之后的逗号跟rich之间没有空格,工具会默认为这是一个由13个字母构成的单词。部分学生因为书写时没有养成空格的习惯,所以多字母单词数量有所增加,但这毕竟是少数,并不影响整体的趋势。
3.4词频
笔者通过AntConc软件的“词表生成”功能观察两库中的词频情况(见表5),并研究是否存在个别高频词出现过度使用的情况。两库中位列前20位的高频词汇大同小异,都是诸如the, to, of, and等功能词和I, it, we, that等代词。
把两库中同现的13个高频词汇进行频数差异检验,分析这些单词是否存在显著性差异。笔者使用许家金教授(Xu,2009)设计的对数似然比计算工具(Log-likelihood Ratio Calculator)进行统计(见表6),发现除to外,其他12个词均存在显著性差异。其中and, in, are, with, it在独立学院学生作文中出现过度使用的情况。
另外,笔者发现独立学院学生高频使用了people(Rank 13)和Chinese(Rank 15)两词,频率分别达到5100和4526次,而这两个词在LOCNESS中的出现频率分别为1234(Rank 26)和14(Rank 1980)。经分析发现,Chinese为2018年作文关键词,高频出现不难理解,而people一词则出现了过度使用的情况。王立非等人曾发现,people在书面语作文中大量出现,占0.77%(王立非,2007)。people一词的过度使用说明独立学院学生在写作时可能受到母语和固定模板的影响,当要表达“人”或“人们”概念时往往认为people最安全,或许也是唯一能用到的词,而忽略诸如individual, person, one, public等词的使用。
3.5词性
笔者利用词性标注软件TreeTagger对两个库中的文本进行词性赋码标注,试图发现独立学院学与英、美大学生写作用词的词性分布情况。使用TreeTagger赋码器对英文赋码,准确率在96%-97%之间(梁茂成,2010:53),可以满足研究的要求。再使用AntConc分别对赋码后的文本进行检索和排序,通过标准化频率处理(normalization)后得出表7的结果,比如普通名词(NN)在NNUTC中出现75744次,每千词使用普通名词约为74.42次。
经过对两库中排名前10的词性对比发现,独立学院学生和英、美大学生都高频使用了名词(单、复数)、介词、形容词、副词等,且差异不大。而独立学院学生对人称代词(Rank 5,35127次)的使用频率偏高。笔者经过进一步研究发现,两库中常见人称代词的使用存在显著差异性(见表8)。其中独立学院学生第一、二人称代词使用数量是英、美大学生的3.56倍,存在过度使用的情况,而第三人称代词则使用不足。文秋芳等人也发现,就第一、二人称代词使用数量而言,中国高水平英语学习者每万词使用的代词数量是美国大学生的2.84倍(文秋芳,2003)。
4.结论及建议
通过对独立学院学生和英、美大学生英语写作词汇特点的对比分析可以发现:(1)独立学院学生在英语写作时的词汇输出能力还是比较薄弱的,主要体现在写作时重复使用高频、低词级的普通词汇,学术词汇的掌握能力亟待提高;(2)表达个人观点时手段显得单一,且过度依赖写作要求中给出的关键词;(3)词汇变化不丰富,尚处于中介语发展的初级阶段,写作用词能力亟待提高。
影响英语写作的因素很多,但英语表达词汇水平对英语写作能力起着至关重要的作用(马广惠,1999)。针对独立学院学生英语写作用词现状,教师应在课堂教学中强化学生的词汇意识,让词汇成为语言教学的中心(Lewis, 1993)。教师可以将语料库研究方法融入课堂教学中,让学生掌握基本的语料库检索工具。如可以利用“词表生成”工具让学生了解一篇文章的主题词,或利用“搭配检索”工具让学生熟悉词语之间的共选关系,再或者通过词频软件得出母语者在写作中的高频词等。同时,教师可以在写作教学环节中加入词汇专项训练,例如通过同义词替换、词形转换等形式巩固、强化学生的词汇表达能力。另外,教师对学生的作文应给予及时、有针对性的反馈,鼓励学生多写、爱写、要写。最后,教师要了解所教学生目前的中介语水平,要给出适合学生模仿、学习的范文,而不是从网络上找一篇范文,或直接让学生背诵所谓的模板或经典句型。
参考文献:
[1]Attali Y., Burstein J.. Automated Essay Scoring With E-Rater[J]. Journal of Technology Learning and Assessment, 2006,4(2).
[2]Cobb, T.. Analyzing Late Interlanguage with Learner Corpora: Quebec Replications of Three European Studies[J]. Canadian Modern Language Review, 2003,59(3).
[3]Karlgren J.. Stylistic Variation in An Information Retrieval Experiment[J]. Computer Science, 1996.
[4]Kennedy, G. . An Introduction to Corpus Linguistics [M]. London: Longman, 1998.
[5]Lewis, M.. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.
[6]Read, J.. Assessing Vocabulary[M]. Cambridge: CUP, 2000.
[7]Xu, Jiajin. Log-likelihood ratio calculator [M]. Beijing: National Research Centre for Foreign Language Education, Beijing Foreign Studies University, 2009.
[8]桂詩春,杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社,2003.
[9]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[10]鹿青.独立学院学生大学英语四级写作现状思考[J].校园英语,2017(16).
[11]马广惠,文秋芳.大学生英语写作能力的影响因素研究[J].外语教学与研究,1999(4).
[12]王立非,梁茂成.WordSmith方法在外语教学研究中的应用[J].外语电化教学,2007(3).
[13]文秋芳,丁言仁,王文宇.中国大学生英语书面语中的口语化倾向——高水平英语学习者语料对比分析[J].外语教学与研究,2003,35(4).