张成国
(江苏城市职业学院外国语学院,江苏南通226006)
学习者语料库是按照一定的原则和设计标准,通过科学抽样方法采集、编制而成的学习者语言(口语或书面语)电子文本库[1]。通过它提供的客观、真实和海量数据,语言教学及研究人员可对学习者的语言水平进行多维度、多层面的研究,从而为教学理论和实践提供颇具价值的反馈与指导。
口语在语言交际中起着非常重要的作用,然而高职学生的英语口语能力却不容乐观,尽管我们的教师和学生在上面花了不少时间。基于此,笔者设想建设一个能全面反映高职学生英语口语能力现状的语料库,用以辅助语言‘直觉’和‘内省’判断,克服教学大纲制定、教学方法选取与教学研究选题的主观性和片面性,从而最大限度地提高高职英语口语教学质量与研究水平。
第一,学习者英语口语语料库经过多年的建设,已经积累了比较丰富的实践经验。特别是中国大学学习者英语口语语料库COLSEC(College Learners’Spoken English Corpus)的建成,为我们提供了一套可借鉴的学习者口语语料库建库原则、采样方案和技术标准。
第二,建立大型语料库,并基于大规模真实文本的定量与定性分析相结合的研究方法正在逐渐成为国内外语言研究的主要方法之一。高职学生英语口语语料库的建设符合研究方法的这种转变与实际需要。
第三,计算机软硬件及网络技术的发展为口语语料库的建设提供了必要的技术支持。采用计算机软件进行半自动化语料处理和人工干预校正的模式,使得创建一个适合某项专门研究需要的中型语料库更加便捷,而个人电脑的普及及互联网技术的发展也有利于语料库资源实现最充分的共享。
尽管自由、即兴话语能够最为真实地反映语言使用者在给定场景中的语言运用特征,但因外语学习语境的制约却很难获得,所以高职学生英语口语语料库的语料来源可以是各年级高职学生学期英语口语考试亦或是他们参加全国英语等级考试(PETS)的实景音像资料。为尽可能反映学生在真实交际语境中的的实际口语能力,口语考试中增加适当比重的即兴话语,如学生与教师以及学生之间的晤谈和自由讨论等。话题内容尽可能多样化,可围绕“个人生活与学习、社会关切问题、校园生活”等几个方面展开。
参照COLSEC(College Learners’Spoken English Corpus)规范,采用不作任何主观干预的自然描写方法忠实转写考生的原始语句(包括非完整句、语法病句)以及有声语料中的口误、脱落、赘述、重复等现象,用统一符号完整、准确地标注会话中的话轮转换、语音、语调、停顿、犹豫、打断、非言语交际等[2]。示例如下:
1、单词和单词以上语言单位的重复部分之间用“#”表示。如:I couldn’t#I couldn’t#help you because I did not have enough money.
2、音节及其以下语言单位的重复可在代表所重复部分的字母或字母组合后加上“-”。如:fur-fur-further;im-im-impossible.
3、由话语不流利所导致的短暂停顿用三个圆点“...”表示,较长停顿用六个圆点“......”表示。
4、口语表达中不完整或未完成的句子可用“-”表示,未完成的单词用“=”表示,符号后要加一空格。如:I think it is very important_the most important thing is that…;We will list=follow the teacher’s advice and read more excellent books.
5、会话中的非言语声音根据语音的近似性,用mm,mn,erm,er,hm等符号表示。
6、无法辨别的语音用“?”表示,一个符号代表一个音节,“????”表示一个四音节的词。完全听不清的内容用“X”表示。辨别不清的语音部分的内容如若能作出明确推断,推断内容可放在<>内。[3]如:Igraduated from <?name of a university>.
1、错误语音赋码
学生口语中所有的语音错误码均放在中括号“[]”之内,附加在语音出错的单词之后[4]。具体赋码方案如下:
1)将单词的正确读音错发为另一个与之相近或相似的错音用W表示,在W之后标注出被发错音的字母或字母组合,然后用一定的代码表示错音本身。如:media[We-ai]表示学生将media一词中的字母e的读音错发成[ai]。
2)在单词的辅音或元音之后添加的多余的音用P表示,然后标注出其后被加了音的字母,再加上间隔符“-”,最后用具体的代码表示所加的音。如:class[Pa-r]表示class一词中的字母a的读音后加了一个卷舌音[r]。
3)发音过程中单词某个吞掉不发的音用M表示,然后标出被吞掉音的字母。如:magazine[M2a]表示magazine一词中的第二个a的元音未发。
4)错误改变和移动的单词重音用S表示,在S后用数字表示重音被错移至的音节。如:psychological[S2]表示psychological一词的重音被错移到了第二个音节上。
2、词性赋码
由于基于概率的词性赋码器(probabilitybased POS taggers)更适用于为学习者口语语料进行自动赋码,赋码准确率较高且性能稳定,其赋码准确率受学习者口语语言水平影响不大[5],所以本语料库选择CLAWS7作为词性赋码工具,赋码格式为使用一个符号如“_”,然后连同词类码标记到单词后面。如:Mr_NNB Smith_NP1 said_VVD...-...that_DD1...-...he_PPHS1 was_VBDZ not_XX mind_VV0 about_II it_PPH1...。其中,NNB表示称呼名词之前的词,NP1表示单数专有名词,VVD表示动词过去时,DD1表示单数限定词,PPHS1表示第三人称单数主格人称代词,VBDZ表示系动词过去式,XX表示否定词,VV0表示单个动词原形,II表示普通介词,PPH1表示第三人称单数中性人称代词。
3、句法赋码
句法赋码就是对文本中的每一句话进行句法标注。为尽可能详细地提供各种句子结构信息,本语料库可采用完全成分分析法进行句法赋码。如:[S[NPClaudia_NP1 NP][VP sat_VVD[PP on_II[NP a_AT1 stool_NN1 NP]PP]VP]S]。其中,S=句子,NP=名词短语,VP=动词短语,PP=介词短语,N=名词,V=动词,P=介词,AT=冠词。
4、语义标注
语义标注主要包括语言单位的语义特征以及语言单位之间的语义关系[6]。鉴于目前人们对于语义标注的内容尚未形成一致看法,笔者建议可通过设计一些语义分析系统进行语义标注。如:You_Z8 gave_S1.1.2+me_Z8 a_Z5 new_T3-gift_M3._PUNC Thank_S1.2.4+you_Z8.其中,每个单词_之后是语义标注,Z8表示代词,S1.1.2+表示指向,Z5表示语法仓(Grammatical bin),T3表示时间,M3表示特别准备的物品,_PUNC表示停顿,S1.2.4+表示礼貌。
5、语篇标注
语篇结构的标注可根据语言单位的语篇功能将其分为道歉(sorry,excuse me等)、留有余地(kind of,sort of等)、问候(hello,good morning等)、礼貌(please等)等类别,每一个类别又可根据表达这一语篇功能的语言单位中单词的数量进行分类。
语料库的价值与使用人数成正比例关系:使用者越多,则其价值越大;如果无人使用,那么也就毫无价值[7]。为充分发挥所建语料库的价值,我们可将语料库转换为HTML或XML格式,使其适用于互联网环境,并友好于用户。届时,教师可以通过网络浏览器,直接访问,提取所需数据。也可建成单机版语料库,以光盘形式出版发行,供教师在网下使用。
基于开放性和动态性的建库理念,高职学生英语口语语料库初步建成后,也可按学期或学年不断充实与更新,从而使数据的分布更加趋于理想状态。
通过本语料库,教师能对学生口语表达能力有较为全面和客观的了解,并从中发现学生英语口语表达中存在的共同错误和典型问题,以确定教学中的难点与重点,使口语教学更有针对性,从而大大提高口语教学效果;学生可极其方便地对学习效果进行自我检验,根据口语表达中的错误及不规范现象适时调整学习方法,从而促进英语口语能力的提高。此外,该语料库还能够为编写英语口语教材和制定英语口语教学大纲提供准确和客观的数据。
基于本语料库开展高职英语学习者的口语研究是多方面的。例如可以对高职英语学习者在不同年级阶段的英语口语现状进行横向的断面考察,也可以对他们从低年级到高年级的整个口语能力发展过程进行全面研究,还可以考察高职英语口语能力发展的区域特点与规律。这样就可以对高职学生的英语口语水平有一个全面、真实、具体、准确的认识,进而全面揭示高职学生英语口语能力发展的规律与特点。
本语料库的建立和开发将为各种标准化英语口语测试和口语评分提供坚实的依据,为题项的命题和题项测评提供客观数据,这将有助于提高题项的结构效度和评分信度,便于更好地设计和调整口语测试的形式和内容。
高职学生英语口语语料库的建成将为教师及研究人员提供强有力的工具和手段,以便对高职学生的英语口语从不同角度、不同层次进行深入的研究和分析,提出改进教学和提高教学质量的建议,从而帮助学生掌握地道、自然的英语。然而,语料库的建设是一项庞大、复杂和艰辛的工作,需要成立一个专门的口语语料库建设委员会,负责领导、设计、安排语料库建设的具体事宜。笔者相信,经由建设委员会的周密策划,再加上高职英语教学界同仁的支持与配合,一定可以实现既定目标,建成一个最理想的高职学生英语口语语料库,实现最充分的资源共享,从而为更大范围的高职英语口语教学与研究服务。
[1]秦旭.学习者语料库及其在外语教学中的应用价值[J].徐州工程学院学报,2006(11):25.
[2]张超清.建立高校英语专业学生口语语料库的设想[J].湖南民族职业学院学报,2009(01):107.
[3]王芳,王晔等.COLSEC的转写与标注对口语语料库建设的启示[J].天中学刊,2005(05):100.
[4]卫乃兴,李文中.COLSEC语料库的设计原则与标注方法[J].当代语言学,2007(03):235~246.
[5]王莉,梁茂成.学习者口语语料自动词性赋码的信度研究[J].外语教学,2007(04):47~51.
[6]崔刚,盛永梅.语料库中语料的标注[J].清华大学学报(哲学社会科学版),2000(01):93.
[7]崔希亮,张宝林.全球汉语学习者语料库建设方案[J].语言文字应用,2011(02):102.