高校基础阶段通用英语课堂话语语料库的生成*

2015-03-18 02:57
外语学刊 2015年5期
关键词:语料录音语料库

谭 芳

(哈尔滨理工大学,哈尔滨 150040)

【责任编辑孙 颖】

高校基础阶段通用英语课堂话语语料库的生成*

谭 芳

(哈尔滨理工大学,哈尔滨 150040)

虽然语料库以其信息存储量大、资料真实、检索快捷准确的优势日益受到各个领域学者的青睐,但是耗时费力、程序复杂的口语语料库建设却不多。迄今,专文详述中国国内高校英语课堂话语语料库建库的论文尚未见。本文介绍历时3年建成的高校基础阶段通用英语课堂话语语料库,首先说明该口语语料库研究项目的、研究背景及选题缘起,然后回顾国内外代表性课堂话语语料库的建设,最后介绍高校基础阶段通用英语课堂话语语料库的语料收集过程和处理方法等,讨论该库的特点、功能及其对高校英语教育改革的意义。

高校;基础阶段;通用英语;课堂话语;口语语料库

1 引言

随着语料库研究视域日益宽泛,基于语料库的课堂话语“语篇分析、会话分析、社会建构学习理论的应用和批评性话语分析”逐渐受到重视(O’Keeffe et al.2007:244)。国内也涌现出一些基于语料库的课堂话语研究,但主要集中在初、中等教育阶段的英语课堂(何安平 2003, 刘永兵 张会平 2011),高校英语课堂研究仍旧主要采用量表、问卷或个案话语分析等常规研究方法(许宏晨 田野 常洪艳 2004)。这在一定程度上会影响高校英语课堂话语研究,高校英语课堂改革难于形成规模效应。

口语语料库最能直接真实反映语言本质,具有宝贵的研究价值(Kennedy 1998),但是其建设耗力、耗时、耗资且构建程序复杂,在数量上远不及笔语语料库多;已有的口语语料库又以学习者语料库居多,课堂话语语料库并不多见。课堂话语语料库能够为课堂话语研究提供具有概括性的检索与量化统计,适应以教育改革为目的的课堂话语规模化研究需求。因此,建立高校英语课堂话语语料库十分必要。它是本土化外语教育改革必不可少的重要组成部分,也是高校英语教育改革治标、治本的重要事实依据,对于中国高校英语教育的改革与发展具有重要现实意义。

2 相关研究综述

国外的语料库建设起步虽早,但是迄今为止,建成的课堂话语语料库并不多,特别是作为外语的英语课堂话语语料库更为少见。较具代表性的课堂话语语料库包括:(1)Biber等人建立的“TOEFL 2000口笔语学术语言语料库”(TOEFL 2000 Spoken and Written Academic Language,简称T2K-SWAL)的课堂话语子语库,语料源自美国的大学课堂,涵盖商学、教育、工程、人类学、自然科学和社会科学6大学科,容量约125万词次(Biber et al.2006)。(2) TalkBank国际数据库的“ClassBank语料库”,创建于2004年。其英语语料大多源自美国、澳大利亚和日本等国家和中国香港,涵盖小学、中学和大学,包括数学、医学和科学等课堂话语,由James Stigler, Rich Lehrer和Elizabeth Warren等录制并转写,容量40余万词次。(3)“弗伦斯堡英语课堂语料库”(Flensburg English Classroom Corpus,简称FLECC),由Jäkel于2003-2007年创建,语料源自高级英语学习者在学校实习时授课的课堂,包括德国北部的小学 (Grundschule)、职业预校(Hauptschule)、实科中学(Realschule)和综合中学(Gesamtschule),共39节完整英语课的课堂话语语料,容量逾56,000词次(Jäkel 2010)。(4)“新加坡教育语料库”(Singapore Corpus of Research in Education,简称SCoRE)课堂话语子语库,由洪华清于2004-2009年主持建设,其英语语料源自英语授课的数学、科学、社会学和英语课堂,包括新加坡小学和中学122位教师一个单元的完整授课,共455节,时长565小时,容量逾230万词次(Doyle 2009)。

我国英语课堂话语语料库主要有3个:(1)何安平主持建设的“英语教育教学语料库”中的“课堂教学实况语库”,容量105万词次。其中,中国英语教师教学语料库自20世纪90年代末开始创建,容量逾96万词次,(小学英语教师教学语料库8.4万词次、初中英语教师教学语料库33.7万词次、高中英语教师教学语料库27万词次),大学英语教师教学语料库27.3万词次 (何安平2012)。(2)“英语师范生课堂话语语料库”收集南京师范大学2005届教学实习过程中的实习生课堂话语语料建成,首批40,000词次 (刘学惠 2006)。(3)刘永兵主持建设的“中学英语课堂话语语料库”,2007-2010年收集东北10个市县21所中学 (初中和高中),57个单元276节英语课的课堂语料,容量逾14万词次 (刘永兵 林正军 王冰 2010)。

国内英语课堂话语语料库建设主要集中于初、中等教育阶段,“课堂教学实况语库”中,初中英语课堂话语语料最多,其中优质课语料又占相当大的比例(何安平 2012),而优质课反映近年来中国内地较为优秀的英语课堂话语面貌 (何安平 2003)。“中学英语课堂话语语料库”的英语话语量、词汇量和词汇复杂度等较为有限。英语师范生课堂话语语料库由于授课者不是在职教师,不能完全反映高校英语课堂的真实会话情况。如果建成一个大规模的高校英语课堂话语语料库,将能展现给研究者高校英语课堂话语的真实面貌,能为相关研究提供持续不断的数据支持,更可避免一次或几次小规模取样而导致研究结果的片面性与局限性。

3 语料库生成过程

在大规模课堂话语语料收集正式开始前,我们在黑龙江和吉林两省收集6节高校通用英语课的课堂录音,进行先导性研究。根据研究结果,在规模性语料收集工作正式开始前,改进调查工具和数据收集过程,设备使用、实际方式和文本处理等更趋合理。由于篇幅所限,此处仅介绍调查点及样本确定、语料收集、语料库生成和语料库描述。

3.1调查点及样本的确定

在调查点取样过程中,我们最关心样本的典型性,影响样本典型性的主要因素是高校的地理分布和高校类型。我国幅员辽阔,各地英语课堂教学受区域经济、地方文化等因素影响而差异较大。黑龙江和吉林两省地处东北老工业基地,两省经济发展水平相当,地方文化相近,因此调查点集中于两省的高校。高校类型则涉及所选取调查样本中的学生语言水平、教师教育背景和教学经历等,关涉语料信度。为了尽可能保证语料的代表性,本研究采集样本的覆盖面包括黑龙江和吉林两省教育部直属985或 (及) 211高校、省属高校、独立学院3种类型 (以前两种类型为主)。

取样过程中,项目组成员严格按照取样论证时制定的取样准则取样,未加任何人工干预。调查点高校共12所,涵盖理工类、师范类、财经类、医学类及综合类,包括教育部直属985或 (及) 211高校3所 (黑龙江1所、吉林2所)、省属高校8所 (黑龙江6所、吉林2所)、独立学院1所 (吉林1所)。其中,黑龙江省 (哈尔滨6所、绥化1所) 共7所,吉林省 (长春4所、吉林1所) 共5所。

本项目针对高校基础阶段 (一、二年级) 的通用英语课堂话语进行采样,对高校英语专业的基础英语和非英语专业的大学英语课堂话语进行录音。入库样本的筛选遵循4条原则:(1)录音清晰可识别:这为转写提供方便,也保证语料库包含尽可能多的话语量;(2)一个完整单元 (unit) 的授课录音:这保证反映课堂会话的全貌;(3)英文授课时长累计1/2以上的录音:本研究调查英语课堂话语,暂不将汉语纳入研究范围,为避免浪费时间,只转写有效录音样本,教师英文授课时长达到总授课时长1/2以上的录音样本方可采用;(4)师生的许可:语料库建设应该得到作者许可,再把文本转换成电子版形式(Mc-Enery, Hardie 2012)。本项目计划入库20位英语教师的课堂录音转写语料,为防止个别样本不符合上述筛选原则,我们按超出预计入库样本总数约25%的比例进行语料收集,对于收集到的录音语料“多则转写,少则补充”。

3.2 语料收集

国内有些研究针对英语优质课的课堂话语展开(何安平 2003),但是这种条件下师生的课堂表现受许多因素干扰,无法体现英语课堂会话的真实情况。为呈现自然状态下高校基础阶段通用英语课堂话语的全貌,本项目采用自然调查法,收集常态下的自然、真实英语课堂话语语料,而不是内省语料或诱导式语料(Meyer, Nelson 2006; Xiao 2009)。为避免“霍桑效应”,将课堂干扰降至最低,尽可能使语料呈现自然状态下的英语课堂师生话语,本项目使用高清录音笔对高校基础阶段的通用英语课堂话语录音。录音笔由授课教师带入课堂,放在教室前方讲台上较隐蔽的地方,英语课堂话语在完全自然状态下被录音,学生未被提前告知课堂话语要录音,教师也并未被要求特别配合本研究而改变各自常规教学方式及专门注意自己的授课语言。

自2011年6月至2014年6月,本项目共对26位教师的英语课授课实况进行录音。经过筛选,删除4位教师的授课录音文件,其中两位教师的授课录音由于录音设备出现故障,每节课只收录课堂前十几分钟的话语录音,另外两位教师的授课录音均因教师上课半数以上时间使用汉语授课,22个有效样本来自9所高校(黑龙江省5所和吉林省4所),其中10个源自教育部直属985 或 (及) 211高校,11个源自省属高校,1个源自独立学院。

截至2014年6月项目结项,入库语料包括22位高校英语教师 (黑、吉两省各11位) 讲授一个单元教学内容的完整课堂录音。其中,英语专业和公共英语教师各11位,两位为男性,其余皆为女性,教师平均年龄约32岁,平均教龄约7年半;其中1位教师获得英语语言文学专业博士学位,两位教师为英语语言文学专业在读博士,1位教师正在攻读英语教育硕士,其余18位教师都已获得文学硕士学位 (此信息以课堂录音时为准)。

3.3 语料库的生成

我们对收集的录音语料进行数据储存、文本转写、校对、清理、切分、标记、词性标注和人工纠误,初步建立起一个高校基础阶段通用英语课堂话语语料库(UFS-EGPCDC)。

限于篇幅,此处简要介绍本项目的语料转写、文本整理、清洁与命名及语料库的标记与标注。

(1)语料转写

转写规范与研究者的研究问题、理论立场及分析方法密切相关,它将影响其后分析和结果阐释(Lapadat 2000)。高校基础阶段通用英语课堂话语语料库在外语对话课堂理论(谭芳 2014, 2015)指导下,从微观、中观、宏观层面入手,研究高校通用英语课堂话语的语言使用、语篇结构与从中折射的社会行为和意识形态的重要组成部分(谭芳 2015)。在设计语料转写规范时,转写设计改编自Dressler和Kreuz (2000) 的转写模型,包括3个范畴:①语码转换:包括中英语码转换、中法语码转换、未知语言语码转换等,②声音和言语事件:包括背景噪音、笑声、掌声、口吃、无法分辨或完全听不清的词、短语和句子等,③临时事件:包括停顿、重叠等。同时,转写规范设计遵循两条原则:①易用性原则:将转写符号尽可能减少;②关联性原则:转写符号均与研究问题相关 (Lahlali 2003:92)。

此外,课堂内闲话包括在转写范围内,但是课休时英文对话不纳入转写范围。录音中的数字、年代按照口语产出时的读法转写。对英国英语和美国英语拼写不同的单词,如centre/center,neighbour/neighbor,fulfil/fulfill,favour/favor等,采用英式拼写转写。Er和hmm等填充词按犹豫、怀疑等不同话语功能区别处理。避免OK和HK等缩写或是sb,sth一类的简写,按照口语产出时的读法转写成okay,Hong Kong, somebody,somethin等。遇到 can’t,cannot 缩略式与非缩略式读音相同的情况,统一按缩略式can’t 转写,等等。

(2)文本的整理、清洁与命名

在文本整理过程中,按教师开始讲课到宣布下课为止生成一个文档。一般而言,一课时 (lesson) 为40至50分钟,高校通用英语课多为一次课两课时,课间休息10分钟,调查点的高校中有一所高校进行课改,通用英语课一次授课仅一课时 (40分钟),还有个别高校通用英语课两课时中间无休息,教师将两课时合并授课。因此,在生成独立文档时,我们以教师宣布一堂课结束为界。在对文本进行包括格式转换、非法字符替换、纠错等一系列清洁整理工作后,采用对汉英混排文本非常经济的UTF-8编码存储语料库的转写文本。

文档命名均被赋予特定代码,代码的顺序为:省份-城市-学校类别-学校名称-专业/公外-年级-教师性别-教师姓名-文件代号。省份包含两个代码:H(黑龙江)、J(吉林),城市名按拼音首字母缩写,如HRB(哈尔滨)、CC(长春);学校类别包括3个代码:1代表教育部直属985或 (及) 211高校、2代表省属高校、3代表独立学院;学校名称采用从1至9的代码分别代表目前入库语料来源的9所高校;专业/公外代码分别为:E(英语专业)和N(非英语专业);年级代码用1和2分别表示大一和大二;教师性别用F表示女,M表示男;教师姓名采用姓和名首字母缩合;文件代号为从1起的阿拉伯数字,代号顺序与教师完成一个单元的授课顺序一致。但为保护调查点及授课教师隐私,在实际研究中 (如在后文的索引行示例时)文档命名代码会稍做处理。

(3)语料库标记与标注

对文本进行分词处理后,我们把文本存储为两份:一份转换为成品文本,为下一步标记和标注做准备;另一份作为原始语料备份,以供未来研究需要源文本时随时调出。我们先在转写文本的头部对录音时间、授课教师姓名、性别、年龄、授课时长和课程名称等元信息进行标注;同时,为使库容统计和相关信息分析相对准确与方便,我们对语料库中每位讲话者的身份、话轮顺序、话轮起止和学生姓名等都做标记。虽然语料库标注可在语音、形态、词汇、句法和语篇等多层面进行,但是使用最为广泛的是词性标注,本项目使用TreeTagger软件对课堂话语的文本语料在词汇层面进行词性标注。在标记和(词性) 标注后,进行人工复查和纠误。针对其它层面,如话步等不能实现全自动标注的信息,根据不同研究目的设计与之相对应的标注系统,未来我们将结合具体研究问题完成相应标注,并将标注后的文本导入数据库,利用数据库强大技术支持,对课堂话语语料进行综合处理,以服务于多角度、深层次的课堂话语分析。

3.4 语料库描述

(1)容量:该项目前期准备始于2011年初,项目设计期限为3年,2011年6月正式启动。截止2014年6月,已将黑、吉两省4个城市9所大学22位英语教师讲授一个教学单元的通用英语课的课堂录音全部转写完毕并建库。转写记录每节英语课中教师的独白话语、教师与全班 (或某一组) 学生的对话,教师与单个学生的对话以及两名或多名学生之间的当众对话。入库语料总时长4,958分钟,约82.6个小时,我们将语料库中的汉语去除后,利用AntConc 3.2.4w计算库容,语料库容量为英文类符8,902个,型符 284,523个。

(2)特点与功能:本项目建立的高校基础阶段通用英语课堂话语语料库不同于大型、通用语料库,它是中小型专门语料库,为英语教师专业发展、二语习得、应用语言学等研究提供事实依据;可以服务于多方面研究:1)课堂教学分析,包括分析课堂教学的话语模式、知识建构方法和教师教学策略等;2)课堂话语分析,课堂话语分析是多层面、多角度的,仅以句法层面的分析为例,可从语用角度分析课堂话语,如研究课堂中的礼貌、情态和师生权势关系等;3)中介语研究,英语在中国属于外语,课堂中师生的英语产出均是中介语,该语料库可为中介语研究提供语言特征和会话互动特征等多方面例证;4)外语教学理论与实践分析,课堂是中国学生学习英语的主要场所,因此真实自然的英语课堂话语语料为验证不断涌现的外语教学理论提供客观事实与数据支持。

为展示高校基础阶段通用英语课堂话语语料库的部分特点与功能,此处仅以功能词of为节点词对本语料库进行检索,概括并列举索引行中of短语使用错误。其中,较具代表性的错误包括:

① N1+of+N2结构中,本应是复数的N2却用作单数形式。如:

<034> As one of thecitizen, I feel pride in our city.(HH27E2FZ3);

<033> I would like to do that to use one of my creditcard.(JC14N1FZ2)。

或者本应是复数的N1用作单数,如:

<100> Where is the twoendof the bridge? (HH27E2FZ3)。

② of的冗余,如:

<018>If you want to take messages like this, you will have a lot of in there.(JC14N1FZ1);

<015>Okay.So er, solitary means stands a long of time alone.(JC14N2FD1)

③ of 的滥用,导致语义不清,如:

<068>Empty something of something.(JC21E2FZ2);

滥用的of短语实则为本族语者在口笔语中皆少用或不用的短语,如:

<125>Yeah, and to them little the same of that.(HH35E2FC1)

其中的the same of,在美国杨百翰大学 BNC 语料库(BYU-BNC: The British National Corpus)中的频数仅为33次,其中1例还是...not exactly the sameofcourseer partly because we...如果不算这例,the same of 的频数仅为32次;而我们熟悉的the same as在BYU-BNC中的频数则是2,548次。

④ of 的误用,如:

<145>That’s a very interesting finding by the author of a very special way of communication.(JJ23E2MG2)

其中本应用in却用of <023>You could find the answer of this one.(JC21N2FW3) 中本应用to却也用of,等等。

这些索引行示例使我们直观、清晰地发现英语课堂话语中of短语的一些不易发现也很少提及的使用错误,体现本语料库中介语语料库的特点与功能。

目前,高校基础阶段通用英语课堂话语语料库的数据查询还只能在离线状态下进行。研究人员利用一些第三方查询工具查询数据进行统计。后续阶段,我们将建立网络检索平台,在解决虚拟空间、语料库版权和后台服务器等问题后计划将语料库与网络相连,供更多研究者使用。

4 结束语

高校基础阶段通用英语课堂话语语料库建立在自然语料基础上,是国内少有的常规教学状态下的高校英语课堂话语语料库。该库的调查点及采样相对集中,能够提供给研究者高校基础阶段通用英语课堂教学和课堂会话等最新实况,有利于研究者取得客观、可供检测的结论。目前,该口语语料库的扩建工作正在围绕两个方面进行:(1)在样本内容上,正在收集高校英语专业3、4年级的高级英语课堂话语录音,将建成包括大学英语、基础英语和高级英语3个子语库的高校通用英语课堂话语语料库;(2)在采样范围上,正在收集并整理辽宁省高校英语课堂话语的录音语料,预计再用3年左右可建立东北3省高校通用英语课堂话语语料库。

何安平.基于语料库的英语教师话语分析[J].现代外语, 2003 (2).

何安平.华南师范大学外国语言文化学院英语教育教学语料库 (CEEC) 使用手册[OL].http://www.docin.com/p-398932537.html, 2012.

刘学惠.英语师范生课堂话语的建库、分析和应用[J].外语电化教学, 2006 (5).

刘永兵 林正军 王 冰.基础英语课堂话语语料库的建构与研究功能[J].当代外语研究, 2010 (8).

刘永兵 张会平.中学英语教师课堂话语语法复杂度——一项基于课堂话语语料库的对比研究[J].外语电化教学, 2011 (3).

谭 芳.对话与课堂——回顾、反思与重构[J].外语学刊, 2014 (4).

谭 芳.巴赫金理论视域下的外语对话课堂理论探究[M].长春:吉林大学出版社, 2015.

许宏晨 田 野 常洪艳.一次对多媒体辅助外语教学态度的调查分析[J].外语电化教学, 2004 (2).

Biber, D., Conard, S., Reppen, R., Byrd, P., Helt, M.The Spoken and Written Academic Language (T2K-SWAL) Corpus[A].In: Biber, D.(Ed.),UniversityLanguage:ACorpus-basedStudyofSpokenandWrittenRegisters[C].Amsterdam: John Benjamins Publishing Company, 2006.

Doyle, P.Language Development in Singapore Classrooms: A Corpus-based Description of the ‘School Variety’[A].In: Silver, R.E., Goh, C.C.M., Alsagoft, L.(Eds.),LanguageLearninginNewEnglishContexts:StudiesofAcquisitionandDevelopment[C].London: Continuum, 2009.

Dressler, R.A., Kreuz, R.J., Transcribing Oral Discourse: A Survey and a Model System [J].DiscourseProcesses, 2000(1).

Jäkel, O.Working with Authentic ELT Discourse Data: The Flensburg English Classroom Corpus [A].In: Vogel, R., Sahel, S.(Eds.),NLKProceedings[C].Bielefeld: Bielefeld University, 2010.

Kennedy, G.AnIntroductiontoCorpusLinguistics[M].London: Longman, 1998.

Lahlali, E.M.Moroccan Classroom Discourse and Critical Discourse Analysis: The Impact of Social and Cultural Practice[D].The University of Leeds, 2003.

Lapadat, J.C.Problematizing Transcription: Purpose, Paradigm and Quality[J].InternationalJournalofSocialResearchMethodology, 2000(3).

McEnery, T., Hardie, A.CorpusLinguistics:Method,TheoryandPractice[M].Cambridge: Cambridge University Press, 2012.

Meyer, C., Nelson, G.Data Collection[A].In: Aarts, B., McMahon, A.(Eds.),TheHandbookofEnglishLinguistics[C].Oxford: Blackwell Publishing, 2006.

O’Keeffe, A.McCarthy, M., Carter, P.FromCorpustoClassroom:LanguageUseandLanguageTeaching[M].Cambridge: Cambridge University Press, 2007.

Xiao, R.Theogardry-driven Corpus Research: Using Corpora to Inform Aspect Theory[A].In: Lüdeling, A., Kytö, M.(Eds.),CorpusLinguistics:AnInternationalHandbook[C].Berlin: Mouton de Gruyter, 2009.

TheCompilationofUFS-EGPCDC

Tan Fang

(Harbin University of Science and Technology, Harbin 150040, China)

Corpus is increasingly favoured by researchers of different fields due to its advantages such as the huge storage, real data and fast search.However, few numbers of spoken corpus have been built because of its high cost, technical complication and time-consuming process.Until now, no publication has specified the construction of English classroom discourse corpus of tertiary education in the domestic academic circle.This paper briefly introduces the compilation of EGP Classroom Discourse Corpus of the university fundamental stage (UFS-EGPCDC) over the past three years.After an overview of the research background, this paper reviews the construction of the typical classroom discourse corpus both at home and abroad, and then focuses on the research methodology of data collection, data processing et cetera, as well as the discussion about the features and functions of this corpus together with its implications for the English education reformation of higher education in China.

university; fundamental stage; EGP; classroom discourse; spoken corpus

定稿日期:2015-06-21

H030

A

1000-0100(2015)05-0042-5

* 本文系国家留学基金项目“高校通用英语课堂话语的现状调查与多维分析”(2011823149)、黑龙江省人文社科研究项目“社会认知视域下外语对话课堂的构建——基于黑龙江、吉林两省英语课堂语料库的研究”(12512047)和黑龙江省社科基金项目“高校通用英语课堂话语的现状调查与多维分析”(15YYD04)的阶段性成果。

10.16263/j.cnki.23-1071/h.2015.05.009

猜你喜欢
语料录音语料库
Funny Phonics
funny phonics
Listen and Choose
《语料库翻译文体学》评介
Listen and Color
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法