TED视频资源在通用学术英语视听说教学中的可适性探索

2018-05-23 10:48郑锦菁
通化师范学院学报 2018年6期
关键词:词表语料语料库

郑锦菁

从2001年麻省理工学院的开放课件项目(OCW)到次年联合国教科文组织对开放教育资源(OER)的正式命名,再到2012年慕课(MOOC)时代的到来,开放教育资源正以多元化的面相被越来越多的学者采纳与使用,继而走上了可持续发展的道路.为此,《国家中长期教育改革和发展规划纲要(2010-2020年)》明确指出,“探索多种方式利用国外优质教育资源”,以“扩大教育开放”[1].在此背景下,TED以免费共享的开放姿态,以视觉、听觉、语言等多模态的协同表征成为个中翘楚,并被国内众多学者引入英语教学改革的实践[2-5].另一方面,在高等教育国际化的背景下,在专业与行业的需求驱动下,在大学英语课时压缩的革新下,通用学术英语已经成为众多高等院校大学英语教学改革的方向[6-10].那么,TED视频是否能在英语视听说教学中,尤其是通用学术英语中发挥最佳的效用,这既是英国开放大学教育技术研究所格兰尼·科诺尔(Grainne Conole)教授对开放教育资源转换到开放教育实践的倡导,也是本文阐释的重点.具而言之,利用Range软件,本文试图从词汇层面解决以下三个问题:在宏观层面上,TED视频脚本具有怎样的词汇特征?在中观层面上,TED视频是否适合通用学术英语视听说教学?在微观层面上,TED视频在可适的范畴内,能否有完善与优化的途径?

1 相关概念和研究工具

1.1 TED视频

TED(Technology,Entertainment and Design)隶属于美国的一家非盈利性机构,于1984年由建筑师理查德·沃曼(Richard Saul Wurman)发起,倡导创新性和批判性的思维,其主题逐步扩展到心理、医学、经济、环境等各个领域.自2006年6月起,TED演讲视频(TED Talks)在互联网实现共享,并逐渐衍生出梦想资助项目(TED Prize)、本地化的社群活动项目(TEDx)和教育网站(TED-ED).在聚光灯下,各个领域的杰出人物受邀在18分钟的有限时间内分享无限的宝贵思想,在学习共同体中碰撞思想的火花.

1.2 通用学术英语

随着以打语言基础为教学内容的普通用途英语(EGP,English for General Purposes)教学份额的减少,与特定职业、学科相关的专门用途英语(ESP,English for Specific Purposes)成为学界关注的焦点.按照用途的不同,专门用途英语可分为学术英语(EAP,English for Academic Pur⁃poses)和职业英语(EOP,English for Vocational Purposes).学术英语可再细分为通用学术英语(EGAP,English for General Academic Purposes)和专门学术英语(ESAP,English for Specific Aca⁃demic Purposes)[11].其中,通用学术英语“适合所有专业学生”,是“具有共性的学术能力”[12],如用英语听讲座、记笔记.(图1)

图1 ESP与EGP的分类

1.3 Range语料库软件

Range软件是由新西兰维多利亚大学语言学及应用语言学系的P.Nation和A.Coxhead两位教授设计,由A.Heatley编写,可登陆http://www.victoria.ac.nz/lals/about/staff/paul-nation 或http://www.vuw.ac.nz/lals/staff/Paul_Nation网站免费获得Range32的软件压缩包.该软件以词频统计原理为基础,“可用于分析文本中词汇深度和广度”[13]且效率高,能同时处理多达32个文本中的词汇分布情况.该软件自带三级词汇表,即BASEWRD1.txt、BASEWRD2.txt和 BASEWRD3.txt.第一、二级词表包括2000个词族,源自迈克尔·韦斯特(Micheal West)所编的《通用英语词表》,本文将其分别称为高频词汇与次高频词,其中第一级词表含4119个词,第二级词表含3708个词.第三级词表是源自Coxhead于2000年所编写的《学术英语词表》的570个词族,合计3107个词[14],本文将其称为学术词汇.在分析文本文件时,Range软件会自动将文本与自带的三级词表进行比较,以形符(Tokens)、类符(Types)和词族(Families)的数量和百分比统计其词汇覆盖率.文本中出现在三级词表外的词汇仅以形符和类符的形式显示在“词表外词汇”(Not in the lists)一栏,本文将其称为低频词汇.按照Coxhead的解释,一个词族包括核心词/主词(headword)和其屈折变化、派生关系的其他词汇(如图2),同一词族下各种形式的词汇,如“acceptability,accept⁃able,unacceptable”等统计为不同的类符,而某个类符在文本中出现的次数统计为形符.

图2 词族的范围

2 语料收集与数据分析

本研究使用的语料库是自建的总形符数为46,460的TED视频语料库.基于六大核心语篇类型,即环境、计算机、经济、心理、医学和艺术,笔者登入TED官网在各大类型下随机选取5篇,并利用官网提供的互动文本(interactive transcript),生成纯文本文件,并人工清洁时段、旁白(如laugh)等冗余数据,以匹配Range软件的识别,以期发现TED在词汇使用方面的总体特征(详见表1).

表1 TED视频语料库基于字幕的类符分布比率(%)

从表1可以看出,六大核心语篇类型尽管在各级词表的覆盖率有些许差异,但总体而言在第一、二级词表的类符比率和均在60%~65%之间,即4696~5088个单词之间.《大学英语课程教学要求》的一般要求是掌握约4795个单词,其中约2000个单词为积极单词.由此可见,TED视频对中国二语习得者而言在词汇层面是可以接近的.从第三级学术词表看,六大核心语篇类型的类符比率均在10%以上,说明其语篇具有一定的学术性,可用于通用学术英语的教学.从第四级低频词表看,六大语篇的类符比率在25%左右,这与克拉申所言的“i+1”的可理解性语言输入有背道而驰之嫌,无疑增加了学生的认知负荷.

3 语料路径的优化与完善

在互联网上实现免费共享后,TED以开放、多元的姿态满足了广大国际学习者的需求.国内学者在拿来主义的背后,忽略的是从学生角度考虑视频的可理解性输入,毕竟如表1显示平均高达35%左右的复杂词汇(学术词汇和低频词汇)夹杂其间,因此亟待寻求优化语料的路径.Range软件为词汇深度和广度的测量,以及对文本的标注提供了有利的帮助.

3.1 相同主题不同文本的甄选

Laufer和Nation总结了衡量词汇丰富性的四大方法:词汇的独创性——作者对某些单词的偏爱;词汇的密度——实词在全文中的比例;词汇的变化——类符与形符的比率;词汇的复杂性——高级词与常用词的比例[15].因信度和效度上的局限,他们继而提出了词频概貌(LFP,Lexical Frequency Profile)的分析方法.因存在不能区分重复词汇和词汇类型的缺憾才有了Range软件的诞生.后者可以高效地分析比较不同文本的词汇量大小、措辞的异同等,从词汇的深度和广度交叉探测丰富性,为甄选语料提供了便利.

以TED两篇主题同为“机器人”的视频字幕为样本.其中,“机器人将全面进入我们的生活”为语料1,“机器人会抢走我们的工作吗”为语料2,利用Range软件的“批量处理”(BatchFiles)选项,生成各自的分级词汇统计报告(如表2和表3).

表2 语料1的分级词汇统计报告

表3 语料2的分级词汇统计报告

比较表2和表3可以看出,这两篇文本中高频词汇和次高频词表上(word list one和word list two)差别不大:在形符比率上分别为87.5%和87.02%,在类符比率上分别为69.74%和70.56%.而它们的差异主要体现在第三级学术词汇(word list three)和第四级低频词汇(not in the lists)上,这两项正是“考察语篇中词汇的难易度的主要依据”[13].在第三级学术词汇指标中,两个文本显示出差别:在形符比率上分别为2.72%和5.55%;在类符比率上分别为8.39%和12.21%,因此语料2比语料1学术性强.在第四级低频词汇指标中,较之语料2,语料1高出了4.64%.利用Range的截词表(Use Stop List)选项,排除 ah,yeah,OK,British,PC,Darwin,Sony等无法体现词汇水平的口语标记语或专有名词,可查看语料1低频词的统计情况(篇幅有限,部分如表4),其生僻词数量大,对听众提出了更高的词汇要求.由此从纵向的词汇深度看,语料2更适合通用学术英语的学习.

词汇丰富性的另一个重要参数是词汇的广度.从横向对比,利用形符与类符的比率统计语料1、2的词汇复现率(见表5).总体而言,语料2比语料1在多级词表中复现率低,可说明语料2的演讲者在替换词汇方面能力强.在两项指标的交叉印证后,语料2更适合词汇量较低的学习者使用.

表5 语料1、2的词汇复现率(%)

3.2 低频词汇向接受性词汇的转换

Nation把词汇分为接受性词汇(receptive vo⁃cabulary)和产出性词汇(productive vocabulary)[16].接受性词汇是从语言理解的角度考察词汇,指的是“学习者在阅读或听力语篇中可以理解的词汇”;产出性词汇是从语言使用的角度考察词汇,指的是“学习者在写作和口语中能够自由表达的词汇”[17].Laufer进一步指出英语的习得过程是一种从接受性词汇向产出性词汇发展的连续体[18].由是观之,TED的字幕属于接受性词汇,因此其视频经常成为教师导入环节的手段.但是高比例的低频词覆盖率(如表1所示)仍是学习者的一大障碍.可喜的是,Range软件有“Mark Texts”选项,选中该项可对文本进行词汇等级标注,并生成扩展名为*.mrk的文本,可直观考察该文本词汇在各级词表的归属情况.

以本文的语料2“机器人会抢走我们的工作吗”为例,未被三个基本词表覆盖的词汇比例高达17.23%,利用“Mark Texts”选项生成如下的文本(篇幅有限,仅节选部分).未标注的词在第一级高频词汇中,标注为{2}的词在第二级次高频词中,标注为{3}的词在第三级学术词汇中,标注为{!}的词在第四级低频词汇中.

As it turns out,when tens of millions of people are unemployed or{!}underemployed,there's a fair amount of interest in what{3}technology might be doing to the{3}labor force.And as I look at the{2}conversation,it strikes me that it's{3}focused on{2}exactly the right{3}topic,and at the same time,it's missing the point{2}entirely.The{3}topic that it's{3}focused on,the question is whether or not all these{!}digital{!}technologies are{3}affecting peo⁃ple's ability to{2}earn a living,or,to say it a little{2}bit different way,are the{!}droids taking our{3}jobs?And there's some{3}evidence that they are.

The great{!}recession ended when{!}Ameri⁃can{!}GDP{!}resumed its kind of{2}slow,{2}steady march{2}upward,and some other{3}eco⁃nomic{3}indicators also started to{!}rebound,and they got kind of{2}healthy kind of{2}quickly.{3}corporate profits are quite high;in fact,if you in⁃clude bank profits,they're higher than they've ever been.And business{3}investment in{!}gear—in{3}equipment and{!}hardware and{!}software—is at an{!}all-time high.So the businesses are getting out their{!}checkbooks.What they're not really do⁃ing is{2}hiring.So this red line is the{!}employ⁃ment-to-population{3}ratio,in other words,the{3}percentage of{!}working-age people in{!}America who have work.And we see that it{!}cratered{2}during the great{!}recession,and it hasn't started to{!}bounce back at all.

将标有符号{!}的词汇整理成表格(如表6).从表中可以看出,该文本的低频词中合成词占大多数(打△项),有少量专有名词(打☆项).教师若能在导入TED视频前对词汇进行预点拨,在营造了学术话语场域的同时,帮助学生们建立了参与者的关系,预计了学术演讲的潜在内容,铺垫了有效的意义建构,增强了他们的学术意识——学术口语语篇的语式和非正式学术语篇的语旨,降低了他们的认知负荷,也产生了师生协作学习、耦合并进的良性循环.对教师而言,在优化导入路径的同时加强了教学的针对性;对学生而言,观前有备,观后所得,便于课后及时查阅,如表中打“√”项动词可提供针对图表分析写作的优质产出性词汇.

表6 语料2中的低频词(节选)

4 结语

TED视频资源在维系创新、传播思想和构建知识上遥领国际之先,其所营造的学术氛围、所重视的学术素养与我国目前倡导的通用学术英语具有高度的契合性,是否适合视听说教学之用?本文基于自建的TED微型视频语料库,利用Range软件解析字幕文本,从词汇层面表明TED视频脚本在宏观层面上因第三级学术词汇和第四级低频词汇的较高覆盖率,其可适性亟待寻求优化引导的路径.TED视频不是课堂,尤其是翻转课堂的点缀之物,需从学习者角度多加考虑,将学习落到实处.鉴于Range软件在测量词汇深度和广度,以及对文本的标注功能,本文进一步从微观层面示范利用该软件甄选文本、转换词汇方面的可操作性.当然,Range软件的潜势并不囿于此,例如可以利用密西根学术口语语料库(MICASE,The Michigan Corpus of Academic Spoken English)自制学术口语词汇表,以进行更有针对性的词频评估,这也是笔者有待开展的新课题.

[1]国家中长期教育改革和发展规划纲要(2010-2020)[S/OL].(2017-2-21).[2017-08-10].http://www.china.com.cn/policy/txt/2010-03/01/content_1949262 5_5.htm.

[2]芦酶洁.浅议TED演讲视频在高校英语专业英语视听说课程教学中的应用[J].长沙大学学报,2013(3):156-158.

[3]曹井香,王丽莉,张婉云.TED模式大学生英语演讲课程任务设计与实践[J].外语教育研究,2015(10):14-17.

[4]吴玲娟.基于TED-Ed的通用学术英语听说翻转课堂研究[J].电化教育研究,2015(11):81-87.

[5]裴铮.TED教学应用研究[D].新乡:河南师范大学,2015.

[6]王守仁,姚成贺.关于学术英语教学的几点思考[J].中国外语,2013(5):4-10.

[7]蔡基刚.综合英语还是学术英语——一个必须正视的方向性问题[J].外语教学,2010(6):51-54.

[8]蔡基刚.一个具有颠覆性的外语教学理念和方法——学术英语与大学英语差异研究[J].外语教学理论与实践,2014(2):101-108.

[9]蔡基刚.通用学术英语评估体系探索与研究[J].山东外语教学,2015(8):40-47.

[10]夏纪梅.论高校大学学术英语课程的建构[J].外语教学理论与实践,2014(1):6-9.

[11]Jordan,R.R.English for Academic Purposes.A Guide and Resource Book for Teachers[M].Cambridge:Cambridge University Press,1997.

[12]Dudley-Evans,T.&M.St.John.Developments in English for Specific Purposes[M].Cambridge:Cambridge University Press,1998.

[13]王立非,梁茂成.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007.

[14]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[15]Laufer,B.&P.Nation.Vocabulary size and use:lexical richness in L2 written production[J].Applied Lin⁃guistics,1995(16).

[16]Nation,I.S.P.Teaching and Learning Vocabulary[M].New York:Newbury House Publishers,1990.

[17]吕利辉,李太博.中国学生接受性词汇量与产出性词汇量差异的因素分析[J].沈阳教育学院学报,2008(10):15-18.

[18]Laufer B.Testing vocabulary knowledge:size,strength and computer adaptiveness[J].Language Learning,2004,54(3):399-436.

猜你喜欢
词表语料语料库
基于VOLT的藏汉双向机器翻译
基于归一化点向互信息的低资源平行语料过滤方法*
平行语料库在翻译教学中的应用研究
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
《语料库翻译文体学》评介
近十年国内外专业学术词表建立文献综述*
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
异种语料融合方法: 基于统计的中文词法分析应用