语料库在汉语教学中的应用探析

2017-08-10 23:57赵星康冬梅
现代语文(语言研究) 2017年7期
关键词:教材编写汉语教学语料库

赵星+康冬梅

摘 要:语料库是经科学选取和加工、标引后存储于计算机的大规模真实语言的材料库,从“大规模”和“真实”这两个因素来考察,语料库是最理想的语言知识资源。本文结合前人的研究和实践,从汉语教材编写、汉语学习词典编纂、汉语教学方法研究和汉语教学评估四个方面论述了语料库在其中所能发挥的作用,追踪相关语料库的运用实践,并提出一些改进建议。

关键词:语料库 汉语教学 教材编写 词典编纂

随着计算机技术的发展,短短五十年间,语料库的建设规模已从第一代的百万词级发展到现在的亿万词级。从服务于英语语法研究的建设初衷发展至今,语料库与计算机的检索和统计功能相结合,在与语言相关的词典编纂、机器翻译、语言教学等诸多领域均发挥了巨大作用。本文主要梳理语料库在汉语教学中的应用。

语料库收集、整理和加工大量真实语言材料,它的显著优势在于其语言材料的真实性、直观性和丰富性。冯志伟[1]提到:从“大规模”和“真实”这两个因素来考察,语料库是最理想的语言知识资源,堪称语言材料的“大数据”库。随着计算机自动标引技术和自主学习技术的不断进步和完善,语料库便捷的检索功能、所提供語料的丰富、全面程度,是手工记录和抄词卡片无法比拟的。在汉语教学中,语料库在汉语教材编写、汉语学习词典编纂、汉语教学方法研究和汉语教学评估这四个方面均发挥切实作用。

一、语料库与汉语教材编写

语料库对汉语教材编写的作用,首先在于语料库能为教学大纲的编订和教学重点的确定提供客观科学的依据。目前,汉语教学大纲甲级词、乙级词、丙级词的确定,很大程度上是参考了词语的使用频率,而词频统计即是在对语料库的研究基础上得出的。汉语教学的各种等级大纲的编订,是建立在语料库提供的汉字、词汇和语法使用频率的定量统计基础上的,因而更具有广泛性、客观性、科学性和权威性。

其次,利用语料库的字词统计、检索等功能,可以控制教材难度,为教材课文合理排序。我们可以通过统计语料库中候选文本的长度、用字量、用词量、超纲词数量及比率等数据来确定候选文本的难度。在课文排序上,可以依据课文难度来确定课文出现的先后顺序,同时考虑语法点出现的顺序以及语法点出现的多少,此外还可以尽量选择共有字词比较多的素材来编排课文,提高生字词的复现率,从而提高教学效果。

再次,语料库能为教材编纂提供真实丰富的语言素材。汉语教学的最终目的是培养学生运用汉语进行言语交际的能力。如果我们能从大量真实的口语与书面语中选取素材作为课文,为课文中的生词配备真实例句,就能让学生学到自然的、地道的汉语。在教材更新以及教材辅导材料的编写与补充方面,语料库技术也大有可为。

在利用语料库进行汉语教材的编写方面,学界目前并没有出现以语料库为基础和依据来进行汉语教材编写的实操应用,多是对某一方面的问题进行资料统计并提出具体建议。如郭曙纶[2]提出利用语料库来改进对外汉语教材中的超纲词问题。

在欧洲,以英语为第二语言的教学界已经在利用语料库进行教材编制方面作出尝试,如比利时鲁汶天主教大学的Meunier&Gouverneur两位教授开发了以英语为第二语言的教材语料库(Corpus of Textbook Material,简称Te-Ma),在国际市场上大受欢迎[4]。

利用语料库进行教材编写,关键问题在于首先要建设一个专用于教材编写的语料库,收集合适的素材,对素材的体裁、用词量、用字量、语法点、词汇等级、超纲词等都做好标注。由于人工标注成本太高,标注最好用计算机先自动标引、人工二次校对的方式进行,因而,标注程序和标注工具的研发也是必不可少的。有了好用的素材库,利用语料库编写教材的工作才能顺利进行。

二、语料库与汉语学习词典编纂

大型语料库对于词典编纂无疑极有用处。早在1969年,由Houghton Mifflin公司出版的American Heritage Dictionary在编写过程中就使用了布朗语料库。而Collins出版社和伯明翰大学合作编辑出版的Collins Cobuild Dictionary,则完全依赖世界著名的COBUILD语料库①编订而成。Collins Cobuild Dictionary从词条的选定、用法到释义的先后顺序等都依据了从2亿词次的COBUILD语料库中统计出的频率;词典中的例词和例句也均取材于COBUILD语料库。由于其例句的真实性和准确性,Collins词典如今已连续出版多个版本,广受好评。著名的Longman英语词典在编纂时所依据的语料库共包含以下三个子语料库:一是朗文/兰卡斯特语料库(Longman-Lancaster Corpus),收集了英美各类型书面语3000万词;二是朗文学生语料库(The Longman Learners Corpus),收集了各国英语学习者的书面语;三是英语口语语料库(The Longman British Spoken Corpus and The Longman Spoken American Corpus)。Longman英语词典的词义解释、所用例句和词语使用频率标记等都得益于朗文/兰卡斯特语料库。世界上知名的词典出版商无不看重语料库方法和技术在词典编纂中的作用,并纷纷推出了各自基于语料库的词典产品。代表性的出版社有Collins、Longman、Cambridge、Oxford等。

目前,大型汉语语料库建设也引发了汉语辞书编纂的变革,汉语语料库为编写汉语辞书提供了大量真实客观的语料和相关的语言信息,如词频统计、词汇分级、词性标注、词语搭配、语体特征、词语用法、语境中的例句等。

国内利用语料库编纂词典的尝试也有不少,服务于汉语学习词典编纂的语料库②有:商务印书馆的辞书语料库及编纂系统[3];教育部语言文字应用研究所开发的基于语料库的数字化辞书编纂平台[4];北京大学计算语言学研究所开发的基于语料库的双语词典编纂平台[5];烟台师范学院建设的“汉字义类信息库”“汉语语义构词信息库”[6];南京大学开发的NULEXID语料库暨双语词典编纂系统,涉及英汉两种语言,在《新时代英汉大词典》的编纂过程中已经起到了重要作用[7];台湾地区于2004年正式成立“词典及语料库研究中心”[8],作为词典、语料库相关资源的汇集处,中心网站已构建完成,网址为http://dcrc.org.tw[9]。

国内基于语料库编纂的汉语学习词典有以下几部:《现代汉语频率词典》[10],《最新流行语小词典》[6],《实用网络用语手册》[6],《新词语大词典》[6],《HSK量词学习词典》[11],《现代汉语语法信息词典》[5],《中英文概念词典》[5],《现代汉语动词例释》[12],《国语日报名量词典》[2],《基于语料库的HSK多功能例解字典》[2],《新时代英汉大词典》[7],《对外汉语新词语词典》[13]。

三、语料库与汉语教学方法研究

语料库对汉语教学方法的改进,首先在于教师可以借助语料库提供的信息确定教学重点和难点。以往的教科书、字典和语法书通常能显示某种语言有哪些存在形式,却无法显示哪一种形式被本族语者使用得最多或者最少,在什么语体或交际场合出现频率最高等等。而基于语料库信息的教学则能让学生学到目标语中最常用的语言形式,把师生有限的时间和精力用在学习最有价值的知识上。

其次,运用语料库教授语言有利于将传统的“以教师为中心的知识传授型教学”转变为“以学生为中心的知识探索型教学”[14]。学生一旦上机面对着庞大的语料世界,就如同处于某种探索者和研究者的位置。教师不再直接地给学生灌输知识,而是引导他们自己动手,在教会学生掌握了简单的查询、检索和分类等功能之后,学生们就能运用自己在其他课程中学到的理论和知识对语料进行观察和研究,这种学习模式被称为“受语料驱动的学习模式”(data-driven learning)[15]。

再次,對语料库资源的深加工也进一步促进了计算机辅助语言教学(CALL)的发展[14]。正如Cameron[16]所指出的:以前不少计算机辅助语言教学项目由于缺乏语料资源以及缺少编程人员与语言教师的充分合作而发挥不了应有的作用。而今基于语料库的计算机辅助语言教学(CALL)不但为较高层次的语言学和文学学习者提供了语料基地,而且也为一般初、中等程度的第二语言学习者提供了丰富而真实的语言基本模式。

在第二语言习得及第二语言教学领域,最重视的语料库是学习者语料库。学习者语料库是指通过收集语言学习者各种书面和口头的自然语料,建立的一种语言数据库。其目的在于对语言学习者的语言特征和语言发展进行全面而系统的对比分析,获得有关学习者的典型困难及在某一具体语言点的障碍,通过不同类型语言学习者的语言对比,发现学习者在某一发展阶段的共同特征和个体特征,从而将这些信息反映到教学大纲的制定、教材的编写以及课堂教学实践等环节中,使语言教学更有针对性。

影响较大的汉语学习者语料库是2006年底北京语言大学开发建成的“HSK动态作文语料库”[17],它以母语为非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷内容为语料,收集了1992~2005年的部分外国考生的作文答卷。语料库1.0版收入语料10740篇,约400万字;语料库1.1版语料总数达到11569篇,共计424万字。该语料库提供网上免费使用之后,已有一些学位论文利用其语料进行研究。国内还专设汉语中介语语料库建设与应用国际学术研讨会,至今已举办四届。此外,崔希亮、张宝林[18]还提出“全球汉语学习者语料库”的建设构想,胡韧奋等[19]构建了一个规模约12万句的话题语料库,拓展了汉语学习者语料库的广度和深度。

四、语料库与汉语教学评估

教学评估是指以教学目标为依据,制定科学的标准,对教学活动的过程及其结果进行测定、衡量,并给以价值判断。教学评估的结果是一种反馈信息,它可使教师及时了解、掌握自己的教学情况,为教师修订教学计划、改进教学方法、完善教学指导、进行自我调节提供依据,从而间接地提高学生的学习效果;学生则据此变更学习策略、改进学习方法、增强学习的自觉性[20]。

教学评估使用最多的手段是布置练习题和测试,语料库在为测试题提供试题选择、增加测试题的信度和效度方面均能发挥作用。

首先,作为试题数据的来源,语料库在试题选择方面有巨大潜力。无论是口头语还是书面语,它们都是按相关变数如来源(出处)、文体、用词量等等分类,这是大多数语言测试的基础,在计算机上获取这些信息可以节省大量时间。在那些篇章按难易程度或学习者水平的适宜度来规定的语料库中,还可以挑选难度适宜的试题为指定考题。

其次,在试题设计上,语料库也能发挥大的作用。通过语料库对语法结构等的检索,可以得到各种语法结构的典型用法;通过学习者语料库,还可以知道学生们在学习过程中在哪些方面容易受到母语的影响,将其确定为考察的重点;此外,多数索引软件还提供了搜索词屏蔽功能(zipping),使得教师能够利用索引轻松地编制填空或选择练习。

再次,在试卷分析方面,语料库也可以发挥作用。如果创建一个专门的试卷语料库,收集某种(包括某门课程)考试的历年试卷,并对试卷进行必要的标注;在此基础上,就可以对词语和考点分布的频率等作出科学的分析。

五、结语

综上所述,语料库在汉语教材编写、汉语学习词典编纂、汉语教学方法研究和汉语教学评估这四个方面都发挥着重要作用,基于语料库的汉语教学正成为一种趋势和发展方向。各种汉语学习的语料库建设正如火如荼地进行中,编制语料库,对各种语料进行有意识地收集、分类和标注,是语料库建设的重头工作,尤其是语料的标注,一定要事先精心设计,在标注过程中进行人工干预和检查,语料库初步建设完成后,还要考虑后续的语料更新等问题。

语料库是创新的产物,在利用它时,必然会有一些局限性[21]。除了外在原因如技术问题、师生的计算机操作水平、设备等,语料库本身未能发掘得更深刻也是局限之一,比如语料库并不能标注所有的语言特点,尤其是部分不规则的语言点。所有这些局限性还有待语料库语言学的进一步发展而加以解决。

注释:

①网址:http://www.cobuild.collins.co.uk/,但语料库仅供内部使用,外网无法访问。

②国内双语词典的语料库建设也在如火如荼地进行中,本文主要調查汉语学习词典语料库的建设,双语词典语料库仅举了影响较大的南京大学开发的NULEXID语料库和北京大学开发的基于语料库的双语词典编纂平台。

参考文献:

[1]冯志伟.从语料库中挖掘知识和抽取信息[J].外语与外语教学,2010,(4):1-7.

[2]郭曙纶.汉语语料库的建设及应用[M].上海:上海外语教育出版社,2011.

[3]刘成勇.解析“商务印书馆辞书语料库及编纂系统”[J].科技与出版,2007,(12):19-20.

[4]靳光瑾.基于语料库的数字化辞书编纂平台研制与应用[A].对外汉语学习词典学国际研讨会论文集[C].2005:141-162.

[5]常宝宝,俞士汶.语料库技术及其应用[J].外语研究,2009,(5):43-51.

[6]亢世勇,李毅,孙道功,张楠.汉语系统语料库的建设与词典编纂[A].2004年辞书与数字化研讨会论文集[C].2004:143-149.

[7]杨蔚.在比较中探寻NULEXID语料库系统的未来之路[A].2004年辞书与数字化研讨会论文集[C].2004:89-104.

[8]泰元.台湾地区成立“词典及语料库研究中心”[J].辞书研究,2004,(5):28.

[9]曾泰元.我国台湾省“词典及语料库研究中心”积极开展学术活动[J].辞书研究,2007,(1):106-107.

[10]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.

[11]刘亚菲.语料库技术与对外汉语量词词典编纂[D].北京:北京语言大学硕士学位论文,2006.

[12]苗传江.现代汉语动词例释[M].北京:北京师范大学出版社,2011.

[13]崔乐.语料库技术在外向性词典元语言控制中的应用——以对外汉语新词语词典为例[A].国际汉语学报(第3卷第1辑)[M].上海:学林出版社,2012:230-242.

[14]何安平.语料库与外语教学[J].国外外语教学,2001,(3):15-19.

[15]Leech,G.Teaching and Language Corpora:A Convergence[A].(eds.)Anne Wichman et al.Teaching and Language Corpora[M].New York:Longman,1997:10-11.

[16]Cameron,K.(ed.)Introduction[A].Computer Assisted Language Learning(CALL)-Media,Design and Applications[M].Netherlands:Swets&Zeitinger,1999:1,6.

[17]“HSK动态作文语料库”课题组.“HSK动态作文语料库”正式开通[J].世界汉语教学,2009,(1):48.

[18]崔希亮,张宝林.全球汉语学习者语料库建设方案[J].语言文字应用,2011,(2):100-108.

[19]胡韧奋,朱琦,杨丽娇.对外汉语教学领域话题语料库的研究与构建[J].中文信息学报,2015,(6):62-68.

[20]高铁刚,王馨,寇海莲.信息技术环境下教学评价的理论与方法[M].北京:清华大学出版社,2011:6-7.

[21]肖依虎,潘翠琼.语料库在语言测试中的应用[J].外语教学,2002,(11):93-96.

(赵星 康冬梅 北京师范大学图书馆 100875)

猜你喜欢
教材编写汉语教学语料库
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
委婉语教学研究
文学理论教材编写之浅见
否定副词“不”和“没”的认知分析
新疆高职院校少数民族汉语教学的课程设计及开发研究
浅析大学英语教材编写存在的问题及措施
高中数学教材的心理学探析
语料库与译者培养探索