幼儿园英语语料库建设与研究

2015-05-30 14:30祁继香
校园英语·上旬 2015年4期
关键词:语料语料库双语

祁继香

【摘要】本文主要讨论用语料库来辅助学前教育双语教学、幼儿园英语语料库的创立和它的重大意义。

【关键词】幼儿园英语 语料库

一、《幼儿园英语语料库建设》的意义

语料库为学习、工作等提供一种资源,对于学生,可帮助大家挖掘专业的深度和广度。在外语研究和教学方面,语料库语言学为其提供丰富真实的资料供参考,例如,通过语料库,教师可设计课堂实例、考卷;可以从学习者语料库发现过量使用的词,对其进行重点关注;学生可以通过语料库加深对生词的理解、使用规则等,进行自学;也可以发现书面、口头英语间的差别,挖掘语言背后的文化内涵等。此外,通过对语料库的研究,不仅有利于加深对文章体裁方面的研究,而且有助于推动机器翻译的飞跃发展。

目前国际国内幼儿园教育基本上都是围绕五大领域主题活动展开。幼儿园英语语料库(Kindergarten English Corpus,简称KEC)正是基于五大领域主题活动进行研究和建设,该语料库为学前英汉双语专业学生、幼儿园英语教师以及其他幼儿英语爱好者提供了接触幼儿园情真实景英语的途径。学习者在学习过程中需要积极主动地思考、质疑、探索。在这一过程中,英语学习者不仅可以学会英语知识,更学会学习技巧,同时熟悉幼儿园各大领域活动特征和内容,并掌握如何用双语进行幼儿园教学活动,为胜任将来任职岗位打下坚实的基础。

二、《幼儿园英语语料库建设》的目标

本课题研究的主要目标是建设一个符合高等教育学前教育学生及广大幼儿英语工作者的幼儿园英语专用语料库。该幼儿园英语语料库是根据可靠的理论依据和明确的设计原则建立的幼儿园英语的电子文库,帮助幼儿园英语从教者更为全面地掌握幼儿园英语的内容,为幼儿园英语教学提供强大的平台,为广大幼儿园英语教师和高校学前教育双语专业学生以及广大幼儿英语教学研究者提供强有力工具和手段。

三、《幼儿园英语语料库》的内容

建设一个小型的“幼儿园英语语料库”单语语料库,具体内容涉及如下:

1.设计和规划。主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

2.语料的采集。主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

3.语料的加工。包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

4.语料管理系统的建设。包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。

《幼儿园英语语料库》整体上由两部分组成:Audio(语音库)和TEXTS(文本库)。Audio(语音库)中的任务1任务2子库(英文儿歌和英文儿童故事)包括英文儿歌视频语料和音频语料。其中视频语料以imvb的格式播放,音频语料以mp3的格式播放。

TEXTS(文本)全部则采用纯文本格式,即“文本名.txt”的格式,如:Childrens Poems.txt。任务1子库包含2个文本2万词容;任务2子库包含14个文本9万词容;任务3子库包含2两文本1万6千词容;任务4子库包含6个文本14万词容;任务5子库包含19个文本18万词容;任务6子库包含12个文本10万词容;任务7子库包含16个文本25万词容;任务8子库包含7个文本6万词容。

四、《幼儿园英语语料库》制作过程

1.文本采集。

(1)基本准备。工具准备:课题组主持人和成员于2012年12月初参加了由教育部承办、外研社主办的、由梁茂成、李文中、徐家金三位老师主讲的“双语平行语料库研究”研修学习,获得了好几款预料建设和研究方面的软件。如EditPad Pro、UltraEdit、ABBY FineReader等。

文献准备:建库前,阅读了一些语料库建设的基本的书籍,如Martin Wynne编写的Developing Linguistic Corpora: A Guide to Good Practice、CHILDES、梁茂成主编的《语料库应用教程》、文秋芳写的《中国学生英语口笔语语料库》、王克非写的《报刊英语语料库》及其它语料库方面的书籍。

物质准备: 准备了两个专门用语语料备份的移动硬盘和优盘,另外还准备了几张光盘,定期把语料刻写到光盘上,以备长期存储。

(2)语料库设计。

1)预料的来源及获取语料的方法。本课题组获取语料的主要渠道为:网络下载,包括网络图书馆、幼儿英语数据库、可供下载的自由百科全书、幼儿英语方面的网页、电子书及其它资源。具体包括幼儿园日常英语;幼儿英文儿歌、幼儿园手指谣、律动操、手工、诗歌、童话故事等为原始语料,收录文字资料和音像资料进行转写。

2)根据国际国内语料库建设的实践经验,制定幼儿园英语语料库转写和赋码方案,组织人员进行转写工作。

3)语料库中的文件格式:文字文件一律采用文本文档,音频文件采用兼容性较好,更为通用的mp3格式。

2.文本整理。

(1)清洁文本。对建好的电子文本进行加工和处理,包括文本的处理、语料元信息的标注等。比如英语文本应当由半角字符构成。除单词之间、句间,其它位置通常不应该有空格。文本处理可以借助于PowerGREP或其它文本编辑工具,本课题组采用的是一款梁茂成老师介绍的“文本整理器”的免费软件。

(2)元信息标注。元信息(metadata)课分为如下:

文本说明信息:包括文件序号、文本分类、其他分类、文本统计信息、版权声明等。

文献信息:包括作者、时间、标题、来源、出版者等。

文本结构信息:标题、章节、段落、句子,以及其它特殊文本内部结构的标注,如儿童英文诗歌、儿童英文童话剧等。

五、《幼儿园英语语料库》的研究方法

1.文献研究法。搜集和整理关于语料库建设方面的文献资料和幼儿园英语方面的资料,举办讲座,用以指导课题研究。

2.调查研究法。调查幼儿园、家庭、科学、语言、自然健康等方面课程资源的状况,将其有效地开发整合为幼儿园英语课程资源。

3.行动研究法。利用幼儿园、家庭、自然、健康等方面的课程资源开展语言实践活动,实现幼儿教师课程资源开发利用和学前教学的有效整合。

4.定量研究法。定量研究主要是指利用语料库方法对研究对象进行客观而真实的调查,在此基础上,做出综合性的分析与评价,形成定性研究。

建设和开发幼儿园英语语料库的预期价值在于:幼儿园用于语料库建成后,将是国内首个同类型的语料库。该项目的完成,将对我国幼儿园英语教学提供强大的平台,为广大幼儿园英语教师和高校学前教育双语专业学生以及广大幼儿英语教学研究者体供强有力工具和手段。幼儿园英语语料库是根据可靠的理论依据和明确的设计原则建立的幼儿园英语的电子文库,帮助英语学习者更为全面地掌握幼儿园英语的内容。

参考文献:

[1]胡群.幼儿双语教师口语教程[M].北京:开明出版社.2004.

[2]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社.2010.

[3]刘霞.幼儿园英语口语大全[M].北京:清华大学出版社.2004.

[4]王克非.双语对应语料库:研制与应用[M].北京:外语教学与研究出版社.2007.

猜你喜欢
语料语料库双语
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
快乐双语
快乐双语
快乐双语
国内外语用学实证研究比较:语料类型与收集方法
语料库语言学未来发展趋势