杨红
【摘要】小学语文教学语料库主要是借助前人提出的建设原则和检索功能,使用ASP程序设计语言,SQL SEKVER2000数据库服务器来采集、加工语料以及开发语料库检索功能等,并规定小学语文语料库的建设目的和样本大小等,来解决小学语文扩展阅读资源中的篇章检索、句子检索和词语检索中存在的问题。这个语料库资料丰富,包括各种各类的文章、小学语文阅读材料中的儿歌、谜语等内容。在教师的备课和学生的自主学习中应用方便。
【关键词】小学语文教学;语料库;设计开发
【中图分类号】G623 【文献标识码】A
小学语文教学语料库的检索主要是为了在小学语文的教学和研究中能够高效方便的检索所需的信息而进行设计研究的,这主要有检索小学语文整体或者某部分的总字数及字频、总词数以及词频、按词类大类和小类提取总清单、特种词语和语法格式的检索等。设计合理的检索系统可以提高小学语文的教学和研究的效率和知识广阔面。
一、关于小学语文教学语料库的相关的概念
小学语文的教学语料库是为了研究和应用于小学教学而搜集的并且用电子的形式保存下来的语言材料,这些内容主要是由书面语或者口语的样本汇集起来的,它代表着小学语文中的语言。在这一语料库有了足够的规模时,能够反映和记录小学的语言在实际使用中的情况。这有利于相关人员对于语料库的把握和研究,借助语料库可以分析小学学习的语言的系统的规律。它无论对教学还是对研究都是极其有利的。
二、小学语文教学语料库的建立
小学语料库的建立有其特定的目的,根据这一目的以及中外专家的观点,笔者总结了以下语料库建库的原则和方法:
首先,明确小学语文教学语料库建立的目的。我们这里所说的语料库主要是小学语文的语料库。小学语文的语料库就是为小学语文的教学和研究服务的,这属于专用型语料库,这就决定了我们所建立的语料库不必过于广泛的表现现代汉语的语言事实全貌,这一阅读资源的语料库主要有两个特点,就是突出趣味性和尽量的选择名家大作。所以笔者这里论述的语料库所收集的主要是儿童文学作品中的内容,比如说儿歌、谜语、寓言和童话等。当然对于那些政治、经济、文学等深奥一些的内容可以较少的涉及一些。对于语料库,因为用于小学的语文所以控制字数在1000万字左右就可以了,资料库过大,用户就会相应的增多,就会影响检索资料的速度,这样用户就没法正常的使用这一数据库了。
其次,关于语料库的容量方面的问题。因为我们所建立的语料库是小学语文的教学语料库,所以主要采集的是整个原始文本作为样本的形式比较合理,可以另外建立数据库存储由原始文本分解得来的句子样本。这样比采取把原始语料切分为片段的方式要好。
再次,在建立小学语文语料库的时候要注意语料库样本的多样性。小学语文语料库属于文学的门类,这有其自身的教学目的的特性,文学类的样本的多样性主要是文学门类下的子门类的多样性。
最后,做好小学语文教学语料库的语料样本的处理。根据小学语文语料库在教学和研究方面的需求,应该建立比较适于使用的语料库检索方式和储存方式,笔者主要采用的是两种不同方法的语料库样本处理方式:第一,是把每个语料库的样本当作一条数据记录存放在数据表中,这样有利于查找扩展阅读所需要的篇章,方式是通过关键词来进行全文的检索。第二,是把要处理的所有语料划分成句子,再把每个句子当作数据记录放在数据表中,这样做的好处是利用子串、词语和句子来进行检索,方式是利用关键词进行句子的检索。
三、小学语文教学语料库的开发研究
这个过程主要包括采集语料、加工原料库和开发语料库的检索功能等这些环节,我们就其中的一些环节来进行论述。小学语文教学语料库主要是采用的ASP语言写程序,采用SQL SElKVElK2000数据库服务器做数据存储服务以及采用IIS6.0 Web服务器发布语料库检索网站。
首先,要注意语料的采集。语料的来源可以是在因特网上的众多的读书网站,设计人员可以从上面下载小学语文所需要的文章、书籍等,这是这一语料库的主要来源。也可以从六年跨越式实验项目实行的过程中积累下来的并且制作完成众多阅读文章中进行搜索。
其次,在小学语文教学语料库的设计时必然会遇到难点。在建设资料库时需要收集的资料并不是汇集在一起的,需要设计者进行搜集,要把这些结构多样的资源转化为结构统一的语料库并不是一件简单的事,而且很多资源都是网页形式的,而语料库的全文确是文本形式的,这样就要求设计者进行处理,这也是一项比较困难繁杂的工作。
再次,对于小学语文教学语料库所遇到问题的解决方法,大多数网站的资源格式基本上都是一样的。这样我们就可以利用这些相同点来进行解决,我们可以去发现各个网站的对于文章的标题、作者等的标记的规则,将其转化为我们需要的文本格式,运用到我们的语料库中。但是在有些情况下某一个网站的不同的页面中对文章的同一部分所用的标记也不相同,这些地方我们的解决方法是寻找两者之间的共性,尤其是在标记部分的共性,利用这些共性对这两种标记方式进行统一的表达。
最后,注意结果的统计。小学的语料库中共收集了一万零六百六十五篇,这些结果的收集对教学和研究是非常有益的。小学语文教学语料库的加工要注意句子层次的加工和篇章层次的加工,句子层次的加工主要是将篇章分割成若干句子,同时确定每句话的长度,而后将这些句子数据存入句子数据表中。篇章层次的加工在语料采集过程已经部分的完成,包括对标题、作者、体裁和字数等属性。
四、结语
本文从几个方面对小学语文教学语料库的设计和开发进行了简要的叙述,其主要是以篇章为单位,收集适合小学语文教学的语料库,目的是为研究和教学提供方便。
参考文献
[1]何克抗.儿童思维发展新论和语文教育的深化改革——对皮亚杰“儿童认知发展阶段论”的质疑[J].教育研究,2009(02).
[2]中华人民共和国教育部.全日制义务教育语文课程标准(实验稿)[M].北京:北京师范大学出版社,2009(02).
[3]顾益军,樊孝忠,于江德,李良富.受限领域中文文本主题标引系统研究[I].计算机应用,2009(14).
(责任编辑:龙大为)