汉字结构识别偏误与部件信息库建设构想

2018-11-21 10:20
关键词:常用字理据信息库

郭 菁

(1.福建师范大学 文学院,福建 福州 350007;2.福建师范大学 海外教育学院,福建 福州 350007)

一、汉字结构识别偏误

图1 “寄”字结构识别偏误

综上所述,我们可将汉字结构识别偏误的特性概括为:第一,是一种汉字认知偏误,是学生对汉字结构的错误认知;第二,具有较高的隐蔽性,认读、书写中难以观察到;第三,通过汉字结构判定与汉字拆分等特定的练习方可以显露出来。这些特性使得汉字结构识别偏误明显区别于汉字认读、书写偏误,所以应进行专门的考察。搜集此类偏误所建的小型语料库,也是一种独立的专门化的汉字偏误语料库。汉字结构识别偏误的整理与研究,将会是汉字偏误研究的重要补充。

二、两种汉字结构识别偏误

汉字内部结构的认知要求师生都掌握“偏旁分析”的传统文字学方法,在汉字教学进入合体字阶段之后,从合体字分析出基础部件固然是一种拆分方式,但涉及汉字表意文字本质的还是偏旁分析的拆分形式,也就是从理据功能的角度对汉字进行逐层拆分。因此,在我们的汉字教学课堂上,教师示范并要求学生进行汉字“偏旁分析”的练习,如“想”要首先拆分为“相”与“心”,“相”是声旁,“心”是形旁,“相”可以再分为两个基础部件“木”和“目”。如果学生一次性拆分为“木”“目”“心”,就不是偏旁分析,只是基础部件拆分,教师会要求学生更正为偏旁分析。汉字的理据拆分一开始也许会让人觉得比较繁琐,但长此以往地坚持下来,学生可逐渐形成举一反三的偏旁分析能力,真正体会到汉字以形声字为主的特点,这种偏旁分析能力是自学汉字、扩大识字量的关键所在,也是系统高效、健康长远地学习汉字的根本途径。

要研究两种汉字结构识别偏误,大量搜集偏误材料,建立汉字结构识别偏误的语料库是一项很重要的预备工作。只有对大量偏误材料进行系统分析,才能总结出学生习得汉字结构时的普遍问题,从而为汉字教学提出相应的建议。

我们刚开始对汉字结构识别偏误进行整理,目前搜集得到的例子数量还很少,以下仅举图2中典型5例作简要分析(图2例子均扫描自学生作业的自然偏误语料,并无改动与转写)。

图2 两种汉字结构识别偏误的典型例子

的规则。例2没有正确辨识出一级部件“氵”“去”,导致外部结构识别错误——将左右结构的“法”误判为包围结构。

三、基于部件规范的部件信息库建设

少量的偏误材料只能得到零星的分析结果,更深入的分析解读有待更多偏误的积累,去建立一个小型的专门语料库。同时,作为偏误来源的学习者的具体信息,如国别、汉语背景等也需要在语料库中一一输入。比起建立专门的汉字结构识别偏误语料库,构建一个基于部件规范的部件信息库显得更为迫切,这主要有以下几方面的原因。

首先,部件规范应该成为汉字部件教学的指导,但规范出台后,因为掌握困难和查询不便,在教学领域的运用并不普遍。1997年,首个国家部件规范文件出台,拆分两万余字的GB1300.1字符集得到560个基础部件;2009年又发布了《现代常用字部件及部件名称规范》,拆分3500个常用字得到514个基础部件,更强调部件规范在汉字教育上的运用及字理依据在部件拆分中的重要性——“本规范适用于汉字教育、辞书编纂等方面的汉字部件分析和解说,也可供汉字信息处理等参考。……本规范中部件拆分的原则是:根据字理、从形出发、尊重系统、面向应用”[3]1-2。两个部件规范在拆分原则、规则上都有区别,不能互补使用,显而易见后者更适用于汉字教学。

然而新部件规范在教学领域的运用并不普遍,主要是因为规范掌握起来难度不小,查询起来耗时耗力。部件规范是文本形式,只给出拆分原则与规则,以及每个基础部件的1—4个构字例字,具体3500个常用字的拆分情况是看不到的。教师要知道常用字的规范拆分,首先要熟悉部件拆分原则和规则,到具体某个字的拆分时,还要先查看这个字是不是基础成字部件(独体字),是则不分;如果不是,又要看它可能拆分出的部件的构字例字中有没有该字,有则可以确认,没有的话,基本上就很难确定。因此,只有全面依据部件规范拆分过3500个常用字,核对过全部构字例字以及部件规范的构字数,建立起数字化的可直接检索的部件信息库,教学领域的普遍运用才有可能真正实现。

其次,部件信息库可以促进部件规范的普及化,尤其是推动规范在教学领域的运用。2011年,台湾Hsueh-Chih Chen、Li-Yun Chang等学者著文讨论了在“中文部件组字与形构资料库”基础上建立的“中文部件、偏旁及整字查询与分析系统”,指出通过此系统使用者可以“获得基本属性和组字知识的形音义指标,亦可依华语词彙规范限定产出范围,便利汉字教与学”[5]292-300。研究首次提出建立部件数据库的设想,并将部件数据库与汉字教学密切联系起来,具有深远的启发意义。但此研究以台湾繁体字及汉字拆分规范为本,无法照搬套用于大陆实际,因此应该借鉴他们的思路,建立以我们简化字部件规范为基础的部件信息库,通过部件信息库师生能够查询到部件名称、笔画数、构字数等基本信息,进一步完善后,输入部件能够查询该部件的全部构字,反过来输入汉字也能够查询到该字的具体部件拆分情况。也就是说,部件信息库首先是面向运用的部件规范的数据库化,使用者不需要掌握拆分原则与规则,而只要输入部件或者具体构字,就能轻松查询有关部件的各种规范信息以及有关该构字的规范拆分情况,显然可以极大促进部件规范的普及,特别是在教学领域中,部件规范的运用会成为如同查字典中汉字字音、字义那样非常自然、寻常的事情。

建立基于部件规范的部件信息库是我们目前的主要研究方向。建库的工作主要有三大模块基本内容。一是将《现代常用字部件及部件名称规范》的基础部件表全部信息数据库化,建立“基础部件表”数据表,电子存储形式的表格,包括了部件名称、部件笔画数、部件构字例字、部件构字数等基本信息,可以实现部件基本信息的快捷查询。这一部分的内容我们现已完成。

二是严格依照《现代常用字部件及部件名称规范》,就3500个现代常用字进行拆分,具体来说,是先掌握《现代常用字部件及部件名称规范》的拆分原则、规则,查询已建的“基础部件表”,通过部件构字数、出现次数等数据的比照核对,最终确定3500字的具体部件拆分情况,建立“现代常用字部件拆分情况”数据表。这一部分的工作我们正在进行中。

三是将完成的“基础部件表”与“现代常用字部件拆分情况”,以及教学中常用的汉字、词汇等级大纲彼此关联,经由互联网技术,建成一个可以交互的网络部件信息库。教师和学生既可以使用网络部件信息库快捷查询,也可以将查询中出现的问题或者汉字教与学中的有关问题进行反馈,可以促进部件信息库的完善与更新,建库后期还可以增设教学使用建议模块,集中总结运用部件信息库于教学的注意点。这些都能加强部件信息库的实用价值。

还有一个进阶的工作内容有待将来完成,就是对部件理据功能进行分析,形成部件理据信息表。部件是否具有理据功能,这一理据功能现在是否依旧,即部件是否为形旁、声旁,而形旁、声旁现在还能不能表意与示音,这些信息对于汉字内部结构教学来说非常重要,也应该纳入部件信息库中去。

四、汉字的规范拆分与教学拆分

汉字部件信息库以部件规范为依据,能够为教师和学生拆分汉字提供便捷可靠的查询服务,也是判定学生汉字结构识别是否存在偏误的主要依据。然而,按照部件规范进行的汉字规范拆分,与从教学需要出发作出的汉字教学拆分并不全然相同。应当承认,部件规范具有的指导作用并不是绝对的、无条件的。

再次,汉字的教学拆分要充分考虑学生的汉语水平与接受能力,理据拆分未必总是最佳选择。比如从言射声的形声字“谢”,外部结构是左中右的合体结构,字形比较复杂,但是因为构词“谢谢”为基本礼貌用语,汉字等级1级,所以是学生最早学习的汉字之一,我们教这个汉字时还在笔画教学阶段,合体字与形声字知识均未讲授,按理据拆分为“讠”“射”讲解费劲,“射”不是典型的声旁,学生不容易接受理解,所以直接拆分为“讠”“身”“寸”更加直观更为合适。

综上可知,我们在构建基于部件规范的部件信息库的同时,也应该着眼教学需求,补充相应的教学拆分建议,这一项工作还有待进一步细化与深入探索。李华指出:“部件规范指导了汉字教学,同时汉字教学实践亦进一步促进汉字部件规范的完善。”[8]765所言甚是,既然新部件规范以教学为首要运用领域,那么教学中的运用反馈也会成为改进完善部件规范的重要指标。研究汉字结构识别偏误、构建基于部件规范的部件信息库、研究部件规范在教学中的运用,以教学反馈改进部件规范,这几项工作似分实合,结合开展起来就会彼此促进,形成一个良性的循环,如图3所示,能够使部件教学法在汉字教学中运用得更加规范科学,师生汉字教与学的效率效果都得到进一步的提升。

图3 部件规范、部件信息库、部件教学与汉字结构识别偏误关系图

猜你喜欢
常用字理据信息库
劝学
关于常用字覆盖率统计算法的研究
从理据出发展开高品质评价——以《谏太宗十思疏》为例走进文言文深处
借助BIM构建动态造价信息库的新思路
基于普元EOS平台的信息库的设计与实现
英语中爱情隐喻及其认知理据分析
谈常用字词的选取及其等级划分
词语理据学构想:对象、观念与方法
常用字辨正——“己-巳-已”
常用字辨正“—岂”