面向华裔留学生的汉字学习文本的获取

2016-02-29 06:58张榕

现代语文 2016年1期

摘要：华裔留学生汉语听说能力与汉字读写能力脱节现象给教学带来不少难题。本文提出一种算法简单、实用的，基于大规模真实语料的华裔留学生汉字学习文本的获取方法，将识别出来的句子集作为汉字学习文本，使学习者通过学习最少的句子认识最多的高频汉字。

关键词：华裔留学生汉字学习文本获取高频汉字句子集句子识别

一、问题的提出

汉字难认、难记是汉语学习者和汉语教师的共识。华裔留学生作为特殊的汉语学习群体，在留学生中占有相当大的比重，他们与其他学习者有着不同的语言和文化背景。相当数量的留学生在家庭环境中使用普通话或粤语、客家话等汉语方言。一般来说，华裔留学生对语义、句法知识的掌握水平较高，同时具有较高的汉语听说水平;然而其汉字认读水平与其他单项习得水平严重脱节。这种现象长期以来给教学分班、教材选择和课堂教学带来了相当大的难题。笔者针对华裔留学生做过一项学习动机与需求调查，结果表明，绝大多数学习者希望在加强听、说、读、写整体汉语水平的基础上，能在有限的时间内尽可能掌握更多的汉字。尤其是以字母文字为母语的华裔学生，如何在最大程度上提高常用汉字的认读能力，始终是他们在整个学习过程中最为关心的问题。

汉字教学是对外汉语教学的重点和难点。据统计，汉字的总数超过8万个。《现代汉语常用词表》中常用汉字的数目为3500个左右。其中，按照使用频率分类，常用汉字2500个，次常用汉字1000个。面对如此庞大的汉字集，究竟哪些汉字对留学生来说最需要记忆，采用何种记忆方式，提供何种汉字学习材料，在具体操作中随意性和主观性较大。现行通用的汉字学习辅助资料一般分为两种。一是汉字介绍型书籍，主要针对有代表性的独体字、形声字等进行描述与解释，进而帮助学习者在音、形、义的基础上去临摹、认读与记忆汉字。另一种为按拼音从A至Z排序的词表型词典。课堂汉字教学普遍参照课后的生词表、整本书的生词表或《新HSK词汇等级大纲词表》（以下简称《大纲》）。上述两类传统的汉字学习材料一直被广泛使用，但这些学习文本有着自身无法克服的缺陷。汉字介绍型书籍主要以激发学习者学习汉字的兴趣为目的，篇幅集中于一些象形字或形声字等。然而这些字相对于3500个常用字来说所占比例极小，对于掌握一定数量的常用汉字的目标来说远远不够。词表型词典以拼音排序，汉字之间缺少内在的语义关联，即便是同一篇课文后的生词表，词汇之间语义割裂现象依旧明显。汉字的学习不能脱离语义信息。分析语言现象，必须把和它所依赖的语境联系起来，把一个语言片段孤立起来分析，难于判断这个语言片段的结构和意义。[1]从认知语言学的角度分析，词汇是语义场中的节点，节点之间互相关联，一个节点的激活引发下一个节点的激活。孤立地去记忆词汇，不仅枯燥、单调且较难产生长久记忆;同时，词语只有进入上下文语言环境才能与其他词汇建立某种有意义的关联。词汇的意义表达不能脱离语言形式与组配关系。若根据人为主观判断提供给学习者一个句子、段落或篇章进行汉字学习，就有可能出现超纲词或非常用词，同时，重复出现的词汇会影响汉字学习效率。汉字学习不仅是一个多看、多写、多练的过程。提供给学习者何种汉字学习材料能达到最高效的汉字习得目标，同样需要引起对外汉语教学界的重视。

本文利用语料库语言学的方法为华裔留学生提供一种不同于传统汉字学习的参考文本，学习者可通过学习最少的句子，掌握最多的汉字。基于语料库的识别方法可提供给学习者最客观的，能够体现词汇搭配关系及语用价值的真实语言，使教师在选材过程中不受主观人为因素的干扰，避免了孤立、无关联的汉字组合或人为主观虚构的句子的出现。获取这样的句子集合，对于汉语教师以及汉语学习者都具有现实意义。

语料库语言学与对外汉语教学的结合，前人已有研究。郑艳群[2]、卢伟[3]将语料库的知识广泛应用于汉语教学相关分支;郭曙纶[4]、蔡永强[5]等将语料库知识辅助汉语词典编纂;张宝林[6]使用语料库对语法项目进行考察;杨泉[7]用语料库进行偏误、纠错研究等。然而，将语料库语言学应用于面向汉字学习文本的识别，学界尚不多见。

一般来说，语料中使用频度高的文本应作为教学材料选择的候选集。对留学生而言，掌握该类汉字集更具有实用价值。获取该汉字集并非只是依靠语料进行字频或词频统计、排序得到一个高频字词表的工作。汉字教学不能脱离句子教学，句子集合不是词汇的简单罗列。句子囊括的汉字不仅使用频度高，且能体现真实的句法功能和词语间的搭配信息。笔者通过考察几套市面上使用较为广泛的汉语教材，发现主观性较强、句子语用价值不高，或在真实语言中使用频率极低的句子被教材收录的现象始终存在。例如：一些教材中以常见的句式“这是桌子”为例进行阐述。从语用价值层面分析“这是桌子”可能出现的语境分为两类。一是幼儿语言习得;二是说话者抱怨一张不能正常使用的桌子，且该句应采用反问语气“这是桌子？”。显然，这两种语言环境都不适用于汉语作为第二语言教学。这种低语用价值的句子在真实语料中出现的概率极低，我们认为不应作为汉语教学的参考文本。例句的选取应展示词汇的语法特点，提供充足的语义信息，具有实际的语用价值。[5]基于大规模语料库的句子识别，避免了教材编纂者闭门造车现象的发生。

二、基于语料库统计的句子识别

本文采用句子的高频词密度定义句子中包含高频常用词的程度，从而识别出高频词密度大的句子集合。词型词例比用来衡量文本中的词汇密度，即不同的词全部数目占文本实际出现的词语总数的比率。反映在汉字能力测试层面，词型词例比体现学生所掌握词汇的覆盖率。同理，句子的高频词词汇密度反映了句子的使用频度，包含高频词汇多的句子具有较高的高频词汇密度。

基于以上观察，本文采用统计的方式来进行高频汉字句子集的识别。计算步骤如图1：

图1：高频汉字句子集识别流程图

流程说明：

1.语料的预处理

通过语料库过滤去掉噪音信息，文本以句子集合的纯文本格式保存。

2.将句子进行分词并统计词频

《大纲》是教材编纂、等级考试、学生学习以及教师教学重要的词汇参考指标。《大纲》中的一、二、三级词汇主要面向初、中级汉语学习者。其中，一级词汇150个，总字数172个;二级词汇300个，总字数344个;三级词汇600个，总字数623个。《大纲》中前三级所包含的词汇基本能满足大部分华裔学生的认读需求与目标。本文只选用大纲前三个等级的词汇进行实验。由于每个等级词汇数与字数基本一致，我们采用词频统计的方法以保证汉字意义的完备性和形式上的整体性。识别算法基于词频统计，因此，需要对语料库文本进行分词处理。本文使用中科院的ICTCLAS分词软件对整个语料库进行分词处理。

3.句子长度（将句子长度定义为词语个数）的处理

适合华裔学生汉字学习的句子需要考虑二语学习者的可接受程度及句子的可扩展程度。因此，句子长度需要做一定的限制。词汇扩展是对外汉语课堂词汇教学的一项重要内容，将词扩展到短语，短语扩展到单句，单句扩展到复句是词汇操练的一个重要项目。在对语料的考察中，我们发现，长度小于3的句子多数为短语，而考察的目标是识别出一个语法结构完整的句子;而长度大于15的句子，多以复句或多重嵌套形式出现，不适合汉语教学对象的语言水平。因此，本文针对华裔留学生的语言学习特点，将长度小于3的或大于15的句子过滤掉。

4.使用《大纲》词表进行过滤

依据《大纲》制定过滤模板，过滤掉包含词表之外词语的句子。由于句子识别是基于较大规模语料库，同时语料库可进行动态更新，所以，词表过滤过程不会影响到识别的召回率。

5.句子评分算法

句子评分算法为每个句子提供客观的评价依据。由于每个词汇在实际语料库中出现的频率不同，即每个词汇在语料中的重要程度对识别结果的贡献度不同，因此，句子评分采用词频作为权重。

设：

（1）语料库为，其中为第i个句子;

（2）句子，其中为句子中的某个词汇，m为句子中的词汇总数;

（3）语料库中出现的所有词汇集合为，其中：为语料库中出现的词汇;

（4）每个词汇的权重得分为：

其中：

为减少句子中重复词汇对句子得分的影响，我们对词汇的权重按如下公式进行平滑处理：

（5）每个句子的得分为

算法的目的是寻找语料库中得分最高的句子，即

句子评分公式如下：

其中：

经过该公式为所有句子评分后，从语料库中识别出得分最高的若干句子作为候选句子集合。

6.词汇去重

高频词汇句子集识别的目标是从语料库中识别出最少的句子且识别出的句子包含最多的词汇，同时这些词汇具有不重复性，即识别出的句子集合中各个句子之间词汇交集最小。某些词汇，比如：虚词“了和的”，代词“我和你”等在语料中出现频率极高，重叠出现是不可避免的，由于这类词汇数量相对有限，对整个识别效率的影响可忽略不计。

假设已识别的句子集合为F，而集合F中的词汇集合为H，则算法描述如下：

输入–语料库C

输出–结果句子集合F

重复以下步骤直到F中的句子包含所有的《大纲》词汇

找出C中得分最高的句子S

F ←F + S

C ←C - S

H ←H + S中的所有词汇

其中计算C中每个句子得分时需将集合H中的词汇影响去掉。

三、实验与结果分析

（一）实验方案

实验使用的语料库来源为互联网、报刊杂志和专业书籍等。语料规模为150M。语料库内容以日常生活、语言学习类文本为主，同时还兼有文体娱乐及文学体裁的内容，这些文本含有大量的日常用语，能满足留学生的学习、工作等交际需要。另外，语料库中文化负载词、汉语特有句式密度较大，这可以帮助学习者掌握必要的语用知识以及相关的中国文化知识。语料库经过本文描述的算法处理后得到最终结果。

（二）实验评价指标

本文采用召回率、准确率和识别效率3个参数对系统进行客观评价。

1.召回率

召回率反映系统正确识别的结果占所有可能正确结果的比例，计算表达式为：

其中，n为《大纲》词表中的词汇总数，m为识别的句子集合S中包含的《大纲》词表中的词汇数。

2.准确率

准确率反映系统正确选取的结果占所有选取结果的比例，计算表达式为：

其中，n为识别出的句子集合S中的词汇总数，m为集合S中包含的《大纲》词表中的词汇数。只有准确率较高才能保证识别的集合较小。

3.识别效率

识别效率反映算法每次迭代识别时句子中有效词汇的比例，计算表达式为：

其中，n为当前句子的词汇数，m为当前句子中包含的《大纲》词表中的词汇数。该值越高，说明一次迭代识别到的有效词汇越多，因此，需要的总迭代次数就越小，从而使得识别句子的集合最小。

（三）实验结果

实验发现，随着识别句子数的增加，系统的召回率逐步增大。句子数为50句时，集合中《大纲》前三个等级词汇为215个;句子数为100句时，词汇为406个;而在200句左右时趋于稳定，集合中前三个等级词汇达到545个，召回率达到89.72%。如果综合考虑算法效率和最终召回率，在相当规模的语料库基础上，可将此数字作为迭代的终止次数。

实验发现，随着句子数目的增加，准确率不断下降，即识别句子中非《大纲》前三个等级的词汇占比逐渐增加。句子数为50句时，集合中的总词汇为232个，其中，《大纲》前三个等级词汇为215个，准确率为92.67%;句子数为100句时，集合中的总词汇为406个，前三个等级词汇为324个，准确率为79.80%;当句子数达到200句时，集合中的总词汇为779个，前三个等级词汇已经达到545个，而此时的准确率仍大于69.96%。

实验显示，随着句子数的增加，识别效率不断下降，但很快稳定在0.19%左右，说明每次迭代都可以识别到新的词汇，整个算法是收敛的。

识别出来的句子集除了包含一些在语料中统计出的极为高频的词汇以外，句子之间的词汇没有其他交集。在语料选择上，教师可根据学习者的学习需求加以选择。例如：面向有商务汉语学习需求的学生，教师可加大语料中商务领域文本的比重。教师也可根据学习者学习时间的长短，在句子数量上加以选择。在文本数量要求大，或对领域性有一定倾向的情况下，应该保证识别集合中的词汇与《大纲》的紧密度与在真实母语环境中的流通度。仅凭借教师的经验手工编写句子文本显然是不现实的，而通过本文的识别方法能满足这两方面的条件。

四、结语

本文利用语料库语言学的方法来发现包含高频词汇的最小句子集，以服务于华裔留学生这一特殊汉语学习群体的汉语学习。学习者通过学习最少的句子集合，掌握最多的常用汉字。这些词汇不仅是真实汉语语料库中的高频词，也是对外汉语教学的基本词汇。利用该识别方法，汉语教师可从庞大的、杂乱无章的语料中获取最适合教给学生的汉语句子集，避免了手工编写汉字学习文本的主观性。由于识别过程基于大规模语料库，教师可自行选择识别句子的数量，同时，可依据学习者的学习需求在语料选择领域性上加以调整。这些特点都是传统的汉字学习教材所不能同时兼顾的。该方法也可为对外汉语教材及词典编纂者提供真实的例句素材，使描述与再现语言更客观且有据可依。在实验过程中，笔者也发现一些得分较高的识别结果在实际教学过程中不太符合留学生的学习需求，教师可将识别结果进行适当的人工校对与调整，使语料库语言学的统计方法更有效地服务于汉字教学。

本课题为北京语言大学院级科研项目（中央高校基本科研业务费专项资金资助），项目编号为[16YJ080303]。

参考文献：

[1]张志公.现代汉语[M].北京：人民教育出版社，1982.

[2]郑艳群.语料库技术在汉语教学中的应用透视[J].语言文字应用，

2013，（1）.

[3]卢伟.语料库在对外汉语教学中的应用[J].厦门大学学报（哲学

社会科学版），1999，（4）.

[4]郭曙纶.语料库技术在对外汉语学习词典编纂中的问题及处理[A].

第三届对外汉语学习词典学国际研讨会论文集[C].北京：中国社会科学出版社，2008.

[5]蔡永强.略论对外汉语学习词典的编写原则[A].郑定欧，李禄兴，

蔡永强主编.对外汉语学习词典学国际研讨会论文集（二）[C].北京：中国社会科学出版社，2006.

[6]张宝林.回避与泛化-基于“HSK”动态作文语料库的“把”字句

习得研究[J].世界汉语教学，2010，（2）.

[7]杨泉.基于HSK作文语料库的留学生离合词偏误计算机自动纠错

系统初探[J].语言文字应用，2011，（2）.

（张榕北京语言大学汉语速成学院 100083）

现代语文2016年1期

现代语文的其它文章: 中文罗马字母拼写法及其在人机交互中的应用; 陈衡哲开20世纪初现代白话文风气之先; 从“语码转换的单码视角”看马来西亚的罗惹华语; 民国时期东南亚华族对异族语言的学习; 语境吸收说论纲; 语言产业研究概观