面向分级阅读的分级词表研制*

2022-07-20 01:54吴云芳胡章树王迎兰
辞书研究 2022年4期
关键词:词表童书学段

吴云芳 胡章树 王迎兰

分级阅读,是指根据儿童的身心发展规律,给不同的儿童提供适合其阅读水平的文本读物。文本阅读难度分级,是对于给定的文本,根据其中的词语、句法、语义、篇章等特征,计算机自动判断其阅读难度,进而推荐给适合的读者。早在2011年,国务院就颁布《中国儿童发展纲要(2011—2020年)》,提出“推广面向儿童的图书分级制,为不同年龄的儿童提供适合其年龄特点的图书,为儿童家长选择图书提供建议和指导”的要求。

教育部于2019年颁布了《义务教育常用词表》(以下简称《义务词表》)(苏新春 2019),由专家学者历经多年潜心研制而成。不同于前人主要依靠专家人工评定的方法,面向汉语分级阅读,本文研制的现代汉语分级词表主要基于大规模语料库的统计分析,遵循词语在实际语料中的使用规律,采用计算机自动处理与人工审核相结合的方式。本文分级词表构建努力追求的目标是:

1) 主要依据大规模语料的统计分析;

2) 尽可能地由计算机自动处理,将专家的人工劳动减到最少;

3) 构建流程透明化、规范化,总体上可复现;

4) 词表能够快速地构建,能够随时代便捷地迭代更新。

本文构建的分级词表主要依据大规模语料库的词频分析。早在20世纪30年代,叶圣陶先生就指出了词汇量化对课本编辑的重要意义(赖华强 2006):“如果把目前通行的书报作为依据,统计其中每个词的出现次数,把得票最多的若干词组织在课本里头,我想,读了这课本的人固然不能够就去阅读《五经》或者《史》《汉》,但是看看《申报周刊》,或者《现代十国论》,该不会有‘面熟陌生’的憾事了。”20世纪60年代,吕叔湘先生指出:“关于词的出现频率的研究就很重要。西方国家特别是美国几十年前就有人做这种统计。这种材料对编教科书编词典都很有用处。”(赖华强 2006)2019年颁布的《义务教育常用词表》也将词频高低作为词表分级的主要依据之一。

下文我们将介绍分级词表所依据的语料库、选词的基本原则、构建的基本流程,并分析词表的词语分布状况。期望本文所构建的分级词表能服务于汉语分级阅读,成为专家词表的有益补充。

一、汉语分级语料库的构建及词汇分析

文本难度的自动分级、分级词表的构建都需要以大规模的分级语料库为基础,因此我们构建了较大规模的汉语分级阅读语料库,包括教材语料库和童书语料库。

教材语料库。通过不同的途径,包括网络检索和人工录入等方式,我们搜集了国内多个出版社的中小学语文教材课文,包括部编版、人教版、北师大版、苏教版等多种版本,对文本进行了格式处理和文字核对。配合汉语分级阅读系统的程序实验,去除了其中的诗歌和文言文。

童书语料库。主要通过人工录入的方式,整理了约400本经典的儿童图书。进一步根据教育部《中小学生阅读指导目录(2020年版)》以及《爱阅小学图书馆基本配备书目》2018年版为每一本图书赋予了一个级别标签。

网页文本语料。此外,通过搜索引擎,从超大规模网络文本中抽取出了所有词语,将之作为本文词表构建的重要参考。

在初始语料的基础上,利用自动分词软件pkuseg(Luoet al. 2019)对所有文本进行了分词和词性标注,进而对汉语词汇运用情况进行了统计分析。上述不同语料库的字频、词频统计信息请见表1所示。

表1 三种语料的字数与词数信息

依据三种不同的语料库,构建了三个按照词频降序排列的词语列表(如表2所示),这些是进行分级词表构建的原始素材。

表2 三种语料前10位高频词语

教材文本、童书语料、网页语料面向不同的阅读对象,关注不同的内容主题,在语言使用、词汇运用上存在差异。为了考察不同语料在词语使用上的异同,我们统计了不同语料之间的斯皮尔曼(Spearman)相关系数,如表3、表4所示。斯皮尔曼系数反映了两个变量之间的相关性:0.8—1.0表示极强相关,0.6—0.8表示强相关,0.4—0.6表示中等程度相关,0.2—0.4表示弱相关,0.0—0.2表示极弱相关或不相关。

表3 前90%词语

表4 前80%词语

上述统计结果与人们的直观认识相符合,我们可以观察到:

1) 教材文本与童书语料在词汇运用上极强相关,提示两者可以合并考察;

2) 网页语料与教材文本、童书语料弱相关,这说明教材文本、童书语料的词语使用与网页语料存在较大差距,提示在分级词表构建中需要合理收入部分网页词语,以满足生活阅读的实际需求。

3) 网页语料、童书语料的相关性大于网页语料、教材文本的相关性,说明在词语运用规范方面:教材>童书>网页。

二、分级词表的规模和等级设定

分级词表构建要回答的第一个问题是:一共要收录多少词语呢?

《义务教育常用词表》一共收录了15114个词目,按照学段划分为四级。面向对外汉语教学,《国际中文教育中文水平等级标准》(2021) 收录了三等九级共11092个词目。而早期的《汉语水平词汇与汉字等级大纲》(1992) 仅收录了8822个词语。

青少年儿童认识多少词就能满足阅读需求呢?我们对教材、童书、网页语料中的高频词语进行了统计分析,不同语料中的词频分布都符合齐夫定律(Zipf)定律。三种语料中高频词的累加频率分布如表5所示。

表5 三种语料词语的累加频率分布

虽然三种语料的总词汇量差别巨大,但是累加频率的词汇量分布大体相当。具体而言,14350个词语覆盖到教材语料的90%,14552个词语覆盖到童书语料的86%,14991个词语覆盖到网页语料的87%。由此推知,1.4万—1.5万词汇量就基本能够满足阅读需求,因此我们初步选择 1.5万个候选词语进入分级词表。

《义务教育常用词表》按照学段设定的分级词表稍显粗略,每级词表包含太多词语而不具区分性,例如二级词包含5503个词语,三级词包含5975个词语。本文依年级区分,划分为七级词表,一—六级分别对应1—6年级,七级对应初中阶段。后期研究中,根据需要可以将一—二级词语合并为第一学段,三—四级合并为第二学段,五—六级合并为第三学段,初中为第四学段。

按照由易到难、循序渐进的原则,并参考前人的成果,各级词表数目初步设定为:一级600,二级1200,三级1800,四级2400,五级2800,六级3200,七级3600,总计1.56万个词语。

三、分级词表的选词方法

本文的分级词表构建基于大规模语料库,将词频作为划分词语难度等级的主要依据。

网页语料反映了语言在现实生活中的真实运用情况,教材文本是专家们精心编选的名著作品,童书是对教材文本的有益补充与拓展。根据表3、表4的统计分析,教材和童书在词汇使用上高度相关,为了扩大语料规模,选词时将两者合并考察。但网页语料与教材文本差异很大,考虑到词汇学习的语言交际与应用功能,分级词表应适当选择部分网页词语作为补充。例如,“手机”和“超市”在日常生活中使用频繁,在网页语料的频率词表中,“手机”排位第26,“超市”排位第760。但是,这两个词在教材语料中的出现频率都非常低(在人教版教材中均没有出现,在北师大版教材中都仅出现1次)。这提示我们,在重点关注教材语料词语的同时,需要兼顾网页语言的实际应用情况。

网页词汇对教材语料的补充体现在两个方面:(1) 对于一些高频使用的新词,补充进分级词表;(2) 对于一些在网页中使用频繁,而在教材语料中出现次数较少的词语,降低其难度级别。

经过多次尝试,我们制定了选词规则:每级候选词=90%教材童书词语+10%网页语料词语。对教材童书语料和网页语料的词语按照出现频率分别从高到低排序,根据前文所设定的分级词语数目,选定一个频率断点,即得到一—七级的候选词语列表。在具体选词过程中,从低到高逐级选择,每级先教材童书语料再网页语料。

分级词表数据库以“级别”为单位来组织词语。对于词表中的每一条词目,设定三个字段:词语,词频,语料来源,如表6所示。

表6 一级词语呈现示例

词语是分级词表呈现的主要对象。不同于前人词表,分级词表将如实列出词语在语料库中出现的频率。词语的难易度是个相对的序列问题,级别的区分只是人为的一种划定。给定“词频”,对于词语的使用状况就有了清晰的显示,在同一个级别下对于词语难度也有了一定的区分,还便于后期的其他应用。给定“语料来源”,明示了选词的来源,由于网络词汇变化较快,依据“语料来源”,将来可以快速更新网络词语。

四、词语的批量预处理

本文的分级词表构建尽可能应用了计算机程序来自动处理,以减少专家的人工劳动。面向中小学阅读和学习,分级词表规模有限,要尽量收录有价值的学习型词语;而对于具有能产性、类推性的词语,则不宜收录。基于大规模语料库的频率词表,利用程序进行了预处理,批量删除了一些不宜收入的词语。

(一) 基于《现代汉语词典》和《现代汉语语法信息词典》的“非词”排除

候选词语是基于语料利用自动分词软件切分得到的词语,但可能存在一些非词的分词碎片。还有一些片段,从自然语言处理的角度被当作了“词”,但不是学习意义上的词语。因此,利用《现代汉语词典》第5版(以下简称《现汉》)对词语进行了过滤,即删除了那些不在《现汉》中的词语。但是,人工观察词表发现,《现汉》收词严格(或者是所依据的电子版本不完全、有遗漏),有些常用的词语并没有收录。因此,我们进一步依据北京大学的《现代汉语语法信息词典》(俞士汶 1998,以下简称《语法词典》)进行补充,将虽然没有在《现汉》中出现但是出现在《语法词典》的部分词收入分级词表。

操作中,我们编写程序删除了“同时”不在《现汉》和《语法词典》中的语言片段,部分删除的非词如表 7所示。对于教材童书中的“非词”直接删除;而对于网页语料中的“非词”则添加一个删除标记,等待进一步人工审核,以保留部分新词补充到分级词表中。

表7 基于《现汉》和《语法词典》删除的“非词”示例

(二) 删除专有名词

因分级词表主要收录语文词而不收录地名、人名等专有名词,故我们编写计算机程序,根据词性标记删除了词表中的人名、地名、时间词、数词等。

(三) 删除组合叠加词

组合叠加词数量众多,可以类推产生,也不宜收入分级词表,故我们编写计算机程序,删除了以下类型的组合叠加词。

1) 由趋向动词结尾组成的组合词,趋向动词包括“来、去、上、下、进、出、回、过、起、开、到”,例如“出来” “看到” “想起” “走进” “拿出”等。

2) 删除重叠词,例如“慢慢” “深深” “静静” “轻轻”等。

3) 删除“一月”“二月”“星期一”“星期二”这样的时间数词组合形式。

(四) 删除网页语料的单字词

我们希望通过网页语料来补充一些新出现的、高频使用的词语。新出现的词语绝大多数是两字词或者三字词,因此我们编写程序删除了网页语料中的单字词。

五、网页语料词表的人工审核

按照上文分级词表规模和等级的初步设定,我们根据网页语料的词频表收录了约 15600*10% =1560个词语。将网页词语加入分级词表需要分外小心,仔细斟酌。

经过上述程序的批量预处理后,在网页词频表中未在《现汉》和《语法词典》中出现的语言片段被添加了删除标记,专有名词、组合叠加词、单字词已被删除。而后,课题组聘请了一位汉语词汇语义专家对网页语料中的高频词语进行了仔细筛选,又经本文作者多遍审核,选出约 2000个候选词语加入词表。

由表 8可以看出,拟扩充分级词表的网络词语主要有两种。一种是应用广泛、关涉现代科技的一些词语,例如“手机”“视频” “微信”“下载”等,这些词语可能未在教材童书语料中出现,但应作为新词补充进分级词表。另一种是生活交际中的常用词语,例如“公司” “图片” “英语” “作文”等,这些词语在教材童书语料中出现次数少,但由于在网页语料中高频出现,将降低其难度级别列入分级词表。

表8 高频网络词语示例

六、基于《义务教育常用词表》的调整

本文基于大规模语料库的词频分析来构建分级词表,也充分借鉴、参考了前人的研究成果。苏新春教授历经多年编著的《义务词表》,凝聚了丰富的专家知识,为我们提供了很好的参照和基础。

我们将目前阶段的分级词表候选词与《义务词表》做了对比分析,结果如下:

两个词表共有词:8987,占比:8987/15600=57.6%。

在分级词表但不在《义务词表》中的词:6613,占比6613/15600=42.4%。

在《义务词表》但不在分级词表中的词:5238,其中成语有 2238 个,成语占比 2238/ 5238=42.7%。

(一) 人工审核在分级词表但不在《义务词表》中的词

分级词表的候选集中有6613个词语未出现在《义务词表》中,对这些词语,我们聘请专家进行了仔细的人工审核,删除了以下类型的词语共计2273个:

1) 一些组合词,如“心中”“大树”等;

2) 一些不常用或者表义不清的单字词,如“备”“禀”“昂”等;

3) 一些重叠词,如“安安静静”“匆匆忙忙”等;

4) 一些口语色彩明显的词,如“行不通” “够呛” “吊死”等。

(二) 人工增加部分在《义务词表》但不在分级词表中的成语

在《义务词表》但不在分级词表中的词语有5238个,其中42.7%是成语。《义务词表》利用专家的经验知识收录了一些成语,而大多成语在真实语言运用中并未频繁出现,因此未能进入分级词表的候选词集。为了文化传承和书面语言的学习,我们认为分级词表需要增加收录部分成语。

因此,对于在《义务词表》而不在分级词表中的2238个成语,我们在教材童书语料中进行了检索,共出现有1081个成语。对这1081个成语,专家人工进行了甄别并标记了难度等级,将其中1032个成语补充收录至分级词表。表 9是分级词表中的部分成语及其分级。

表9 增加的部分成语示例

七、基于《语文课程标准》的调整

教育部制定的《义务教育语文课程标准》(2011年版) 列出了“识字、写字教学基本字表”,包含300个汉字,明确指出“这些字应作为第一学段教科书中识字、写字教学的基本内容”。同时列出了“义务教育语文课程常用字表”,包含常用汉字 3500个。汉字是通过词语承载的,中小学生在学习词语的同时也即学习了汉字。根据课程标准,我们进一步对分级词表的候选词做出了调整。

(一) 基本字表的 300 字应被一—二级词表全覆盖

基本字表中的300个汉字按规定应该在第一学段掌握。经程序统计,基本字表中有 18 个汉字在候选词表中没有出现,分别是:

我们对候选词表进行了人工调整,规则如下:1) 在高级别的词表中查找包含上述字首次出现的词语,将其调整到第一学段;2) 级别调整时,优先调整入距离相近的级别,再结合人工经验知识加以判断。表 10列出了根据上述规则所做的一些词语的级别 调整。

表10 根据基本字表的部分词语的级别调整

是否存在“词不越字”的规则呢?即第一学段词表中包含的字不能超越基本字表中的字。我们对候选一二级词表进行了统计,发现这样的字共有 1555 个,全部删除显然不合适,因此这条规则不适用。

(二) 常用字表的3500字应被一—七级词表全覆盖

在义务教育阶段,应该掌握常用字表中的 3500 个字。对应到分级词表,这3500个字应该被一—七级词语全部覆盖。

经程序统计,常用字表一2500字中有74个在候选词表中没有出现,分别是:

常用字表二1000字中有226个在候选词表中没有出现,分别是:

可以看到,未出现的主要是一些笔画繁杂、使用频率极低的字,以及一些姓氏用字(前期处理中删除了专有名词)。另外,由于语料中词频分布的长尾效应,对低频的词语,频率因素的重要性降低。因此,我们检索了包含上述汉字的部分词语,人工调整到分级词表中。

从教材童书语料的词表中,共找到包含上述300个字的词语 289 个,人工增加到六级或七级词表中,少数高频出现的姓氏用字增加到了三、四、五级中。例如下面是新增加的一些词语,其中涵盖了需要学习的常用字:

但教材童书语料的词表中,仍有以下汉字未包含(删除了专有名词):

主要是三类汉字:大写的数字、化学元素名称、人名用字。我们进而人工将大写数字加入了六级词表,将化学元素名称、人名用字加入了七级词表。

八、分级词表的词语分析

经过上述一系列处理,分级词表的构建基本完成。下文将对分级词表的词语进行分析。

(一) 基本数据分析

词表一共收录了14459个词语,各级词语数目如表 11所示。其中,语料来源为网页语料的词语数为1420个,占比9.8%,与最初的设定基本相符。

表11 分级词表中各级词语数目

表12列出了不同音节的词语数目,其中双音节词占比72.61%;四音节词语数占比9.25%,绝大多数为成语;而三音节词占比最低。

表12 不同音节的词语数目

(二) 与《义务教育常用词表》的比较分析

本文所构建的分级词表,与《义务词表》的最大区别是:基于大规模语料库由计算机半自动构建,词语的选择与等级的设定都以语料的客观使用为依据。其优点是构建快速,方便重现,更新便捷;而缺点则是缺少专家人工的精雕细琢。为了更好地理解两表的异同,我们将所构建的分级词表与《义务词表》进行了比较分析。

表 13显示了两个词表在收词数目上的不同。两词表词语规模大体相当,《义务词表》词目数略多于分级词表,两词表共有词为10032个,约占三分之二。

表13 分级词表与《义务词表》收词数目的比较

分级词表的年级分级可以映射到《义务词表》的学段,即一—二级映射第一学段,三—四级为第二学段,五—六级为第三学段,七级(初中)为第四学段。以分级词表为基准,我们考察了两个词表不同学段收词数的差异,如表 14所示。可以看到,一、二学段共有词比例较高,分别为93.9%和83.3%;而随着学段升高,共有词比例逐渐降低,第四学段的共有词比例低于50%。这显示,在基于频率的分级词表中,使用频率越高的词与专家的经验认知更为一致,而频率较低的词与人工经验的判别就存在较大差别。

表14 两词表不同学段的共有词

我们进一步比较了两个词表在不同学段上词语的差异。从表 15可以观察到,不同学段的最大值都在混淆表的对角线上,这显示了两个词表的分级相关性较高。

表15 分级词表与《义务词表》的分级混淆表

(三) 与对外汉语词表的比较分析

汉语作为第二语言的对外汉语教学与汉语作为母语的中小学教学存在差别,但在词汇学习、词汇等级划分上有共通性,都遵循循序渐进、由易到难的基本原则。因此,我们以广泛使用的《汉语水平词汇与汉字等级大纲》(以下简称《汉语水平词汇》)(1992)为基础,比较了分级词表与对外汉语词表的共同性与差异性。

分级词表收录词语14459个,划分为一—七级;《汉语水平词汇》收录词语8822个,划分为甲、乙、丙、丁四级。两个词表总词汇量差别较大,等级划分也不一致,图1展示了分级词表一—四级词语与《汉语水平词汇》甲、乙、丙、丁四级的对应关系。

图1 分级词表一—四级与《汉语水平词汇》甲、乙、丙、丁四级的对应关系

令人惊喜的是,主要基于使用频率制定的分级词表,与专家制定的对外汉语词表存在较好的对应关系。其中,一级词与甲级词很好对应,映射比例为388/562=69%;二级词与乙级词映射比例最高;三级词与乙+丙级词对应;四级词的对应则较为分散。随着词级的升高,分级词表中有更多词语在《汉语水平词汇》中没有被收录。

九、结语

本文基于大规模语料库的统计,采用计算机程序处理与专家人工审核相结合的方式,半自动构建了汉语分级词表。词语的选择与分级主要依据词语的使用频率,有数可依、更新快捷。统计分析显示,我们所构建的分级词表与《义务词表》、对外汉语词表都呈现较大的相关性。本文所构建的分级词表可应用于汉语分级阅读的系统研制、中小学语文教学以及对外汉语词汇教学中。我们将在汉语分级阅读网站(http://www.chinesepku.com/)上发布此数据,供业界与学界免费使用。诚然,相比于专家人工积多年心血构建的词表,本文构建的分级词表还显得比较粗糙,还需不断地完善改进。

猜你喜欢
词表童书学段
二手童书交换会
新东方童书
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
放缓坡度 因势利导 激发潜能——第二学段自主习作教学的有效尝试
AR童书热的冷思考
英文原版童书推荐(0~2岁)
第二学段数学新授课“学导课堂”的教学范式
叙词表与其他词表的互操作标准
如何设计小学语文第一学段的家庭作业
高中各学段史料教学与历史思维能力的培养