王治敏 俞士汶
摘 要 文章利用2005—2009年这5年的《人民日报》和广播电视语料,重点考察了《汉语国际教育用音节汉字词汇等级划分》中的名词在大规模真实语料中的分布,通过设计统计时点连续分布的标准,成功过滤出过时的词汇,同时赋予《等级划分》中的名词以常用度等各种统计特征, 提供词语孰先孰后的证据,最后也提供了大规模语料中教学新词语的备选。文章的研究可为《等级划分》的旧词过滤、新词扩充、词语的等级划分提供新依据。
关键词 教学词表 统计特征 统计时点 教材编写 词汇等级
一、 引言
《汉语水平词汇与汉字等级大纲》(以下简称《词汇大纲》)作为对外汉语教学总体设计、教材编写、课堂教学和成绩测试的主要依据,在学界发挥了重要作用。但由于时代的发展,《词汇大纲》中收取的词汇在今天看来略显过时,为了适应汉语国际化的趋势,2010年国家汉语国际推广领导小组办公室和教育部社会科学司研制了《汉语国际教育用音节汉字词汇等级划分》(以下简称《等级划分》),这是面向全球汉语教学的国际标准。《等级划分》依据30多亿字次的当代大型动态语料库和具有代表性、针对性的词典、词表、字表[1],共收录了11093条词语,从数量和规模上说应该是大数据时代汉语教学词表的代表,但是经过笔者的统计调查,发现《等级划分》中依然保留着一些教学中不常用的词汇。例如:“焦距、几率、经度、陨石、巫婆、阎王、霍乱、惨白、隐身”等,这些词都是《等级划分》的4级词汇,而它们在1999—2003年《人民日报》20个季度节点中的平均频次(总次数除以20)分别为“1.65、4.9、0、1.5、0、0.7、7.85、0、0”次。频率如此之低对留学生来说学习的意义不大,而广泛出现在中国语言生活中的“提出、展开、达到、批准、人才、农民工、条例、消费者”等常用词语却不在词表之中。
如何使《等级划分》保持一种自我更新的能力,使其真正成为一个名副其实的标准是亟待解决的问题。
关于对教学词表的更新,很多学者做过针对《词汇大纲》的专门研究。例如:关于词表内部的调整(张凯1997;姜德梧2004;赵金铭等2003;李红印2005),关于词表与教材超纲词的研究(杨德峰1997;李清华1999;苏新春2006),关于词表字词选择和分级的建议(江新等2006),对外汉语教学用词表的多元化与动态更新(刘长征2008),但还未见到针对《等级划分》的更新研究。
目前《等级划分》只能粗略提供词语的等级。在汉语教学快速发展的同时,迫切需要进行一些基础性研究,迫切需要组织力量研究以下一些问题,其中包括:一年级学生应该掌握多少词语?哪些词语?各个词语在教材中出现时,孰先孰后?复现率为几?递增率为几?(陆俭明1999,2004,2005,2007),而解决词语孰先孰后的可能途径就是要建立词语与大规模语料的关联,通过计量的方式,建立词语常用度客观、真实的标准。因此本文拟通过对《等级划分》与大规模语料的关联,赋予教学常用词语在真实语料中的分布信息,为词语使用孰先孰后提供证据,最终实现《等级划分》的过滤与更新。
二、 统计时点的设计与语料的选择
《等级划分》的标准是将一级常用词根据常用性的差异分为两个档次:第一档次为最常用的词,第二档次为常用的词。筛选的方式是,第一步:用一级900字与5个词表的前1600词进行交集[2],保留那些完全由这900字组成的词。随后,将这5个词表进行比对,分别得出5个表、4个表、3个表共有的词,这些词大多进入第一档次,部分进入第二档次。第二步:用一级900字与5个词表中频度位置在1601—3000的词进行交集,同样保留那些完全由这900字组成的词。随后,将这5个词表进行交集,分别得出5个表、4个表共有的词,这些词少量进入第一档次,部分进入第二档次。(刘英林,马箭飞2010)该方法兼顾了汉字和词汇的关系,但是无法看到同一等级之间不同词语之间的差异,也无法衡量词语的常用程度。
本文赋予《等级划分》中全部词语在历时语料中的出现频次,看这些词语在历时语料中的变化,就可以检验出词表中哪些词语常用,哪些词语不常用。这里要考虑语料的统计时点、语料领域、时间跨度及常用词语的判定标准。
如何设定断点是我们首先需要考虑的问题,如果以年度作为统计时点,几乎所有的词语都会出现,但是如果以天、月、季度作为统计时点,词语之间的差距就会出现,有的词语在每天、每月、每季度、每年连续出现,有的词语只能年度连续出现,无法做到季度、月份、天连续出现。汉语教学的词语一般是人们语言生活中频繁使用的,那么它在历时语料中出现的频次也会很高。笔者曾经做过天、月、季度、年度的对比实验,发现季度节点效果最好。因此本文设定教学词语常用的标准主要看该词在季度节点中是否连续出现,如果连续出现就认为其常用,如果没有连续出现,就认为其不常用。
选择语料方面,笔者综合考虑了书面语和口语两个方面的因素,同时还考虑词语在历时语料中的持续时间。笔者选择了2005—2009年度国家语言资源监测研究中心的《人民日报》作为书面语文本,同时也选择2005—2009年度国家有声媒体分中心的广播电视文本作为口语文本,这一时间的语料恰恰涵盖了《等级划分》选用语料的时间范围。两种语料的规模分别为812,417,024字节和787,218,432字节。虽然2005—2009年的语料是10年前的历时语料,但是我们的研究目标是提取现代汉语教学基础词汇,实现词表过滤,语言教学的基础词汇在任何语料中都是最稳定的集合,所以选择这个时段的语料是合适的。
另外,这两种语料是书面语与口语的代表,体现着当今中国语言生活的变迁,两种语料所包含的常用句型与词汇是外国留学生学习的典范。为了验证《人民日报》提取汉语教学词汇的效果,笔者曾经做过《人民日报》(1999—2003年)的教学词汇提取(王治敏2010),建立了这一时段的教学词语统计词表,并与《2006年中国语言生活状况报告》中发布的1500个教材高频词做了对比,1500个教材高频词由12套教材统计得到,最低频次为33次,覆盖了总语料的77%。教材高频词从语言教学经典教材中获得,是一线教师多年教学经验的集中體现,也是教学词语的典型代表。通过对比,我们发现479条高频名词中有466条词语都包含在统计词表中,占全部词语的97.29%。这足以说明,从《人民日报》提取的教学词语具有很好的覆盖性,虽然它是新闻语料,但基本涵盖了人们的日常生活词汇,因此,选择《人民日报》语料作为实验语料完全可行。
三、 《等级划分》名词等级及旧词的过滤
《等级划分》中名词及兼类名词共计4472条,占词表全部词汇的40.31%。《等级划分》中名词兼类的具体情况如图1所示。
从图1的数据可以看出,非兼类占据绝大多数,共计3963条,占全部名词的88.48%,这3963条名词等级如何?本文对此进行了具体考察,如图2所示。
《等级划分》中包含1级1等、1级2等、1级3等、2级、3级、3级附加等6个等级。其中这6个等级并非均匀分布,1级分三个等级,梯度上升,但是到了1级3等,数量急剧增加,导致1级3等到2级的跨度最大。对于留学生来说,词汇学习是个循序渐进的过程,随着年级的升高,所学习的词汇数量也相应地增加,而非下降的趋势,因此建议在第2级、第3级也设定相应层次,让词汇的学习有梯度地增加。
笔者把6个级别的名词全部投射到五年《人民日报》和广播电视语料的大背景中,其目的就是要检查它们在特定历史时段中的连续分布规律。投射方法具体如下:
首先设置一时间区间T,并将所述时间区间T分成多个时间子区间t1,t2,…,tn,其中,t1=t2=…=tn,2005—2009年度《人民日报》和广播电视语料各包含20个季度,因此选取对应于所述子区间t1,t2,…,t20的语料,利用中国科学院自动化研究所的分词软件对所有的语料切分标注,统计全部词语在所述子区间t1,t2,…,t20对应的所述语料中出现的子次数f1,f2,…,f20。《等级划分》中能够持续出现在两种语料季度节点f1,f2,…,f20的名词分别为3786条、3496条。具体如表1所示:
《等级划分》在两种语料中连续出现的名词比例很高,分别达到了95.53%、88.22%,但是也发现有少量词语未连续出现在两种语料中,广播电视语料中未连续出现的名词有177条,《人民日报》有467条, 两种语料都未连续出现的有131条。这些名词分布在《等级划分》的不同等级中,具体如图3所示。
《等级划分》中无法持续的名词主要分布在2级、3级及3级附加这三个等级中,未连续出现在语料中的标准可以有效甄别每一个词是否持续流行,这也是我们发现历史词汇的重要线索,特别是无法同时出现在两种语料中的名词是我们的研究重点。
笔者调查了10位北京语言大学初、中、高不同阶段的一线汉语教师。让他们对未连续出现在两种语料的131个词语进行逐一排查,具体如表2所示。
从表2过滤出的词语可以看出,有些词语所代表的物品已基本消失。有些词语是很少使用的过时用具及物品,有的词语是难度较高的科技词汇与专业术语,还有的词语是难度较高的宗教词汇。
前文提到《等级划分》在选词的过程中兼顾了900常用字和词语频次的组合,但是这种选词方法存在的问题是,有些由最常用字构成的词已经很少使用,《等级划分》无法将其剔除。例如:“汽水、便条、写字台”等。
过滤出来的未连续出现在语料中的词汇是特别的备选集合,数量少,问题集中,通过一线教师一一甄别,最后可以把不常见的词汇全部过滤出去。
四、 《等级划分》的词汇更新与等级调整
除了过滤历史词汇外,本文还提取了2005—2009年度的《人民日报》和广播电视语料中季度节点持续流行的词语,这些词语是《等级划分》最好的新词备选。按照前文两种语料40个季度节点的统计,笔者发现持续出现在两种语料的名词如表3所示:
两种语料季度统计时点的名词很多,但是通过季度节点连续出现的标准,很多的词语都会被过滤掉,最后得到《人民日报》和广播电视语料共同出现的词语有7639条。虽然有了如此多的备选,但如何衡量这些词语是否常用,如何设定一个统一的标准是需要考虑的问题。
王治敏(2010)设计了一个专门针对语言教学的词汇提取模型,该模型考虑了词语的时间跨度,稳定程度等多方面的因素。模型具体如下:
stdev(f)表示词语出现频次的标准差,其计算公式如式(3)所示。
式(2)、式(3)中,n为词语统计频次f的个数。当stdev(f)=0时,U→∞,若编程实现时,U可取大于已有计算结果最大值的某个值,不过这只是一种极端情况,通常不会出现。本文利用这个模型,对《等级划分》名词进行了计算,赋予了《等级划分》中持续出现在20个季度节点全部名词的常用度属性信息。例如:《等级划分》中收录了“酒店、宾馆、旅馆、旅店”这四个词,其中“酒店”为1级1等,其余为2级词汇。它们的常用度如表4所示:
常用度排序最高的是2级词汇“宾馆”,第二位置是2级词汇“旅馆”,而1级1等(1#1)词汇“酒店”位居第三,排序靠后的原因在于,“酒店”的波动太大,从而导致常用度降低,但其平均频次远远高出其他三个词,为了更深入地观察 “酒店、宾馆、旅馆、旅店”的排序,本文绘制了四个词语的季度变化曲线。如图4所示:
从图4不难看出,虽然“酒店”的变化幅度很大,但是其平均频次最高,应该排序在第一位,原有模型有待改进。本文经过反复试验,找到了提高平均频次f的权重、降低stdev的有效方法。公式如下:
模型修改后,本文对上述四个词进行了重新计算,得到新的常用度。具体如表5所示:
这里“酒店、宾馆、旅馆、旅店”四个词的排序完全符合季度曲线分布。这说明我们的模型完全符合人们的视觉经验。
大规模语料可以提供《等级划分》的新词备选,前文提到两种语料共有7963条词语在季度节点中连续出现,笔者提取了排序前600条的词语,发现下列词语并不在《等级划分》的收词范围内。具体如表6所示:
表6中的詞语广泛出现在我们的语言生活中,其平均频次及常用度居于前列,是很好的教学词汇备选,但是否进入教学词表还须仔细斟酌。未来我们将提取季度节点连续出现的高频词汇,在一线教师中做广泛调研,有选择收入符合一线教师经验的常用词语,更新现有的教学词表。
《等级划分》的词汇被赋予各种统计数据后,可以为词汇等级调整提供很好的帮助,我们以亲属称谓词为例。在《等级划分》中,“爸爸、妈妈、哥哥、姐姐、弟弟、妹妹、叔叔、阿姨”分属不同等级,其中“爸爸、妈妈、哥哥、姐姐”为1级1等,“弟弟、妹妹”为1级2等,“叔叔、阿姨”是2级词汇。笔者提取了这组词的常用度排序,如表7所示:
表7给出了亲属称谓词的序列,其中“妈妈”在语料中平均频次最高,常用度也最高。“爸爸”位居第二,从男女称谓来看,广播电视语料中一般是女性称谓常用度排序位居男性称谓之前。比如:“妈妈、妹妹、阿姨”分别排列在“爸爸、弟弟、叔叔”之前。
从词汇等级来看,《等级划分》中“哥哥、姐姐”标注为1级1等,和“妈妈、爸爸”为同一级别,但是从实际语料来看,“哥哥、姐姐”的平均频次、常用度和1级2等的“弟弟、妹妹”非常接近,和1级1等的“妈妈、爸爸”相距甚远,而且从亲属称谓的语义关系方面来看,“哥哥、姐姐”也和“弟弟、妹妹”一样,同样属于子女,因此,我们可以重新调整“哥哥、姐姐”的词汇等级,把这两个词归并到1级2等较為合适。
再比如,《等级划分》在1级3等中收取了“白色、黑色、黄色、蓝色、绿色”等颜色词,但是没有收入“橙色、紫色”,而且收取的颜色词只是按音序排列,孰先孰后没做区分,本文设计的统计模型完全可以提供颜色词的常用度序列,请见表8。
颜色词的排列顺序分别是“绿色、红色、白色、黑色、黄色、蓝色”,而没有收录的“橙色、紫色”位居最后两位,通过这种方法可以明确地展示出孰先孰后的证据,同时也给出了可以不收“橙色、紫色”的理由。当然,“橙色、紫色”在语言生活中经常出现,连续出现在季度节点中,也可以扩充到《等级划分》中。以往教学词表同类词的收入,需要大量专家人工干预,但是专家人工干预凭借的都是主观经验,本文提供的各种常用度统计信息可以精准地定位同类词汇的常用度,为语言教学教材编写及词汇教学提供直接的经验。
五、 结语
本文基于大规模语料,重点考察了《等级划分》中名词在历时语料中的分布,通过设计季度时点,可成功过滤出未连续出现在2005—2009年度《人民日报》和广播电视语料中的《等级划分》名词,这种方法可以有效发现不用的过时词语。同时,本文还提取了2005—2009年度的《人民日报》和广播电视语料季度节点中持续流行的词语,通过常用度提取模型,对《等级划分》名词进行了计算,赋予《等级划分》中全部名词在20个季度节点中的统计信息及常用属性特征,最后文章重点分析了酒店类、亲属称谓、颜色词等类别词语,通过同义词族群内部特点验证其在《等级划分》中的级别,教学统计词表不仅为解决词语孰先孰后,同义词辨析提供有价值的数据,而且还可为《等级划分》提供大规模语料持续流行的新词备选。
教学词表的过滤与更新从理论上涉及常用词语的科学定义、常用词语与大规模语料的关系、词语的稳定性度量等科学问题,以往学者对于常用词语的定义一般是针对人的语言描述,对于机器而言不仅有定义,还要做到可操作、可执行。本文提出了常用词在空间连续分布的界定方法,将“常用”变成了可量化的定义。同时,常用词语来源于语言生活,来源于语料,常用词语与大规模语料可以互相印证,本文通过《等级划分》在历时语料的分布,意在建立词语与历时语料的关联,发现词语的分布特点。当然,词语的稳定性度量也同样离不开历时语料的支撑,本文通过设计季度节点,可以清楚看到词语的变化曲线,词语的稳定是衡量词语常用的因素之一,常用度提取模型考虑词语稳定性的影响因素,提取效果符合人们的心理经验。
另外,本文提出的常用词语提取方法建立在历时语料之上,该技术不仅适用于不同时段语料的教学基础词汇提取,也适用于历时领域语料的专业词汇提取,其对汉语国际教学词汇大纲和专业领域词汇大纲的编撰具有广泛的应用价值。未来本研究将建立近二十年的历时语料处理集合,研发汉语教学基础词汇大纲,满足汉语国际教育学科发展的现实需求。
附 注
[1]《等级划分》参照的词表包括《现代汉语词典》《汉语语言文字启蒙》《汉语水平词汇与汉字等级大纲》《汉语水平等级标准与语法等级大纲》《高等学校外国留学生汉语语言专业教学大纲》《香港地区普通话教学与测试词表》《汉语教材常用词表与常用字表统计分析报告》《现代汉语常用字表》《普通话水平测试实施纲要》《现代汉语常用字表》。同时也征求了100位海内外专家的意见。(参见《等级划分》代序)
[2]文中5个词表包括广播电视对话词频表,有声媒体词频统计表,多媒体(报纸、电视、网络新闻)词频统计表,中小学新课标语文科词频表,国家语言文字工作委员会平衡语料库词频表,所有词均去除人名、地名和英文字母词。
参考文献
1. 北京语言学院教学研究所.现代汉语频率词典.北京:北京语言学院出版社,1986.
2. 国家汉语水平考试委员会办公室考试中心.汉语水平词汇与汉字等级大纲(修订本).北京:经济科学出版社,2001.
3. 国家汉语国际推广领导小组办公室, 教育部社会科学司.汉语国际教育用音节汉字词汇等级划分.北京:北京语言大学出版社,2010.
4. 国家语言资源监测与研究中心.中国语言生活状况报告(2005)下编.北京:商务印书馆,2006.
5. 国家语言资源监测与研究中心.中国语言生活状况报告(2009)下编.北京:商务印书馆,2010.
6. 姜德梧.关于《汉语水平词汇与汉字等级大纲》的思考.世界汉语教学,2004(1).
7. 江新,赵果,黄慧英等.外国学生汉语字词学习的影响因素——兼论《汉语水平大纲》字词的选择与分级.语言教学与研究,2006(2).
8. 李红印.《汉语水平词汇与汉字等级大纲》收“语”分析.语言文字应用,2005(4).
9. 李清华.《汉语水平词汇与汉字等级大纲》的词汇量问题.语言教学与研究,1999(1).
10. 刘长征.对外汉语教学用词表的多元化与动态更新.语言文字应用,2008(2).
11. 刘英林,马箭飞.研制《音节和汉字词汇等级划分》探寻汉语国际教育新思维.世界汉语教学,2010(1).
12. 陆俭明.关于开展对外汉语教学基础研究之管见.语言文字应用,1999(4).
13. 陆俭明.增强学科意识,发展对外汉语教学.世界汉语教学,2004(1).
14. 陆俭明.对外汉语教学与汉语本体研究的关系.语言文字应用,2005(1).
15. 陆俭明.汉语作为第二语言教学的本体研究和汉语本体研究.世界汉语教学,2007(3).
16. 苏新春.对外汉语词汇大纲与两种教材词汇状况的对比研究.语言文字应用,2006(2).
17. 王治敏.基于时间跨度的汉语教学常用词表统计研究.华文教学与研究,2010(4).
18. 王治敏,杨尔弘.面向汉语教学的常用动词计量研究.语言教学与研究,2012(1).
19. 杨德峰.试论对外汉语教材的规范化.语言教学与研究,1997(3).
20. 赵金铭, 张博,程娟.关于修订《汉语水平词汇等级大纲》的若干意见.世界汉语教学,2003(3).
21. 张凯.汉语构词基本字的统计分析.语言教学与研究,1997(1).
(王治敏 北京语言大学汉语国际教育研究院,汉语国际教育学部 北京 100083)
(俞士汶 北京大学计算语言学教育部重点实验室 北京 100871)
(责任编辑 马 沙)