“中文助教TM”的语料难度测量问题和改进建议*

2010-10-14 07:35仇鑫奕
中国教育信息化 2010年23期
关键词:马小跳助教分词

仇鑫奕

(上海外国语大学 国际文化交流学院,上海200083)

“中文助教TM”的语料难度测量问题和改进建议*

仇鑫奕

(上海外国语大学 国际文化交流学院,上海200083)

“中文助教TM”是一个专门针对对外汉语教材编写需要和日常备课需要而开发设计的现代化工具软件。本文就“中文助教TM”在语料难度测量方面存在的问题提出意见并就改进这一软件提出建议。

中文助教TM;词汇等级;语料难度

语料难度测量是对外汉语教材编写和教学辅助语料筛选过程中的必要环节。语料难度过大,会使学生的兴趣骤减。因此把握好语料的难度才能保证语料的有效性。另外,标明阅读难度等级的语料也更有利于开展个性化教学和自主学习。

一般来说,文本难易度与以下四方面的因素有关:语言的难度(词汇语法的难度);概念的清晰度、抽象度、密度和常见度;图文特征(文章的字符、行距、页面格式、插图、篇章组织);读者理解语料所需知识图式。其中,语言难度尤其是词汇难度是文本难易度测量的主要指标。

表1 《汉语水平等级标准》中的阅读等级数量界定

一、对外汉语语料词汇难度测量尺度和操作程序

1.对外汉语语料词汇难度测量尺度

(1)《汉语水平词汇与汉字等级大纲》多年来一直是汉语水平考试的主要命题依据,也是对外汉语教学总体设计、教材编写、课堂教学和教学测试的重要依据。《HSK考试大纲》规定:HSK基础水平的学生大体上应当掌握甲级常用词1022个和部分乙级常用词,初等水平的学生大体上应当掌握甲、乙两级常用词3051个;中等水平的学生大体上应当掌握甲、乙、丙三级常用词5253个;高等水平的学生大体上应当掌握甲、乙、丙、丁四级常用词8822个。因此,可以之为依据,标注语料的词汇理解难度。

(2)《汉语水平等级标准》(1996)作为一种规范性的等级标准和水平大纲,过去一直是对外汉语教学总体设计、教材编写、课堂教学、课程测试以及中国国家级汉语水平考试(HSK)命题的主要依据。其中关于阅读理解的等级量化标准,对于把握文本语料的难度等级具有重要参考价值,如表1所示。

从中不难发现,难度适中的阅读文本,必须严格限制生词的比例。如果有很多词汇超出了学生所应掌握的词汇等级的范围,或者纯粹属于超纲词,那么将意味着语料难度超标。

2.对外汉语语料词汇难度测量程序

对外汉语教学语料的词汇难度测量步骤具体包括:

(1)计算机(比如采用“中文助教TM”)统计文本部分的汉语水平词汇(汉字)等级;

(2)根据统计结果,对超纲词进行二次统计——统计构词语素的等级(汉字等级);

(3)根据词的常用度、词义的透明度、构词语素的等级(汉字的所属等级),确定此超纲词的理解难度等级。

二、“中文助教TM”用于语料难度测量存在的问题

“中文助教TM(Chinese TATM)”是储诚志博士在美国针对对外汉语教师编写教材和日常备课的实际需要开发设计的一个现代化工具软件,由美国硅谷语言技术有限责任公司 (Silicon Valley Language Technologies,LLC)制作,北京语言大学出版社出版发行。利用“中文助教TM”不仅可以迅速完成原本费时费力而且容易出错的做生词表、注音、翻译词语、标注词性等工作,还可以轻松实现对教材中字词的分布控制、纵向连贯和横向比较,因此这套软件自发行以来获得了海内外对外汉语教学工作者的一致赞誉。

“中文助教TM”有一项功能是评估教材难度。实现这一功能的主要途径是,用“中文助教TM”标注文本词汇的HSK等级。然而笔者在将“中文助教TM”用于语料难度测评时,却发现存在以下两方面问题。

1.分词错误导致词汇等级标注失误

“中文助教TM”的使用说明中专门有一节谈到“分词校对”,认为“校对分词的方法很简单”,用户只要在认为该合起来的地方取消空格,该分的地方加空格分开就行了,并针对“该合但被分开了的词”介绍了补充分词底表的办法。笔者在使用中发现,这些“该合但被分开了的词”主要是些专有名称,如“马天笑”、“马小跳”。由于测算语料难度时,专有名词是被排除在外的,因此,“该合但被分开了的词”对文章阅读难度影响不大。相反,倒是“该分但被合起来了的词”对文章阅读难度测量形成了很大干扰。单从统计结果来看,这是一些超纲词语。然而,就在这些超纲词语中实际上却包含着大量非超纲词,其中大多数为甲级词和乙级词。因此,将“中文助教TM”用于语料难度测评时,总是需要再花费较多时间查词典逐一确认字符串的身份,人工分词校对,在此基础上再进行二次统计。

下文是笔者从《淘气包马小跳 贪玩老爸》之《帮儿子写作业被罚写一百遍》中随机抽取的两则语料。每一则长度都限制在200字以内。

语料 1(147 字):

马天笑先生从小玩到大,现在更好玩了。做了玩具厂的厂长,工厂里到处是玩具,各种各样的玩具,随时随地,随便他玩。

马天笑先生白天在厂里玩,回到家里就想跟他儿子玩,但马小跳不跟他玩,因为他没时间玩。

马小跳每天放学回家,没时间踢足球,没时间看动画片,没时间喂金鱼,放下书包就做作业。做呀做呀,总也做不完。

用“中文助教TM”统计全部词汇等级,出现了“每天”、“玩具厂”、“好玩”、“家里”、“回到”、“动画片”、“各种各样”、“随时随地”8个超纲词语,如图1所示。

但事实上真正需要二次统计的超纲词只有 “厂”、“动画片”、“各种各样”、“随时随地”。其余的皆为一般词组,其中所包含的词汇之所以等级失注,完全是由于分词错误造成的。这些“该分但被合起来了的词”,增加了超纲词语的数量,如不进行二次统计,就会使语料难度测评结果失实。例如:

每天 {每[代词](甲) 天[名词](甲)}

玩具厂 {玩具[名词](丁) 厂[名词](超纲)}

好玩 {好[动词](乙) 玩[动词](甲)}

家里 {家[名词](甲) 里[名词](甲)}

回到 {回[动词](甲) 到[动词](甲)}

语料 2(200 字):

第二天下午放学的时候,语文老师把马小跳叫到办公室去,翻开他的作业本:“昨天抄写的生字,你写错了一个字,拿去重写一百遍。”

秦老师教学经验丰富,她最好的经验,便是学生写错一个字,让学生重写一百遍。

“你怎么会把‘认真’的‘真’字写错?”语文老师用手指点着马小跳的脑门儿,一副恨铁不成钢的样子,“我在课堂上一再强调,‘真’字里面是三横,千万不要写成两横,可是你还是写成两横了。马小跳,你的耳朵长到哪里去了?”

用“中文助教TM”统计词汇等级,出现了“二天”、“作业本”、“重写”、“耳朵长”、“生字”、“恨铁不成钢”6 个超纲词。如图2、3、4所示。

事实上真正需要二次统计的超纲词只有 “恨铁不成钢”和“生字”。其余的4个皆非超纲词,而是由于分词错误造成的字符串,其中包含着一般词汇。例如:

二天 {二[数词](甲) 天[名词](甲)}

作业本 {作业[名词](甲) 本[名词](甲)}

重写 {重 [副词](乙) 写[动词](甲)}

耳朵长 {耳朵[名词](甲) 长[动词](甲)}

因此,在将“中文助教TM”用于语料的词汇难度测评时,必须在文本自动分词的基础上先人工分词校对。当然,逐一查词典进行校对,是一件费时费力的事;如果不查词典,仅凭经验作校对,则容易出错。

2.词汇等级标注的备选项多、跨度大,人工筛选任务重

从词汇等级标注的角度来看,人工分词校对同时也是对上下文语境中词汇义项的进一步明确,因而有助于确定词汇等级。但用“中文助教TM”对人工分词校对过的语料进行词汇等级标注后,却仍然需要人工查对《汉语水平词汇与汉字等级大纲》确定词汇的真正等级。图5是用“中文助教TM”在人工分词的基础上对第二则语料的全部用词按HSK等级排序,得到的统计结果,从中不难发现,“好”“重”“长”等11个词每一个都对应着多个词汇等级,至于“在此则语料”中应对的是哪一个等级,则不可得而知之,需要人工对照《汉语水平词汇与汉字等级大纲》来确定。尤其是序号1~3和8~11的这7个词,等级跨度很大,对确定语料等级影响严重。

3.多音词注音错误,用户不得不对词汇等级进行人工比对

多音词“好”、“重”、“长”在“马天笑先生从小玩到大,现在更好玩了。”“昨天抄写的生字,你写错了一个字,拿去重写一百遍。”“马小跳,你的耳朵长到哪里去了?”中有确定的读音。在人们的心理词典中,多音词的音和义也是相互联系的。但“中文助教TM”给多音词的注音却只有一个,即使是人工分词校对之后,所标注的拼音也还是老样子,如上图中第2个词和第9个词的注音。统计词汇等级时,用户看到错误的注音会怀疑词汇等级标注失误,只得费时费力再查阅《汉语水平词汇与汉字等级大纲》对词汇等级进行人工比对。而事实上多音词的不同读音,的确对应不同的词性和词汇等级。

表2 多音词的不同读音对应不同的词性和词汇等级

三、关于改进“中文助教TM”的建议

上文只是从对外汉语教师的实际需要出发,提出使用“中文助教TM”进行语料难度测评时发现的问题。希望这一多功能、高效、实用的教学软件经过信息技术专家的改进,能够为用户提供更加便捷的服务。在此,笔者想为有志于改进“中文助教TM”的专家们推荐用于分词和词汇等级标注的两部词典。

1.《现代汉语词典》

尽管我们不知道“中文助教TM”采用的是什么分词方法,但从分词结果来看,“中文助教TM”没有采用基于词典的分词方法,或者更确切地说,没有以新版《现代汉语词典》为依据,建立机器可读词典,进行分词匹配和多音字词的语音匹配。否则,上文所说的“作业本”“耳朵长”“重写”“每天”“回到”“家里”“玩具厂”这样的字符串,就不会成为分词系统输出的结果了。

我们推荐《现代汉语词典》的理由是,对外汉语教学语料主要产自国内,语言难度不大,词汇方面以规范的现代汉语常用词为主;句法简单典范,严格遵守现代汉语基本语法;话题多为常见的生活内容;其中很多语料在生成和改写过程中都要参照《现代汉语词典》。因此,从词目的选择、词条的数量、词语搭配的典型性、分词词表与待切分的中文文本中词汇的匹配关系来看,《现代汉语词典》很适合作为对外汉语教学语料的分词依据,成为机器可读词典的核心。

事实上,无论哪一种分词系统都不可能完全依赖某一种分词方法,都要综合不同的算法。建议在改进“中文助教TM”的分词方法时充分考虑《现代汉语词典》对建立分词词表的重要意义。

2.《汉语8000词词典》

《汉语水平词汇等级大纲》是词汇等级标注的依据。但由于《汉语水平词汇等级大纲》缺乏对多义词不同义项的等级标注,而有些自由语素具有多种义项,不同义项的常用度差异显著,不可一概而论,所以笔者在此建议以《汉语8000词词典》作为词汇等级标注的基本依据。

《汉语8000词词典》是北京语言大学汉语水平考试中心根据《汉语水平词汇与汉字等级大纲》编写的。收入了《汉语水平词汇与汉字等级大纲》中的所有词汇,并在征求有关专家的意见的基础上,经过认真分析归纳,将8000词中多义词的众多义项亦均划分等级,此外还对词性进行了标注、补充和修正。所以,词汇理解难度检测实际上应主要以《汉语8000词词典》和《汉语水平汉字等级大纲》为依据,建立机器可读词(字)典,进行词汇、语素的等级匹配。

[1]刘英林.关于“汉语水平等级标准”的几个问题[R],汉语水平等级标准和语法等级大纲[S],北京:高等教育出版社,1996:5-6.

[2]刘英林,宋绍周.论汉语教学字词的统计与分级(代序)[R],汉语水平词汇与汉字等级大纲[S],北京:北京语言学院出版社,1992:1-22.

(编辑:金冉)

G434

A

1673-8454(2010)23-0069-04

*本文是上海外国语大学学科建设规划项目“外国人学汉语需要的多媒体语料库”(项目编号:XK00007CXY)的阶段性研究成果。

猜你喜欢
马小跳助教分词
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
A study on the teaching practice of vocational English teaching connected with the working processes
淘气包马小跳
淘气包马小跳
淘气包马小跳
聚焦现在完成进行时