基于统计的《HSK词汇等级大纲》动名兼类词标注研究*

2020-08-01 02:42徐艳华朱诗瑶
关键词:词类大纲语法

徐艳华, 朱诗瑶

(鲁东大学 文学院,山东 烟台 264025)

一、引 言

《汉语水平词汇与汉字等级大纲》(以下简称《大纲》)是“对外汉语教学总体设计、教材编写、课堂教学和教学测试的重要依据。本大纲不同于一般的教学大纲,而是一种规范性的水平大纲。”(1)国家汉语水平考试委员会办公室考试中心.汉语水平词汇与汉字等级大纲[M].北京:经济科学出版社,2001:1.在词性标注方面,它能够结合对外汉语教学各方面的实际需要,较好地处理科学性与实用性的关系,但“由于汉语词类的复杂性,以及学术界对词类划分的意见又有很大分歧,”(2)国家汉语水平考试委员会办公室考试中心.汉语水平词汇与汉字等级大纲[M].北京:经济科学出版社,2001:7~8.《大纲》中的词性标注问题一直倍受研究者关注。李英把《大纲》中的词性标注问题归纳为3个方面:“词条定性不准、兼类不当、离合词缺少标注。”(3)李英.关于《汉语水平词汇与汉字等级大纲》的几个问题[J].中山大学学报论丛,1997,(4).赵金铭等从《大纲》所依据的7个动态性词频统计词典、词表和字表存在的局限性入手,指出《大纲》在兼类词标注方面存在“兼类词的某一词性失注或多注、兼类词的词性排序失当”(4)赵金铭,张博,程娟.关于修订《(汉语水平)词汇等级大纲》的若干意见[J].世界汉语教学,2003,(3).等问题。齐珍珍以自建的教材语料库为基础,对新旧大纲中词性标注变化的兼类词进行词性频率统计,结果表明,“由动名兼类变为名动兼类、动形兼类变为形动兼类的大部分词词性频率与大纲标注相符,由名形兼类变为形名兼类的大部分词词性频率与大纲标注不符。”(5)齐珍珍.基于语料库的《HSK词汇大纲》兼类词研究[D].山东大学硕士论文,2009.尹春梅“采用词类判定标准和词典验证双重方法”(6)尹春梅.《HSK词汇大纲》词的兼类问题通考[D].新疆师范大学硕士论文,2007.,对单、双音节兼类词进行逐一考察,找出《大纲》中兼类词所标词性不合理的词。孙博以词的主要分布和语法功能为划分依据,参考词类范畴与家族相似性理论,对《大纲》中的甲级词汇词性标注进行考察,指出“《大纲》甲级词汇有 12 组 14 个词性误标。有 6 组 6 个兼类词词性误标。有 26 个词性标注不完整的地方。”(7)孙博.《汉语水平词汇等级大纲》甲级词汇词性标注研究[D].华中科技大学硕士论文,2011.

纵观上述研究成果,当前研究存在的主要问题是:(1)举例性研究多,定量分析研究少;(2)兼类情况统计多,兼类词内部的词性频率统计少,偶有个别研究涉及,但存在自建语料库规模小、语料来源较为单一,且仅考察新旧大纲标注变化词,覆盖面不够广等问题;(3)缺乏系统性考察,尤其对《大纲》中所有动名兼类词全面考察的成果还不多见。

鉴于此,文章以语料库为基础,以短语结构语法为依据,对兼类词不同词性的使用频率进行统计,参照统计结果对《大纲》中的302个动名兼类词进行验证,发现《大纲》在动名兼类标注方面存在的问题,以期为《大纲》的修订以及汉语学习词典的编纂提供参考。

二、关于动名兼类词的判定标准

汉语词类划分的标准是“句法功能特征,或者说分布特征,都指的是全部功能特征,全部分布特征的总和。但是这就缺乏可操作性。因此语法学家在划分词类时采用的是典型的句法功能特征或分布特征。典型的句法功能特征或分布特征应该包括句子成分功能和短语组合功能……一般来看,句子成分功能对某个词类来说容易具有普遍性,但缺乏排他性,而短语组合功能,包括所谓鉴定词以及一些近似词尾的助词,由于是有意选定的,大多具有较好的排他性,但是又缺乏普遍性。因此,应该既考虑句子成分功能,又考虑短语组合功能,把两者有机地结合起来。”(8)胡明杨.词类问题考察[M].北京:北京语言学院出版社,1996:2~4.

(一)名词、动词句子成分功能特征

名词“经常放在动词前后分别作主语和定语,多数能做定语和带定语,一般不能做补语。”(9)黄伯荣,廖旭东.现汉汉语(增订六版下册)[M].北京: 高等教育出版社,2017:9.动词“多数能做动语带宾语,能做谓语或谓语中心。”(10)黄伯荣,廖旭东.现汉汉语(增订六版下册)[M].北京: 高等教育出版社,2017:10.大部分《现代汉语》教材列的都是名词、动词的典型语法功能,对内不具有普遍性(如“方面”既不能作主语,也不能作宾语),对外不具有排他性(如有些学者认为“动词也能作主语”(11)莫彭龄,单青.三大类实词句法功能的统计分析[J].南京师大学报(社会科学版).1985.)。

随着语料库规模的不断扩大、语料检索技术的不断提高,过去认为词的全部分布特征难以统计的问题迎刃而解。为了客观地反映名词、动词的语法功能分布,避免人为地夸大两类词语法功能的复杂度,我们对加不加“的”作定语、加不加“地”作状语、加不加“得”作补语进行了区分,以语料库为基础,以朱德熙的“词组本位”语法体系为理论依据,以9种基本结构类型的14种句法成分为分析依据(12)徐艳华.面向自动句法分析的名词再分类研究[J].现代语文(语言研究版).2013,(3).,从语料库中为每个词随机抽取100个例句进行分析,最终完成了对2738个名词、2952个动词的语法功能分布统计,结果如图1:

图1 名词、动词语法功能对比图

从图1可以发现,除了述语也就是动词带宾语这一语法功能是动词特有的,其他语法功能动词、名词都有,只是比例有所不同。有些学者把在主语位置的动词看成动词具有了名词的用法,从这个统计结果看,有26.86%的动词具有作主语的功能,所以不能因为动词在主语的位置上就把它看成具有名词的功能。该统计结果只是对两类词全部语法的分布特征进行了考察,对判断具体语境中某个词究竟是动词还是名词只起参考作用,对于动词、名词兼类的判定标准,还必须考虑词的组合功能。

(二)动名兼类词判定的组合功能特点

杨同用认为,“划分词类应主要根据语法功能,词义不能作为划分词类的主要标准。因而看一个词是否兼类也只能根据它的用法,看它所出现的语言环境(13)杨同用.从语法搭配看动名兼类的复杂性——兼谈语文词典的词性标注[J].辞书研究,2008,(2).。”关于动名兼类词判断标准,学界一直有争议,意见难以统一。

胡明扬归纳了3项标准来确定动名兼类: (1)能直接受名量词或前置动量词修饰;(2)能直接作“有”的宾语;(3)能直接受名词的修饰。如果按至少符合两项标准才算是动名兼类词统计,兼类词占12.91%,如果放宽标准,只要符合3项标准中的任何一项标准都算动名兼类词,那动名兼类词占19.33%。(14)胡明杨.词类问题考察[M].北京:北京语言学院出版社,1996:262~264.

郭锐找出确定动词兼有名词的两条析取性标准:(1)可以受名词直接修饰;(2)可以作准谓宾动词的宾语。(15)郭锐.现代汉语词类研究[M].北京:商务印书馆,2002:161.

钟梫也确定了3条合取性标准,即:(1)可受名量词限定;(2)可受一般形容词修饰;(3)可受名词修饰。(16)钟梫.汉语词典标注词性问题[J].辞书研究,1990,(2).

对于这3种观点的局限性,杨同用(17)杨同用.从语法搭配看动名兼类的复杂性——兼谈语文词典的词性标注[J].辞书研究,2008,(2).从语法搭配的角度进行了全面分析,在此不再赘述,但根据“能否直接受名词修饰、能否受名量词修饰”这两项标准来判定动名兼类学界基本达成共识,我们在分析名词、动词的语法功能的过程中也对这两项标准进行了验证,结果表明这两条标准是行得通的,也是本研究在验证《大纲》中动名兼类标注情况的参考标准。

对于“能否作准谓宾动词的宾语”以及陆丙甫先生提出的“能够作‘进行’的宾语的动词兼有名词性”(18)陆丙甫.动词名词兼类问题——也谈汉语词典标注词性[J].辞书研究,1981,(1).的标准本文并不认同,原因有三。(1)有些动词能够充当“进行”等准谓宾动词的宾语,但不具备名词的语法功能,不应看作动名兼类,如“进行收割、进行伪造、进行增删、进行效仿、进行搜寻、加以挖掘、加以解决”等,且能做准谓宾动词宾语的动词数量较多,吕叔湘指出,“双音节动词都可以放在‘进行’或‘予以’后头做宾语,不能因此就变成名词。”(19)吕叔湘.汉语语法分析问题[M].北京:商务印书馆,1979:46.如果都处理为兼类,不符合“兼类的词只能是少数”(20)朱德熙.语法讲义[M].北京:商务印书馆,1982:39.的原则。(2)关于动词出现在准谓宾动词后不能受副词修饰,如“进行快速收割”,朱德熙指出,“一个词类的语法性质体现在隶属于这个词类的每一个概括词的身上,但当这个词进入句子以后,它不可能把全部的语法性质都实现出来。”(21)朱德熙,盧甲文,马真.关于动词形容词“名物化”的问题[J].北京大学学报(人文科学),1961,(4).故不能因为充当准谓宾动词宾语后不能受状语的修饰就认为其丧失了动词性,从而处理为动名兼类里的名词。(3)名词一般不能充当准谓宾动词的宾语,只有少数表示动作义的名词,如“进行友谊赛”等可以进入该格式,但这也恰恰说明准谓宾动词的宾语通常具有较强的动作性,处理为动词更加合适。

三、从兼类词词性分布概率看《大纲》中动名兼类词的验证

计算语言学中有一个术语Baseline,译为“底线”,意思是进行某种处理时至少要达到的标准。有人做过实验,英语的词性标注采用最简单的办法,兼类词一律选择最高频的词性,正确率竟然可达90%以上,于是90%就可作为英语词性标注的底线。但是,要得到这个底线,就必须手工标注大量的真实文本,并统计出每个词的最高频词性是什么。这种办法可谓是“傻瓜算法”,原因有二:一是说它决策时的简单;二是说决策前手工劳动的艰辛。但这种笨功夫是很值得的,例如,在得出这个“底线”之前,Brown语料库的词性标注正确率不到80%。鉴于这种思想,我们以“国家语委现代汉语平衡语料库”“北京语言大学BCC语料库”为基础,对《大纲》中标注后动名兼类词的词性分布概率进行统计,并将计量统计结果和判定兼类词的析取性标准相结合,对《大纲》中标注的动名兼类词进行穷尽性考察。结果表明《大纲》中的动名兼类词标注主要存在以下3个的问题。

(一)兼类词词性排序失当

《大纲》中的兼类词,首注词性是最基本或最常用的词性,动名兼类就是动词用法频率高于名词,名动兼类是名词用法频率高于动词。本文中的动名兼类包括这两种情况。

1.动名应为名动的兼类词

通过比对动名兼类词的词性分布概率,我们发现《大纲》中有38个动名兼类词实为名动兼类词,具体概率分布如表1:

表1 动名应为名动的兼类词及其词性分布概率

2.名动应为动名的兼类词

名动应为动名的兼类词甲级词和乙级词里没有,丙级词里有1个,丁级词里有2个,具体概率分布如表2:

表2 名动应为名动的兼类词及其词性分布概率

(二)动名兼类词误判

《大纲》中有96个标注为动名兼类的词实际上只有动词一种用法,2个标注为动名兼类的词只有名词一种用法;名动兼类中,“怨”和“春耕”只有动词用法。具体结果见表3:

表3 动名兼类实为非兼类的词

(三)动名兼类所兼词性类型标注错误

这种类型主要包括3种情况:一是将其他类型的兼类词标为动名兼类词;二是将同形词标注为兼类词;三是将语素义当作独立运用的义项标注词性。具体分析结果如表4:

表4 所兼词性类型标注错误的词

四、《HSK词汇大纲》中兼类词标注错误的原因

《大纲》作为一种规范性水平大纲,编者们进行了反复斟酌和推敲,在词性标注方面做了大量扎实的工作,但仍然存在一些还不尽如人意的地方。究其原因,主要有以下几个方面。

1.《大纲》是2001年出版的,编制时所依赖的词典、语料都是上世纪八九十年代的,而词汇是语言三要素中随社会发展变化最快的,在随社会发展变化过程中,有些词有了新的用法,而有些词的用法不常用甚至消失了,所以用现在的语料分析《大纲》中的兼类词,就会发现其标注的不足。

2.混淆了兼类词和同音同形词,也就是没有注意词的同一性问题。《大纲》在处理跨级兼类词时通常在不同级别下分立词条,将兼类词处理为同音同形词。兼类词一定是某个词经常具有两类或几类词的语法功能,词义之间有联系。

3.混淆了语素义和词义,将语素义等同于词义标注词性,使兼类词标注的多个义项中出现不成词的语素义。

五、结 语

《大纲》作为一种规范性大纲,兼类词词性标注原则应不同于一般词典,一般词典的词性标注大都遵循历史原则,按照词义发展的先后顺序编排义项和标注词性,而《大纲》应遵循频度原则,应对词的词性使用频度进行统计,以此为据编排词性顺序或者确定是否为兼类。文章首次采用计量统计和判定标准相结合的方法,对《大纲》中的302个动名、名动兼类词的词性标注进行验证,结果表明该研究方法对保证《大纲》词性标注的科学性有很大帮助,研究结果对《大纲》的进一步修订以及汉语学习词典的编纂都有一定的参考价值。但论文只研究了大纲中标注为动名、名动兼类的词,对没有标注但实际有可能是动名兼类的词缺少考察,在未来的研究中,除了要考察这一类兼类词外,还可以对大纲中其他所有类型的兼类词进行考察,例如动形兼类词、名形兼类词的考察等。

猜你喜欢
词类大纲语法
50个重要的知识点 一份“学习大纲”帮您梳理党的二十大报告
用词类活用法扩充词汇量
跟踪导练(二)4
从成语中学习词类活用
Book 5 Unit 1~Unit 3语法巩固练习
紧贴实战落实《大纲》要求推进航空体育训练创新发展
从唐诗的对偶看汉语的词类和语法
漫谈高考考点对词类及句子成分的隐性考查
人民军队第一部政治工作大纲
我军最早的政治工作大纲——党代表工作大纲