彭志斌
(四川外语学院研究生部,重庆400031)
基于语料库的“有”的词性标注研究及其对汉语词典编纂的启示
彭志斌
(四川外语学院研究生部,重庆400031)
“有”是现代汉语高频使用的一个词,大中型主流汉语词典将其词性处理为唯动词,这是值得商榷的。以普通汉语语料库为基础,对“有”的用法进行深入调查,发现“有”应是动代助兼类词。在探讨“有”的用法的基础上,对词典编纂提出了点滴建议。
有; 兼类; 语法功能; 语料库; 词典编纂
自1930年《王云五大辞典》的出版开创汉语词典编纂标注词性的先河以来,汉语词性问题历经上个世纪三次大讨论,被推向了汉语词典编纂研究的纵深。尤其是近30年来,国内学者取得了很多词类标注的理论成果[1](P28)和实践成果,即编纂出版了10多部带词类标注的汉语词典[1](P27)。尽管汉语词类研究已经取得了长足进步,但由于汉语缺乏形态标志及形态变化的自身特征,在词类的本质以及词类划分的标准或依据等问题上至今仍然存在争议。其中,作为词类标注重点和难点的兼类词处理问题特别引起了广大学者的关注,如胡名扬[2~4]、郭锐[5~6]、苏宝荣[7]、杨同用[8]、李尔钢[9]、王仁强[1,10~11]等都多次论述到汉语词类兼类问题。尽管目前学界已取得一定成果,但在个别词的处理上有失妥当,主要原因在于判断词类时主要采取了内省的办法而不是使用语料库进行系统研究。鉴于此,本文拟采用基于语料库的研究方法,以汉语常用词“有”的词性处理为例进行研究,为未来词典编撰中兼类词的处理提供新思路。
我们对《现代汉语词典》(2005)、《现代汉语规范词典》(2004)、《应用汉语词典》(2000)、《中华实用词典》(1989)和《新编现代汉语多功能词典》(1988)等5部带有词性标注的词典进行了调查分析,发现现有汉语词典对“有”的释义均设置8个义项,归纳如下:1.表示领有:我有一本《新华字典》。2.表示存在:屋里有5人。3.表示发生或出现:形势有了发展。4.表示达到一定的数量或某种程度:他有他哥哥那么高。5.表示所领有的事物的多或大:有经验。6.泛指,跟“某”的作用相近:有人、有一天。7.用在“人、地方、时候”前,表示一部分:有人性子急,有人性子慢。8.用在某些动词的前面组成套语,表示客气:有请、有劳。对于“有”的释义,5部词典基本一致。对其词性标注情况如下:《现代汉语规范词典》(2004)将第8义标注为助词,其余义项均标注为动词;其他4部词典对8个义项均标注为动词。现在我们的疑问是:“有”的词性是否都是动词?
过去词典编纂时语言材料的搜集、整理和加工完全是靠手工进行的,这种方法费时费力,效率低下,占有材料有限。计算机出现之后,人们利用计算机的强大功能建立了语料库,让语言研究者能够大量、详尽地占有语言材料和使用语言材料,使语言研究得出更可靠的理论结论。“从某种意义上说,语料库的使用,是语言研究的一次革命性的进步。”[12]大量汉语语料库的建立给词典编纂研究者送来了一股春风,国内很多学者借助语料库进行词典编纂的理论研究,取得了可喜成绩[1,10~11,13]。语料库作为自然语言资料的集合,其语料通常反映了某一语言的用法特征及其多样性。正确合理地使用语料库可以为词典编纂提供翔实可靠的依据,从而使所编词典更好地体现出语言的真实性,提高编纂质量,同时也提高词典的编纂效率。
我们就国家语委现代汉语语料库对“有”进行了检索,共获得条目53 556条。“有”是高频使用的词语,数目很大,为了使语料可控,同时考虑其代表性和平衡性,我们随机抽取1 000条,再排除只是作为语素如“拥有”、“有关”中的“有”而存在的条目,通过人工筛选的方式获得了827条“有”的有效索引,有效率为82.7%。
我们根据“有”的8个义项对所有827条合格语料进行分类统计,结果如表1。
表1 “有”的8种意义所占比例情况
为了判断“有”的词性是否都是动词,我们拟采用学术界普遍认可的判断动词的3项常规标准:(1)能否单独作谓语;(2)能否受否定副词“不/或/没(有)”的修饰;(3)能否带“了、着、过”[10]。为讨论方便,下文将“有”的8个义项分别称为“有1”至“有8”。
“有1”到“有5”可以单独做谓语,“有6”至“有8”不能单独作谓语,所有语料的例句也未将其用作谓语。例如:
(1)当然,真要理论起来,写、编、发这些无聊玩意儿的文人都有一个共同理由:因为大家爱看。
(2)闽江上游的南平地区有7个县市,日降雨量超过了100毫米。
(3)哪里有灾情,你们就出现在那里。
(4)你那儿雪有多厚呀?
(5)外表上沉默寡言,他其实很有学问。
(6)当他救出10名群众后,得知有一名要参加高考的女学生还被困在一幢楼上,他立即撑着小船赶去。
(7)现在,有人怀疑和否定党的领导,有人以共产党有缺点错误作为摆脱党的领导的理由,甚至还有个别的人认为资本主义国家没有共产党的领导,不是也实现了现代化吗?
(8)他随即一转身走进窑洞:“主席,有请!”
例(1)至例(5)的“有”在句中均用作谓语,分别表示“拥有”、“存在”、“发生或出现”“达到”和“多或大”的语义。而表示“某”的例(6)、表示“有些”的例(7),以及表示客气的例(8)在句中都未用作谓语。可见,“有6”至“有8”标注为动词是值得商榷的。
语料显示,“有1”到“有5”可以受否定副词“不”和“没(有)”修饰。例如:
(9)可他们有独立的人格,他们可以没有一切,但却不可没有艺术相伴。
(10)他的童年里没有不快乐的时光。
(11)一年来,他们的工作、学习、生活条件没有新的发展。
(12)这个园区耕地面积没有10万亩。
(13)小光气愤地说道:“我是穷人,我没有钱!”
“有6”,即表示“某”之义,在语料中显示可以被“没”修饰,但是,根据我们的观察,此处的“有”却用的是“有2”的“存在”之义。如“我决定北上,没有人为我送行”。这里的“没有人”即“不存在一个人”的意思,而且很显然,“没有人”在该句中也不是谓语动词。语料显示,“有7”、“有8”不能被否定副词“不”和“没(有)”修饰。
为了检验“有”的各个语义是否能带“了、着、过”,我们在国家语委现代汉语语料库中对“有了”、“有着”和“有过”进行了检索。分析语料得出:能带“了、着、过”的例句中的“有”表示的语义是“有1”到“有5”。“有1”到“有4”可以带“了、着、过”,但“有4”(特别是表比较时)的词性问题也有很大的争议,有的学者认为表比较的“有”是介词[14~15]。“有5”可以带“了、着、过”,但此时的“有”的含义却是“有1”的“领有”,并不表示“多或大”的含义。“有5”表示“多或大”只用于一些光杆名词前,这样的情况在语料中所占比例极小,仅为1.93%,而且它的主要功能是作谓语,表示的主要意义是“领有”,建议将其归为“有1”之下,当作“有1”的一个次类来处理。
经过以上分析,我们发现“有”的8个义项并非都是动词,大中型主流汉语词典将其词性处理为唯动词是值得商榷的。“有”的后3义不应标注为动词,那么,“有6”、“有7”和“有8”究竟该标注为什么词性更合理呢?
什么是兼类词?目前主要有两种观点。宽泛一些的观点认为,读音相同、词形相同、意义有联系(不一定相同)的具有两种以上词性的词就是兼类词;严格一点的看法认为,读音相同、词形一致、意义一致的具有两种以上词性的词才是兼类词[9]。根据“意义是否一致”这一区别,郭锐把兼类词区分为异型兼类词和同型兼类词两种,异型兼类词指词义不同的兼类词,同型兼类词指词义相同的兼类词[5~6]。王仁强指出:“只要一个词的表述功能发生转化,就应在词典中确立其义项地位,而不管词义是否发生多大的变化;至于处理成兼类词还是同形词,则是词典编纂策略的问题。”[1](P21)因此,我们认为现代汉语中高频使用的“有”义项较多,尽管不同词义联系很小,也可以当作兼类词来处理。
词性标注以什么为依据呢?是词义还是语法功能?以前很多辞书在判断词性时都主要根据词语意义,然而意义似流沙难以把握,因此问题多多,只有根据词的语法功能才能更可靠地把握词性[1,8,16]。我们不能仅仅随意举出个别用例来判断词性,而是应依靠计算机所建立的语料库,特别是大型的平衡语料库来对词语的用法进行定性定量分析。只有依靠大型的平衡的语料,我们才能更客观可靠地把握词的语法功能,从而判断词性。
我们对“有6”的63条语料进行了详细考察,发现有以下两种用法:1.用在名词前,表示泛指,如:有人;2.用在“一或几+名词”之前,如:有一天,有一年。功能上,一般是用作状语和主语。我们所调查的5部词典,它们都认为“有6”表示“不定指”,与“某”的作用相似。因此,我们可以在此比较一下“有6”与“某”的用法区别。《现代汉语八百词》认为“某”有两种用法:1.用在名词前,指不确定的或不便明确地说出来的人或事物;第一种情况又有三种小类:a)某十名;b)某+甲(乙、丙…);c)某十数量十名,数词限于“一、几”。2.用在姓氏后,指确定的人或自称[17]。可见,“有6”的用法完全包括在作代词的“某”的用法之中,也就是说,“有”修饰“名词”或“一/几+名词”所表示的意义,已经不是动词的意义。这一搭配组合有明显的不定代词的特点,应该承认其语义改变、语义范畴改变、组合上表现出不定代词的语义特点,因此,将其处理为代词为妥。
“有7”在语料中占86条,主要用于“人,地方,时候”前,表示“一部分”。如:
(14)有人在妒火中烧中熬日月,有人于不公平待遇里苦撑持,更有人在“各有各的不幸”生活圈内暗自饮泣,却鲜为人知。
我们认为,“有7”是“有些”作为代词时的缩用,所有“有7”的语料均可用“有些”替换,因此,应该与“有些”的词性标注一致,即代词。
语料显示,“有8”用在仅有的少数几个动词的前面,表示客气,如:有请,有劳。其表义作用和组合特点完全同于助词的意义和组合特点。因此,我们认为《现代汉语规范词典》(2004)将其处理为助词是恰当的。
经过以上基于语料的分析,我们可以得出,目前5部词典把“有”的词性简单处理为“动词”是不妥当的。“有1”到“有3”比较明显地体现为动词。“有4”的词性争论正体现了原型范畴理论的观点,我们不能对其词性做出一刀切的二元分割,语言中普遍存在着这种现象[18]。在词典编纂时,我们可以根据其占多数的词性来确定,根据我们的语料分析,“有4”这个语义不表比较的情况更多,因此处理为动词。再将“有5”合并到“有1”,“有6”、“有7”、“有8”分别处理为代词、代词和助词。中型汉语词典可以这样处理:
有yǒu:❶ 动 拥有、领有:我 ~《现代汉语词典》。|他~朝气。注意:其后接光杆名词表示“拥有很多xx”:他~钱。❷动存在:教室~5个人。❸动出现、发生:形势~了新进展。❹动 达到(某种数量或程度):水~一丈多深。|他~哥哥那么高。❺代某(表泛指):~人这么说。|~一天他来了。❻代有些、一些:~人性子急,~人性子慢。❼助(无意义,用在少数动词前组成套语,表示客气):~劳。|~请。
语言在漫长的进化过程中为了满足表义的需要,必然会发展出各种语法手段,其中最主要的是实词虚化和曲折变化[19]。在缺乏形态变化的现代汉语中,很多词语尤其是高频使用的实词,在组合中常常生出新义,语义范畴发生变化[20~21]。这种情况下对其词性的标注应该怎样处理为好?以语料库为辅助工具,本文以现代汉语常用高频词“有”为例,对这类词的词性处理做了一个尝试性探讨,从我们的研究结果可以得出以下有关词典编纂的启示:第一,一些高频使用的词语常常因为其使用范围广而有许多不同的词义和语法功能,我们不能根据其基本义将其词性简单地处理为单类词,将其处理为兼类词能更真实地反映词语的实际用法。第二,“一个词的意义就是它在语言中的使用。”[22]词汇的意义并不是一成不变、僵化地存在着,随着语言环境的改变,词语的意义和功能都可能改变。因此,词性标注必须以“语法功能”为主。第三,汉语词典编纂必须使用计算机语料库,必须占有充分的语料,这样才能保证释义和词性处理的准确性。
本文以语料库为研究工具,对现代汉语高频使用的“有”的词性进行了深入调查,从而发现目前大中型汉语词典在处理一些常用词的词性时存在简单化的弊病,因此对“有”的词性处理有失允当。我们在利用语料库占有充分的语言材料的基础上,得出现代汉语的“有”是动代助兼类词。本文由此为词典编纂得出启示:词性标注应以语法功能为主要标准,而且词性判断不能单靠内省,而应依靠计算机语料库占有充分的语言材料才能保证词性处理的准确性。
(衷心感谢四川外语学院王仁强教授的指导!)
[1]王仁强.认知视角的汉英词典词类标注实证研究[M].上海:上海译文出版社,2006.
[2]胡名扬.兼类问题[A].胡名扬.词类问题考察[C].北京:北京语言文化大学出版社,1996.
[3]胡名扬.动名兼类的计量考察[A].胡名扬.词类问题考察[C].北京:北京语言文化大学出版社,1996.
[4]胡名扬.信息处理用现代汉语词类的兼类问题[A].胡名扬.词类问题考察续集[C].北京:北京语言大学出版社,2004.
[5]郭锐.语文词典的词性标注问题[J].中国语文,1999,(1):150 ~158.
[6]郭锐.现代汉语词类研究[M].北京:商务印书馆,2002.
[7]苏宝荣.词语兼类的功能显示与深层语义分析[J].语文研究,2005,(1):9 ~12.
[8]杨同用.词的语法功能与语文辞书中兼类词的词性标注[J].汉字文化,2010,(2):23 ~26.
[9]李尔钢.兼类词的义项设置和词性标注问题[J].辞书研究,2006,(3):14 ~24.
[10]王仁强.基于语料库的“生人”用法调查及其对汉语词典编纂的启示[J].四川外语学院学报,2006,(5):94~99.
[11]王仁强.语法隐喻与汉语词典自指义项的设立——一项基于语料库的研究[J].外国语文,2009,(2):100~108.
[12]Huston Susan.应用语言学中的语料库[M].冯志伟,译.北京:世界图书出版社,2006.D12.
[13]刘红蕾.基于语料库的双语词典编纂中的词性标注方法[J].华北工学院学报(社科版),2002,(3):63~65.
[14]宋玉柱.介词“有”应该肯定[J].汉语学习,1987,(2):20~21.
[15]徐志敏.论介词“有”[J].殷都学刊,2000,(1):102~105.
[16]王仁强.现代汉语词类体系效度研究[J].外语教学与研究,2010,42(5):380 ~386.
[17]吕叔湘.现代汉语八百词[M].北京:商务印书馆,1980/1998.390 ~391.
[18]Taylor J R.Linguistic Categorization-Prototypes in Linguistic Theory[M].Oxford:OUP,1989/1995.
[19]袁眉.语言起源研究综述[J].重庆交通大学学报(社会科学版),2009,9(5):96 ~100.
[20]符淮青.组合中语素和词语义范畴的变化[J].江苏大学学报,2007,(1):70 ~74.
[21]符淮青.词在组合中语义范畴的变化和词性标注[J].辞书研究,2010,(5):1 ~7.
[22]Wittgenstein L.Philosophical Investigations[M].Anscombe G E M(Trans).Basil Blackwell Ltd,1953/1958.
A Corpus-based Study of the Parts of Speech of YOU and Its Inspirations on Dictionary Compiling
PENG Zhi-bin
(Graduate School,Sichuan International Studies University,Chongqing 400031,China)
The parts of speech of the modern Chinese word“you”(to have),which is very widely used in modern Chinese,are regarded as verbs only by many main Chinese dictionaries,which is indefensible.Based on the corpus,a thorough research is done on its usage and there forms a conclusion that“you”can be verbs,pronouns and auxiliaries.Furthermore,some constructive suggestions are also presented for dictionary compiling.
“you”;concurrence;grammatical functions;corpus;dictionary compiling
H314.1
A
1674-0297(2011)04-0132-04
2011-04-11
彭志斌(1984-),男,四川营山人,四川外语学院硕士研究生,主要从事认知语言学、语言哲学研究。
(责任编辑:张 璠)