李仕春
(西南大学 文学院,重庆 400715)
基于语料库的现代汉语“黄”字义项分布研究*
李仕春
(西南大学 文学院,重庆 400715)
《现代汉语词典》以往版本中常用词的释义基本依靠语感通过做卡片的方式编纂,每个词占有的语料非常有限,因此多数常用词义项的划分比较粗疏、存在义项漏收的情况。相对于过去靠人工搜集语料,用语料库技术搜集语料的优势在于可以在极短的时间内搜集到几百万字的语料,这在词典学史上具有里程碑式的、划时代的方法论意义。文章运用语料库技术的方法,以个案研究的形式对“黄”字在现代汉语中的义项分布情况进行了描写,认为按照《现代汉语词典》的释义原则,《现代汉语词典》(第6版)中“黄”字的义项漏收了7个!由此可见,把语料库技术和词典编纂结合起来,丰富并补充常用词的义项是一项刻不容缓的工作。
语料库;语料;方法;新义项
语言学作为科学的最基本信条之一就是语言研究过程具有可操作性、研究结果具有可验证性。为了客观地反映“黄”字在现代汉语中的义项分布情况,本文首先设计了运用语料库技术的方法研究现代汉语中“黄”字义项分布的一系列操作程序,继而在《现代汉语词典》第6版(本文简称《现汉》)对“黄”字释义的基础上,得出了“黄”字在现代汉语中的义项分布情况,我们相信如果其他学者按照本文的操作程序也会得出类似的结论。
截止2016年1月18日,北京大学中国语言学研究中心研制的CCL语料库的语料规模已达783,463,175字,该语料库首先分为现代汉语语料库(581,794,456字)和古代汉语语料库(201,668,719字)。一方面,北大CCL现代汉语语料库共涵盖18种不同语体的语料;另一方面,从时间上来看,该语料库涵盖了从20世纪初鲁迅、茅盾、老舍的文学作品到当代的人民日报、百家讲坛等语料,跨越了整个20世纪。因此,我们在下载预料时首先要注意保证所取语料在量上具有充足性,*根据我们研究,对于常用词来说,要保证所抽取语料在量上的充足性最适宜的条数就是30000条共计160多万字,如果低于这个数字常用词的新义项则不宜发现,如果高于这个数字就会做一些无用功。同时还要保证所取语料的均衡性,这就要求我们在检索并下载“黄”字条目的每类语料后,还要抽取不同时间段的同类语料,最终建立“黄”字语料库。我们所建“黄”字语料库的具体语料情况如下:
当代|口语“黄”有456条语料.
当代|史传“黄”有1046条语料。
当代|应用文“黄”有2170条语料。
当代|报刊|人民日报“黄”有3739条语料。
当代|报刊|作家文摘“黄”有4494条语料。
当代|报刊|市场报“黄”有2309条语料。
当代|报刊|故事会“黄”有96条语料。
当代|报刊|读书“黄”有3156条语料。
当代|报刊|读者“黄”有2872条语料。
当代|报刊|青年文摘“黄”有28条语料。
当代|文学“黄”有3083条语料。
当代|电视电影“黄”有1001条语料。
当代|网文“黄”有2907条语料。
现代下面“黄”有2643条语料:
现代|戏剧“黄”有233条语料。
现代|文学“黄”有2410条语料。
首先,建立Access数据库。打开Access数据库,在【文件】→【获取外部数据】→【导入】项目下,将准备好的语料导入Access中,建立“黄”字语料库。
接着,对语料库进行相应的设置。打开“黄”字语料库,点击【设计】,在“字段名称”栏中,把字段名称依次改为“例句”、“专名”、“义项”、“备注”、“复字词”、“出处”、“文章类别”及“作者”。再次打开“黄”字语料库,便出现下表。
上表中各栏目具体标注说明如下:
1、《现汉》中已有义项的标注
以上义项在语料库“义项”一栏分别标注为1、2、3、4、5、6、7、8。
新义项也标注在“义项”一栏,“黄”的新义项(指《现汉》没有的义项)标注:“娇嫩”标为9,“年龄小,涉世浅”标为10,“成熟”标为11,“枯萎”标为12,“(人脸)干枯、无光彩”标为13,“警告,预警”标为14,“脓”标为15。
2、语料库“专名”一栏的标注:“人名”标为1,“地名”标为2,“官职名”标为3“其他专有名词”标为4。
3、复字词的标注
凡语料中第一次出现的复字词都标注于此栏的对应位置。
4、语料库“备注”、“出处”、“文章类别”及“作者”等栏做相应的标注。
通过语料标注,我们初步确定“黄”字义项在现代汉语中的分布情况如下:
①操场四周的白杨,绿柳,紫丁香,红玫瑰,花坛里的马兰,黄花,郁郁葱葱,次第开放。(人民日报/1993年)
②地是光光的,冰硬的,灰黄的,城墙是灰黑的,坚硬的,光光的。(老舍《四世同堂》)*本文全部语料取自北大CCL语料库中的现代汉语语料库。
2、指黄金。在我们建的语料库中,共2465条,约占8.217%。例句:
③岳父说,他年初过商州下汉口时,花了黄货才弄到手这包罂粟种子。(陈忠实《白鹿原》)
④内急,走进公厕撒了一泡尿,出来以后,猛然想到自己刚才满眼都对黄白之物,居然能站住了不倒,觉得自己很了不起,就急忙来告诉我。(王小波《个人尊严》)
⑤上四味先煮三味去滓,内阿胶烊化尽,后内鸡子黄,温服。(《历代古方验案按》)
⑥也是在母体中受精,排出以后,这种小的受精卵在它的母体里得到卵黄的营养,使它发育长大,这是卵胎生。(曹玉茹《“狂”鲨》)
⑦领导亲自出面跟彭钢谈,都没谈成。当然,这事黄了。(作家文摘/1995年)
⑧鹿子霖原以为嘉轩事到临头要反悔要变卦了,单怕到手的二亩水地又黄了。(陈忠实《白鹿原》)
⑨应该说,这些年来政府狠抓扫黄、整顿服务行业取得了很大成效。(人民日报/1993年)
⑩科长便说:“好呀,看黄色片,党员记大过,干部要撤职。”(方方《埋伏》)
6、指黄河。在我们建的语料库中,共2174条,约占7.246%。例句:
7、指黄帝,我国古代传说中的帝王。该义项只出现在“炎黄”、“黄老”、“黄陵”等搭配中,在我们建的语料库中,共521条,约占1.73%。例句:
10、年龄小,涉世浅。在我们建的语料库中,共91条,约占0.303%。例句:
13、(人脸)干枯、无光彩。在我们建的语料库中,共190条,约占0.633%。例句:
14、警告、预警。在我们建的语料库中,共181条,约占0.603%。例句:
15、指脓。在我们建的语料库中,共11条,约占0.037%。例句:
16、专有名词。除了姓有7872条外,在我们建的语料库中,其他专名共6534条(包括地名1908条,官职名17条,其他专有名词有4609条)约占21.78%,以下是“黄”字组成的专有名词简单举例:
黄巢起义、黄檗、黄道带、黄道、黄道吉日、黄历、黄教、黄龙、黄连、黄曲霉菌、黄梅戏、黄热病、黄芽菜。
把上文对“黄”字在现代汉语中的义项分布情况与《现汉》对颜色词“黄”的释义进行比较,可以看出《现汉》漏收了以下7个义项:“娇嫩”、“年龄小,涉世浅”、“成熟”、“枯萎”、“(人脸)干枯、无光彩”、“警告,预警”、“脓”等。我们认为《现汉》应补录以上义项,这一建议既有客观依据又有理论依据,下文主要从共时和历时两个方面来解释上述义项成立的原因。共时依据是指“黄”的上述义项客观存在于现代汉语中,历时依据是指“黄”的上述某些义项也客观存在于古代汉语中。
(一)共时依据
1、“黄”在现代汉语中有“娇嫩”义。植物的幼苗或植物的嫩芽一般是嫩黄色的,刚出生的鸟类的嘴或一些刚出生的动物的绒毛一般也是黄色的,张志毅、张庆云先生指出,“一些形容词的意义常是由所形容者决定的。”[1](P198)由于“黄”经常用来修饰它们,自然“黄”字就有了“娇嫩”义,该义项不仅经常出现在“新黄”、“黄芽”、“鹅黄”、“嫩黄”、“娇黄”等搭配中,而且还经常单独运用。例如:
2、“黄”在现代汉语中有“年龄小,涉世浅”义。该义项经常出现在“黄花姑娘”、“黄口小儿”、“黄毛丫头”等搭配中。例如:
幼儿的头发或少年刚长出的胡须是黄色的,由于他们年龄小不懂世故,因此,“黄”在表示“年龄小”的同时还有了“涉世浅”义。“黄”的这一义项不能单独使用,多出现在固定搭配中,该义项在我们建的语料库中共91条,约占0.280%,由于使用稳定,频次较高并且生命力较强,人们已经接受了“黄”的这一义项,所以《现汉》应收“黄”的义项“年龄小,涉世浅”。
3、“黄”在现代汉语中有“成熟”义,该义项经常单独使用。例如:
在生活实践中,一些植物成熟后常常变黄,人们就用“黄”来形容这些植物成熟时的颜色,因此“黄”自然就沾染了“成熟”的意义。“黄”表示“成熟”义的语义范围只局限于植物域中的部分成员,但是它在表达上直观形象,增强了视觉效果,正因为这种独特的语义价值,“黄”的“成熟”义使用比较普遍稳定,所以《现汉》应收“黄”的“成熟”义。
4、“黄”在现代汉语中有“枯萎”义。例如:
随着秋天的来临,草本植物或木本植物的叶子通常会因枯萎而变黄,自然“黄”也就有了“枯萎”的意义。例如:
从大量语料可以看出,“黄”的这一义使用频次较高,非常稳定,而且已经约定俗成了,因此,《现汉》应收“黄”的“枯萎”义。植物叶子变黄枯萎,最终的结果是标志它们“衰老、死亡”,在隐喻认知机制的作用下“黄”的“枯萎”义可以进一步引申出“事情失败或计划不能实现”义,如:
5、“黄”在现代汉语中也有“(人脸)干枯、无光彩”义。“黄”有“枯萎”义,自然又可以由物喻人,转指人脸的干枯和缺乏光彩,“黄”的这一义项不能单独运用是语素义。例如:
6、“黄”在现代汉语中还有“警告,预警”义。
现代生活中,几乎每个城市都有指示交通的信号灯,一律用“黄灯”表示短暂时间的等待,有预警的意思;体育竞赛以及其他生活中常用“黄牌”表示对违规者进行警告;天气预报中用“黄色”对灾害性天气进行提前预警;另外日常生活中还经常使用“黄线”来“警告”人们不要侵犯某些事物,等等。上述现象都使“黄”有了“警告,预警”的含义。“黄”的这一义项在现代生活中应用的广泛而又普遍,所以我们认为《现汉》应收该义。“黄”的这一义项同样不能单独运用,所以它是语素义。
7、“黄”在现代汉语中还有“脓”的意义。
某些炎症病变所形成的汁液的颜色是黄色的,而“黄”在现代汉语中又经常来形容这些汁液,所以“黄”有了“脓”意义,该义项在我们建的语料库中有11条,约占我们所建语料库语料总数的0.034%,这说明“黄”的这一义项已固定于常见用法之中,例如:
《现汉》未收“黄”的“脓”意义,我们建议收。*我们以《现汉》中“黄”字义项的最低使用频率作为标准,凡是使用频率高于最低使用频率的就定为义项,例如在我们建的"黄"字语料库中,《现汉》第三个义项“指蛋黄等黄颜色的可食用的东西”共8条,使用频率是8÷30000≈0.026%,其使用频率最低,我们新发现的义项“娇嫩”、“年龄小,涉世浅”、“成熟”、“枯萎”、“(人脸)干枯,(年龄)大”等的使用频率都高于0.026%,所以我们把它们就定为义项。虽然“黄”的义项“脓”在我们建的语料库中只有11条语料,但其使用频率约为0.034%,还是高于“黄”字的最低使用频率,所以我们也把它定为义项。
(二)历时依据
“黄”字不但在现代汉语中有“娇嫩”、“年龄小,涉世浅”、“成熟”、“枯萎”、“(人脸)干枯、无光彩”等义项,而且“黄”字的上述义项也同样大量存在于古代汉语中。根据我们对北京大学CCL古代汉语语料库中“黄”字语料的统计,发现古代汉语中存在大量类似语料。例如:
1、“黄”在古代汉语中有“娇嫩”义。同现代汉语中一样,古代汉语中“黄”字表示“(植物、动物等)娇嫩”义分布很广。例如:
2、“黄”的表示人“年龄小、涉世浅”义在古代汉语中分布也很广,例如:
3、“黄”在古代汉语中也有“成熟”义。例句如下:
4、“黄”在古代汉语中也有“枯萎”义。例句如下:
5、“黄”在古代汉语中也有“(人脸)干枯、无光彩”义。例句如下:
在中国辞书史上,一词多义的现象首先见于汉代《说文解字》,其释义特点主要是据形释义、一词一义,仅仅是偶尔涉及到一词多义,多义词和单义词的区分并不明显。此后,经历代字书、韵书的发展,汉语词典中多义词和单义词的区分越来越明显,清代《康熙字典》则已收录了大量多义词。古代辞书对多义词的释义基本是随文释义性质的,很不科学。20世纪以后,中国出现了以《现代汉语词典》为代表的一批具有现代意义的词典,这一时期多义词义项的划分比较科学、合理,缺点是由于靠语感确定多义词的义项,因此词典中存在多义词义项收录不全的情况。以上便是汉语多义词义项划分在中国历代辞书中的缩影,也可以说它是20世纪50年代以前,世界各国词典对多义词义项划分从无到有的一个缩影。世界语言学自20世纪50、60年代进入语料库时代后,词典编纂发生了革命性的变化。
国外:从20世纪80年代开始,语料库技术就已经广泛应用于词典编纂与研究中了,目前,占据英语辞书主要市场的牛津、韦氏、朗文与麦克米伦等英语词典,都是在语料库的基础上编成的。英语词典编纂者非常重视用语料库技术发现英语多义词的新义项。
国内:20世纪90年代以来,中国相继建设了一批汉语语料库,最有代表性的如北京大学中国语言学研究中心研制的“CCL语料库”,截止2016年1月18日现代汉语语料库规模已达5.81亿字,可以说,目前我国的语料库已经初步具备了词典编纂所需要的规模。尽管如此,在当今中国,用语料库技术研究汉语多义词新义项的方法还没有引起汉语词典编纂者的足够重视,诚如章宜华先生所言:“词典语料库是西方上世纪70-80年代的产物,而我们直到90年代才有这方面的成果发表,而至今大多仍只限于纸上谈兵,没有投入商业运营的大型词典语料库;而在西方谈语料库的建设和重要性已经是个过时的话题。这些都值得学术界和出版界注意。”[2]因此,李仕春指出:“汉语类中型语文性词典中常用多义词的义项精细度至今依然处在20世纪50、60年代靠语感确定义项的编纂水准,从而导致汉语类中型语文性词典义项的划分比较粗疏、存在义项漏收的情况。”[3]
用语料库技术研究汉语多义词新义项的优点主要在于用语料库搜集语料具有里程碑式的、划时代的方法论意义,以“黄”为例:用语料库检索的方法可以在16毫秒的时间内得出“黄”在北京大学CCL现代汉语语料库中有146077条。假设用人工阅读的方法查找1条含有“黄”字的语句需要用1小时(实际上有时候不止1小时),那么要找146077条含有“黄”字语料约用146077小时。
1小时=3600秒
1秒=1000毫秒
146077小时=146077×3600×1000≈5.258772×1011毫秒
5.258772×1011÷16﹦3.28625×1010倍
经过计算可以知道查找同样多的语料,用语料库技术的方法的是人工阅读的300多亿倍,简直是神速。
与传统凭借语感编纂的词典相比,建立在语料库技术基础上的语文性词典在多义词的义项划分方面更加细化、义项收录更加全面,在词典编纂史上实现了里程碑式的跨越发展。因此,张志毅、长召其先生指出:“今天的语料库已经成为能量巨大的语言样本集。它正在印证、充实、修订、改写甚至颠覆以往的辞书释语。它也正孕育出、孕育着更现代,更可信的辞书。”[4]我们翘首以待。
[1] 张志毅,张庆云.词汇语义学[M].北京:商务印书馆,2005.
[2] 章宜华.与新时期词典学理论和编纂方法的创新[J].辞书研究,2010,(1):57-69.
[3] 李仕春.汉英中型语文词典义项精细度对比研究[J].长江学术, 2016,(3):115-121.
[4] 张志毅,长召其.辞书编纂现代化的新理念——人机接口工具使用的智能发挥[A].乐嘉民,亢世勇.辞书编纂现代化研究[C].上海:上海辞书出版社,2009.42.
责任编辑:周延云
The Distribution of Meaning Items of "Huang" in Modern Chinese Based on Corpus
Li Shichun
(College of Liberal Arts, Southwest University, Chongqing 400715, China)
Compared with the past artificial collecting corpus, corpus technology is used to collect the linguistic data which is made up of millions of words in a very short time. The method is a milestone in the dictionary history. Using CCL corpus, the paper analyzes the distribution of meaning items of "Huang" in modern Chinese. The research results indicate that Modern Chinese Dictionary needs to be added seven meaning items.
corpora; corpus; method; new meaning item
2016-05-08
国家社会科学基金重点项目“语料库视野下的现代汉语单音多义词义项分布研究”(14AYY018);西南大学中央高校基本业务费专项资金创新团队项目(SWU1609105);西南大学科研基金人才引进项目(SWU1509502)
李仕春(1973-),男,山东莒县人,西南大学文学院教授,主要从事语言学史和词汇学、词典学研究。
H02
A
1672-335X(2016)05-0103-07