基于语料库的日语近义词词语搭配研究
——以“滲む”和“染みる”为例

2016-10-25 02:13和佳
湖北文理学院学报 2016年9期
关键词:大辞典检索系统近义词

和佳

(云南大学旅游文化学院 外语系,云南 丽江 674100)

基于语料库的日语近义词词语搭配研究
——以“滲む”和“染みる”为例

和佳

(云南大学旅游文化学院外语系,云南丽江674100)

日语动词“滲む”和“染みる”都有“渗透、渗入”的意思,但它们在渗透程度、渗透范围、引申义等方面有差异,利用语料库比较两者的词语搭配可以更好地了解它们的异同。基于日本国立国语研究所和Lago语言研究所共同开发的NLB检索系统,对节点词“滲む”和“染みる”的接续名词词进行共现频数、MI值和LD值的对比研究。发现,(1)“滲む”和“染みる”有不少相同显著搭配名词,如“血”“涙”“汗”;(2)节点词“滲む”和“染みる”的共现频数不同,后续名词数量不同,前者的均大于后者的;(3)它们均可和表示液体的名词外的其他名词进行搭配,但显著搭配情况有异。利用NLB检索系统了解近义词的词语搭配异同,可以更好地掌握日语语言,明确近义词的意义特征,同时弥补字典的不足。

NLB检索系统;日语动词;近义词;滲む;染みる

关于近义词的辨析,很多学者从词的理性意义、色彩意义、语用等三方面进行了分析,主要包括范围不同、轻重不同、侧重点不同、对象不同、感情色彩不同、语体色彩不同、搭配不同和词类混用等[1]51。日语的近义词称为“類義語”,日语中存在大量的近义词,对中国学习者来说,正确地掌握使用有一定的难度。指导日语学习者掌握近义词在日语语言教学中占有重要的位置。对近义词异同的准确区分是词汇指导的重要事项,它直接关系到学习者日语能力的提升[2]。

近年来,对利用语料库指导语法和词汇等的日语教学方面的研究不断增加。语料库有着丰富的语料,母语者语料库对于客观地掌握日语的真实状态是有效的[3]。很多研究都指出了利用语料库研究词语搭配的有用性。最早提出词语搭配“collocation”一词的是Firth[4]185。词义搭配就是通过一个词与不同的词语形成不同的搭配关系来显示、判断词义的方法[5]。

以语料库为基础的词汇研究,既深化了原有的研究,又拓展了原有的研究领域[6]。通过检索统计发现它们在词频分布上的差异,通过观察搭配关系揭示语义和义律差异性特征等,弥补了传统词语辨析在量性和客观性上的不足,拓展了词语辨析的视野,其研究结果有助于加深对词语多方位的解释,从而更准确地把握词语的使用[7]。

参考前坊[8]、栗田[9]、近悠[10]等的词语搭配研究,本文以日语近义词“滲む”和“染みる”为例,通过分析NLB检索系统提供的共现频数、MI值、LD值等数据,探讨两者词语搭配的异同。

一、NLB检索系统及相关数值

本文使用的NLB检索系统是由日本国立国语研究所和Lago语言研究所共同开发,全称为“NINJAL-LWP for BCCWJ”。NLB检索系统是以日本国立国语研究所研制开发的大型语料库“現代日本語書き言葉均衡コーパス”为母体,专门用来检索动词、形容词、名词和其它词汇以及语法标记的搭配关系。网址为:http://nlb. ninjal.ac.jp/。NLB使用的形态素解析器为MeCab 0.99+IPA词典 2.7.0,系受解析器为CaboCha 0.64。

除了报纸以外,NLB收录的语料包括书籍、杂志、畅销书、智慧袋、法律、国会会议录、教科书等12类,容量约为1.09亿词。具体内容如表1。

表1 NLB收录的语料明细

本文参考生天目知美[11]、井本亮[12]的研究方法,利用MI值和LD值,分析词语搭配情况。互信息(mutual information)是信息论中的一个重要概念,计算语言学中常常用互信息来说明两个语言现象之间联系的紧密程度。MI值被用于词语搭配研究中,测量词语间的搭配强度,MI值计算的是一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。MI值的差异表明了词语搭配的强度不同。MI值越大,说明节点词对其词汇环境影响越大,对其共现词吸引力越强。基于语料库的词语搭配研究中通常把MI值等于或大于3的词作为显著搭配词[13]。

MI值的计算公式为[14]:

NLB检索系统中的另外一个重要数值是LD值。该检索软件显示的LD值是LogDice系数,经常用于词语搭配的统计处理中。LD值是用集合X和Y的共通要素数|X∩Y|除以各集合的要素数的平均(|X|+|Y|/2)的数值,即(2×|X∩Y|/|X|+|Y|)。

NLB检索系统的LogDice以SketchEngine在线语料库索引工具为基准。计算公式为:

Dice中,两种表现共起时为1,完全没有共起为0。LogDice中,两种表现共起时为14,共起频率越少数值越小[15]33。如表2所示。

表2 Dice值和LogDice值

二、从字典看两者的异同

首先,通过《国語大辞典》[16]《日本語大辞典》[17]《大辞林》[18]三本字典分别来看两者的定义。

“滲む”:

《国語大辞典》:(1)液体がしみてひろがる。文字や図柄などの輪郭がぼやけてひろがる。また、色が溶けて散りひろがる。(2)液体が内から表面にわき出る。しみでる。

《日本語大辞典》:(1)色などが染みて、広がる。(2)涙などが、じわじわ出てくる。

《大辞林》:(1)液体がしみて広がる。また、物の形の輪郭がぼやけて広がる。(2)液体がうっすらと表面にしみ出てくる。

“しみる”:

《国語大辞典》:(1)液体が物にぬれ通る。しみこむ。また、よごれがついてなかなかとれない状態になる。しむ。(2)深く心に感じる。しみじみと心にはいりこむ。しむ。(3)刺激がからだにこたえる。また、液体や塩分の刺激で痛みを覚える。しむ。(4)なじみになる。ほれこむ。しむ。(5)物事が佳境に入る。興が増す。しむ。(6)影響を受けてその傾向に染まる。

《日本語大辞典》:(1)液体が物の中に入ってだんだん広がる。にじむ。(2)液体や気体などで神経が強く刺激されて痛みを感じる。(3)心身に深く感じる。(4)影響を受ける。そまる。

《大辞林》:(1)液体が、ものの内部や周囲まですっかり入り込む。(2)液体やにおいが、いつの間にか移りつく。比喩的にも用いる。(3)刺激がからだにこたえる。また、液体や気体などの刺激で刺すような痛みを感じる。比喩的にも用いる。(4)心などに深く感じる。

从上面的定义笔者将两者的共同特征总结为表示液体从内部向表面、周围渗透、扩散。区别表现在:(1)渗透程度不同。“滲む”主要指液体(眼泪、血、汗水、水、油、墨等)从内部向周围稍微地、隐约地使得物体的形状轮廓模糊扩散,也可以表示颜色融化扩散。“しみる”主要指液体从内部向外部完全地、彻底地渗透。(2)范围不同。“しみる”除了液体,还可以指气味、味道等的渗透。(3)引申义不同。“しみる”的日语汉字有4种写法:“染みる、沁みる、浸みる、凍みる”。所以它除了表示渗透外,还可以表示气体、盐分、热水等对神经的刺激导致疼痛感;身心深刻地感受到;受到影响有变成那样的趋势;兴趣或感动深入心中扎根;花、树叶等染上红色、黄色等色彩;迷恋;渐入佳境等意思。本文主要拿“染みる”的用法和“滲む”做对比。

三、对NLB检索系统的分析

通过NLB检索系统输入“滲む”,系统显示的频数为808,具体类型包括:名词+助词+滲む;名词+滲む;滲む+助动词;滲む+复合动词;近接动词①近接动词是指该动词和前后3·5个词以内的共起动词的类型。+滲む;副词+滲む;形容词连用形+滲む;未分类等8类。“染みる”的频数为411,具体类型包括:名词+助词+染みる;名词+复合助词+染みる;染みる+名词;染みる+助动词;染みる+复合动词;近接动词+染みる;染みる+形容词;副词+染みる;形容词连用形+染みる;未分类等10类。本文只考察两者“名词+助词+节点词”这一类型的用法。其中,助词包括“が、は、も、の、を、に、へ、で、から、まで、より”等,本文选取频数最高的“が”为研究对象。结果显示,“が滲む”和“が染みる”的频数分别为363和172。

通常情况下,只有在语料库中与节点词共现频数达到3次以上的词项才可被认为是节点词的搭配词,只出现一次或两次的搭配序列可能是语言使用中的偶然行为[14]。以此为参考,考虑到两者的节点词频数都不高,这里统计的共现频数为3次以上(包括3次)。笔者将节点词“滲む”和“染みる”后续名词的共现频数≥3的搭配词的MI值和LD值分别汇总如下。

表3 NLB检索系统中节点词“滲む”的搭配名词、共现频数、MI值、LD值

表4 NLB检索系统中节点词“染みる”的搭配名词、共现频数、MI值、LD值

从上面表格的名词搭配情况可以看出,“滲む”和“染みる”有一些搭配相同的名词,如“血”“涙”“汗”“さ”等。“色”只能和“滲む”共起,需要注意的是,共起的12句中,只有3句的“色”指的是颜色,9句的“色”指的是肤色、脸色、气色、神情。此外,“脂汗”“気持ち”“時”“冷や汗”“もの”“笑み”“明かり”“思い”“姿”“光”只能和“滲む”共起。“出し”只能和“染みる”共起。需要说明的是,像“味”“言葉”“水”“匂い”等没有包括在和“滲む”共起的词语中,但是经调查后发现,“水”的共起频数为2,“味”“言葉”“匂い”的共起频数为1。只出现一次或两次的搭配一般被认为可能是语言使用中的偶然行为,不属于显著的节点词的搭配词。

从搭配名词的数量看,“滲む”的节点词频数为363,搭配名词数为120,“染みる”的节点词频数为172,搭配名词数为97,“滲む”的后续名词多于“染みる”。从搭配相同的名词来看,“血”与“滲む”的共现频数最高,为75,与“染みる”的共现频数只有6。与“染みる”共现频数最高的“さ”有22,和“滲む”的共现频数为13。“涙”与“滲む”的共现频数为52,与“染みる”的共现频数只有3。“汗”与“滲む”的共现频数为48,与“染みる”共现频数为11。可见,虽然两者搭配的名词相同,但是与节点词的共现频数是有差异的。

另外,仅仅根据共现频数的高低也无法确定每一个搭配词是否为显著搭配词,还需要运用统计测量的手段,检验每一个搭配词与节点词之间的相互预见和相互吸引程度,判断他们的共现行为在多大程度上体现了词语组合的典型性[14]。

所以,接着我们需要分析MI值和LD值的情况。MI值越大,说明节点词对其词汇环境影响越大,对其共现词吸引力越强。通常把MI值等于或大于3的词作为显著搭配词。同样,LD值等于或大于3的词也可视为显著搭配词。表3中,“滲む”接续“血”的频数最高,为75,其MI值为11.49,LD值为8.23,均大于3,所以,“血”是“滲む”的显著搭配。“さ”的频数为13,MI值为5.69,但是LD值只有2.49,小于3,所以不视为显著搭配。同样,“滲む”接续“冷や汗”的共现频数只有4,但是其MI值为12.42,LD值为7.81,也可视为显著搭配。用同样的方法分析表4后可以得知:与“滲む”和“染みる”显著搭配的相同名词有“血”“涙”“汗”。与“滲む”显著搭配的名词有“色”“脂汗”“冷や汗”“笑み”“明かり”。与“染みる”显著搭配的名词有“さ”“味”“匂い”“出し”。

我们考察“滲む”和“染みる”这组近义词,主要是围绕其表示渗透的用法,但是从以上它们各自的显著搭配可以发现,除了表示液体的名词外,还有其他一些名词。和节点词“滲む”显著搭配的名词“色”主要是指脸色、神情。如:

(1)横尾の顔にはうっすらと疲労の色がにじんでいる。(木部与巴仁《横尾忠則365日の伝説》)

横尾的脸上稍显疲惫之色。

也有指颜色的。如:

(2)火の消えた闇に、だが、あの夕刻の土塀の色が滲むように浮かび、それは今にも闇に飲みこまれそうでありながら、結局五十歳近くなった現在まで笠原に残ったのだった。(連城三紀彦《萩の雨》)

火被扑灭了,但是黑暗中蔓延着黄昏时分土墙的颜色,好像马上又要被黑暗吞没。就这样,结果现在快50岁了还留在笠原。

“滲む”还有和“笑み”、“明かり”的搭配。如:

(3)幸せな夢を見ているみたいに、口元に笑みがにじんでいた。(高野裕美子《サイレント·ナイト》)

就像做了一场幸福的梦,嘴角露着一丝微笑。

(4)洋子の頭を抱いて見上げた夜空には街明りがにじんでいた。(坂上弘《近くて遠い旅》)

抱着洋子的头,仰望夜空,灯火可见隐约。

和节点词“染みる”显著搭配的名词有“味”“匂い”“出し”,如:

(5)味が染みていない場合はもう少し置いてください。(Yahoo!知恵袋,2005)

味道没有完全渗透的话就再放置一会。

(6)他の住人には吠えないのであるから、深田の身体に猫の臭いが沁みついているのか、あるいは深

田の犬嫌いを知っているのであろう。(森村誠一《黒い神座》)

因为狗不朝其他住户叫,要么因为深田的身体有猫臭味,要么因为知道深田讨厌狗吧。

(7)後は出汁が染みるのを待つだけです。(Yahoo!ブログ,2008)

然后就是等着高汤入味了。

从《国語大辞典》《日本語大辞典》《大辞林》的解释看,第一个意思都是表示液体的渗漏或渗透,这与NLB检索系统的结果一致。节点词“滲む”的词语搭配中,“色”表示脸色、神情的共现频数为13,“笑み”“明り”的MI值和LD值都大于4,属于显著搭配,但是对于(1)~(4)的用法字典中没有明确标示。通过语料库研究学中的词语搭配研究,可以更好地补充字典中没有解释的内容,有利于学习者全面掌握日语动词的用法。

学习者学习日语中的近义词,不仅要学习近义词的共同意义,也必须掌握区别。利用日语NLB检索系统可以明确共现频数、MI值和LD值。本文以“滲む”和“染みる”为研究对象,考察了接续名词的异同。通过对共现频数、MI值和LD值的分析,可以得知,与“滲む”和“染みる”均属于显著搭配的名词有“血”“涙”“汗”,这与字典中对它们的第一项解释(表示液体的渗入、渗透)一致。与“滲む”显著搭配的名词有“色”“脂汗”“冷や汗”“笑み”“明かり”等,但是字典缺少对其的详细解释,不利于学习者掌握。与“染みる”显著搭配的名词有“さ”“味”“匂い”“出し”等。利用NLB检索系统了解近义词的词语搭配异同,可以更好地掌握日语语言,为日语教学和日语学习者提供一定的参考。

[1] 孙德金.对外汉语词汇及词汇教学研究[M].北京:商务印书馆,2006:51.

[2] 倉持保男.日本語教育における類義語の指導[J].日本語学,1986,5(9):47-55.

[3] 大曾美恵子.日本語コーパスと日本語教育[J].日本語教育,2006(130):3-10.

[4] FIRTH JOHN RUPERT.Modes of meaning[M]//Papers in Linguistics 1934-51.London:Oxford University Press,1957:195.

[5] 苏新春.汉语词义学[M].广州:广东教育出版社,1997.

[6] 谢元华.语料库与词汇研究[J].外语教学,2002(3):70-75.

[7] 潘璠,冯跃进.基于语料库的同义词差异性特征调查[J].山东外语教学,2000(4):8-12.

[8] 前坊香菜子.コーパスにおける「たぶん」「おそらく」 の使用傾向の分析[J].一橋日本語教育研究,2012(1):49–60.

[9] 栗田奈美.BCCWJに見る類義表現「~きる」「~ぬく」「~とおす」の使い分け[J].第7回コーパス日本語学ワークショップ予稿集,2015(7):247-256.

[10] 近悠美.「こういう」「こういった」の使い分け[J].實踐國文學,2015(88):25–41.

[11] 生天目知美,永井涼子.数値が大きいことを表す「高い」「大きい」の類義用法-BCCWJを資料としたコーパス分析―[J].言語学論叢,2013(6):49-68.

[12] 井本亮.[現代日本語書き言葉均衡コーパス]にみられる副詞的修飾関係「赤くV」について[J].商学論集,2013,82(1):1-19.

[13] CHURCH K,HANKS P.Word association norms,mutual information and lexicography[J].ComputationalLinguistics,1990(16):22-29.

[14] 邓耀臣,王同顺.词语搭配抽取的统计方法及计算机实现[J].外语电化教学,2005(5):25-28.

[15] 今田水穂.日本語特講Ⅱ[R].国立国語研究所コーパス開発センター,2014:33.

[16] 尚学図書言語研究所.小学館国語大辞典[M].東京:小学館,1981.

[17] 梅棹忠夫.日本語大辞典[M].東京:講談社,1989.

[18] 松村明.大辞林[M].東京:三省堂,1988.

Abstrac:Japanese synonyms“滲む”and“染みる”can express the meaning of permeation,but they are different from infiltration degree,penetration range and extended meaning.Corpus can be employed to distinguish the similarities and differences between them.Based on the Online Japanese retrieval system NLB,which is developed by the National Institute for Japanese Language and Lago Institute for Language,the frequencies of each word collations,MI values and LD values are compared.It finds that:(1)The same nouns collocating with“滲む”and“染みる”are“血”“涙”“汗”;(2)Frequency and the number of subsequent nouns about“滲む”and“染みる”are different,those of the former are more than those of the latter;(3)Both of them can collocate with nouns besides nouns expressing liquid,but significant collocation is different.We can use NLB retrieval system to understand the similarities and different about collocation of synonyms,to master Japanese better,and get to know the features of meaning about synonyms and make up for deficiencies of some dictionaries.

Collocation of Synonyms Based on Japanese Corpus:Taking“滲む”and“染みる”as Examples

HE Jia
(Department of Foreign Languages,Culture and Tourism College of Yunnan University,Lijiang 674100,China)

NLB retrieval system;Japanese verbs;Synonym;滲む;染みる

H032

A

2095-4476(2016)09-0058-05

(责任编辑:刘应竹)

2016-08-09;

2016-09-20

和佳(1981—),女,纳西族,云南丽江人,云南大学旅游文化学院外语系讲师。

猜你喜欢
大辞典检索系统近义词
《马克思主义大辞典》研究述评
怎样辨析近义词
敦煌藏文文献P.T.2第一部分译注
找找近义词
冯其庸的主编图书
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
《中国钱币大辞典》编纂工作座谈会会议纪要