唐兴全
(对外经济贸易大学中国语言文学学院,北京 100029)
现代汉语中的单字动态组合*
——以联合式、偏正式为例
唐兴全
(对外经济贸易大学中国语言文学学院,北京 100029)
汉语理解处理过程中,句子中的单字和邻接的字词经常需要动态组合在一起并作为一个整体的语义单位来理解。单字动态组合是以往现代汉语词汇研究较少注意到的一个语言现象。文章介绍了单字动态组合的标注工作,并以联合式、偏正式两种单字动态组合为例,对单字动态组合的内部构成进行了分析,最后说明了单字动态组合研究的应用价值。
单字;联合;动态组合;汉语
以往的现代汉语词汇研究主要是对现代汉语词汇进行抽样式定性描写,所涉及的词条有限,更重要的是,对词的结构、意义等方面的研究所针对的对象往往就是规范型汉语词典中已收录的词,所作调查研究也是基于有限的词典条目。
本文中的单字动态组合是指在汉语理解、处理过程中,根据语义理解需要,单字跟与其邻接的两个或多个字词按照一定组合模式临时组合而成的、需要作为一个意义单位理解的语义单位。[1]例如组合形式“陡+X”(X为单字动词或单字形容词)可以有“陡升、陡降、陡增、陡减、陡变、陡现、陡转、陡生、陡发、陡起、陡来、陡振、陡立、陡涨、陡峻、陡急、陡峭、陡险、陡直、陡寒”等组合,而《现代汉语词典》(商务印书馆2005年版,以下简称《现汉》)中只收录了“陡变、陡峻、陡立、陡峭”四个词。可见,研究单字动态组合规律,既可以帮助提高计算机汉语自动分词的准确性,也有利于对外汉语词汇教学的开展。
单字动态组合并不严格区分是否是语言学意义上的“词”。为了研究方便,我们将研究对象限定为必含单字、内部组合结构在两层或两层以内的、非专名型动态组合成分。
单字动态组合素材的积累是研究的基础。研究单字动态组合,需要集中搜集、标注动态组合真实语料,只有这样,我们才能做到定性与定量结合。我们参照合成词构成方式,并依据动态组合内部的概念组合关系,搜集并以 XML格式①XML是Extensible Markup Language的缩写,即可扩展标记语言是一种您可以用来创建自己的标记的标记语言。它由万维网协会(W 3C)创建,用来克服 HTML(即超文本标记语言(Hypertext Markup Language),它是所有网页的基础)的局限。XML的一大特点是实现了数据内容与显示方式的分离。标注了一批动态组合成分。在标注语料的选取上,尽量按比例选取不同领域、不同文体的文本,以便考察动态组合在不同类型文本中的出现情况。我们一共标注了136篇、约16.6万字不同领域、不同文体的语料。这些语料中,共标注动态组合11 261个(去重后结果)。这些动态组合语料为我们研究动态组合组合模式提供了真实素材。这11 261个动态组合属于不同的概念组合结构。
表1 按概念组合结构进行的单字动态组合分类
如果动态组合的概念组合结构包含多个层次,以第一层次为该词的概念组合结构,如“青山绿水”第一层次为联合式,第二层次为偏正式,该动态组合为联合式。
虚组合式指字之间在概念上无明显关联,但又有动态生成能力的结构形式。虚组合又可以分为不同子类,其中派生式构词法是虚组合的重要类型。联合式包含整体词义为字义组合和字义并列两种情况,可以根据字义的概念类型再细分。汉语中偏正式动态组合最为常见,并可以划分为不同子类。如“X+见”类组合②如“浅见、卓见、拙见、灼见、鄙见、私见、偏见”等。、“首+v”类组合③如“首创、首播、首犯、首航、首倡、首读、首飞”等。。逻辑式组合是指概念之间具有逻辑关系,前一成分是后一成分的方式、工具、途径、原因、条件等,如“火攻、水淹”中,前一个成分是后一个动作行为的工具。
根据构成成分之间语义组合关系,述补式可以分为作用、效应两类。如果用X+Y表示作用效应类动态组合,其中的X一般表示作用、转移等广义作用类概念,Y一般表达该作用产生的效应,补充说明 X的结果或趋向。如以“打”字开头可衍生出一系列作用式动态组合:“打碎、打烂、打散、打沉、打垮、打伤、打残、打晕、打败、打赢、打掉、打光 ……”对于这些字串,只能有三种处理:一是统统收进词表,这无疑会导致词表急剧膨胀;二是统统不收,这就可能导致自动分词时句子被切分得支离破碎;三是部分收、部分不收,这又涉及哪些收、哪些不收的问题。从理解的角度来看,重要的不是是否收入词表,而是这种组合规律是否有准确全面的描述。
根据“宾”的性质述宾式可以分为对象式与内容式。“述宾”的说法并没有区分“宾”概念的性质,如“练兵”与“练武”虽同属述宾,但“兵”是“练”的对象,“武”却是“练”的内容。同样,主谓式组合也应该区分其中“主语”的概念的性质。
单字动态组合标注的最终目的是在对组合素材分析的基础上,找到单字动态组合的规律性信息。下面我们着重分析联合式、偏正式两种单字动态组合类型。
联合式动态组合构成成分的语义地位平等,前后成分存在语义相同、相近、对偶、对比或包含等关系。有的语言学教材将联合式称为并列式,我们觉得并不妥当,语义相关的字词联合后,词义或概念的类别可能会发生变化,也可能词义只是几个字词意义的简单相加,而概念的类别不变,并列给人的感觉只是字词的简单罗列,而意义上没有相互影响。按照组合内部成分之间的语义关系,联合式可以分为平行型联合、对比型联合、对偶型联合、包含型联合、搭配型联合等子类。
(一)对比型联合
对比型联合是指由表达对比型概念序列的单字组合而成的动态组合。对比型概念是指“共寓于同一高层概念下的一组概念,彼此间存在量的差异”,“从物理和符号上来说,对比是极性相同的,无正负之分”,[2]对比型概念如“亲、疏”,“幼、少、中、青、老”,“优、良、中、差”等。对比型概念序列之间的差异是量的差异 ,如颜色表示“赤、橙、黄、绿、青、蓝、紫”。
汉语表达对比型概念序列的单字往往可以连用在一起,表示各方并举,或用局部列举表示上层概念。
中国电影百年藏品面世,老中青艺术家齐庆贺。
例句中的“老中青”是指老年、中年和青年三者都有。
对比型联合一般不被《现代汉语词典》收录,除非组合后发生了意义较大的变化。对比型联合如:
强弱 简繁 坚执 赤黄 愚劣 酸甜苦辣
湿热 腐坏 坚厚 饥渴 幽僻 生疏
(二)对偶型联合
对偶型联合的各成分彼此间存在质的差别,如“有”、“无”,“显”、“隐”等。对偶型概念是极性相反的,有正负之分。当然,量变也会引起质变,因此,对比型概念和对偶型概念之间没有截然分开的界限。
两个对偶型的单字动词组合在一起,一般形成体词而非动词。如:
喜怒 爱恨 显隐 攻防 生死 苦乐
买卖 增减 正反 有无 增减 真假
其中,“买”、“卖”为对偶型的单字动词,而“买卖”为体词,意即买和卖的行为,也就是生意。
对偶型单字组合的意义一般表达该对对偶型概念的共性,也就是它们的上位概念。非动词的对偶型单字组合后类别一般不发生变化。
(三)包含型联合
包含型是概念层次性的一种特殊形式,主要表达那些可以进行确定的离散式的分解的具有层次性的概念。[2]比如“点”、“线”、“面”、“体”是一组表达空间的层次由下到上的概念。一组单字包含型概念在一起使用,应自动组合起来,其意义应为该组包含型概念的简单相加。如:
我省与罗马尼亚阿尔巴县建立了友好省县关系。
“省”、“县”属于有包含关系的一对概念,“省县”意义为“省”和“县”,是二者的和。再如:
点线面 年月日 省市县乡
在下面的例句中:
中奖这事在这年月就越来越悬乎了。
“年月”是时期、时间的意思,不再是二者意义的简单相加,而是表达了比“年”“月”更高一层的概念。因此,“年月”被收录到了《现汉》中。
(四)平行型联合
平行型联合是指一组表达不同子类的具有相同上位概念的单字的组合,也指同义或近义复述的一组单字的组合。下面两组动态组合是平行型联合的两种情况的示例:
碗筷 京津沪 数理化
日月星辰 金木水火土
理工农医 兄弟姐妹 锅碗瓢盆
江河湖海 心肝脾肺肾
踩踏 锁闭 追撵 攀爬 打骂
关停并转 煎炒烹炸 摸爬滚打 说学逗唱
第一组例子中,组合中的单字都是某一分类体系中表示子类概念的单字,当它们一起出现时,应自动组合起来进行处理,当组合中的单字并没有囊括该分类体系中的所有分类时,其词义一般为表示这些单字所表达概念的和;当组合中的单字是对分类体系中子类的周延性描述时,其词义一般为表达该分类的概念意义。如“理”、“工”、“农”、“医”是学科的下级分类,当它们一起出现时应自动组合,意义为几个单字所表示学科的总和。“兄”、“弟”、“姐”、“妹”表示了同一辈分、不同性别、不同年龄的人的称呼,具有周延性,它们应自动组合起来,是同一辈分的人的统称。平行型联合的第一种情况多为体词性单字的组合。
平行型联合的第二种情况又分同义复述和近义复述两类。同义是指对同一概念节点在自然语言层面的不同表述。需要指出的是,我们这里所说的近义不包括对比型概念。同义复述型联合的语义符合就近取前原则,第一个字或最后一个字的语义代表了整个组合结构的语义;近义复述型联合的语义是联合中单字所表概念的上一层概念。如“踩”、“踏”的词义基本相同,当组合在一起时词义取“踩”字的词义就可以了。而“关”、“停”、“并”、“转”是对经济领域不同经济活动的表达,组合后的词义应为经济活动。
(五)搭配型联合
搭配型联合一般为动词,由两个单字动词组合构成。由搭配型联合作述语动词的句子,其语义结构由搭配型联合中的两个单字共同决定。如:
“代”+单字v
代订 代购 代管 代考 代领 代签 代付
“试”+单字v
试听 试讲 试析 试穿 试探 试播 试映
“开”+单字v
开打 开吃 开喝 开干 开演 开踢 开拍
“代”为“代替、代为”义,“代”后接表达广义作用的单字动词。
组合模式“‘开’+v”中的“开”为“开始”义,这个意义只存在于该组合模式形成的动态组合中,在“开”单独使用时并没有这个意义。
搭配型联合在语言学上一般归入动宾结构,归类的不同主要是源于观察角度的不同。上述示例中,组合中的后一单字均为表达广义作用概念的单字。
同英语相反,汉语偏正结构的形式为左偏右正,最右的成分为整个组合语义的核心,因此偏正式组合的语义为最后的核心概念的语义。据我们粗略统计,偏正式动态组合占动态组合总数的将近一半,这可以说明偏正式是动态组合中最能产的。偏正式动态组合根据内部组合成分之间的关系又可以细分为不同类型。
(一)功能型偏正
功能型偏正是指前偏是对后正从功能、作用方面进行描述的偏正类型。以“器”、“阀”、“仪”等作为标志性单字的三字动态组合均为功能型偏正结构。汉语中表达功用的词多为动词,而功能型偏正结构的中心成分多为表示人或物的单字。
功能型偏正动态组合又可以分为下面几种类型:
(1)双音节v+表人或具体物单字
供应商 接生婆 服务生 评估师 播放器 发生器反射镜 治疗仪
(2)单字v+B/C+表具体物单字①这里B表示动作行为的对象,C表示动作行为的内容。
割草机 防冻液 纠错码 刮脸刀 助滤剂(3)表具体物单字 +双字 v+表具体物单字热交换器 油收集器
(4)双字名词 +双音节v+表人或具体物单字
信息接收器 微波发生器
环境保护署 流量控制阀
(5)双音节v+表处所单字
包扎所 创作室 理发馆 洗澡间 停车场
以上分类是仅从构成成分概念类别角度进行的分类,实际的组合处理需依据具体情况进行。(1)中的各组合,“供应”、“接生”、“审计”、“评估”、“播放”、“反射”、“治疗”等是对“商”、“婆”、“员”、“师”、“器”、“镜”、“仪”等所发挥的作用或所具有的功能的说明,组合形式为一个双音节动词与一个表示人或具体物的单字的组合。
(2)式一般为三字组合,三个字构成概念上的搭配关系,比如“割草机”内部语义关系实为“机割草”,“防冻液”的内部语义关系实为“液防冻”,而且前面的双字动词构成对象型或内容型的组合,即“草”为“割”的对象,“冻”为“防”的内容。(1)式和(2)式中,“X+器”、“X+仪”、“X+剂”、“X+机”等是较为能产的构词模式,在专业领域文献中经常出现。(2)式与(1)式的区别在于,(2)式中的前偏部分是内部有动宾关系的一种组合,而(1)式的前偏部分则为一个光杆动词。
(3)式在汉语中并不多见,一般在某个专业领域的文献中出现。“热交换器”的内部语义关系实为“器交换热”,“交换热”是该“器”的功用。
(4)式在构成成分的概念类别顺序上同(3)式一样,不过在汉语中更为多见。“信息接收器”意义为接收信息的器,“环境保护署”意义为保护环境的署。
(5)式中,虽然前面的动词是对最后单字空间名词功用的描述,但它们之间并不构成语义上的搭配关系。其中的“所”、“馆”、“场”、“室”、“间”等其实是前面动词所表动作行为发生的空间。
(二)关系型偏正
关系型又分为领有型与属于型两类。领有是指包括人、动物、植物等生命体的所有关系,属于则是指非生命体的从属关系。
领有型又包括前领有后和后领有前两种情况。前者如:
动物 +身体部位或器官
猪肉 鸭血 马蹄 羊角 鸡心 猫爪 羊皮
植物 +植物部件
树梢 树枝 树干 树根 草根 草茎 草叶
以上两种组合模式形成的动态组合表示动植物器官或部件。两种组合模式具有能产性和规则性。后领有前的情况如:
千手佛 美髯公 跛脚汉 独臂侠 长发女
前偏“千手”、“美髯”、“跛脚”、“独臂”、“长发”既是后正所表示整体的一部分,又是后正的外在特征。
属于型主要是指非生命体的整体和局部的组合,也分“整体 +局部”和“局部 +整体”两种情况。前者如:
阀孔 阀瓣 阀框 阀帽 阀杆 阀架
后者如:
高跟鞋 大檐帽 长筒靴
(三)属性型偏正
属性型偏正是指前偏为后正的属性修饰。依据后正的概念的类别可大概将属性型偏正分为名词性、动词性和形容词性三种。
名词性属性型偏正动态组合可形式化为“adj+n”,其中的n包括人、物、事等。如:
孤岛 孤峰 孤舟 孤灯
浅见 卓见 拙见 灼见
碧草 碧霄 碧水 碧玉
动词性属性型偏正动态组合如:
痛饮 豪饮 畅饮 狂饮①《现汉》收录了“豪饮”、“畅饮”。
共谋 共商 共议 共保 共存 共度 共赴 共管②《现汉》收录了“共议”、“共存”、“共度”、“共管”。
表示数量的单字与单字动词的组合是古汉语用法在现代汉语中的遗留③据郭熙良先生研究,数词与动词直接组合的用法出现于西周以后。郭熙良先生将这一现象命名为行为称数法。,是对单字动词所表动作行为的量次修饰,也是属性偏正的一种。[3]如:
连战先生在不到一年的时间内风尘仆仆,三访大陆。一幅反映红军长征四渡赤水的百米绘画长卷在四川叙永问世。
形容词性属性型偏正动态组合如:
偏高 偏大 偏肥 偏紧 偏软
陡升 陡增 陡现 陡起 陡变
骤变 骤降 骤减 骤落 骤灭
汉语中包含一部分组合能产性较高的单字,以该字为核心,能形成一系列词内组合关系(语义和词法)相同的词,而且标志性单字的左向或右向组合成分的替换率达到了一定的规模。[1]汉语表达中 ,上述例子中的“孤”、“碧”、“偏”、“陡”、“骤”等与其后邻接的单字能形成属性型偏正动态组合。类似这样的标志性单字还有很多,如:
野奇爱微残翠敌寒荒巨枯邻妙陡
重大陡独顿分飞共过合狠横忽互
连屡略猛频齐强轻确深实首私速
董秀芳对其中部分汉离的组合情况进行了研究。[4]
(四)说明型偏正
说明型偏正动态组合中,前一部分是对后一部分在某一方面的说明而不是属性修饰,一般为名名组合,也有可能为动名或形名组合。说明型偏正动态组合在偏正式动态组合中是数量最多的。如:
物品名 +容器名
油箱 酒盅 水桶 酒杯 茶碗 米缸 水槽 酒坛
油罐 酒瓶 茶缸 汤碗 醋瓶 水杯 油管 酱缸
材料名 +物体名
木棒 金表 铝锅 铜球 竹床 石凳 布裙
瓷碗 银币 铁锹 铜像 铅管 塑料袋 玻璃杯
商品名 +“价/费/钱/税”
菜价 油价 水费 煤气费 书钱 燃油税
物体+“色”
草色 奶油色 古铜色 咖啡色 柠檬色
矿物类+“矿”
煤铁铁 矿金矿 钨矿
物品名+“类”
贝类 虫类 鸟类 酒类 棋类 球类 肉类
事物/行为+“声”
鼓声 钟声 雨声 水声 笑声 哭声
叫声 骂声
人化动作动词+“法”
吃法 唱法 穿法 喝法 切法 干法
类似还有“X 业”、“X 学”、“X 会”、“X 局”、“X 病”、“X卡”、“X表”、“X权”、“X药”、“X单”、“X店”、“X品”、“X额”、“X门”、“X费”等。
(五)包装型偏正
包装型偏正动态组合中后偏是对前正的包装,但由于动作行为的对象或发出者众所周知,或不必交待,整个结构中不出现动作的施事。经常构成包装型偏正动态组合的有“活、事、风、热、感”等 ,如 :
送水活 修理活 抢购风 摊派风 出国热 考研热失落感 超脱感
包装型偏正动态组合一般是一个双字动词和一个单字名词的组合。该类组合中,理解处理一般不必追究前面动词所搭配的语义角色。
现代汉语合成词具有强大而灵活的能产性,单字动态组合在汉语文本中占有很高的比例,而且组合模式具有较强能产性和规则性。单字动态组合的研究无论是对现代汉语词汇的计算机处理还是对于词典编纂都有重要的意义。
单字动态组合研究将帮助提高句子语义分析技术的水平,对正处于句处理阶段的中文信息处理有重要意义。单字动态组合是一种依据规则自动组合而成的全新的意义单位,计算机需要在这一单位基础上进行语句内部的构成分析,对于提高句子语义分析的效率和准确性有重要意义。
单字动态组合研究对于人用或机用的各类词典的编纂也具有指导作用。各类词典首先应该全面收录那些内部不可分析或内部构成模式不具有能产性的词汇性成分。对于那些能产性较强的组合模式所造成的形式,可以根据词典规模和词典的适用对象适当收录。对于某些结构,《现汉》仅收录其中部分组合作为代表,而没有全部收录。如对于“从×”结构(“从”意为采取某种方针或态度,×代表单字形容词),《现汉》收录了“从缓”“从宽”“从权”“从严”“从简”,而没有收录同样常用的“从轻”“从重”“从速”等。而机用词典由于计算机缺乏人的类推和概括能力,却具有较大存储能力,对单字动态组合就可以适当多收,部分能产性弱的组合可以全部收录。
服务于单字动态组合的识别,中文信息处理界应建设以单字组合能力描述为中心内容的现代汉语字知识库。字知识库描述的对象主要是每个汉字能够独立使用或虽不能独立使用但具有组合能产性的义项,对于仅在词语中作为词语的构成成分出现的字的义项可不予收录。单字组合能力的描述应该是字知识库描述内容的中心,可主要从三个方面来描述单字的组合能力:独立性指数、联想方向、组合知识。[5]
[1] 唐兴全.汉语理解处理中的动态词及其组合模式[J].语言文字应用,2010,(4):131-138.
[2] 黄曾阳.HNC(概念层次网络)理论—— 计算机理解自然语言的新思路[M].北京:清华大学出版社,1998.22.
[3] 郭熙良.先秦汉语名词、动词、形容词的发展[J].中国语文,2000,(3):195-204.
[4] 董秀芳.汉语的词库与词法[M].北京:北京大学出版社,2004.66.
[5] 苗传江,唐兴全,刘智颖.HNC的字知识库[A].苗传江,杜燕玲.第二届HNC与语言学研讨会论文集[C].北京:海洋出版社,2004.182.
Dynam ic Combining Semantic Unit in Modern Chinese
TANG Xing-quan
(School of Chinese Language and Literature,University of International Business and Economics.Beijing 100029,China)
During the p rocessof the understanding and p rocessing of Chinese,according to the semantic needs,the dynamic com bination is a kind of semantic unit,w hich ismade up of the Chinese character and its neighboring two or multiwords,w hich are combined temporarily in accordance w ith some combinative model.This article introduced the corpusof dynamic combination and analyzed the internal structure of dynamic combination.A t last,we showed the app lication of this study.
Semantic unit;Chinese character;dynamic combination;Chinese
H136
A
1008—1763(2011)02—0100—05
2010-10-08
教育部人文社会科学研究规划基金项目《当代语言学视野下汉语属性词个性特点研究》(09XJA 740007)及对外经贸大学校级科研项目“汉语动态新词的概念组合关系研究”(07QD029)
唐兴全(1977—),男,山东德州人,对外经济贸易大学中国语言文学学院讲师,博士.研究方向:中文信息处理,第二语言习得及对外汉语词汇教学.