基于汉语国际教育教材语料的三音节名词型动态词分析

2018-07-18 03:02郭冬冬宋继华彭炜明张引兵
中文信息学报 2018年6期
关键词:词类语素知识库

郭冬冬,宋继华,彭炜明,张引兵

(北京师范大学 信息科学与技术学院,北京 100875)

0 引言

汉语是一种缺少发达形态的语言。很多语法现象常常渐变而不会顿变,所以在语法分析上容易遇到各种“中间状态”[1]。词和非词的界限很难明确地划分[2-3]。许多语言单位中词或语素的结合并非纯句法层面的自由组合,它受到意义凝聚程度、音节韵律特征以及结构稳定性质等因素的限制。这些组合单位在词汇学层面还没有完全凝固、定型,即使收词完备的大型词典也未能收录它们。动态词就是指这些一般词库中不收录,而在句法分析时又不适宜做进一步短语结构分析的造句单位。如专有名词(中国人、铁路工人)、动结式/动趋式动词(看清、举起)、数量词(一只、十多个)、重叠式(看看、听一听)等[4-6]。短语结构一般可以自由扩展,内部成分结合不是很紧密,而动态词为具有一定内聚性的组合结构,意义凝聚、音节适长、结构相对稳定,具有很强的模式性,不能自由扩展。

国际汉语教学领域中存在大量的动态词。以新汉语水平考试(HSK)为例,HSK一级到六级5 000词汇中[7],未被《现代汉语词典》(第6版)(以下简称《现汉》)收录的达到119条。利用信息处理技术对汉语动态词进行的相关研究[8-9]很有限,更加缺少面向国际汉语教学的动态词分析。因此,深入细致地研究分析国际汉语教材语料中真实出现的动态词十分必要。分析基于国际汉语教学的动态词,一方面有助于认识理解汉语搭配的基本原理,掌握国际汉语教学领域词汇的使用与分布特点。帮助汉语作为第二语言学习者产生规范的汉语表达,形成汉语语感,促进国际汉语教学词汇研究与词汇教学的发展;另一方面对面向国际汉语教学自动词法与自动句法分析[10-11]的实现,面向国际汉语教学词典与教材的编撰,国际汉语教学词汇等级扩展研究以及教学文本难度评级等都具有重要的作用。

三音节名词是国际汉语教学中一种常见的词汇类型,在词汇教学中占有重要的位置,而其中三音节名词型动态词又占有较高的比重。三音节名词型动态词是指整体词类为名词、音节数为3的动态词。HSK一级到六级5 000词汇中,三音节名词共有94条,其中未被《现汉》收录的动态词达到20条,分别为: 充电器、重阳节、大使馆、登机牌、端午节、公安局、国庆节、火车站、加油站、解说员、救护车、开幕式、垃圾桶、墨水儿、纽扣儿、青少年、上进心、塑料袋、行李箱、羽绒服。

本文首先介绍三音节名词型动态词结构模式的一种知识表示方法;然后通过标注一定规模的国际汉语教材语料,获取三音节名词型动态词的所有结构模式类型以及对应的动态词及词频信息,构建基于国际汉语教学的三音节名词型动态词结构模式知识库;最后在结构模式知识库的基础上对三音节名词型动态词进行分析。

1 结构模式知识表示

三音节名词型动态词内部词或语素的结合同样受到意义凝聚程度、音节韵律特征以及结构稳定性质等因素的限制。三音节名词型动态词的音节模式包含“2+1”、“1+2”和“1+1+1”三种,其中“1”和“2”对应着动态词内部的词或语素,词或语素具有不同的类别。另外,词或语素的结合方式也不尽相同。上述特点体现了三音节名词型动态词结构模式的多样性,为了有效描述三音节名词型动态词不同类别的结构模式,采用下面四项信息对结构模式进行知识表示: 三音节名词型动态词整体词类、内部成分词类或语素类、内部成分音节数以及内部成分之间的结构关系。

1.1 准备工作

1.1.1 语素类别信息

《现汉》所收词语相当稳定,本文选择《现汉》中词、语素及词类标记作为标注基础来标注动态词及其结构模式信息。动态词内部成分常常包含不成词语素,而《现汉》中只有成词语素给出词类信息[12]。根据语素组合成词时的功能可以把不成词语素分为名词性语素、动词性语素、形容词性语素、副词性语素等类别,这有利于说明语素与其所构成的词的功能之间的关系以及词的内部结构关系[13]。因此,有必要首先根据《现汉》中不成词语素在词典中的义项及其构词功能为它们添加类别信息。

《现汉》中的词类具体包括名词、时间词、方位词、数词、量词、代词、动词、形容词、副词、介词、连词、助词、叹词以及拟声词等十几种类型。为《现汉》添加的不成词语素类别主要包括名词性语素、动词性语素、形容词性语素、副词性语素与意义虚化的词缀语素,如“-儿、-子、老-、阿-”等。其他类型语素数量较少且不常见,用统一的语素符号Xg表示,不再加以区分。《现汉》中词类和语素类对应的符号标记如表1所示。

表1 《现汉》词类/语素类标记集

1.1.2结构关系符号

用类似句法的手段依据一定的语义关系对已知语素进行组合,这是最常见的造词方式[13]。构成动态词的词或语素的结合方式也与句法关系类似。所以,在描写动态词的内部结构关系时,首先参考句法关系,外加重叠结构、方位结构、数量结构、词缀/助词结构以及其他虚词格式等,确定如表2所示的动态词结构关系符号集。具体包括并列、定中、状中、述补、动宾、主谓、重叠和其他共八种结构关系。采用统一的“-”符号表示方位结构、数量结构、词缀/助词结构和其他虚词格式,是因为从其内部成分及对应词类或语素类信息即可将它们区分开来。

表2 动态词结构关系符号集

1.2 结构模式

三音节名词型动态词结构模式的知识表示如下:

• <结构模式>∷=<整体词类>: <内部成分词类或语素类><内部成分音节数>[<结构关系符号><内部成分词类或语素类><内部成分音节数>]{1,2}

• <整体词类>∷=n

• <内部成分词类或语素类>∷=n|t|f|m|q|r|v|a|d|p|c|u|e|o|Ng|Vg|Ag|Dg|Ug|Xg

• <内部成分音节数>∷=<空>|2(音节数为空表示默认值1)

部分三音节名词型动态词的结构模式如表3所示。其中,“阅读课”的结构模式为“n: v2n”,冒号前的n表示“阅读课”整体词类为名词;v2代表内部成分“阅读”的词类是v,音节数为2;最后的n代表内部成分“课”是名词,音节数为默认值1;“”表示内部成分“阅读”和“课”之间的结构关系为定中关系。

表3 三音节名词型动态词结构模式

1.3 相关说明

1.3.1词库问题

《现汉》收词十分严谨。它不会收录像“中国”、“北京”、“淘宝”这样的双音节专有名词。在分析三音节名词型动态词时,如果其内部成分出现上述双音节专有名词,不适宜对这类双音节专有名词作进一步的内部分析,故遇到这类词时将其直接补充到基础词库《现汉》中。

1.3.2切分问题

分析三音节名词型动态词的结构模式需先将其内部成分隔开,切分标准是在结构与意义相统一的前提下直到每一成分能够在《现汉》中找到相应的义项以及词类或语素类为止。例如,对于动态词“足球迷”,由于《现汉》中收录了“足球”和“迷”,所以正确的切分结果应该是“足球”与“迷”。虽《现汉》中同样收录了“足”和“球迷”,但切分成“足”与“球迷”显然不正确,这种组合结构与词的意义不统一。

1.3.3 层次问题

三音节名词型动态词内部成分为3个时,从理论上说会存在组合的先后顺序,即层次问题。部分动态词在整体词类、内部成分词类或语素类、内部成分音节数及内部成分之间结构关系四者确定的情况下,层次歧义性并不大。例如,“制药厂”对应模式为“n: v|nn”,可以确定其组合层次为“(v|n)n”。因为,若为“v|(nn)”,第一层内部关系就成为动宾关系。而参考句法关系,动宾关系一般为动词性结构而非名词性结构。

有些动态词仅仅依靠上述四项信息还不能明确组合层次。如表3中的动态词“副组长”和“单人间”,结构模式都为“n: anNg”,但前者的组合层次为“a(nNg)”,而后者的组合层次为“(an)Ng”。为了使动态词结构模式能明确反映动态词的组合层次,将这类有组合歧义的结构模式分为两种情形。以“n: anNg”为例,将其分为“n: a(nNg)”与“n: (an)Ng”。

2 结构模式知识库构建

组织语言学背景的研究生对国际汉语教材语料库(包括《新实用汉语课本》《快乐汉语》《长城汉语》《跟我学汉语》《汉语教学直通车》《当代中文》《汉语乐园》等国际汉语教材)中的三音节名词型动态词进行人工标注。标注内容含动态词的结构模式以及动态词内部词或语素在基础词库《现汉》中对应的义项。标注结果如图1所示。《现汉》中词或语素的每条义项由义项码(三位数字)唯一地标识。

图1 三音节名词型动态词“中文歌”标注结果

为了保证标注结果的准确性与一致性,同一段语料文本至少由两位同学进行标注,并由专家对标注结果进行审核。标注结果一致且通过审核的数据视为有效数据。如果标注结果不一致或未通过审核,则需要标注者和审核者讨论研究决定。在实际标注过程中,许多组合是动态词还是短语结构很难界定。对于这类组合结构,标注时先按照动态词处理。一方面,这种组合满足动态词的某种结构模式,像动态词一样作为词汇整体教授给汉语二语学习者很容易被接受。另一方面,将这种组合作为一个整体有助于面向国际汉语教学自动句法分析的实现,通过避免对组合内部的细节进行处理从而减轻自动句法分析的负担。

本文一共获得29 465句(498 965字)标注三音节名词型动态词结构模式信息的国际汉语教材语料数据。利用正则表达式匹配与提取标注语料中的三音节名词型动态词及其结构模式信息。正则表达式是用某种模式去匹配一类字符串的一种公式,由若干普通字符和特殊字符(元字符)构成。普通字符包括大小写字母、数字和汉字等,元字符指一些具有特殊含义的专用字符。语料中的三音节名词型动态词及其结构模式信息规则明确,利用正则表达式“.{3}【.+?】【.+?】”可将所有待提取信息准确地匹配出来。对提取出的信息进行统计分析,最终建立具有75种结构模式的三音节名词型动态词结构模式知识库。构建的知识库的结构如表4所示。75种结构模式按与之对应的动态词频次由高到低排序如表5所示。

表4 三音节名词型动态词结构模式知识库结构

三音节名词型动态词结构模式知识库中的75种结构模式对应的动态词总数为4 678条,对应的动态词总类别数达到1 712种。知识库中结构模式“n: v|Ngn”对应的内容如表6所示。

表5 三音节名词型动态词结构模式类型

表6 知识库中结构模式“n: v|Ngn”

表6 知识库中结构模式“n: v|Ngn”

idmodePOSsyllablefrequencyclassdetail16n: v|Ng↗nn32610【洗[001]发[101]水[004]】 10【登[001]机[002]牌[002]】 4【洗[001]衣[001]店[002]】 2【含[002]金[001]量[103]】 2【购[001]物[001]袋[001]】 2【藏[001]趣[001]园[001]】 2【扑[001]炉[001]蛾[001]】 1【登[001]机[002]口[006]】 1【有[001]情[001]人[001]】 1【收[005]件[003]人[001]】 1

3 三音节名词型动态词分析

结构模式知识库中对应动态词频次排在前十的结构模式如表7所示。由表7可知,除“n: n2-Ug”外,其他结构模式的内部结构关系都为定中关系。由此可知,国际汉语教学中三音节名词型动态词内部成分的主要结合方式是定中结构关系。最常见的是双音节名词、动词、形容词与单音节名词或名词性语素(不成词语素)的结合及单音节形容词、名词、数词与双音节名词的结合。

表7 频次排在前十的结构模式

结构模式知识库中包含前缀和后缀标记的结构模式共有八种,分别为“n: n2-Ug”、“n: an-Ug”、“n: v2-Ug”、“n: a2-Ug”、“n: nn-Ug”、“n: f2-Ug”、“n: Ug-n2”和“n: nNg-Ug”。标注的国际汉语教材语料中三音节名词型动态词出现前缀和后缀的详细情况如表8所示。表8中“详细信息”字段包含具体的前缀/后缀、对应的义项码以及出现频次等信息。

表8 三音节名词型动态词出现前缀和后缀情况

从国际汉语教材语料库中获取的1 712种动态词中,内部词或语素的类别(考虑义项差别)共有1 713种。其中,出现频次最高的15种词或语素如图2所示。在国际汉语教学领域中,人[n][001]、小[a][001]、大[a][001]、们[Ug][101]、者[u][001]、新[a][001]、好[a][001]、儿[Ug][101]、性[Ug][003]、课[n][002]等词或语素构成三音节名词型动态词能力较强。

本节以构建的三音节名词型动态词结构模式知识库为基础,初步分析了国际汉语教学中三音节名词型动态词内部成分的主要结合方式、出现前缀/后缀情况以及构成三音节名词型动态词能力较强的词或语素。三音节名词型动态词结构模式知识库蕴含大量有价值的信息,如果进一步挖掘,可以对国际汉语教学中的三音节名词型动态词产生更加全面深入的理解与认识。

图2 三音节名词型动态词内部频次最高的词或语素

4 结语

本文利用知识工程的方法对国际汉语教学中的三音节名词型动态词进行研究分析,初步构建了面向国际汉语教学的三音节名词型动态词结构模式知识库,通过分析结构模式知识库取得了部分重要成果。本文的研究方法可以进一步推广到国际汉语教学中其他音节的名词型动态词以及其他词类的动态词研究中,以便更好地服务于国际汉语教学的词汇研究与词汇教学以及面向国际汉语教学的信息处理。

猜你喜欢
词类语素知识库
汉语近义词辨析知识库构建研究
《最低入门等级音节、汉字、词汇表》语素和语素义分析
多义语素识别及教学探讨
——针对对外汉语语素教学构想
用词类活用法扩充词汇量
大学英语词类教学研究及启示
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
从成语中学习词类活用
因果复合词
高速公路信息系统维护知识库的建立和应用
漫谈高考考点对词类及句子成分的隐性考查