“采访”的词类标注问题探讨
——一项基于双层词类范畴化理论的实证研究

2019-12-03 08:18
重庆电子工程职业学院学报 2019年3期
关键词:采访词类规约

吴 铭

(四川外国语大学 研究生院,重庆400031)

兼类指一个多义的概括词或词项在社群语言系统词库层面拥有两个及以上词类范畴的语法多功能现象。动名兼类词兼属名词和动词两个词类。在词典配例或释义中,只表示一个词性,如名词或动词;但在词目词中却能同时兼属名词和动词两个词性,表现为动名兼类词。判断一个词目词是否是动名兼类词或其他兼类词,可依据王仁强等人[1]基于双层词类范畴化理论提出的四个标准进行判断,对于现代汉语而言,一般以前两个标准为基础,需考虑在整个社群语言系统中达到规约化或相变的词以及这些词的个例频率与类型频率,而且,应当基于语料库的使用模式调查进行探索。

身处人工智能时代,运用语料库大数据的方法进行语言学研究势不可挡[2]。不过,由于人力、物力的限制,书本词典更新速度较慢,记录的词一般为高度规约化的词,对于旧词新意或新造词的记录可能不如语料库中的索引行中的示例句更新得快。

现代汉语由于词(或字)与词之间缺乏明确的界限,不同于英语,词之间无空格隔开,所以对词语的切分较为困难。另一方面,英语等印欧语的形态变化较为丰富,如动词的过去式一般可用“-ed”表示,进行式可用“-ing”表示;而汉语则只能用诸如“着、了、过”等的词进行标记,从形式上难以区分。因而,词性标注也是中文信息处理领域较为困难的一个基础环节,尤其是对诸如“研究”“选择”等动名兼类词的处理更为困难。

词性标注作为中文信息处理领域的基础环节,是后续如机器翻译、命名识别等更高一级别的处理的研究基础。所以,探讨词典中的词类标注与语料库的词性标注是否一致,一方面,有助于打牢中文信息处理领域的基础;另一方面,有助于帮助以汉语为外语的二语学习者学好汉语,尤其是将汉语词典作为学习工具的学习者。

1 研究问题

1.1 理论基础

词类标注作为词的句法功能的分类,在词典编纂中极为重要。然而,一些主流的、权威的与汉语相关的词典,如《现代汉语词典》等,采用“简约原则”指导词类标注,坚持“兼类要尽可能少的原则”,在词典编纂过程中,删去了某些兼类词的词类标注。如“滑雪”这一概括词在《现代汉语词典》(第 5 版)的标注中是动名兼类词(【滑雪】huáxuě①动脚蹬滑雪板,手撑滑雪杖在雪地上滑行。②名 体育运动项目之一。比赛分为高山滑雪、跳台滑雪和花样滑雪等)。但是,在第6和第7版中,却删去了名词词性的标注,只保留了动词词性(【滑雪】huáxuě①动 脚蹬滑雪板,手撑滑雪杖在雪地上滑行。②体育运动项目之一。比赛分为高山滑雪、跳台滑雪和花样滑雪等)。

现代英语中数量众多的动名词兼类词的存在却并未影响英语语法的描写[3],在《现代汉语词典》的编纂却要对兼类词坚守“奥卡姆剃刀原理”(Occam’s Razor),对兼类词的词性标注“简单、粗暴”地删减,这样的词典编纂理论值得商榷。而双层词类范畴化理论自提出以来就受到了各界学者的关注,但遗憾的是,基于该理论进行的实证研究还相对欠缺。因此,本研究为考察动名兼类词的词类归属问题,拟以“采访”一词为例,以双层词类范畴化理论模型为指导,考察《现代汉语词典》(第5/6/7版)中对类似的动名兼类词的词类标注与语料库的词性标注是否一致,以期为动名兼类词的词类归属提供相关启发,为“采访”一词在现代汉语词典中的词类标注问题提供建议。

1.2 问题的提出

“采访”一词是不是动名兼类词呢?这三则新闻标题中“采访”词例的词类是如何呢?

(1)15次春节期间深入基层采访 践行 “四力”就要深入再深入(2019-02-12 来源:中国新闻出版广电报)

(2)凌晨两点来青岛试戏,《流浪地球》主演屈楚萧接受采访,分享在青拍戏经历 (2019-02-12来源:半岛网)

(3)蔡徐坤不惧流言,其实看他的微博和采访,他一直都在保护粉丝!(2019-02-15 来源:迷妹看娱乐)

国家语委现代汉语语料库对“采访”一词的词性标注均为动词,但在(2)(3)中“采访”一词是动词吗?(3)中的“采访”与“微博”处于并列关系,“他的”来修饰这两个词,是典型的名词用法。“采访”的动词和名词用法是否达到了规约化呢?

经过查询,在《现代汉语》(第5/6/7版)中,“采访”标注相同,标注如下。

【采访】cǎifǎnɡ 动 搜集寻访;调查访问:~新闻|加强图书~工作|记者来~劳动模范。

这样人们对于词的主观理解和词典编纂的标注出现了矛盾,那如何解决这一问题。

1.3 研究方法

语言使用理论(Usage-based Theory)认为,语言从本质上讲是一个复杂适应系统,语言结构始终处于动态变化之中,语言结构是在使用中涌现出来的,而使用频率在语言结构的固化和规约化过程中扮演着重要角色。规约化指存在于一个语言社团全体成员脑子里的模式和常规,而规约化程度可通过语料库方法进行检测。

“简约原则”只侧重于语言层面词库中的词类和言语层面句法中的词类一方面。郭锐[4]认为词汇层面的词性就是词语固有的词性,需要在词典中标明,句法层面的词性是词语在使用中产生,需要句法控制,但割裂了两者之间的联系。王仁强[1]指出,词汇层面的词类源于句法层面的词类,但后者不等于前者,只有在句法中体现了规约化的句法属性才等同于词库的词类。而词汇常规用法,只有在规模语料库分析中方能发现。

王仁强的“双层词类范畴化”的理论模型是基于复杂适应系统的语言观和语料库的使用模式调查提出的。该理论指出:词类范畴化发生在两个层面,即言语层面词库中的词类范畴化和社群语言层面词库中的词类范畴化,前者是词在言语层面不同句法位置上词例的词类范畴化,是说话者对包括指称、陈述、修饰等命题言语行为功能的表达过程。后者体现为语言词典中的词类标注,是一个言语社群集体的自组织过程,其核心是规约化。概括词的词类属性是会随着词例在言语中反复使用而发生演变的。根据这一模型,判断一个词的词类属性,首先要判断它在言语层面中的词类属性是否达到规约化,从而进入到语言系统层面的词库中。判断词类的标准要从个例频率、类型频率、历史分布和语域分布出发。其中最为明显的是个例频率和类型频率。因此,笔者将通过这一模型,通过国家语委现代汉语语料库进行检索,运用命题言语行为功能(指称和陈述)来分析“采访”的个例频率和类型频率,观察该词的名词用法情况。

2 研究结果与分析

2.1 研究结果

2.1.1 个例频率

在国家语委现代汉语语料库中,未标注词性的“采访”一词共有417条索引行。其中,标注为名词词性的例句仅4条,占总数的0.96%;而标注为动词词性的例句高达413条,占总数的99.04%。虽然国家语委现代汉语语料库将“采访”一词标注为名词词性的索引行较少,但并不表示不存在,4条例句如下。

第98条索引:在/p弄清/v新闻/n报道/v中/nd的/u思维/n活动/v形式/n以后/nt,/w记者/n就/d能/vu自觉/a地/u积极/a地/u运用/v它/r来/vd为/p采访/n服务/v了/u。/w

第102条索引:我国/n记者/n邵飘萍/nh就/d有/v这样/r一/m段/q采访/n故事/n。/w

第138条索引:新闻/n的/u采访/n、/w编辑/n、/w评论/n、/w写作/n等/u是/vl新闻/n学/k中/nd的/u应用/v部分/n,/w它们/r有/v什么/r基本/a要求/n?/w目前/nt有/v什么/r新/a的/u发展/v?/w

第392条索引:《/w救亡/v日报/n》/w不/d登/v中央社/n和/c外国/n通讯社/n的/u消息/n,/w也/d不/d登/v广告/n,/w它/r是/vl一/m张/q专靠/v特写/n、/w评论/n、/w实际/a采访/n以及/c文艺/n作品/n为/vl内容/n的/u小报/n,/w这/r是/vl它/r的/u一个/mq重要/a特色/n。/w

对上述4条索引行进行全样本分析后,发现一些类似的用法却并未标注为名词。鉴于样本量不是太大,因此,以双层词类范畴化理论[1]为指导,通过命题言语行为功能进行了重新标注,研究结果发现“采访”一词表示指称功能,具有名词属性的索引行共240条,占总数的57.55%;表陈述功能,具有动词属性的索引行共177条,占总数的 42.45%。可见,“采访”一词在国家语委现代汉语语料库中标注为名词词性的索引行多于标注为动词词性的。

2.1.2 类型频率

“采访”表指称功能的用法模式共五种:“VP+采访”“采访(的)+NP”“采访+VP”“量词+采访”和“Adj+采访”,如表1所示;表陈述功能的用法模式共四种:“VP+采访”“采访+NP”“介词+采访”和“Adv+采访”,如表 2所示。

表1 国家语委语料库中“采访”的指称用法在各结构中的分布情况

表2 “采访”的陈述用法

2.2 结果分析

2.2.1 个例频率

国家语委语料库中,标注为名词词性的共占总数的57.55%;标注为动词词性的共占总数的42.25%,动词词性所占比例少于名词词性所占比例。动词的用法已收录进纸质词典,可见动词的用法频率达到了规约化的程度。然而,相较于动词用法而言,“采访”一词作为名词的频率较高,超过了动词的规约化程度。

2.2.2 类型频率

在指称用法模式中“采访(的)+NP”“Adj+采访”类型所占的比例大,各占64.58%和23.75%,“~(的)对象”“记者(的)~”等符合语言的使用模式,且在生活中较为常见,结构类型突出。就个例频率和类型频率来看,“采访”的名词性用法在词典中应标注为动名兼类词,具体应为:【采访】cǎifǎnɡ 动、名 搜集寻访;调查访问:~新闻|加强图书~工作|记者来~劳动模范。

3 讨论

基于双层词类范畴化理论,以“简约原则”为词类标注的黄金准则似乎存在一些问题:对于概括词和个体词(词例)的不同词类范畴并未进行较好地区分。而双层词类范畴化理论关注语言和言语两个层面,运用大型语料库进行检索分析,注意到了“简约原则”忽视的言语层面,分析数据的方法较为科学。但是就“采访”的词类标注,本文存在着一些不足之处:一方面,本文只对国家语委现代汉语语料库进行检索,样本的选取可能只关注于某一领域,可能某种类型模式多,从而导致其类型频率多,致使其词类范畴所占的比例大,使数据存在偶然性。所以“采访”的词类标注还要借助其他大型语料库的语料。另一方面,频率的高低并不是规定规约化程度的最重要的唯一标准,判断词类的标准要从个例频率、类型频率、历史分布和语域分布出发,所以双层词类范畴模型的运用从这四个方面进行调查研究将更加科学,更具有说服力。

4 结语与展望

综上所述,不少学者割裂了词汇层面的词性和句法层面的词性,采用“语义不变,词类不变原则”和“简约原则”。《现代汉语词典》中的兼类词,特别是动名兼类词只保留其动词词类,导致人们对词典中的词类编纂产生疑惑。

鉴于此,本文基于国家语委现代汉语语料库,采用双层词类范畴化理论对“采访”的词类标注进行重新判定,研究结果发现“采访”表指称类结构多样,某些种类模式在生活中频繁出现,在语言层面已达到规约化模式,因此,在社群语言系统层面应属于动名兼类词。

基于双层词类范畴模型理论和语料库的调查模式可能有助于克服“简约原则”的不足,遵循语言的事实。但对词类的判断应当综合多个方面,从个例频率、类型频率、历史分布和语域分布出发(现代汉语一般以前两个为主),同时结合多个大型语料库进行调查分析,以使词典编纂更符合语言使用事实。

猜你喜欢
采访词类规约
传统自然资源保护规约的民俗控制机制及其现实意义
基于无线自组网和GD60规约的路灯监控系统的设计
用词类活用法扩充词汇量
基于语料库“隐秘”的词类标注初步探究
从成语中学习词类活用
一种在复杂环境中支持容错的高性能规约框架
一种改进的LLL模糊度规约算法
基于“字本位”理论再谈汉语词类问题
美媒估计《采访》亏了3000万