《年度媒体新词语表》对辞书编纂的价值*

2019-07-22 12:03张永伟
辞书研究 2019年4期
关键词:新义高频词辞书

张永伟

《年度媒体新词语表》(以下简称《新词语表》)是《中国语言生活状况报告》年度媒体用字用语调查的重要组成部分,连续多年由国家语言资源监测与研究中心研制并由教育部语言文字信息管理司组织发布。《新词语表》基于大规模媒体语料库研制,具有权威性、代表性。《新词语表》在研制过程中结合新词语候选集的计算机自动提取和人工排查、确认的方法,得到的新词语具有典型性、全面性,可视为新词语在当年使用情况的真实描写。

苏新春(2003)指出,新词语产生后有三种生存可能: 一是问世后不久就无人使用,消退、“夭折”了;二是继续不稳定地、小范围地存在;三是被普遍使用、广泛流传而逐渐稳定,进入民族共同语词汇系统而成为其中一分子。苏文参照新词语的这三种生存可能将新词语的产生过程划分为初生、发展和成熟三个阶段。

《新词语表》研制的目的是如实记录当年出现的新词语,即记录初生后发展了一段时间的新词语。而一般辞书[1]在编纂修订时,除收录一般词条外,也需要紧跟时代,增补新词新义。一般辞书收录新词,除了词“新”之外,还要兼顾稳定性、通用性,即更倾向收录成熟阶段的新词语。

本文在分析新词语基本面貌和形成特点的基础上,结合《现代汉语词典》(以下简称《现汉》)第7版对《新词语表》的收录情况,总结了新词语进入成熟阶段的静态特征。然后根据新词语在《中国语言生活状况报告》每年发布的《年度媒体高频词语表》(以下简称《高频词表》)及《人民日报》中的收录、使用情况,对新词语进入成熟阶段的动态特征进行分析,并进一步说明《新词语表》对辞书编纂的价值。

一、 《新词语表》反映了当今汉语新词语的基本面貌

《新词语表》是当年媒体语料中新出现词语的集合,如实记录了初生后得到一定程度发展的新词语。从新词语用字看,新词语分为完全由汉字组成的词语和包含非汉字符号组成的词语(以下称“非完全汉字新词语”)两种类型;从词语“新旧”看,包括“新词新义”和“旧词新义”两种情况。将2010年—2017年的《新词语表》汇总,得到8年的新词语总表。本节基于该总表进行分析,分别从词长和词语“新旧”两个方面阐释当今汉语新词语的基本面貌。

(一) 《新词语表》中新词语的词长分析

8年《新词语表》的新词语整体收词规模及词语长度分布情况如表1所示:

表1 《新词语表》整体收词规模及词语长度分布情况

2010年—2017年共发布新词语3601个[2],其中三字新词语总数最多,其次是四字和二字新词语,单字和五字及以上的新词语总数最少。具体到每个年度,所有年份的三字新词语数量都最多,除2013年以外的大部分年份的四字新词语数量都比二字新词语数量多,这说明初生、发展阶段的新词语主要以三、四字为主。

(二) 《新词语表》中新词语的“新旧”类型分析

8年中《新词语表》收录的“新词新义”新词语和“旧词新义”新词语的数量和比例如表2所示:

表2 《新词语表》“新词新义”和“旧词新义”新词语情况

所有年份的“新词新义”新词语比例都超过了96%,平均97.17%,占绝对优势。这说明人们创造新词语时更倾向于全新造词,尽量避免给现有词语赋予新的含义。

二、 《新词语表》反映了新词语的形成特点

《新词语表》中的新词语可能经过一段时间后就无人使用、逐步消退,可能被持续使用一段时间但使用范围受到局限,也可能被普遍接受并常规使用。为了分析《新词语表》中新词语的后续生存情况及最终是否更倾向于被辞书收录,需要先对新词语的形成特点进行分析。本文主要从6个方面进行分析。

(一) 单字词数量少、形成模式多样

《新词语表》共收录5个单字词,分别为“粉、壕、撕、污、尬”,它们可以视为单字新词语的最典型代表。单字词均具有相对较高的使用频次,由于所有单字词都不涉及全新创造新字形,因此所有单字词均可视为“旧词新义”。虽然单字词的数量少,但形成模式多样,包含音译、缩写、合写、脱离联绵词而独立等多种方式[3],其形成具有很大的偶然性。

(二) 谐音新词语逐步减少

《新词语表》共收录49个谐音新词语,包括汉语谐音、英语谐音和日期谐音三种类型。其中,汉语谐音产生的新词语数量最多,为39个,比如“神马、香菇、蓝瘦”等。英语谐音新词语数量比较少,为8个,比如“U站、UV行动、闹太套”等。日期谐音新词语数量最少,只有2个,分别为“分手节”9月13日(913谐音为“就要散”)和“1314结婚潮”。谐音新词语在2010年收录数量最多,为20个;在2015年和2017年收录数量最少,均只有1个。谐音方式产生的新词语一般规范性较差,数量整体呈现减少的趋势。

(三) 音译新词语主要来自英语

《新词语表》共收录音译新词语28个,每年收录2—7个,数量较少。音译新词语主要源自英语,数量为23个,占比82.1%。比如,“拜客”音译自“bike”,“慕课”音译自“MOOC”,“八困”音译自“Bug Queen”等。除英语外,还有个别音译来自祖鲁语、印尼语、韩语、乌干达语、土耳其语等。比如,“呜呜祖拉”来自祖鲁语“vuvuzela”,“安代克”来自印尼语“endek”,“辛奇”来自韩语“kimchi”等。

虽然《新词语表》音译词语数量少,但每年收录情况相对稳定,是新词语较为稳定的来源方式之一。

(四) 非完全汉字新词语形式多样

《新词语表》共收录119个非完全汉字新词语,每年收录9—26个,占比为1.88%—5.54%,平均占比3.3%,非完全汉字新词语的构词形式多样,具体包括“汉字+字母”“汉字+数字”“纯字母”“汉字+字母+数字”“汉字+字符”“字母+数字”“汉字+字符+数字”“汉字+字母+字符+数字”“纯字符”等9种形式。其中,“汉字+字母“形式数量最多,高达62个,占比为52.1%;“纯字母”或“纯字符”的新词语数量较少,一共只有17个。这说明包含非汉字字符组成的新词语中,汉字依然是最常用的组成元素。

(五) 词缀、类词缀大量参与构词

《新词语表》包含大量词缀、类词缀参与构成的新词语,形成词族效应。以构成二、三字新词语的单音节类词缀为例,本文考察了23个后附加的类词缀和4个前附加的类词缀的构词情况[4]。统计发现,27个类词缀共构成《新词语表》中的新词语480个,占全部二、三字新词语总数的21.35%。其中,447个新词语由后附加类词缀参与构成,33个新词语由前附加类词缀参与构成。此外,由类词缀构成的新词语的使用频率也相对较高。

(六) 简缩方式构成新词数量较多

简缩本文指简称、缩写或者缩略。统计《新词语表》释义发现,约145个新词语以缩简的方式构成,占比为4.03%。比如,“超导”是“超级导演”的简称,“药Q”指正确使用药物的能力(其中“Q”是英文quotient的缩写),“讲懂守”是“讲诚信、懂规矩、守纪律”的缩略。非完全汉字新词语虽然总数较少,但通过缩简方式形成的比例非常高,119个非完全汉字新词语中缩简方式构成的新词语有39个,占比32.77%。

与缩略相对应的是合称方式构成的新词语,比如“三房”是“廉租房、经济适用房和限价房”的合称。《新词语表》共收录合称方式构成的新词语约40个,占比较少,只有1.11%。

三、 《新词语表》对辞书编纂的价值

《现汉》以确定词汇规范为目的,以推广普通话、促进汉语规范化为宗旨,被视为现代汉语的规范型辞书。“由于《现汉》的性质,它对新词语的收录往往反映出这些词语正在进入或已经进入了民族共同语,等于给新词语发放了一张社会认可证,同时也反映出研究界对新词语的处理原则与方法。”(苏新春 2003)规范型辞书对新词语的收录,需要建立统一的原则,区分新词语所处的发展阶段,收集初生、发展阶段的新词语,择优收录成熟阶段的新词语。本文将以《现汉》第7版为例说明《新词语表》对辞书编纂的价值。

《新词语表》为规范型辞书处理新词语提供了初生后发展到一定阶段的新词语候选集合。总结规范型辞书对新词语处理的原则规范,可以变相得到新词语成熟的标记特征,标记特征反过来可以指导规范型辞书中其他新词语的收录。《新词语表》对辞书编纂的价值主要体现在以下几个方面。

(一) 总结更容易成熟的新词语类型

规范型辞书只收录成熟阶段的新词语,数量较少,而初生、发展阶段的新词语数量较多,结合初生、发展阶段的新词语特点分析新词语可以了解哪些特点的新词语更容易成熟、更应该被辞书收录,构成一个渐进序列。我们对《现汉》第7版收录的《新词语表》中新词语进行分析以便了解规范型辞书对新词语的收录情况及处理原则。

《现汉》第7版共收录《新词语表》中的新词语30个,分别为:“悲催、给力、吐槽、微信、备胎、创客、逆袭、躺枪、正能量、中国梦、爆表、点赞、光盘行动、女汉子、四风、土豪、细颗粒物、学霸、众筹、任性、三严三实、新常态、互联网+、颜值、一带一路、双创、四个全面、工匠精神、私信、五大发展理念”。这30个新词语的使用经历了初生、发展及成熟三个阶段,最终被规范型辞书认可并收录。

1. “旧词新义”新词语更容易成熟

《现汉》第7版收录的30个表中新词语中有8个是“旧词新义”[5],占比为26.67%,远远高于《新词语表》中“旧词新义”新词语平均占比2.83%的比例。“旧词新义”的新词语一般已经比较稳定,新义项被普遍接受以后,规范型辞书也更应该对新义项进行补充。

2. 二字新词语更容易成熟

《现汉》第7版收录的30个表中新词语包含18个二字词、4个三字词、6个四字词及1个六字词。其中,二字词的数量最多,占比高达60%,这与《新词语表》中三、四字新词语数量多、占比高形成了鲜明的对比。这说明二字词依然是辞书编纂者更容易认可的词汇形式,使用更稳定,也更容易成熟。相比之下,虽然初生的三、四字新词语数量比较多,但能存活下来的并且最终适合辞书收录的比例非常小。

《现汉》第7版未收录表中的任何单字词,这与《新词语表》中的单字词数量少密不可分。另一方面也与单字词形成模式多样、偶然性强、规律性较差的特点有关。

3. 合称新词语更容易成熟

《新词语表》中合称新词语只有40个,数量少,占比仅为1.11%。但是《现汉》第7版中收录的表中新词语中有5个是合称新词语,分别为“四风、三严三实、一带一路、四个全面、五大发展理念”,占比高达16.67%,这与《新词语表》中的合称新词语占比低亦形成鲜明对比。合称新词语往往由数词连同依据不同词语或句子之间的共性提取得到的关键词组合而成,如果不详细解释,仅看词形难以猜测词语的具体含义。合称新词语的构词方式符合人们一般认知规律,一旦达到一定的使用频率和通用性,就更有可能被规范型辞书收录。

4. 反映社会、政治生活的新词语更容易成熟

“创客、爆表、光盘行动、工匠精神、中国梦、四风、三严三实、新常态、互联网+、一带一路、四个全面、五大发展理念”是反映社会、政治生活的新词语。《现汉》第7版中收录了大量反映社会、政治生活的新词语。这说明反映社会、政治生活的新词语更容易成熟、更容易被辞书收录。王利、张珊(2018)对比《现汉》第7版相比《现汉》第6版新增的词语情况时也发现新增的词语中源于社会生活、政治的新词语数量最多。“语文辞书作为特定时代编纂的工具书,必然具有时代的烙印;作为文化的载体,必然传播当时的精神文明成果,也就必然带有一定的思想性。”(潘雪莲 2018)反映社会、政治生活的新词语的收录正是规范型辞书思想性在收词方面的体现。

5. 新词语其他特征及新词语成熟难易性

谐音新词语规范性普遍较差,数量也在逐年减少,大多难以发展到成熟阶段,所以规范型辞书应该慎收谐音新词语。

虽然《新词语表》中二、三字新词语中类词缀构词占比很高,但《现汉》第7版只收录了“创客”“学霸”这两个类词缀构成的词,并且都是二字新词语,未收录三字新词语。此外,“~客”和“~霸”也不是构词能力最强的类词缀。我们可以大胆推断,新词语是否成熟和是否是类词缀构词关系并不大,类词缀参与构成的新词语除非特殊需要收录的,一般都不是规范型辞书倾向收录的词语。

一些科技专有名词,比如艾欣瞳(指我国科学家自主研发的全球首个完成临床试验的生物工程角膜产品),疑似“爱心的瞳孔”的缩写和谐音,但难以查找其准确出处。这样的新词语因为反映当年科技新进展而具有较高的使用频次,但随后如果没有被持续普遍使用,也难以成熟。

(二) 增补新词语

除《现汉》第7版已经收录的新词语外,还有许多《新词语表》中的新词语可以被收录。仅仅依据词语是否更容易成熟的静态特征尚不能从《新词语表》中挑出成熟的新词语,还需要能反映词语是否稳定成熟的动态特征。我们需要用发展的眼光判断初生、发展的新词语是否在《新词语表》收录以后被广泛接纳、普遍使用。我们可以结合《高频词表》的数据并通过考察它们在《人民日报》语料库中的使用情况来对新词语是否可以进入辞书做出判断。

1. 与《高频词表》对比增补新词语

《新词语表》中部分词语也被《高频词表》收录。《高频词表》记录当年媒体语料中出现频率较高的词语,其研制使用的调查语料与研制《新词语表》使用的调查语料接近,对比性高。新词语被《高频词表》收录,说明词语在当年被高频使用。因此,将《新词语表》和历年《高频词表》进行对比,可以最准确、最直接地反映新词语的动态使用情况。

以“奇葩”“套路”为例,“奇葩”“套路”分别在2011年和2010年开始被《高频词表》收录,但其使用频次分别在2013年和2016年迎来大幅增长,在2013年和2016年被《新词语表》收录。“奇葩”“套路”在《高频词表》中频次大幅增长的时间刚好与被《新词语表》收录的时间吻合。因此,这两个词应该是“旧词新义”的新词,在赋予新的含义并大量使用后导致频次发生了剧烈变化。“奇葩”“套路”均是二字词、属于“旧词新义”,从静态特征上看也属于更容易成熟稳定的类型,规范型辞书可以考虑收录。类似的词语还有“风口、慕课、打赏、单独、区块链、精准扶贫、两学一做、四个意识”等。

“奇葩”“套路”在《高频词表》中的历年频次变化如图1所示。

图1 “奇葩”“套路”在《高频词表》中历年频次变化[6]

有的词语虽然词频符合上述变化趋势,但由于不满足易成熟新词语的静态特征,建议暂不收录,比如“单独二胎、微电影、校园贷、微信红包”等。

2. 结合语料库增补新词语

《新词语表》中大部分新词语并未被《高频词表》收录。为了检测这部分新词语的生存情况,可以借助语料库对它们的使用情况进行分析。苏新春(2003)认为《人民日报》虽然偏于新闻语体,且属较正式的书面语,但它覆盖领域宽广,涵纳内容丰富,是其他语料难以相比的,更重要的是这些正好符合规范性辞书收词的要求。本文选择2009年—2018年《人民日报》图文数据库中的文字部分作为语料进行统计。

我们使用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”[7]对《人民日报》语料进行分词,为了更准确地切分新词语,切分时将《新词语表》作为分词工具的用户自定义词表。分词后进行词频统计,对《新词语表》中新词语在2010年—2018年《人民日报》中出现的总频次由大到小排序。排序结果显示,排位前30名的新词语有11个已经被《现汉》第7版收录[8],剩下的19个新词语为:“新时代、担当、高原、小微、十三五、北约、精准扶贫、获得感、单独、美丽中国、打电话、新征程、亚投行、飞跃、两学一做、战区、四个意识、数字经济、雄安新区”。

对比新词语在《人民日报》中历年频次变化可以获知新词语成熟的动态特征。以频次最高的“新时代”“担当”为例。

“新时代”是新词新义,于2017年被《新词语表》收录,标志着其进入初生、发展阶段。图2也明确印证了这一点,它的使用频次在2017年急剧增长,随后在2018年持续增长。“新时代”虽然是三字词,但却是反映政治生活的新词语,因此可以对其使用情况持续观察。如果其使用频次依然持续较高,规范型辞书可以考虑收录。

“担当”是旧词新义,从《现汉》试用本起就被收录,《现汉》第7版标记其为动词,含义是“接受并负起责任”,新的含义是名词,指在某方面承担、负责,起主要作用的人或物。“担当”于2015年被《新词语表》收录。从图2的曲线变化也可以看到“担当”的频次在2014年首次迎来较大幅度增长,疑似“担当”在更早的2014年就已经进入“初生”阶段,随后进入长期稳定发展的阶段,目前可视为具有一定成熟度的新词语。最后,鉴于“担当”在近年《人民日报》语料中使用的总频次较高,历年使用频次趋于稳定,也符合更容易成熟的新词语的静态特征,建议规范型辞书补充“担当”名词用法的新义项。

“新时代”“担当”在《人民日报》中的历年频次变化如图2所示。

图2 “新时代”“担当”在《人民日报》中历年频次变化

依据语料库统计新词语频次变化,可以作为词语成熟的动态特征,辅助辞书编纂中收录新词语。

四、 结语

《新词语表》记录当年初生并发展到一定阶段的新词语,辞书一般收录某一段时间内使用相对成熟的新词语。虽然《新词语表》收录的新词语不能直接进入辞书,但依然对辞书编纂尤其是增补新词新义有参考价值,主要体现在以下几个方面: (1) 《新词语表》收录新词语数量较多,为整体分析当今新词语的基本面貌及形成特点提供了数据支持;(2) 《新词语表》可以直接为辞书增补新词新义提供候选词;(3) 通过分析《现汉》第7版对《新词语表》中新词语的收录情况,可以结合新词语的形成特点,了解具备哪些特点的新词语更容易成熟,即有助于总结规范型辞书对新词语的处理原则;(4) 借助《高频词表》或者加工处理后的文本语料库,不仅可以检测新词语历年使用的频次变化,印证新词语的生存发展过程,也为辞书编纂中新词新义的增补提供了新的思路和方法。

附 注

[1] 一般辞书相对于专门收录新词语的词典而言。

[2] “习马会”在2013年和2015年均有发布,释义分别为“人们猜测、期待中的中国国家主席习近平与中国台湾地区领导人马英九之间的会晤”和“两岸领导人习近平、马英九于2015年11月7日在新加坡的会面”。本文将其视为2个不同的新词语进行处理。此外,2014年发布的“拼脸”“微拍”也存在类似情况。

[3] 比如,“粉”是“粉丝”的简称,而“粉丝”是英语单词“fans”的音译;“壕”是“土”和“豪”两个字的合写;“尬”原本只用在联绵词“尴尬”中,现已独立为语素,指比较、比试,也指尴尬。

[4] 23个后附加类词缀为“~哥、~体、~门、~领、~客、~控、~奴、~族、~姐、~爷、~手、~日、~友、~商、~叔、~者、~热、~吧、~霸、~东、~龄、~星、~系”,4个前附加的类词缀为“被~、零~、后~、亚~等”。

[5] 8个“旧词新义”新词语分别为“吐槽、备胎、逆袭、爆表、土豪、学霸、任性、工匠精神”,界定依据为《新词语表》对新词语的释义。

[6] 这里的百万词频次=词语的频次×1000000/总频次,下同。

[7] 语言技术平台主页: http: ∥ltp.ai/,本文使用的版本为3.4.0。

[8] 被《现汉》第7版收录的11个新词语分别为“一带一路、中国梦、微信、新常态、互联网+、正能量、四风、四个全面、点赞、三严三实、创客”。

猜你喜欢
新义高频词辞书
30份政府工作报告中的高频词
省级两会上的高频词
大型辞书疑难字考释七则
28份政府工作报告中的高频词
省级两会上的高频词
旧裙新义
从异解看成语新义的形成
“奇葩”一词的发展变化及原因
科举干禄与语文辞书编纂
あたらずといえどもとおからず