周明海
国家语委于2005年启动的“新词语编年本”课题目前已推出了《2006汉语新词语》《2007汉语新词语》《2008汉语新词语》三本编年本汉语新词语,今后还将继续推出更多的系列研究成果。这三本词典是继于根元等编纂的四本新词语编年本(1991-1994)之后的又一编年本新词语系列词典。其中《2007汉语新词语》《2008汉语新词语》(下文简称“07、08汉语新词语”)由教育部语言文字信息管理司策划,侯敏、周荐主编,商务印书馆出版,属于中国语言生活绿皮书B卷系列。
“07、08汉语新词语”具有普通新词语词典及其他编年本新词语词典所具有的作用和意义:
《2008汉语新词语》中的“范跑跑”、“郭跳跳”看似只是两个很普通的新词语,却记录了“5.12”汶川地震这一历史灾难,记录了此次灾难催生的社会现象——“范跑跑”事件、“郭跳跳”事件,是社会现象、社会变化的忠实记录者。同时这两个新词语也折射了人们对社会现象的认识态度,范美忠临震一“跑”和挑战国民容忍度的言论,引发了一场道德伦理大讨论,用“范跑跑”来“泛指那些标榜自由主义,遇到险境不顾他人、一心自保的人”明显可以看出国人对此事的认知评价态度。
“07、08汉语新词语”作为新词语词典,可以为人们查解困难提供帮助,具有词典学的意义,但同其他新词语词典一样,“07、08汉语新词语”的意义绝非仅限于此。虽然“07、08汉语新词语”收录的很多新词不为大众所熟知,也有很多新词只是昙花一现,但其却记录了新词产生的背景、原因、所指等一系列内容,这些知识是后人了解我们这个时代的重要线索,具有词源学意义。“07、08汉语新词语”中有一些新词语是记录社会时事的,如“3.14”事件、“5.12”汶川大地震、“三鹿”事件等,这些事件有的不会进入正规的历史书,但“07、08汉语新词语”收录了,可以作为历史书的补充。从这个角度来看,“07、08汉语新词语”具有历史学的意义,是小部头的编年史,有一定的时效性。同时,“07、08汉语新词语”也传承着人类文化,折射着人们的认知心理,如“山寨”反映了当下人们日趋通俗化和大众化的审美取向,代表了基层人民的心声,形成了一种特殊的草根文化,同时也反映了民众“去主流化”的心理状态,具有心理学上的意义。
李宇明(2006)在《关于辞书现代化的思考》中指出,“辞书编纂手段现代化其现实含义就是在整个辞书编纂过程中充分使用数字技术和各种数据库,具体说,就是开发功能强大的语料库、知识库和适用于辞书编纂的软件系统”。其中特别强调了辞书编纂手段的现代化。我们认为辞书编纂现代化还应包括辞书编纂理念的现代化,即以读者为中心,提供更多和更准确的词目、释义、例句和背景知识。作为新世纪具有真正意义的编年本新词语,“07、08汉语新词语”是辞书编纂现代化趋势下的新成果,在编纂过程中充分体现了辞书编纂手段和辞书编纂理念的现代化,具体表现如下:
词典编纂语料库是现代化辞书编纂的基础,而编年本新词语的编纂对此要求则更高:一方面要求有足够大的语料库,这样得出的新词语才能全面、权威;另一方面要求语料库必须能够得到及时更新,这样才能实现编年,才能得到真正的“新”词语,而国家语言监测中心的动态语料库恰好满足了这一要求。
“07、08汉语新词语”正是在巨型、动态语料库基础上进行编纂的。《2007汉语新词语》所用语料均来自国家语言资源监测语料库(包括平面媒体、有声媒体、网络媒体),共计1 363 747个文本文件,1 236 120 162字符次,1 007 053 180字次。其中平面媒体选择了2007年《北京青年报》《北京日报》《南方周末》等15种报纸作为调查语料,广播电视语料包括中央电视台、北京电视台等媒体的282个栏目,网络媒体语料选择了新浪、腾讯两个网站的全部年度新闻语料。[1]
《2008汉语新词语》所使用的语料库在原有语料来源的基础上增加了《新民晚报》2008年全年语料,广播电视语料、网络媒体语料基本维持了2007年的风格,共计1 441 090个文本文件,1 273 286 677字符次,1 032 847 155字次,如此规模的语料库和最及时的动态更新是传统新词语词典和其他新词语词典难以做到的。[2]
王铁琨在《2006汉语新词语》序言中指出“抽选年度汉语新词语词条,最理想的方式是利用现代信息技术手段,在已经建立的国家语言资源动态流通语料库中自动提取。但囿于目前研究和技术手段的某些局限,计算机自动提取汉语新词语的研究尚未取得明显的进展和实质性的突破。”而“07、08汉语新词语”在这方面有了长足的进步。
“07、08汉语新词语”的调查采用的是“机器+人工”的方法,07年的编纂程序大致如下:语料全切分(保留2-9字的符号串)※计算符号串的归一化使用率※重复上两步的方法生成2004、2005、2006各年度数据表(即参照底表,也称为背景词表)※计算年使用率差并进行比较※按条件对符号串进行过滤※回查过滤掉的符号串※使用网络自动搜集的方法从网络(新闻)提取候选新词语※形成新词语候选集※人工排除非词条目和专有名词※利用百度、谷歌等搜索工具确认最初出现的时间等※放到新浪网上,面向社会广泛征求意见※专家审定,剔除偶发的、不易确定时间的以及品位低下的词语※与周荐教授及其团队所做的新词语合并起来,去除重复者,又经过若干调整※《2007汉语新词语》。
《2008汉语新词语》在上述技术路线的基础上,又增加了特征对比法。当一个词语或一个意义刚刚产生的时候,人们使用它时往往会有一些形式上的特征,如用引号或括号标记出来,在提取2008年新词语时,他们充分利用这一点,弥补了“全切分对比法”过滤掉一些低频新词的不足。
与《2006汉语新词语》及其他新词语词典主要由人工进行编纂的方法相比,“07、08汉语新词语”编纂考察的语料更多、得出的候选集也更大,再辅以人工排查,质量高、权威性强。
“07、08汉语新词语”真实地记录这一年内出现的新词、新语和旧有词的新义与新用法,分别给予注音,给出词类、释义和用例,具有一般新词语词典的特点。但由于其编写是在“宽容、全面、前瞻”的原则指引下,建立在巨型、动态语料库的基础上,并辅以先进的计算机编纂技术,因而其收词更全面,尤其是“相关词语”这一模块,它链接了相关词语,扩大了所收词语的规模,也为词群、词族研究提供了素材。(侯敏2010)在巨型、动态语料库的基础上考察新词语,也使“07、08汉语新词语”释义更准确,选用的例句也更为丰富、恰当。除此之外,“07、08汉语新词语”给出了“知识窗”,该模块进一步补充解释新词语,给人们提供了更多的背景知识,为后人考察我们这个时代留下了“痕迹”。
此外,《2008汉语新词语》附录中给出了新词语的频次、文本数,这是其编纂体例上的又一大闪光点。人们利用这些信息可以更加深入地了解新词语的使用情况,还可以做进一步的跟踪研究。
《2008汉语新词语》附录中补收了2007年产生的新词、新语和旧有词语的新义与新用法72条,一方面这是运用新技术、新方法的成果,另一方面也说明项目工作者本着为读者服务的态度不回避先前存在的问题,将以前没发现的新词、新语、新义或新用法补上,这是学界值得提倡的精神。
专家、网友互动也是“07、08汉语新词语”的一个创新。“07、08汉语新词语”项目组将收集到的新词语先放在新浪等网站上让网民进行评议,经过评议后,再把大家认可的、品位较高的词语收录到“07、08汉语新词语”里。这不仅让广大网民发挥了话语权,也使得最终的结果充分体现网民的意愿,所得结果也更容易为广大群众接受。
“07、08汉语新词语”在编纂手段、编纂理念等方面都有了长足的进步,但也存在需要进一步提高的地方。
“全切分对比法”虽然保证了新词语全部都在切出的符号串中,但这是以牺牲时间为代价的。我们选取2010年《每日新闻》1万字的语料进行全切分实验,共切出约5.4万个符号串,据此估算,《2007汉语新词语》所用的10亿多字的语料会切分出约54亿个符号串,这样,无论是在全切分阶段还是在归一化使用率和年使用率差计算阶段都必然要耗费大量的时间。如何使基数变小或是在全切分后先去掉一部分必然不是新词的符号串是提高提取速度亟待解决的问题。
由于基数大的缘故,经过年使用率差计算和对垃圾串过滤后得到的新词语候选集还有近5万条,从中筛选出不到500条的新词语,工作量之大可想而知,这就需要项目组进一步提高自动化程度。目前项目组新词语提取走的是概率统计的路线,如何在后期加入规则进行机器筛选是提高自动化程度应关注的又一方面。
“07、08汉语新词语”所走的技术路线能提取到的依然是新词形,对于新词义的自动提取还需要进一步的深入研究(侯敏2010)。通过分析发现,《2008汉语新词语》所用的“特征对比法”从理论上来说是可以提取旧词新义词语的。2008年共收19个旧词新义词语,有15个在例句中带有引号,占总数的78.95%,剩余的4个也都能从网上检索到带引号的例子。这说明旧词新义词语开始出现的时候一般是带有引号等特征的,而原义一般是没有特征标记的,这样,将前景词表中带特征的符号串和底表中不带特征的符号串进行比较,共有的部分就是旧词新义词语的候选集。
有学者认为,汉语每年产生的新词有一千个左右;我们对亢世勇的《新词语大词典》进行统计发现平均每年大约有八百条新词语产生。“07、08汉语新词语”受原则、标准、篇幅等方面的规约,每年收词400多条,约为统计平均值的一半。笔者认为,对于使用率低、格调有争议的词,可以为其专辟版块,这样一方面可以更加如实地记录新词语,另一方面也为后续研究留下鲜活的资料。毕竟,新词语是记载、传承历史文化的一条重要途径,是国家重要的语言资源,完整地加以保留不失为一个明智的尝试。
李宇明(2009)在教育部、鲁东大学共建汉语辞书研究中心揭牌仪式上的讲话中指出“语料库、知识库和一套软件系统,可以称之为辞书编纂的`三大法宝'”。侯敏、周荐先生很大程度上拥有了这“三大法宝”,我们期待着更多的编年本汉语新词语词典的出版,从而学习到最新的编纂理念,借鉴到最成功的技术手段,吸收到最丰富的编纂经验。
附 注
[1] 参见:王铁琨主编.中国语言生活状况报告2007.北京:商务印书馆,2008.
[2] 参见:侯敏,周荐.2008汉语新词语.北京:商务印书馆,2009.
1.侯敏.关于新词语编年本编纂的思考.辞书研究,2010(2).
2.侯敏,周荐.2007汉语新词语.北京:商务印书馆,2008.
3.乐嘉民,亢世勇.辞书编纂现代化研究.上海:上海辞书出版社,2009.
4.李宇明.关于辞书现代化的思考.语文研究,2006(3).
5.周荐,侯敏.2006汉语新词语.北京:商务印书馆,2007.