基于计算方法的语言规范效力检测初探

2016-05-30 10:48:04饶高琦

语言战略研究 2016年6期

提要语言规范实施效力的检测和反馈是语言规划工作中的重要问题。本文对基于计算方法的语言规范效力检测进行了可行性论证，并以异形词整理工作为对象进行了实践。计算结果表明，1949年新中国成立以来的异形词整理工作基础较好，效果显著。本文也探讨了计算方法的适用性以及计算方法视角下人工规范应注意的事项。

关键词计算方法；效力检测；异形词；语言规范

Abstract The monitoring and measurement of the implementation of language standards have long been a challenging task for language planning. Based on a large-scale Chinese newspaper corpus， this paper attempts to explore the feasibility of a computation-based method in the measurement of language standards in practice. Chinese words with variant forms are taken as a case study， and the tendency of their change from the year 1949 to 2012 has been examined. The statistic results show that for the words with variant forms， the frequency of officially-recognized standard forms is remarkably higher than that of nonstandard forms. Therefore， the computation-based method of monitoring language practice is a promising endeavor. However， the application scope of computational methods and the time window of artificial regulations have to be carefully controlled in the computational analysis.

Key words computational method； effectiveness monitoring； words with variant forms； language standard

一、引言

语言规范实施效力的检测与反馈是语言政策与规划领域的一大难题。

自然语言在使用时面临内在和外在扰动。内外扰动的结果常表现为一段时间内的无序状态，如一种内容对应多种形式。语言生活中的不少规范问题是由此造成的。异形词不同词形间的混用便是典型例子。自然语言面对内在和外在扰动时，具有规范和调节的能力。这样的规范和调节有的来自其自身，有的来自人工干预。后者主要指各类语言文字规范。而语言规范的过程体现为自然语言遭遇扰动后经过规范而恢复和谐、丰富状态的过程。

语言规范的行为和语言政策本身都是对各种语言变项的选择（戴昭铭 1999；李宇明 2015；伯纳德·斯波斯基 2016）。相比于“雅正观”，这一观念被称为语言规划的“选择观”（李宇明 2015）。基于“选择观”，语言规范的过程可以视作一定时间段和一定领域内不同语言变项间的竞争过程。竞争将通过语言社团集体性的“用口投票”或“用笔（键盘）投票”完成。语言社团的选择在数据上就体现为诸语言变项使用的多寡，从而可以用频率、分布和生命度等计算方法对其进行刻画与分析。由于变项的竞争发生在一定时间段内，因而规范实施的效力也是具有时间属性的分析对象。同时，大规模语料库可以视作对语言生活的采样。综上所述，在语料库中对可形式化的语言变项进行历时计算分析可以考察语言规范的实施效力。

要开展这一工作，在数据上要求具备一定时间跨度的历时语料库，在技术上需要具备对规范对象（即相应语言变项）进行计算的手段，在方法上需要对语言变项进行形式化处理并控制其规模，以适应计算和分析的需求。

本文拟就使用计算手段检测语言规范实施效力的方法进行初步探索，并对异形词规范工作进行研究，借此实践基于词语定量计算的效力检测方法。

二、研究现状

（一）使用语言信息处理技术的词语定量研究

面向现代汉语并基于语言信息处理技术的词语定量研究20世纪80年代就已开始。其代表性成果就是《现代汉语频率词典》（北京语言学院语言教学研究所 1986）。张普及其团队的一系列研究（张普1999，2003，2008a，2008b；郭慧志等 2004）推动了词语定量研究中资源和计算方法的持续进步，并为大规模的语言监测奠定了基础，进而支持了稳态词（赵小兵 2007；谢晓燕 2010）、新词语（刘长征2008，2011）、政府话语（张冲 2011）、成语（刘长征、秦鹏 2007；李彦燕 2015）、流行语（谢学敏 2006）、中医术语（王文媛 2013）、传统经典著作中的词语（陈晓丹 2014；王佳 2014；郭景旋 2016）使用及变迁的监测。

当前对现代汉语开展的最大规模的词语定量研究是国家语言资源监测与研究中心从2005年开始并延续至今的语言生活状况调查（教育部语言信息管理司 2005—2015）。词语的使用调查以《中国语言生活状况报告·数据篇》和“汉语盘点”活动的形式逐年向社会发布。

（二）中文历时语料库资源

中文方面，邹嘉彦等（2011）的泛华语地区汉语共时语料库（LIVAC）主要收集两岸三地的报刊数据，尤其是同题报刊数据，目前规模5.5亿字。虽名为共时，但其数据特点决定了其稳定的更新速率，因此自1993年启动以来，该工程就具有监测历时语言演变的功能。

北京语言大学建立的动态流通语料库（DCC）是国家主导语言监测工作的直接产物，辑录近30年的报纸语料，并根据动态流通理论逐年更新。现已成为中国语言生活监测的最重要语料库之一。与其具有类似功能和目标的还有中国传媒大学的有声媒体语料库与华中师范大学的网络媒体语料库。但是它们的时间跨度都远远小于DCC语料库。

针对目前历时语言资源建设的短板，北京语言大学荀恩东团队于2012年建设了“现代汉语词汇历时检索系统”，即现在BCC语料库历时频道的前身（荀恩东等 2015，2016）。该语料库涵盖1946年到2015年的《人民日报》语料①，时间跨度70年，规模12亿字，经过分词和词性标注后获得分词单元种数约220万。并收集了近似跨度的《贵州日报》语料。本文所使用的数据即来自该语料库1949年到2012年的部分。

由于报刊语言是语言规范的先行者和执行标杆，可以忽略规范标准的社会宣传与推广这一变量，因而适合作为语言规范尤其是人工规范相关研究的语料。

三、对异形词整理规范效力的考察

异形词是书面语中存在的一种特殊词汇现象，如“笔画—笔划”“身份—身分”。异形词是汉语漫长发展过程中的累积现象，使用非常广泛，给语言学习与传播带来了不必要的负担和障碍，也增加了语言使用的复杂程度。2002年教育部和国家语委联合发布了《第一批异形词整理表》。2003年中国出版协会校对研究委员会和中国语文报刊协会等四家单位又编制了《第二批异形词整理表（试行）》。

异形词整理首先遵从的是“约定俗成”，其他还包括“义明”“音准”“形简”“分化”和“兼顾”几个原则（杨剑桥 2006）。本文基于语料库的考察主要着眼于“从俗从众”。在长时间跨度的历时语料库中可以观测到异形词不同词形间使用的频率关系，从而判断语言规范在报纸上的实施效力。

（一）对具体词形使用趋势变化的考察

在微观上，历时语料库中不同词形的频次对比可以直观反映一组异形词不同词形在报纸中的使用变化情况，图1、图2和图3分别展示了“笔画—笔划”（第一个为规范文件中的推荐词形，后同）、“计划—计画”和“孜孜—孳孳”在1949年到2012年间使用情况的变化。其中横坐标为年份、纵坐标为频率，如无特殊说明皆为此意。这三组异形词分别代表了词形间频率差异不明显、一种词形完全不使用和一种词形极少使用三种分布情况。

过去几十年中频率上占据明显优势的词形为优势词形，如图2和图3中的“计划”和“孜孜”；频率上处劣势的为劣势词形，如图2和图3中的“计画”和“孳孳”。图1中的两个词形则无法确定哪一个占有整体性的优势。在本文历时语料库中，规范文件中的绝大多数推荐词形是优势词形。《第一批异形词整理表》和《第二批异形词整理表》分别整理异形词338组和264组，其中推荐词形为非优势词形的分别仅有7组和5组③。可见异形词的规范工作基本上遵循了“从俗”“从众”的原则。

如果一个词的各词形在多数年份的语料中均出现10次以下，其在语料库中的使用可认为具有较大偶然性，统计可信度较差，本文不予考察。两份规范文件中这样的异形词分别有50组和75组。

对异形词使用情况的考察侧重于不同词形间使用情况的对比，有些劣势词形在语料库中基本不出现，即异形词的多种词形在语料库中已不再混用，如图2和图3中所示，因而在统计推荐词形的频率优势时也将其排除。这一部分异形词两份规范文件中分别有198个和111个。除去上述两种情况后，剩余的168组异形词为本文的有效数据。

我们将两批整理表的发布时间2002年和2003年视作分界时间点，在历时语料中统计该时间点到2011年间具有混用情况的异形词的推荐词形（它们大多为优势词形或优劣不明显词形）使用频率的变化情况。结果如表1所示。

由表1可知，两批整理表对有混用情况的异形词的使用起到了明显的规范作用。整理表发布后，有60%到70%的推荐词形的优势得以扩大，减少了语言使用中的混淆情况。推荐词形不占明显优势的情况也存在，这一类被归入表中“优势不明”一栏。推荐词形优势扩大的异形词如图4所示的“启程—起程”，优势缩小的例子如图5的“褴褛—蓝褛”，优势不变的例子如图6的“神采—神彩”，优势不明的例子如图7的“战栗—颤栗”。

（二）对推荐词形整体使用情况的考察

如果要考察整个异形词群体的规范使用情况，可以使用所有推荐词形的频次之和与非推荐词形频次之和的对比来进行衡量。本文称之为“倍比”（r），其计算方法如公式（1）所示。

公式（1）

其中f（w）为词w在当年的词频，wu为非推荐词形，wt为推荐词形。在历时语料库中对两批异形词整理表中的异形词进行计算，诸年度倍比的数据如图8所示，横轴为年份，纵轴为倍比数值。

两批异形词整理表中异形词推荐词形与非推荐词形的倍比的变化区间为8.9倍到236.2倍，即非推荐词形的总频率最高时约为推荐词形频率的九分之一，最低时推荐词形每出现200余次非推荐词形出现一次。可见，规范状况较好。从1946年到21世纪初，规范词形的使用频率持续缓慢增长，这也体现出语言社团自发的语言规范行为在发挥作用。

2002年、2003年两批《异形词整理表》的发布带来了规范词形使用频率的明显增长。2003年后，许多异形词在语料中都过渡到了非推荐词形频率为零的状态。倍比的增长主要由处于该种状态的推荐词形的频率增加而造成。如2009年到2010年的高峰，主要由“参与”“人才”“计划”“标志”等词本身频率的大幅增加造成，它们所对应的非推荐词形在当年语料中已经消失，语言规范的成果在该语域内得到了巩固。可以推测，这些词在语言生活中已基本不存在可选的变项，稳定的语言规范已经形成。因而此时出现的倍比高峰和之后倍比的下跌不再代表推荐词形和非推荐词形的实力对比。

如果仅对存在混用情况的异形词进行考察，以评价语言规范在有混用情况下的作用，则不需要考虑非推荐词形频率为零的词对观察的影响。我们将单纯基于频率的倍比r发展为公式（2）所示的修正倍比kr。

公式（2）

其中f（w）为词w的词频，wu为非推荐词形，wt为推荐词形。但修正倍比中w的选择范围比计算倍比时有所缩小。修正倍比仅计算非推荐词形频率大于零的异形词的频率，即存在混用的异形词。同时，考虑到存在混用的异形词越多，规范状况越差，而混用词语的数量对公式（1）并无影响，因此我们在公式（2）中使用存在混用情况的异形词的数量n在分母上对混用词数较多的情况进行调节。

我们对两批异形词整理表中存在混用的异形词使用公式（2）进行计算，修正倍比的变化情况如图9所示，横轴为年份，纵轴为修正倍比数值。

2002年颁布《异形词整理表》引起了2003年推荐词形频率的增长和2004年非推荐词形数的迅速下降。两种效应合力之下2008年到2010年出现了修正倍比的高峰，非推荐词形的数量则下降并停留在10到20个之间。在这种情况下，个别非推荐词形偶然的频率起伏就会对修正倍比产生较大影响。但总体上推荐词形的使用频率在震荡中保持着远高于2003年以前的水平（150—200倍）。

（三）对具体推荐词形在历史时期中使用情况的考察

倍比和修正倍比描述了异形词在一个时间点上的使用情况，但若量化考察一组异形词在整个历史时期中的使用情况则需要不同的计算方法。一组异形词的不同词形在一段时间内平均使用频次的比值可以刻画它们的使用情况的差异，其计算方法如公式（3）所示：

公式（3）

S为该异形词在一个时间段中的两种词形的平均频率比。其中e为时间段的终了年份，s为时间段的开始年份，fai和fbi分别代表词形a和b在i年语料里出现的频次。假设计算1950年到2005年间“笔画—笔划”的平均使用频次之比，则e为2005，s为1950。由于有的词形在许多年份中不出现，为避免分母为0，在分式中使用了加一平滑策略。

显然公式（3）所示的计算方法中各年份数据的地位是一致的。但对现实的语言规划工作而言，更晚近的语言数据重要性更高。因而我们对公式（3）进行了改进，形成公式（4）：

公式（4）

公式（4）中各符号的意义不变。其中，越早年份的语料，其词形频次比在最终结果S中所占的权重越低。假设以公式（4）对“笔画—笔划”这组异形词在1950年至2005年时间段中进行计算。则1950年两词形频次之比所占的权重为1/（2005-1950+1）≈0.018，而1990年频次之比所占的权重为1/（2005-1990+1）≈0.063。年份越近的数据对S的影响越大，即参考价值越高。假设存在一组异形词，其词形在每年语料中的频次fai和fbi都相等，s和e分别取本文所使用语料的开头年份（1949）和结尾年份（2012），则此时的S值为4.74，可称之为临界值。大于临界值的异形词可以认为其词形a相对词形b在70年的考察范围内具有整体性的优势，反之亦然。

如果在使用公式（4）进行计算时将推荐词形设为a，那么在《第一批异形词整理表》和《第二批异形词整理表（试行）》的有效数据中有94.6%的S值高于临界值，79%的S值超过临界值两倍，57%的S值超过临界值五倍。可见异形词规范工作中所选择的推荐词形在较长的时间跨度内具有整体性的使用优势。我们认为，这样的优势在人工规范制定前来自语言社团的自我规范，在人工规范制定后部分来自人工规范的强制力量。

总体而言，《异形词整理表》在报纸语言中得到了良好的执行，规范实施效果显著。因所选语料在语言规范问题上比较严格，是执行语言规范标准的模范，因此统计数据只能在一定程度上反映语言规范的效力。如果更换其他语料，具体数值可能会有变化，但总的趋向不会改变，即《异形词整理表》起到了提高语言文字使用效率、减少学习负担的作用。

四、语言规范计算分析的反思

（一）计算方法的适用范围

我们对异形词整理的实施效力进行了研究。显然不是每一类语言规范的实施效力都适合通过计算方法进行分析和检测。计算方法检测的适用范围是由语料库和分析方法的形式化能力决定的。因此我们可以归纳适用于计算方法分析的语言规范所应具备的几类特征。

首先，计算方法基于对语言现象的符号化和形式化，因而规范对象可以形式化为符号或符号序列的适合使用计算方法进行检测，如字、词。以当前技术手段难以形式化的规范对象，如文风、语体等，就难以使用计算方法进行检测和分析。

其次，计算方法所涉及的语料数量极大，需要自然语言处理诸多技术支持，规范对象的处理不应超出相应语言信息处理技术的适应范围。例如，目前通用文本上的自动分词与词性标注已具有较高精度，面向词语，尤其是字词形式的规范可以进行计算调查。但句法分析性能尚无法令人满意，在大规模语料上语法规范效力的检测就面临巨大困难。

再次，语言变项间具有较好的可对比性。基于“选择观”的语言规范本身就是语言变项的选择过程。因而规范实施效力的核心刻画手段就是语言变项间的对比。在时间、语域、种类等不同侧面对语言变项进行对比，从而从不同侧面获得语言规范对变项使用情况的影响，进而评价其实施效力。

最后，历时语料库的时间或领域对规范内容有较好覆盖。时间方面，语料库需覆盖规范实施前后较长的时间段，以提供规范实施效力参考。领域方面，语料需覆盖规范对象的常用领域。

由此容易发现，除异形词外，规范汉字、异体字、阿拉伯数字、字母词、计量单位符号等也适合使用计算方法对其规范的实施效力进行分析和反馈。

（二）人工规范的时机选择

如果视语言使用者对语言变项的选择行为为随机过程，当一个变项的使用衰减成为小概率事件③时，变项间的实力对比就失去了意义。这在异形词的倍比统计中得到体现。如果此时占据使用频率优势地位的是规范标准所支持的变项，则可以认为社会规范在该语域内已经得以实现。此时人工规范应该关注具体的失范实例，并进行微调。

对语言单位的规范过程进行人为干预，需要把握时机。由图8和图9可知，《异形词整理表》发布的时候，推荐词形的总体频率已经达到了非推荐词形的79倍（图8），修正倍比为11倍（图9）。如果以最大似然估计进行概率估计，非推荐词形的使用概率已经很小。变项间实力对比出现这种情况的时期可以视作人工干预期。这个阶段的人工规范容易取得较好效果。

在中国语言规划的历史上，出版物数字使用的规范则展现出不同的情况。1956年、1980年、1981年三次发布的相关规范④均是在汉字数字书写占据绝对优势情况下，逆势拉升阿拉伯数字的使用频率。当时效果虽然较为明显，但没能改变变项间的实力对比，且紧随其后出现了60年代到80年代初较强的反弹。变项间实力对比类似以上情况的时期可以视作观察期。这个阶段的人工规范应当十分慎重，强行推广规范可能遭遇较强烈的反弹。

介于观察期和干预期之间的是引导期。此时应广泛收集语言变项，甄别选择适合的变项，为制定人工语言规范进行准备。2011年最新颁布的“出版物数字使用国家标准”不再强调阿拉伯数字的使用，而要求使用者更加重视“得体原则”和“局部体例一致原则”。这恰好体现了引导期语言规范工作的特点。

五、结论与展望

本文对使用计算方法尤其是词语计算方法进行语言规范实施效力的调查和分析的数据资源、适用范围和具体方法进行了初步探索，并对异形词在历时语料库中的使用情况进行了统计和分析。对异形词规范工作的效力给出了定量计算，并基于数据得出了异形词规范工作基础较好、效果显著的结论。

作为使用计算手段检测语言规范实施效力的初步探索，本文的工作还有许多尚待完善之处，尤其是对异形词整理工作的研究还较为粗糙。为适应长时间、多领域的语言规范效力检测，还应该在报纸语料之外扩充多语域、多语体的历时语料库，在计算手段上广泛使用更加多样化的方法。此外，充分融合语言本体研究的成果，对语言规范对象进行更科学的形式化建模也是重要的研究内容。

注释

① 由于种种原因，本文实验过程中没有获得2003年到2008年《人民日报》的语料，该部分由相应年份的《贵州日报》语料替补。

② 第一批：“浑水摸鱼—混水摸鱼”“摩拳擦掌—磨拳擦掌”“叫花子—叫化子”“绵连—绵联”“五劳七伤—五痨七伤”“小题大做—小题大作”“凝练—凝炼”；第二批：“黏液—粘液”“黏性—粘性”“黏土—粘土”“黏稠—粘稠”“俯首帖耳—俯首贴耳”。

③ 统计学上常用的两个小概率事件阈值为1%和5%。

④ 三项规范分别为：关于国家机关的公文、电报和机关刊物横排横写以后采用阿拉伯数码的通知，关于数目字改排阿拉伯数字的规定，国家行政机关公文处理暂行办法。

参考文献

北京语言学院语言教学研究所编 1986 《现代汉语频率词典》，北京：北京语言学院出版社。

伯纳德·斯波斯基 2016 《语言管理》，张治国译，北京：商务印书馆。

陈晓丹 2014 基于动态流通语料库的《道德经》语言使用状况调查研究，北京语言大学硕士学位论文。

戴昭铭 1999 《语言功能和可能规范》，《语言文字应用》第2期。

郭慧志、王强军、刘华、张普 2004 《大规模动态流通语料库的构建》，全国学生计算语言学研讨会论文。

郭景旋 2016 《组合类成语的词汇化考察：以出自〈孟子〉的组合类成语为例》，北京语言大学硕士学位论文。

教育部语言文字信息管理司 2005―2015 《中国语言生活状况报告》，北京：商务印书馆。

李彦燕 2015 《报纸媒体四字成语使用状况调查》，北京语言大学硕士学位论文。

李宇明 2015 《语言规范试说》，《当代修辞学》第4期。

刘长征 2008 《基于动态流通语料库（DCC）的新词语监测》，《长江学术》第1期。

刘长征 2011 《基于动态流通语料库的新词语监测研究》，北京：世界图书出版社。

刘长征、秦鹏 2007 《基于中国主流报纸动态流通语料库（DCC）的成语使用情况调查》，《语言文字应用》第3期。

王佳 2014 《当代语言生活中的〈论语〉使用情况考察》，北京语言大学硕士学位论文。

王文媛 2013 《基于动态流通语料库的中国传统医学术语使用情况考察》，北京语言大学硕士学位论文。

谢晓燕 2010 《基于26年〈深圳特区报〉的稳态词语提取与考察研究》，北京语言大学博士学位论文。

谢学敏 2006 《基于动态流通语料库（DCC）的流行语释义信息自动提取研究》，北京语言大学博士学位论文。

荀恩东、饶高琦、肖晓悦、臧娇娇 2016 《大数据背景下BCC语料库的研制》，《语料库语言学》第3期。

荀恩东、饶高琦、谢佳莉、黄志娥 2015 《现代汉语词汇历时检索系统与应用研究》，《中文信息学报》第3期。

杨剑桥 2006 《关于汉语多音节异形词的几个问题》，《复旦大学学报》第6期。

张冲 2011 《历年〈政府工作报告〉的词语变化及其反映的内容分析》，北京语言大学硕士学位论文。

张普 1999 《关于网络时代语言规划的思考》，中国科协首届学术年会论文。

张普 2003 《基于DCC的流行语动态跟踪与辅助发现研究》，全国计算语言学联合学术会议论文。

张普 2008a 《论语言的稳态》，《郑州大学学报》（哲学社会科学版）第2期。

张普 2008b 《论语言的动态》，《长江学术》第1期。

赵小兵 2007 《基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究》，北京语言大学博士学位论文。

邹嘉彦、邝蔼儿、陆斌、蔡永富 2011 《汉语共时语料库与追踪语料库》，《中文信息学报》第6期。

责任编辑：戴燃