关于建立面向应用的规范词异名库的若干理论探讨

2013-12-27 04:03
中国科技术语 2013年4期
关键词:词条术语语料

张 晖

(全国科学技术名词审定委员会,北京 100717)

一 收集整理规范词异名的现实意义

根据笔者2012年对全国20多个省市自治区,100多家科研、教学、新闻出版、医疗等企事业单位的中、高级科技工作人员进行的相关调查发现,超过90%接受书面访谈的受访者对国家开展科技名词规范化工作表示认同,认为这项工作对科技发展与交流具有基础性作用。全国科学技术名词审定委员会(以下简称全国科技名词委)于近年专门成立宣传与推广部门,负责协调规范科技术语的宣传与推广工作,目前已基本形成以科技术语出版物、科技术语网络服务、科技术语教育培训为主体,注重发挥媒体作用的宣传与推广格局。

现阶段,科技工作者对人性化科技服务的需求日益增长,给规范科技术语的推广工作提出了更高的需求。例如,新闻出版行业《图书质量管理规定》已明确规定:“工具书的科技条目、科技类教材、学习辅导书和其他科技图书,使用科技术语不符合全国科技名词审定委员会公布的规范词计1个差错。”[1]但现实问题是,新闻出版行业从业人员在编校实践中,往往需要关注的不是规范的科技术语,而是隐藏在各类出版物中需要及时加以纠正的不规范的科技术语。但由于不规范的科技术语与规范的科技术语在构词规则和用字规则上并无本质区别,因而往往依赖编辑人员或审稿专家自身的科技知识积累加以判别,使得规范科技术语的推广成本很高,效果不甚理想。

笔者认为,规范科技术语的宣传与推广工作,如果着力解决此类面向实际应用的现实课题,可以达到事半功倍的效果。从实际应用的角度研发可以识别非规范术语的纠错工具,运用于新闻出版、广播电影电视、科技教育等领域,具有非常重要的现实意义。从现有技术上来讲,纠错工具本身的技术并不复杂,纠错工具所依赖的规范词异名库的规模和质量,才是决定纠错工具好与坏的核心指标。

二 规范词异名及其特征

异名,顾名思义,是指不同的名称。从术语规范的角度出发,“异名”是与“正名”相对的概念。全国科技名词委制定的《科技名词审定原则与方法》(以下简称《原则》)中对什么是“正名”,什么是“异名”,有着相应的界定:“一个概念有多个名称时,应确定一个名称为正名,其他为异名(包括‘全称’‘简称’‘又称’‘俗称’‘曾称’等)。其中,‘正名’为公布的规范名,‘全称’‘简称’为与正名等效使用的名词,‘又称’为非推荐名,只允许在特殊情况和一定范围内使用,‘俗称’为非学术用语,‘曾称’为已淘汰的旧名称。”①之所以如此界定,是因为“科学技术名词的规范和统一是一个渐进的研究过程,对那些目前暂时无法做到一词一义的名词,应采取在确定规范名的基础上对其同义词加以说明的方式,引导使用者逐步接受和正确使用规范名词”[2]。简而言之,《原则》中异名的产生,是通过渐进途径争取术语统一的变通之举,其数量有限。

本文所探讨建立的面向应用的规范词异名库所指的“异名”,是指与国家审定公布的规范科技术语“正名”表达相同概念,但词形不同的非推荐名。其基本特征应该包括以下3点:(1)与“正名”指代相同概念;(2)与“正名”词形有别;(3)不推荐使用。为了客观认识异名的产生过程并加以收集,还应该认识到以下两点:(1)异名应被书面语言或口头语言明确记录;(2)异名的数量难以预估或穷尽。由此可见,规范词库收集的异名与《原则》标注的异名有别,前者的初衷是用于开发实用工具,其异名数量需要达到一定的规模,而后者的初衷旨在通过渐进途径促进术语规范,异名数量必然有限。

用于开发术语自动纠错工具的规范词异名库,首先可以收选《原则》中所列举的绝大多数异名类型,并给出明确的使用建议。据不完全统计,全国科技名词委所审定公布的30万条规范科学技术术语中,标注有《原则》所称“异名”(含“全称”“简称”“又称”“曾称”“俗称”)的术语近15000条,其中85%标注的是“又称”。规范词异名库在收选时,应该注意以下两点:(1)因为“全称”和“简称”与“正名”等效使用,所以可不作为“异名”对待。(2)其他名称(如“又称”“俗称”“曾称”等)或多或少在使用上受到限制,可以收入规范词异名库,但有必要依据不同的类型标注不同的使用建议(如“不推荐使用”“仅在限定范围内使用”“不再使用”等)。

由于全国科技名词委一直执行比较严格的审定标准,为规范词标注“异名”的情况属于少数(约5%),如果仅仅依靠现有的“异名”资源来建立规范词异名库,其规模还不足以满足纠错工具的需要,因此还要重点收集整理通常意义上的“不规范词”。这些词应该已经在社会上使用,但未被全国科技名词委选用为规范词“正名”,也未按照《原则》的标准被标注为规范词“异名”,依据规定不应该使用。当然,不规范词作为规范词的一种特殊“异名”类型,需要被标注比《原则》中异名更为苛刻的使用建议(如“建议更正”)。这类不规范词的数量比《原则》所标注的异名数量要多,将在纠错中扮演重要的角色。

三 收集整理规范词异名的阶段和原则

根据科技术语审定工作的规律性认识,一个术语命名的最终确定需要经过收词和审词两个阶段。在收词阶段,从基本手段来看,可以分为人工收词和自动抽取两种。其中,自动抽取一般基于语料库,采用自然语言处理技术进行。而在审词阶段,主要依赖人工审查。就收集整理规范词的异名而言,同属于科技术语规范工作范畴,同样应该遵循收词和审词这两个阶段。

建立规范词库与规范词异名库的基础有较大区别。全国科技名词委所审定公布的每一个科技概念的定名及其内涵的确定,都凝聚了科技工作者的大量心血,经历了一个非常漫长的研究过程,因此规范词库的建立是一个从无到有的积累过程。对于规范词的异名而言,因其与规范词形成对应关系,所指代的科技概念的范围比较明确,从而可以将已经建成的规范词库作为参考库,工作基础较好。

由于规范词的异名不具备科学性、单义性、系统性等规范词所具有的优良特性,所以规范词异名的判定往往无法简单运用与规范词对立的特征来衡量,只应从语义、概念层面限定与规范词形成等价关系。因此,在建立规范词异名库的最初设计中,要充分考虑规范词异名库建立的初衷是面向应用和作为参考资源的性质,不必强调其“权威性”或“完整性”,其准确性也不宜过分从严,应具有一定灵活度,而且允许在实践中加以检验、修正和补充。

四 规范词异名的语料来源

科技语料浩如烟海,根据需求选择恰当和有效的语料是进行科技名词语料分析的起点,也是很重要的基础。用于规范词异名研究的语料来源一般包括确定资源和非确定资源两大类。确定语料主要是规范词异名可能集中出现的语料,如各类公开出版的科技词典(含同义词词典、近义词词典等)、科技文献的术语表、期刊文献的关键词、主题词库等。非确定语料主要是指规范词异名出现的概率未知的语料,包括科技文献正文、百科网站、报纸等。

规范词和规范词异名并存的确定语料是最直观和最易形成产出的语料。诸如同义词词典、近义词词典,或者主题词表等。与此同时,可以利用内在而形成规范词与规范词异名相互对应关系的语料,是可能对收选规范词异名有用的扩展语料。例如,很多中文非规范术语的产生是因为翻译不准确,尤其是比较新的科技概念,其引进之初常常会伴生大量以讹传讹的新定名形式,因而中文或英文的同义词词典也是可能用到的有利的扩展语料。总体而言,从确定语料(尤其是中英文完整的语料)中抽取规范词异名,将是比较有效率的尝试。

对非确定语料而言,百科类语料围绕同一概念而展开,并借助相关概念进行扩展,同时经常包含“又称”“也叫”“又叫作”“还称”之类的标志性词语,这些都可以作为抽取规范词异名的重要来源。因而围绕同一科技概念展开的语料,比其他粗浅涉及某一科技概念的语料更具价值,而且在后期审定中会减少对词语所指代概念的误判。相对于百科类语料而言,其他非确定语料的处理需要更多地分析每份语料的行文特征,其最终价值有赖于良好的规则和统计的设计,具有不确定性。

由此可见,确定语料比非确定语料对最终收词的贡献更加直观,收词的时间成本和后期的审定成本相对较低。而在非确定语料中,百科类语料比其他语料更具价值。因而,如果语料资源比较充足,可以以确定语料为主,非确定语料为辅;在非确定语料中,以百科类语料为主,其他语料为辅。

五 规范词异名的自动抽取规则和实现路径

如前文所述,收选规范词异名的核心原则就是确保与规范词概念等价的词。对于人工收词和自动抽取而言,最大的区别就在于人工收词取决于取词操作实施者自身的规则设定,以及其个人或者参考资料对概念的理解或诠释;而自动抽取则取决于相关统计和筛选规则的设定,近年来从信息处理的角度研究汉语词汇、语法和语义研究日渐增多[3],主要涉及运用语料库对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的语言处理技术,进行信息检索、文本分类、文本过滤、信息抽取等工作。

规范词异名的自动抽取主要基于自然语言处理的相关理论。目前比较主流的实现方式,包括基于规则的方法和基于统计的方法两种。其中,基于规则的方法是一种唯理主义方法,本质上是一种确定性的演绎推理方法。其优点在于根据上下文对确定事件的定性描述,能充分利用现有的语言学成果。缺点是对于一些不确定的事件则显得苍白无力,同时规则之间的相容性和适用层次范围都存在一些缺陷和限制。而基于统计的方法是一种经验主义方法,其优势在于它的全部知识是通过对大规模语料库进行必要的加工、分析后自动抽取出来的,因此可以获得很好的一致性和很高的覆盖率,对语言处理提供了较客观的数据依据和可靠的质量保证。基于统计的方法本质上是一种非确定性的定量推理方式,定量是基于概率的,因此其必然会掩盖小概率事件的发生。有些统计方法无法解决的问题,利用规则却很容易解决[4]。

笔者试图从实际操作的层面,探讨可能产生规范词异名待审词表的诸多路径,所运用的技术基本都是规则和统计并举的方法。当然,实现规范词异名的自动抽取,其可能路径远不止以下三种。

路径一:学科领域关联

第1步:运用分词、标注、文本分割、合并等语料自动加工技术,从语料库中广泛抽取候选词条。

第2步:根据恰当的学科分类法,利用术语在语料中词频分布变化程度的统计信息来检验术语的学科相关性,将候选词条归类至所属学科领域(如三级学科)。

第3步:依据相同的学科分类法和技术手段,在相同的语料库中,为规范词划分所属学科领域(如三级学科)。

第4步:通过设定规则,对属于同一分支学科的词条进行词形或语义相似度比较(如词形差异、包含关系等)。

第5步:整理形成规范词异名待审表。

路径二:英文术语一词多译关联

第1步:应用权威英汉词典,对规范词对应的英文术语中一词多译的英文词素进行中文回译,并将每一组可能的、由回译的中文词素组成的中文组合词(无需进行语法审查),收入候选词表1。

第2步:将候选词表1中的候选词分别在语料库中抽取与候选词表1词条词素相近且空间位置关系相对集中的相似分词语料,收入候选词表2。

第3步:对候选词表1、2进行构词法、语法等规则筛选,将符合构词法的词条作为候选词表3。

第4步:对候选词表3中的词条在语料中进行严格匹配检索,通过概率统计手段,将重现率达到一定阈限的词条,纳入规范词异名待审词表。

第5步:整理形成规范词异名待审表。

路径三:语义网络②关联

第1步:运用分词、标注、文本分割、合并等语料自动加工技术,从语料库中广泛抽取候选词条。

第2步:分析候选词条及与其对应的规范词,分析词汇在语料中的语义网络,通过各结点的关联度,结合上下位概念、上下文相似度等,匹配并筛选可能意义相近的词条。

第3步:整理形成规范词异名待审表。

其中,路径一源于规范词和规范词异名具有相同学科属性的基本事实,以概念层次结构为基础,选择对概念层级相近的术语进行归类,该技术已经比较成熟,可操作性较强,这一点在笔者所开展的科技新词自动抽取试点工作中,已经得到部分验证。但难点在于如何从相同领域的术语中匹配规范词和规范词异名,显然单从词形角度的匹配是远远不够的,这方面还需要结合实践进行理论研究,逐步完善方案。路径二源于相当数量的规范词异名产生于科技翻译实践的事实,选择以英文一词多译作为关联方式对近似术语进行归类,其有赖于权威的英汉双语词典提供词素的语义连结,前期技术验证的周期会相对较长;路径三源于规范词和规范词异名语义等价的本质属性,以语义相关度进行关联,是比较高层次的语义网络途径,目前研究还不成熟,实施难度很大。

六 规范词异名的人工收集和审查

规范词异名的人工收集,主要是参与人员根据自身知识积累,通过广泛查阅各类科技语料进行。这一方式的优点是收集和审查在很大程度上能同时进行,收词准确率高,但可获取的规范词异名数量有限;缺点是取词的过程受到的限制因素较多,比如参与人员的知识结构、精力集中程度,以及对语料涉猎广度等。

规范词异名的审查是在人工收集或自动抽取完成后必须经过的阶段,也是确保词条质量的重要保障。对于自动抽取而言,可以通过技术手段为规范词异名待审词表补充词条相关信息(如上下文、参考文献等)后,交由不同分支学科的专家进行审查,并允许审词专家进行补充。

确保规范词异名与规范词在语义上等价,避免概念相互包含或交叉是人工收集和审查的重点。对于科技名词规范化工作而言,人工收词、审词的经验相对成熟,可借鉴的经验比较多,比如学科名词审定、新词试点工作中所积累的经验。

七 结语

总而言之,规范词异名库的建立意义深远,是新阶段拓展科技名词推广应用思路的重要途径。尽管科技工作者对规范词异名数量和质量的需求不及规范词严格,但由于相关理论和技术不甚成熟,以及规范词异名难以穷尽的特性,因而决定了规范词异名库的建立和完善需要一个比较长的过程,具有不小的难度。笔者只是提出了基本设想和部分不太完善的实现路径,对其中涉及的相关技术和模型还需在实践中不断改进,现有技术能否实现相关目标,还有待进一步的研究和检验。

注释

①全国科学技术名词审定委员会.科学技术名词审定原则及方法。

②语义网络(Semantic Network)的概念最早由美国心理学家、语言学家奎廉(M.R.Quillian)于1968年的《语义记忆》中提出,它是一种采用网络形式表示人类知识的方法。在这个语义网络描述图中,代替概念的单位是节点,代替概念之间关系的则是节点间的连接弧。

[1]中华人民共和国新闻出版总署.图书质量管理规定[M].北京:新闻出版总署,2004.

[2]邬江.科学技术名词审定工作中的同义词问题初探[J].中国科技术语,2011(06):31-33.

[3]彭刚,刘岩.语料库研究与应用综述[J].黑龙江科技信息,2010(26):215.

[4]郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000(01):58-65.

猜你喜欢
词条术语语料
基于语料调查的“连……都(也)……”出现的语义背景分析
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
2016年9月中国直销网络热门词条榜
华语电影作为真实语料在翻译教学中的应用
大数据相关词条
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法