张 晖
(全国科学技术名词审定委员会,北京 100717)
科技新词工作是科技名词审定工作的重要补充。科技名词审定工作是全国科技名词委的核心业务内容。常态的名词审定工作以各学科委员会专家委员为主体,遵照全国科技名词委制定的《科学技术名词审定原则与方法》(以下简称《原则》)进行,最终的成果以出版《××学科名词》的形式向社会公布。每部学科名词在一定周期内启动修订,并以再版形式向社会公布。科技新词工作的最初设想源于希望解决学科名词书修订周期长,不能达到及时规范新出现的、重要的科技名词的目的。针对科学技术界新出现的新理论、新方法等开展的灵活多样的新词收集工作,可以在一定程度上解决上述问题。
科技新词工作是与社会形成良性互动的重要渠道。科技新词的出现源于科技的发展,这符合词语产生的自然规律。科技名词与科技概念一一对应,也符合语言规范性的特点。但有些刻意制造的、张冠李戴的科技名词出现在某些领域,尤其是市场经济领域,就严重偏离了词语产生的自然规律。诸如,有厂商把一只质量低劣的杯子冠以“纳米”二字,冒充高科技的纳米杯;服务商宣称的“高速网络”慢似蜗牛,只因宣传时偷换了“byte”(字节)和“bit”(位)的概念;有点维生素成分就言必称“富含营养因子、维他命”等,用不规范词语偷换科技概念,误导消费者。如果说语言工作者肩负一定的社会责任,那么倡导使用科学规范的科技语言无疑是其中重要的一部分。及时开展科技新词的定名和普及,有利于规范科技交流,唤醒公众的科技意识,维护自身利益。
科技新词工作可以成为科技名词审定新理论和新方法的试验田。科技名词审定工作正探索运用语料库等自然语言处理技术,实现自动抽取和专家推荐相结合的工作形式。一方面,参考语料库(reference corpus)对自然语言处理技术起到支撑性作用。全国科技名词委已经公布的几十万条规范科技名词数据可以成为可靠的参考语料库核心资源。另一方面,从目前来看,传统的科技名词审定工作方式对维护词条的权威性和规范性具有不可替代的作用,大规模运用新技术去完全替代原有方式,需要比较长时间的探索和积累,才能确保效果。因此,从工作基础和技术可行性两个角度来考虑,科技新词工作可以达到先试先行的效果。
全国科技名词委历来很重视科技新词的收集和定名。各学科名词审定分委员会每间隔一定周期所进行的学科名词修订再版,是实现新词收集的主要途径。此外,还注意创新收词手段与发布机制,收效显著。
从收词手段来看,除了大部分学科采用的专家人工收集方式以外,天文学名词委还综合利用了包括数据库、邮件列表、维基技术在内的一系列技术手段开展科技新词工作[1],信息科技、管理科技等学科还运用了语料库等技术手段,收集整理新词。
从发布机制来看,除了常态的名词书出版公布方式以外,各学科也探索了更多途径的新词发布机制。全国科技名词委主办的《中国科技术语》期刊是各学科发布试用新名词的重要阵地,其先后发布了10余批天文学新词[1]、3批信息科技新词①、3批地球物理学新词②、2批生命科学新词③、1批物理学新词④等,还公布了101~112、114、116号元素的中文正式定名⑤。除此以外,《物理》《天文学进展》等杂志、“天文学名词”等网站,也发布了大量经相关学科名词委审定的新词。以上绝大部分工作成果都已陆续被相关学科名词书最终收录。
2009年,全国科技名词委成立了新词工作委员会,发布了《关于开展科技新词工作的意见》(以下简称《意见》)。《意见》明确了科技新词工作委员会的组织形式和工作任务、基本原则与工作程序[2]。根据设想,科技新词工作委员会委员每年向全国科技名词委提交拟发布试用的各学科科技新词。全国科技名词委负责建立科技新词数据库,按年度出版《××年科学技术新词》,或通过网站向社会发布试用。2009年、2010年,全国科技名词委先后向各学科新词工作专家征集新词,计划整理后对外发布试用。从实际效果来看,除全国科技名词委网站“新词征集”栏目收到少量词条以外,绝大多数学科的专家收词工作未能取得进展,与初期规划差距较大。
依靠新词工作委员会专家收词的方式为何会遭遇瓶颈?究其原因,有专家认为,科技新词工作委员会“一个专家联系一个分委员会”的组织形式很难确保新词工作深入到各学科专家的日常审定工作业务中,各学科的新词委员受限于其自身专长而无法代表一级学科专家推荐科技新词;也有专家提出,学科基本词、基础词并不会大量出现,3~5年一次的学科名词修订工作实质上就收选了不少新名词;还有专家提出,应该加强对专家委员的激励和要求,设立秘书机构,确保按计划进行。目前,虽然这种收词形式效果不佳,但仍一直在坚持进行。
2011年,为了继续推动科技新词工作取得进展,全国科技名词委决定尝试运用自动抽取与专家推荐相结合的机制开展新词工作,分自动抽取、人工干预、专家推荐三个阶段进行。自动抽取是指运用自然语言处理技术,从科技语料中根据规则、统计等方法抽取备选的新词语;人工干预是指通过多轮人工干预,减少备选新词语的数量,提高质量;专家推荐是指由相关学科专家以推荐的形式选出候选新词。
2012年开始的试点工作以部分基础学科为对象,在自动抽取阶段,与中国知网展开技术合作,通过技术手段,从中国知网数据库抽取相关学科备选词。在人工干预阶段,主要淘汰学科属性有误的名词、简单复合词、来源不可靠的名词。在专家推荐阶段,分预审、函审、会商、确定等阶段进行。
在自动抽取与专家推荐相结合开展的新词工作试点中,有两次会议的研讨成果值得关注。在2012年底召开的全国科技名词委新词试点学科编辑座谈会上,结合部分学科预审的实际情况,经过会议讨论,决定将工作目标由收集传统意义上的“新词”调整为“有价值的词条”,包括“有发布试用价值的新词”和“其他有审定公布价值的科技名词”两部分。“有发布试用价值的科技新词”,即代表新概念的名词,包括新理论、新物质、新材料、新技术、新工艺、新方法、新仪器和装置等。这类词出现于21世纪,是传统意义上的“新词”,反映了当代科技前沿及进展,有必要尽早加以规范,及时发布试用。“其他有审定公布价值的科技名词”,即原有审定工作中遗漏的基本名词。包括本学科概念体系中较基础的词,特有的常用词、重要词等。这类词可能不是传统意义上的新词,但在构成学科体系时不可或缺,可留供学科名词修订再版时参考。
在2013年召开的新词试点工作专家研讨会上,参与新词推荐的部分专家、负责新词自动抽取的工作人员,以及语言文字专家、各学科审定编辑共同对试点工作,尤其是在审稿过程中发现的全局性问题进行了研讨。大多数专家对这种尝试感兴趣,但是对新词的产出率不太满意。专家提出的问题主要包括:第一类意见,认为语料的选择存在问题。有专家认为,从关键词、标题选词范围过窄,很难产出新词;也有专家认为中国知网收选的文献以中文文献为主,而科技前沿往往在国外,应尝试以英文文献为资源。第二类意见,认为专家审稿过程中对新词的界定不统一。有的专家按照“未审定公布且有价值”为标准,有专家按照“新出现且有价值”的标准,以至于不同专家推荐标准参差不齐,部分学科还存在评判标准的交叉和混淆。第三类意见,认为现有的一级学科跨度较大,审稿专家往往在更加细化的专业领域内才能发表意见,不同的分支学科之间都很难明确词条价值,应该按照不同的二三级分支学科单独审稿。第四类意见,认为应该尝试新的抽取机制,如特征标引等,以增强自动抽取工作的质量。第五类意见,提出审稿专家的选择应该更有针对性,比如考虑年龄、外文水平、对新词的敏感性等诸多方面,部分学科还存在专家参与度不高,积极性不足的问题。
综合上述意见,从试点工作的实际成效来看,可以总结以下几点经验教训:
新词的标准问题是在开展新词工作时最常被讨论的问题。实践中,一般有两种观点:一种认为,新词就是刚出现的词;另一种认为,新词是现有审定公布的名词库中没有的词。从理论上来讲,两者实际都在强调词条在某一时点所表现的价值,即时点价值,要么某个词条在某一时点后才出现,要么在某一时点才被纳入审定工作视野。显然,科技新词如果仅仅以时点价值作为衡量科技新词工作的唯一价值支撑,恐怕远远不够,更需要重视词条的“时段价值”。时段价值展示了一个词条在出现后呈现什么样的发展趋势,是越来越多地被继续使用,还是明显具有社会关注效应,抑或是逐渐退出了历史舞台。经过对词条时点价值和时段价值的共同考察,才有可能形成相对全面的词条定位。在科技新词试点实践中,新词标准也的确经历了从初期笼而统之地强调“新”,到试点过程中同时强调词条本身的“价值”,也恰恰印证了这一点。
与此同时,科技新词工作作为科技名词规范化工作的一部分,其最终目的还在于“规范”,即为同一个科学概念确定一个科学的中文定名,避免因一物多名造成科技交流不畅。因此,在科技名词规范视野下来讨论科技新词的标准,有必要引入“规范价值”标准。通俗来讲,应重点关注新概念定名混乱、直接使用字母词、对相同概念采用多个不规范表达等现象,对有关新词及时定名。这样的工作具有良好的示范作用,如2013年全国科技名词委组织的PM2.5定名工作。
在实践中,某个词条往往难以全部满足“时点价值”“时段价值”和“规范价值”三个标准,因而在选词实践中存在几个标准的优先级问题。在常态的科技名词审定工作中,首先是强调规范价值,对应《原则》中的“一个科学概念,确定一个中文名”;其次是时段价值,对应《原则》中“收选学科的基本词、重要词”的规定;再次是时点价值,如在修订过程中,往往新增的词条是近来出现的重要词,删减的是被淘汰的词条,修订的是那些被证实定名有误的词条。而就科技新词工作而言,笔者认为三个标准的优先级有所不同,从高到低应该是:时点价值、规范价值、时段价值。即首先是从新出现的术语中进行初选,然后考察其使用情况,对于使用混乱的,特别是已经进入大众生活领域的术语要优先规范,而对可能兼具时段价值的术语重点规范。虽然这三个标准并非缺一不可,但是明确这样的标准,对于在实践层面把握科技新词的取舍具有指导意义。
新词语料的选择直接决定了新词的来源。新词语料一般是各类正式科技出版物,这是由于科技新词从科技领域进入语言研究领域,呈现于固定的载体。通常,载体的权威性越突出,其可信度越高。首先,按载体划分,可分为专著语料、期刊语料、报纸语料等。以专著、期刊、报纸三者为例,不同的语料载体受出版周期的影响,所关注的科技新词的时点价值逐步升高,而时段价值依次降低。其次,按语种划分,可分为母语语料和外文语料。决定可信度的指标,是在研究中占据主导的语言种类。通俗的说,一国的科技实力决定科技语言的话语权。目前在大多数领域,英文语料仍然是主体。再次,按性质划分,可分为确定语料和非确定语料。前者,如新词词典、关键词表、文后术语表等;后者,如标题、正文、参考文献等。不同性质的语料对新词抽取工作量的影响较大,但是毋庸讳言,确定语料时点价值偏弱,可能无法满足新词工作的具体需求。
科技新词的收词方式可分为人工收词与自动抽取两种。人工收词的优点在于准确性高,二次加工简单,缺点在于人工成本投入大,时效性不强,对实施者自身科技素养的要求比较高。而自动抽取则恰恰相反。目前比较可行的办法是两者并举。自动抽取的程度直接决定了人工审核的难易程度,实践中往往需要通过不断改进自动抽取技术来降低人工审核的工作量。科技新词试点工作的实践,让笔者体会最深的就是切忌理论研究和实践需要两张皮。成功的实践要以良好的理论作为指导,而有效的实践才能发现理论的漏洞和不足。因此,最有效的做法是规划者全程指导和参与自动抽取工作,边研究边实践,注重普遍性和特殊性相结合,及时发现问题,优化方法。
目前,囿于自动抽取技术在语义判别上的局限,往往从自动抽取环节进入人工干预环节的词条数量可观,为了减小专家审词量,人工干预显得必不可少。从科技新词试点工作实践来看,教育背景不同的人员往往对科技新词的敏感程度有很大的不同,所以对自动抽取的词条采取分级筛选,是比较有效的方式。
从科技新词试点来看,进入专家审词的词条数量不能太大,大学科门类、词条版(不含释义)的词条数不宜超过2000条。小学科门类、词条版不应超过200条。如果是释义版,100条以内为佳。如果条件允许,团队式的人工干预模式是最有效的。
审词专家的选择对确保词条质量的重要性不言而喻。在选择审词专家时,专家的时间、精力、学术水平、英文水平、年龄和对新词的敏感度都是重要的考虑因素。与此同时,还要考虑专家的背景,注重吸收部分中青年专家、海外留学归国人员、科研院所一线工作人员等。此外,因为学科划分越来越细,且彼此交叉,所以必要时甚至需要针对个别词条有针对性寻找合适的审词专家。
分批次发布新词是目前比较常见的发布形式。有定期的,如语委组织发布的年度新词语;也有不定期的,如天文学名词审定委员会在《中国科技术语》期刊陆续发布的十多批天文学新名词。公布周期的选择直接决定了新词工作周期的选择,需要综合考虑实际需要和可操作性两个方面。实际需要是指有没有迫切需要向社会公布的名词,可操作性是指新词工作的人、财、物保障。总体而言,无论采用多长周期,都应该保持适当的连续性。多年的坚持和积累才能把新词工作引向深入。
最后,笔者认为,科技新词工作实践证明,有必要进一步强化新词的理论研究和操作层面的研究。从宏观层面,研究内容应该包括:及时规范新词的可行性研究、规范视角下的新词选词标准研究、分学科语料的权威性研究、新词自动选词规则的共性研究、新词抽取统计路径的共性研究、创新科技新词发布机制研究。从微观层面,新词生命力研究、字母词的研究、新词特征标引的研究都是实践所迫切需要的。
新词工作开展不易,笔者呼吁在不同行业或领域从事新词相关工作的学者,能在语料、技术、经验等方面相互借鉴、有效沟通、共同培育,减少重复劳动和资源浪费,让新词理论工作深深扎根实践的土壤。
注 释
①分别刊载于《科技术语研究》1998年第1期、1999年第1期和2001年第3期。
②分别刊载于《科技术语研究》2000年第2期、2001年第2期和2001年第4期。
③分别刊载于《科技术语研究》1998年第1期、1999年第1期。
④刊载于《科技术语研究》1999年第4期。
⑤101~109号元素定名刊载于《科技术语研究》1998年第1期;110号元素定名刊载于《科技术语研究》2003年第3期;111号元素定名刊载于《科技术语研究》2006年第1期;112号元素定名刊载于《中国科技术语》2011年第5期;114号、116号元素定名刊载于《中国科技术语》2013年第5期。
参 考 文 献
[1]崔辰州. 充分利用现代信息技术开展科技名词工作[J]. 中国科技术语,2010(3):19-21.
[2]才磊. 科技新词工作初探[J]. 中国科技术语,2008(2):49-51.