术语工作中文本挖掘方法的应用探索——信息管理与知识管理科技名词审定工作方法

2011-01-04 01:41党延忠

中国科技术语 2011年4期

关键词：术语语料定义

于娟党延忠

(1.福州大学公共管理学院，福建福州 350108 2.大连理工大学系统工程研究所，辽宁大连 116024)

术语工作中文本挖掘方法的应用探索
——信息管理与知识管理科技名词审定工作方法

于娟1党延忠2

(1.福州大学公共管理学院，福建福州 350108 2.大连理工大学系统工程研究所，辽宁大连 116024)

研究了信息管理与知识管理科技名词术语的审定工作方法。该工作由全国科学技术名词审定委员会主管并委托国家自然科学基金委员会管理科学部完成。工作内容主要包括三个连续的阶段：(1)确定领域的收词范围，(2)确定术语定义，(3)确定术语的英文名称。介绍了在每一阶段所使用的工作方法、发现的问题与解决办法。目的是向从事术语审定工作的专家汇报工作，总结工作经验，并征求意见。

术语审定，信息管理，知识管理，文本挖掘

引言

科学技术名词的审定和规范化工作是一个国家发展科学技术所必需的基础条件之一，对促进科技发展，保障语言健康有着重要作用和意义［1］。为了规范科技名词，国务院于1985年批准成立了全国自然科学名词审定委员会(现名为全国科学技术名词审定委员会，以下简称全国科技名词委)，授权全国科技名词委代表国家审定和公布科技名词。经全国科技名词委公布的名词具有权威性和约束力，全国各科研、教学、生产经营以及新闻出版等单位须遵照使用［2］。

2008年，全国科技名词委主管并委托国家自然科学基金委员会(以下简称国家自然基金委)管理学部进行管理类科技名词的审定。受国家自然基金委的委托，由大连理工大学系统工程研究所所长党延忠教授领导的课题组审定了管理类中有关信息管理与知识管理领域的术语。该领域按照核心内容划分为七个子领域:(1)管理系统工程，(2)管理信息系统，(3)决策支持系统，(4)信息资源管理，(5)电子商务，(6)知识管理，(7)图书馆、情报和档案管理。

在全国科技名词委的《科学技术名词审定的原则及方法》(以下简称《原则及方法》)指导下，课题组依据国家自然基金委组织的审定工作流程，发挥课题组成员熟悉机器学习文本挖掘技术的优势，采用人机结合的方式完成了本领域术语的初步审定工作。此次，信息管理与知识管理领域初步确定了1001个术语，其中，管理系统工程子领域120个术语，管理信息系统子领域198个，决策支持系统子领域137个，信息资源管理子领域154个，电子商务子领域152个，知识管理子领域182个，图书馆、情报和档案管理子领域58个。

对每个子领域，课题组使用了相同的工作原则和方法分别审定其术语，审定工作主要分为三个阶段:(1)确定收词范围，(2)确定术语定义，(3)确定术语的英文名称。按照工作内容、工作方法和工作总结的顺序，下文将分阶段依次介绍和总结上述三个阶段的工作情况。

本文目的在于，向术语审定与术语标准化领域的专家、信息管理与知识管理领域的专家汇报工作，并为全国科技名词委今后开展其他领域科学技术名词的审定工作提供些许知识的共享。如无特别说明，下文中采用“术语”来代替“科学技术名词”。

一确定收词范围

(一)工作内容

确定收词范围是术语审定工作的第一步。收词范围要能够反映领域的概念体系，每一个领域专有概念，包括领域内通用的概念和新涌现的概念，都应该有其对应的术语被收录。由于人们对客观世界的认识有一个渐进的过程，新概念层出不穷，过时概念不断出局，所以收词范围要能够描述领域最新的概念集合，使得人们能够通过术语表达的符号世界正确理解领域的客观世界。

该部分工作的内容是确定审定的对象，即确定收录术语的集合。工作步骤一般为:(1)从各类文献中收集术语。(2)选择这些术语中特定的一部分作为收词范围。工作方法一般是:首先阅读大量的现有文献，如学术专著、大专院校教材、各类辞书、专利文献、科技文献资料、国家标准等，从中收集得到一个较广泛的术语的集合;然后由专家讨论选定其中的一部分术语，即一个子集，作为领域专有术语添加进收词范围，其余的则删除不用。在全国科技名词委以前进行的领域术语审定中，确定收词范围这一阶段的工作几乎完全以人工手动的方式完成。

全国科技名词委在《原则及方法》中制定了详细的术语选择原则，如图1所示:

图1 《原则及方法》中关于选词的工作原则

由于一个概念往往可以有几个不同的名称，这就产生了术语的同义现象。同义现象会导致术语使用的混乱，在术语审定工作中，应该尽量减少术语的同义现象［3］。因此，在确定收词范围时，除了图1所列的选词原则之外，还需要遵循《原则及方法》制定的关于定名的单义性原则，即一个领域概念应确定唯一的一个中文名称作为与之相对应的领域专有术语，其他还在使用的中文名称则作为同义词列出而不再进行审定。

(二)工作方法

依据上述工作原则，课题组设计并实现了一种以人机结合的方式来确定收词范围的工作方法，综合了机器学习的定量结果和领域专家的人工经验。该方法首先采用机器学习文本挖掘技术从领域语料中自动提取领域专有术语，然后由领域专家人工修正确定最终收词范围。该方法可以在一定程度上克服手工收词存在的两个显著问题:(1)工作烦琐，耗时耗力;(2)由于专家对整个领域认知的片面和不完善，收录的术语往往会受到主观影响，导致最终的收词范围不能客观地反映本学科的概念体系［4-5］。

课题组使用这种新的工作方法，在计算机辅助下，完成了确定收词范围的两个工作步骤:(1)由计算机代替人工阅读大量的文献，自动收集得到一个术语集合;(2)分析计算每个术语是领域专有术语的可能性，为专家确定最终的收词范围提供定量化的决策支持。这种工作方法的流程图如图2所示。

图2 人机结合确定收词范围的方法流程图

对图2中的各处理模块的说明:

(1)语料库是大量的电子文献，在该方法中用于提供词语集合。语料库分为前景语料(foreground corpora)和背景语料(background corpora)两部分。前景语料是包含丰富的领域专有术语的领域文档库。背景语料用来与前景语料作对比，以突显领域专有/非专有术语在领域文档与非领域文档中表现出的不同的统计特性。实际上，语料库C可由m(m≥3)个领域的前景语料共同构成，提取领域的Dk领域专有术语时，前景语料为Cfk，背景语料Cbk由语料库中其他m-1个领域的前景语料Cfi(1≤i≤m，i≠k)构成。要求Cfk完全包含Dk的所有术语，并且反映术语的真实使用状况。

(2)语料预处理模块将初始输入的电子文档标准化成统一格式的文本。该模块去除图片、公式等无法自动处理的元素，去除空行等无意义的符号，输出仅保留字符、标点符号和换行符的标准化格式的文本。通常，标准化文本的格式要求为:①半角标点符号统一改为全角符号;②文本采用统一的编码格式。

(3)词语提取模块使用计算机自动获取领域语料中出现的所有词语。该模块采用结合词性分析与串频统计的词语提取方法［6］处理领域语料(即前景语料)，输出在领域语料中出现的所有词语的集合。该方法首先采用既有的分词和词性标注系统把标准化语料切分为原子词串;然后以原子词为步长取其子串，应用统计的方法判断该子串是否符合成词的标准，将符合标准的词串作为词语加入到词语集合中。该自动提词方法的准确率和召回率均较高。

(4)领域概念学习模块处理上一模块输出的词语集合，输出候选的领域概念。该模块分为两个连续的子模块:领域隶属度分析和同义词合并。前者遵照《原则及方法》的选词原则删除词语集合中的非领域专有的术语，输出候选领域术语及其领域隶属度［7］。在领域隶属度分析子模块中，采用两个指标分析每一个词语:领域相关度(domain relevance，DR)和领域均匀度(domain consensus，DC)［8］。前者删除领域不相关的词语，后者删除尚未在领域中达成稳定使用的词语，剩余的词语作为候选领域术语。候选术语的领域隶属度等于其DR、DC的加权和与竞争因子(competitor factor，CF)的乘积。在同义词合并子模块中，遵循《原则及方法》的概念定名的单义性原则，合并候选领域术语集合中的同义词，输出候选领域概念集合。这一子模块基于意义组合原理，自动查找领域术语集合中的同义词，将一组同义词中的领域隶属度最高者确定为概念的正名，其他词语作为异名。领域概念学习模块将候选领域概念以领域隶属度降序排列提交给各领域专家。

(5)在专家修正模块中，领域专家参照上一模块输出的定量化的结果，结合经验，选择决定候选概念中可以收录的术语。如果有必要，领域专家再手工添加遗漏的术语。手工添加术语是为了避免发生由语料不充分所导致的计算机收词不完备的情况。该模块的输出结果即为最终的收词范围。

(三)工作总结

1.方法效果

为了说明课题组提出的人机结合收词方法在确定收词范围中的应用效果，本文介绍了该方法在课题组所负责的七个子领域中的实施情况。表1是计算机在无监督的情况下，以一些项目建议书为语料库，进行自动收词的结果。

表1 计算机自动确定收词范围性能表

对表1的说明:

(1)每一列说明一个子领域的情况，是在完全没有人工干预的情况下，计算机自动确定收词范围的结果。其中，SE指管理系统工程，MIS＆DSS是管理信息系统与决策支持系统两个子领域合并起来的情况，IRM＆EC是信息资源管理与电子商务两个子领域合并起来的情况，KM是知识管理，图书馆是图书馆、情报和档案管理。由于有些子领域的前景语料是合并的，所以将这些子领域的学习结果合并起来介绍。

(2)语料栏说明语料库的情况。Cf指的是前景语料(即领域语料)，Cb指的是背景语料。nf说明前景语料中的文本个数，nb是背景语料中的文本个数。汉字数一行统计语料中所包含的汉字的个数。每个文本大约包含250个汉字。

(3)词语集合一行说明词语提取模块在前景语料中提取得到的词语的数目。这个集合也是用来进行领域隶属度分析的词语集合。

(4)候选领域概念一行说明经过领域概念学习模块自动学习所得到的候选收词范围所包含的术语个数。

(5)领域概念一行是术语审定工作最终确定的收词范围所包含的术语个数。

(6)学习性能栏内是计算机在自动收词工作中所表现出来的整体性能。误删个数是指，在词语集合中出现但是被机器学习算法错误删除或合并而没有列入到候选领域概念的词语个数。命中个数是候选概念中被专家确定收录的术语的个数。错误率是误删个数与被删个数(即词语集合中词语数与候选领域概念数之差)的比值。由表中数据可见，该方法在实现较高删除率的同时保证了极低的误删率。召回率是命中个数与领域概念的比值。由误删率低可知，学习结果的召回率低的原因是语料不充分，没有完全包含领域术语。

由表1可见，课题组提出的这种以人机结合的方式来确定收词范围的方法是可行的，而且还能够:(1)简化烦琐的人工选词过程;(2)降低由专家主观因素引起的争执以及对收词范围的影响。

2.问题与建议

本文建议，将人机结合(结合机器学习文本挖掘与领域专家人工经验)的方式和方法作为确定收词范围的基本工作方式和方法。一方面原因是:在诸多学科术语审定工作中都出现了如何把握收词范围的“度”的难题［9］;另一方面，有些学科发展迅猛，新术语不断大量出现，每10～15年一个周期集中进行领域术语的审定无法满足学科发展和社会需求［10］。而对新术语的定名应该越快越好，否则一个不恰当的定名用惯了，再改就难了［11］。人机结合的方法既能保证工作结果的有效性，又能保证术语收集的快速及时。

《原则及方法》是在大量的领域术语审定工作的经验之上制定的，依据《原则及方法》所设计的确定收词范围的机器学习方法是科学严谨、经得起推敲的。依据本文作者的相关论文:领域相关度DR算法和竞争因子CF算法衡量词与领域的相关程度，自动删除领域不相关词，这满足了《原则及方法》的3.1要求;领域均匀度算法DC衡量词在领域语料中分布的均匀程度，自动删除仅在个别的几个语料中出现的词，这满足了《原则及方法》的3.2要求;同义词合并模块与语料的选择则满足了《原则及方法》关于定名的要求。足见，课题组所设计的计算机自动收词方法不仅能够降低领域专家的工作量，缩短工作时间，而且完全符合《原则及方法》的相关要求。

需要强调的是，在利用计算机自动收词时，要使用合适的语料库，不仅要满足选词原则，还要满足《原则及方法》中制定的概念定名的原则:科学性、系统性、简明性、国际性、约定俗成和协调一致。术语的来源决定概念的定名是否符合这些定名原则。因此，本文建议:在进行计算机自动收词时，除了要求领域语料完全包含领域专有术语，还要求其具有时效性，即语料是时下较新的著作。