贾倩 毕经元 王立伟 杨玉 褚厚斌
〔摘 要〕本文探讨了面向大型科研机构知识管理系统的设计思路与实现方法。首先分析了大型科研机构建立知识管理系统的必要性,其次根据其需求描述了知识管理系统应具有的特点。在此基础上,以某大型科研机构的知识管理系统为例,阐述了功能组成、技术架构,并描述了关键模块的实现方法及实际效果。
〔关键词〕大型科研机构;知识管理系统;自动采集;术语地图;自动分类
知识管理系统是指组织内管理知识的信息系统,用于支持知识鉴别、创造、获取、存储、共享、应用等活动[1]。对于印有“高精尖”特征的大型科研机构而言,知识的积累与传承对企业发展及人才培养具有极其重要的意义,而知识管理系统则提供了知识固化、积累、重用与共享的技术保障。尽管目前市面上涌现出了诸多通用的知识管理平台,但普遍基于文档管理与OA系统建设而成,对大型科研机构在知识管理方面的其他需求考虑并不充分,难免或多或少存在适用性不强的弊端。因此,充分考虑大型科研机构的特性,研发契合其实际的知识管理系统,对提升大型科研机构核心竞争力、推进我国科研事业的发展具有重要的意义。
1 大型科研机构建立知识管理系统的必要性
作为承载提高国家科技水平重任的组织,大型科研机构在多年的发展历程中积累了许多科研理论与工程实践知识,如基础理论、试验数据、专利和标准规范等,这些是大型科研机构竞争优势的最根本也是最主要的体现。如果缺乏有效的知识管理手段、方法和规范,则会导致理论知识和工程经验在采集、重用、评价和继承创新中的系统化应用不强,知识资源在研制部门间、项目队伍间的共享和利用率不高,多项目并举并且分割作业的情况屡见不鲜[2],一方面,造成了项目整体水平往往是个别部门、少数人甚至个人水平的简单相加,而最高水平得不到充分体现;另一方面,导致了知识资源的无谓浪费,从而一定程度上制约技术的传承和拓展能力,影响核心竞争力的发挥。
要解决以上问题,实施知识管理是现实有效的重要手段。而知识管理系统是实施知识管理的主要载体,因此,建立契合企业实际的知识管理系统,实现知识的固化、积累与传承,以知识支撑科学技术的创新,对大型科研机构的发展尤为重要。
2 大型科研机构知识管理系统的特点
考虑大型科研机构知识资源数量大、种类多、共享敏感度高等特性,所设计的知识管理系统应具有如下典型需求:
2.1 具有自动化的知识采集功能
大多数大型科研机构在研发设计过程中已积累了大量的知识模板,以促进知识的规范化存储,提高项目研发及产品制造效率。因此,适合大型科研机构的知识管理系统应具备模板自动解析功能,对于大量基于模板的知识资源进行自动提取,以实现知识资源的快速便捷上传与格式化存储,方便科研人员对知识的积累与重用。
2.2 具备隐性知识管理的功能
对于大型科研机构而言,不乏经验丰富、技术超群的众多专家及学者。专家头脑中存在着大量宝贵的隐性知识。相对于显性知识,隐性知识更难以挖掘、管理,人员流动等原因往往容易造成隐性知识的流失。隐性知识的交流与分享不畅严重阻碍了科研生产整体水平的提高,同时也在一定程度上造成了现有成熟技术及经验的掩埋,导致了重复投入、重复开发等无谓浪费。因此,建设具有隐性知识资源管理模块的知识管理系统,有助于通过隐性知识资源的获取,推动隐性知识财富的传承,促进科研生产能力的提高。
2.3 具备科技术语管理的功能
大型科研机构在丰富的研发设计历程中往往积累了本领域大量的科技术语。然而,在实际业务中,由于缺乏得力的宣传措施以及有效的管理手段,术语的利用并不频繁,更谈不上规范。已有的术语成果不能在项目研发中发挥应有的作用,在造成大量资源浪费的同时,也无形中增加了设计人员的工作量。因此,契合大型科研机构特色的知识管理系统应实现对科技术语的规范有效管理,促使科技术语真正服务于研发设计,提高工程技术人员的工作效率,保障相关成果的科学性与严谨性。
根据前面章节的分析,笔者任务,适合大型科研机构的知识管理系统应包括知识采集、知识问答、知识利用、知识搜索、统计分析及安全管理等诸多模块。其功能模型见图1。图1 大型科研知识管理系统功能设计
3.1 知识采集模块
为Word标签类、XML标签等格式知识采集提供统一数据接口,以实现基于模板的知识的自动采集、在线编辑、采集过程中轻量化格式转换及关键词术语管理等功能。
3.2 知识问答模块
实现专家领域信息维护、问答空间管理和问答流程管理等功能。专家领域信息维护支持用户维护与管理员审核确认相结合的机制;问答空间管理包括问答空间配置、问答空间专家选择、问答空间问题管理等功能;问答流程管理用于实现从问题发布到问题补充、问题解答、答案推荐的过程管理。
3.3 知识寿命周期元数据管理模块
对知识资源从采集、审批、评论到版本更新、借阅、引用和综合升级的寿命周期内的过程信息进行记录和管理,为知识的有效化和有效利用提供支持。
3.4 知识利用模块
按照组件化要求对知识利用模块进行开发和完善,包括知识树管理、知识术语地图、知识推荐与订阅等功能,实现对知识系统数据库中知识资源的多维组织和利用。知识术语地图的建设应基于相应的本体库,并可以库中任意术语为根节点,进行术语体系的树状可视化。
3.5 知识搜索模块
对目前关键词搜索和全文搜索模块进行性能优化及组件化封装,并将各项搜索功能整合为综合搜索引擎,针对信息系统集成的需求开发了跨系统搜索接口。
3.6 统计分析模块
按照知识管理制度中关于知识评分和统计分析的约定,对知识贡献度和用户参与度统计功能进行优化,在此基础上开发统计数据报表输出功能。该模块应包括知识贡献度统计、参与度统计和统计报表输出等主要功能。
3.7 安全管理模块
针对某些大型科研机构对安全保密的要求,可实现知识管理系统的权限控制和安全保密管理。包括系统维护、权限管理以及信息输出、存储控制、防篡改、访问控制等。
4 某大型科研机构知识管理系统的实现
A公司是拥有近两万名员工的大型科研机构,主要从事军工产品的研发、设计与生产。A公司于2009年着手启动知识管理业务,并针对本企业实际,开发了适应企业特色的知识管理信息系统。其知识管理系统整体架构见图2,该系统从文档自动采集、智能搜索、自动分类及推送、科技术语管理等诸多方面满足企业研发设计的需要,为企业提高科研水平、增强核心竞争力发挥了重要作用。
图2 A公司知识管理信息系统整体架构
该系统的设计与开发涉及到基于模板的知识自动采集、知识术语地图建设、知识自动分类等多项关键技术,为A公司的业务能力提升发挥了重要支撑。现对典型关键技术的实现方法和效果介绍如下:
4.1 基于模板的知识自动采集
知识自动采集模块基于JACOB实现对基于模板的知识资源的自动解析。使用JACOB组件实现JAVA对OFFICE对象的调用,从而实现文档的自动解析、抽取及入库,实现了知识资源的高效、快速上传。
JACOB为JAVA和COM桥接的缩写,即JAVA-COM Bridge[3]。作为一个JAVA到微软的COM接口桥梁,JACOB可实现JAVA应用程序对COM对象的访问。基于此种原理,利用JACOB,系统可实现JAVA对WINDOWS中MS Word、Excel等组件的操作。因此,在本模块中,系统开发了基于书签的映射机制,如图3所示,利用OFFICE的书签特性,通过JACOB识别并读取书签内容,实现文档内容的解析及存储。同时,通过格式转换组件实现不同类型知识向FLASH格式的统一转换,在保障知识资源规范性的同时,实现了对知识产权的保护。其实现界面如图4所示。
4.2 基于本体的知识术语地图
本体(Ontology)原本是一个哲学的概念,主要研究存在的本质[4]。自本体的概念诞生之后,便被应用到多种领域。1996年,波音公司的Michael Uschold博士提出了本体在知识工程领域最常用的概念:“本体是一套术语词表以及术语含义的规范说明”[5],此定义也为知识术语地图的构建提供了直接的理论指导及依据。
对于知识术语地图而言,需要依靠本体语义来实现知识术语之间的动态联系及属性说明。本体语义的介绍如下:
假设c标识一个概念;i标识一个实例;p标识属性;v代表明文值;vp代表该属性的取值是明文;op代表该属性的取值是对象或类。同时C、I、P、V、VP和OP是他们对应的集合,因此P=VP∪OP。同时w标识P上面的权重,类之间的权重由系统管理员设定,这个权重将会初始化该类所有实例的权重,而实例之间的权重将随着用户的使用自适应变化。同时该概念还满足如下定义:
4.2.1 OWL文件
通常,本体语言提供了概念、概念之间的关联、概念的实例等基本的建模元素。以RDF和RDFS为基础的OWL(Ontology Web Language,Web本体语言)既有较强的本体表达能力又能进行推理,而且支持属性的局部辖域、类不相交、类的布尔组合、基数约束、属性的特殊性等多种特性,因此成为描述本体的最通用工具。本模块采用OWL语言描述术语的概念、关系及实例等,主要包括了名称空间、引用的文件、类、个体(Individual)、属性等构成。该文件示例如下:
4.2.2 知识术语地图
本系统的知识术语地图为航天叙词表的图形化展示。叙词表(Thesaurus)又称为主题词表,它是一种语义词典,由术语及术语之间的各种关系组成,能反映某学科领域的语义相关概念。中国《汉语主题词表》将词汇间的关系归纳为“用、代、属、分、参”结构。基于此,本系统中的知识术语地图即为知识术语提供了一种高效快捷的导航系统,用于展示不同术语之间的动态关系,协助用户快速定位所需的知识资源。
基于本体的知识术语地图模型如图6所示[6],包括展示层、本体层及资源层3个层次,由以下5个元素构成。图5 基于本体的知识地图模型
(1)知识节点。代表从组织的工作流程中提炼出的知识对象,一个知识节点还可以分解为多个子节点,从而构成树状结构。一组被连接的知识节点代表一个领域知识集合或一个知识流程。本文中的知识节点即为知识术语。
(2)知识关联。知识节点之间的连线即为知识关联,主要用于描述各知识术语之间的相互关系,用户可以通过知识关联了解知识领域的结构或知识的交流、演化情况。
(3)知识链接。在可视化界面和知识描述之间建立链接,通过知识链接,可以为用户提供多种知识地图的展示形式。
(4)知识描述。在通过展示层了解整个知识领域的结构和应用背景后,可以通过知识描述来了解单个知识节点的内容、结构、使用条件等信息。
(5)RDF。RDF(Resource Description Framework,资源描述框架)通过描述知识资源的属性及属性值,为知识资源提供了定义元数据的能力。
在将OWL文件定义完毕之后,本系统利用本体编辑工具Protégé构建知识本体模型。Protégé由Stanford Medical Informatics开发,是一组自由开源的工具软件,包括众多的插件,较好的支持多项标准,并支持OWL。友好的界面使得用户只需在概念层次上进行领域本体模型的构建,且支持中文。本系统构建的术语库模型见图6。图6 知识术语库模型
术语库建立完毕后,即为术语展示提供数据支撑。当用户针对关注的术语发起查看请求时,系统将通过查找术语库,将术语及术语属性组织到图形展示控件prefuse的数据对象中,并通过applet将知识术语图谱显示在前端页面。
4.3 知识自动分类
该模块通过对入库的知识资源进行属性解析及分类树节点匹配,实现知识资源的自动分类。在减轻了技术人员工作量的同时,提高了知识分类的准确性与高效性。
目前,针对中文的分类算法主要包括以下几种,朴素贝叶斯分类(Naive Bayes)、向量空间模型(Vector Space Model)、决策树、K-近邻分类法以及线性最小二乘LLSF(Linear Least Square Fit)等。其中,朴素贝叶斯算法是在贝叶斯模型的基础上改进生成,在汲取贝叶斯模型诸多优点的同时,克服了其受节点数量和节点间关系复杂性影响大的缺陷,与其他分类方法相比,朴素贝叶斯算法具有结构更简单、效率更高的特点,同时能够在分类性能和分类效率间取得较好的折衷,因此,本模块将选择朴素贝叶斯分类算法实现知识资源的自动分类。
将匹配度结果从高到底进行排序,如果存在匹配度高于预定阈值的分类节点,获取匹配度最高的分类节点ID值,在数据库中将该知识资源的类别字段置为该ID,如果不存在匹配度高于预定阈值的分类节点,系统将为该知识资源各知识属性生成新的类别ID值,并将所属类别字段置为该ID。自动分类的实现界面见图9。图9 自动分类实现界面
5 结 论
本文针对大型科研机构的需求,构建了可支撑其研发和设计的知识管理系统。该系统有效弥补了市面上通用的知识管理系统在处理大型科研机构特殊需求时面临的不足,实现了知识资源的采集、分类、搜索、利用、统计的全寿命周期管理,同时采用模块化、组件化的设计方式,使系统具有简单、灵活、易扩展、可重用等特点,为大型科研机构中大量知识资源的积累、固化与重用提供了技术保障。
参考文献
[1]中华人民共和国国家标准GB/T 237032—2010 知识管理 第2部分:术语.
[2]李瑞,李永刚.Java中基于JACOB的COM组件调用研究[J].微计算机信息,2007,24(5):168-170.
[3]史册.基于Ontology领域知识模型的高校研究生个性化信息服务研究[J].同济大学经济与管理学院,2007.
[4]Neches R,Fikes R E.Finin T et al.Enabling technology for knowledge sharing[J].AIMagazine,1991,12(3).
[5]潘有能,丁楠.基于本体的组织知识地图构建研究[J].情报科学,2008,26(12):1856-1860.
[6]陈彦萍,魏璐璐.基于OWL的旅游领域本体的构建[J].西安邮电学院学报,2011,16(1):78-82.
(本文责任编辑:孙国雷)