赵易新
(天津港信息技术发展有限公司,天津,300450)
随着新技术、新理念的发展,当前社会已经进入到信息化、知识化的时期,其中主要的表现在于知识信息呈几何式的扩展,因此怎样对知识进行组织和整合,是当前时代极为重要的问题。知识组织是专门用来研究知识的理论与方法,在知识的获取、描述、整合、共享等方面意义重大,下面我们便针对知识组织的系统建构进行考察分析。
所谓“知识组织系统”,是为了阐释某种概念、性质及相关概念之间具体联系而建立的组织系统。这一系统在概念、概念性质及概念间联系表达的基础上,在特定知识库结构建设的支持下,将知识信息加以编排,利用组织系统,实现知识信息的语义检索、语义理解和语义导航等操作,从而给各种学科领域内的专家知识的交流共享提供平台。
中国知网是当前我国建设程度最完善的知识组织系统之一。知网本身拥有大量的知识信息,在知识库组织建设上已经十分成熟。知网的基本结构表现为“三层知识网络”,集合了“基本知识库”、“资源仓库”、“知识元库”,能够对用户提供数据资源智能化的挖掘与供给,并以知识组织系统的方式提供知识组织、搭建知识之间联系的作用。在给用户提供知识检索的基本服务外,能够快速提供相似的文献连接、文献引用服务、文献来源查询等功能。
万方数据知识服务平台是国内另一大主要的知识组织系统。较中国知网,万方提供的知识服务大致有三大类:(1)知识脉络的分析。该服务以用户输入的主题词为中心,通过统计分析数据库内论文知识节点间共现关系,以直观可视化的方式,为用户展示知识节点的变化过程。(2)行业知识在线服务。该服务依托万方巨大的知识库,参照用户的行为特点,在科学组织、合理分类的基础上,给用户提供专业的行业知识。(3)专利分析。该服务建立在专利信息及情报分析与知识挖掘的基础上,对专利信息展开多维度的统计分析,继而实现定量化的智能分析,再将分析结果以表格等方式呈献给用户。
所谓“知识组织”,即进行知识的加工整理及表示控制,并将之组织化。而“知识组织系统”则是服务于知识组织的,其实质为一套特殊的术语和符号体系。知识服务系统所涵盖的内容很多,其中分类法和主题法是其中两种主要的方法,在两种方法之外,延伸出如叙词表、词汇系统等多种方法,是当前知识系统的主流展示形式。通过知识组织系统,实现知识数据的整理分析,从而提供优质的知识服务。知识组织系统还可以细分为总中心系统与分中心系统,总中心系统包含了分中心系统,通过不同的系统可以快速获取希望得到的各种专业知识。
就上文所述的基本概念来看,知识组织系统实现知识整理与检索的前提在于各种语义词汇的结构整合,所以词汇之间的各种关联其实是知识组织系统的关键所在,在进行知识结构的设计与加工时,要从语义结构及其关系角度出发,具体来说有以下四点工作内容
(1)语义结构框架设计
语义词汇:类型,包括核心词及基础词等。
定义及概念:要确保每一个核心词至少包含一条定义。
关系:语义关系是对称的,而属分关系则是不对称的。在同一类属下,其是传递的。
分类映射:按照关联的分类方法置,映射可以设定为多维度分类的方式。
性质:按照相关的知识领域及服务要求加以设定。
(2)语义关系的类型设计
语义关系:分为同义语义、近义语义及反义语义三种。
等级关系:分为类属、整体、实例三种。
相关关系
(3)术语自动抽取技术
术语的自动抽取(自动识别)即在特定领域的文献中抽取代表该领域核心理念的术语词汇,术语自动抽取展开的过程如下:
第一、完成拟抽取领域的文献整合;第二、领域文献的语料预处理,包括分词及词性的标注、语料转换等步骤;第三、从语料中筛选出候选的术语;第四、通过一定的语法规则、统计规则及通用词表等,对候选术语再识别,得到领域相关的术语列表。
就术语自动抽取技术来说,目前主要的办法有三种:基于规则的方法、基于统计的方法及二者(规则、统计)相结合的方法。基于规则的办法基本利用了术语词典和规则模板实现术语筛选,该办法针对那些符合规则的特定术语效果较好。基于统计的办法利用了统计学的原理,通过术语在语料库中的分布统计情况来实现术语的筛选,该办法的优势在于适应性强,但是术语筛选的准确度仍要改进。规则、统计相结合办法首先利用语法规则筛选出候选术语,再利用统计学原理进行再次筛选,即综合了上述两种办法的优点,在准确度方面表现地更为良好。
目前主流的术语自动抽取方法主要分为3 类:基于规则的方法、基于统计的方法以及统计与规则相结合的方法。基于规则的方法主要利用术语词典和规则模板来进行术语抽取,这类方法对符合规则的某些特定类型的术语抽取具有良好的效果。基于统计的方法以统计学理论为基础,利用术语已经在语料库中的分布统计属性来识别术语,该方法适应性更强,实用性更好,但在术语抽取的准确率上还有待提高。统计与规则相结合的方法先是通过语法规则过滤出候选术语列表,再使用统计学方法对候选术语列表中的术语进行筛选,最终得到最后的候选术语列表,两者相结合可以提高术语抽取的准确度。
总之,术语自动抽取的准确率及效率越高,则知识组织系统的建立就越完善、科学,对此要重视术语自动抽取技术的发展。
总而言之,知识组织系统的搭建和计算机技术、人工智能技术、检索技术、语言处理技术等密切相关。在当前,过去的知识组织系统通过词汇标引和元数据等形式,基本上能够实现知识资源的检索与获取,但是随着时代的发展,知识组织系统中的资源组织及语义表示等涉及知识资源分布等方面,需要得到进一步的完善。我们期待在今后的研究中,攻克这些问题,为我国学术事业发展贡献力量。
[1]毕强.数字图书馆知识组织系统建构的发展趋势——从机器可读到机器可理解[J].国家图书馆学刊, 2010, 19(1):12-17.
[2]黄日昆, 陈永腾, 孙逸玲.自主创新能力的助长剂—“中国知网”《中国知识资源总库》及其应用[J].图书馆界, 2006(1):63-67.
[3]司莉, 徐丽晓, 陈红艳.知识组织系统在我国数字图书馆中的应用及界面研究[J].情报科学, 2007, 25(3):445-450.
[4]徐兴文.我国企业社会工作研究文献综述——基于CNKI与万方数据库的文献分析[J].企业导报, 2010(10):235-236.
[5]张运良, 梁健, 朱礼军,等.基于术语定义的科技知识组织系统自动丰富关键技术研究[J].现代图书情报技术, 2010, 26(7):66-71.