王 媛 李 皓 李小军 许 鹏
(船舶系统工程部 北京 100094)
随着知识经济时代的到来,知识已经成为企业最重要的战略性资源。在复杂产品和系统的设计领域,知识的价值更为突出。现代产品复杂性、产品知识密集程度越来越高,不再局限于几何数据,更多的是关于设计本身与设计过程的数据,包括设计规则、约束条件、基本原理、参考资料等[1]。如果没有完善的获取、表示、存储、传递、共享、重用设计知识的管理体系,将导致各种类型的知识在设计过程中的重用率和共享率极低[2],因此,必须首先建立适合的知识表征方法,为基于知识的检索[3]和知识推送等提供支撑。
知识表征是利用计算机对知识进行管理时需要解决的首要问题,即如何采用计算机可理解的特定符号来描述知识[4]。知识表征即把知识用计算机可接受的符号以某种形式描述出来,也就是知识的符号化过程,将知识进行形式化描述,表示成为便于计算机存储、管理和调用的某种数据结构模式。目前常用的知识表示方法主要有谓词逻辑表示法、产生式表示法、框架表示法、概念图知识表示法、语义网络表示法、面向对象表示法等。
上世纪60年代中期开始,知识表示开始作为一个独立的研究课题[5],五十多年来,人们研究出了诸多的知识表示方法,包括谓词逻辑表示法、产生式表示法、框架表示法、概念图知识表示法、语义网络表示法、面向对象表示法等,并结合相关的工程领域利用这些方法进行了领域知识的表示和运用。但针对舰船领域的知识表征,上述方法又有其局限性。一阶谓词逻辑作为一种形式语言,远远不能表示人类自然语言所能表达的知识,且随着知识库中知识的增加,推理所需的事实组合的工作量成指数增加;产生式法的主要缺点是推理效率较低,表达能力较差,所表示的知识规则之间不能直接调用,因此较难表示那些具有结构关系或层次关系的知识;框架法的不足之处是不善于表达过程性的知识,因此它经常与产生式表示法结合起来使用;概念图法的可操作性和可理解性不强;面向对象知识表示方法的多重继承不能保证在继承的时候的单向无环,所以使得多重集成较难控制;语义网络法的缺点是不能像逻辑方法那样保证推理的严格性和有效性,不便于表达判断性知识,不便于表达深层知识。而基于本体的知识表征方法[6]是近年来的研究热点之一,在各个领域处于探索研究阶段,其中,领域本体的构建[7]是研究的难点之一。但本体以其强大的语义表达能力和推理能力,将对各个领域内知识表示做出重大贡献[8]。
目前基于本体的领域知识表示方法成为了研究热点。在知识表示模型构建中引入本体[9],是因为本体具有良好的概念层次结构和对逻辑推理的支撑,知识表示的语言表达能力比较强[13]。将其引入知识表示模型中,可以保证知识被建模表达后,在传递和共享过程中知识理解的唯一性和精确性,使知识搜索、知识积累、知识共享的效率大大提高。
一般来讲基于本体的知识表征方法不是一个通用的知识表示方法,与具体的领域相关,不同领域的知识表达模型不同。本文结合领域实际情况整理出知识存在形式的基础上,基于本体对知识进行表示,为基于知识的语义检索和知识推送做准备。
本体可以提供对该领域知识的共同理解,确定该领域内共同认可的词汇(术语),并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。也就是说本体可以通过基本的建模元语来表达领域内知识的语义内涵以及知识之间的语义关系,通过本体建模可以实现某种程度的知识共享和重用,提高系统通讯、互操作和可靠性的能力。下面将从知识存在形式及组织方式归纳整理、领域本体构建、基于本体的知识表示模型、知识特征向量提取技术等几个方面来进行知识表征的研究。
从领域业务活动出发,深入挖掘需求分析及立项阶段、方案阶段、工程研制阶段、设计定型阶段可能产生或使用的知识的存在形式并对其进行准确的定义。通过调研和座谈等方式了解现有的知识形式,并对其进行总结分类。
图1 知识存在形式及组织方式
领域本体构建是知识表征的基础,本体支持知识的形式化规范表示以实现领域知识的重用和共享。在进行本体构建时应该考虑领域本体与领域知识的对应关系,保证领域本体与知识范围的一致性,从而更好地支持知识应用效果。本研究中采用面向多语义的模块化领域本体构建方法。
图2 领域知识构建
步骤1:领域分析
根据现有的知识,包括各种文档、参考资料、各类数据资源等对所涉及到的领域进行分析,分析后初步确定从以下几个方面来构建本体(术语):1)应用术语;2)成果形式术语;3)过程术语;4)通用术语;5)领域专业术语。其中,领域专业本体又包括功能术语、任务术语和系统术语。
步骤2:提取重要概念
参照相关标准规范提取所涉及领域内重要概念,如任务术语中对作战任务形式等相关概念的提取,功能本体中对信息保障、指挥控制等相关概念的提取。概念提取的过程中要保证术语的唯一性,正确性,除去术语的冗余性,二义性,形成领域专业概念的一种规范。
步骤3:模块化组建本体框架
构建领域本体的框架结构,构建过程按照模块化的思想进行,如将关键术语模块进行分解,方便部分术语模块的重用与集成。
步骤4:抽象概念间多语义关系,添加实例
框架构建完成后,按照概念的固有属性和专有特征进行归纳和修改,对概念建立层次化的分类模型,并定义类之间的关系,建立类之间的语义联系。在本体中可以表达概念之间的任意语义关系,这里我们采用本体编辑工具protégé进行本体构建,基本的语义关系包括Synonymy(两个概念的内涵和外延完全相同)、kind-of(一个概念的外延完全包含另一个概念的外延)、instance-of(概念的实例和概念之间的关系)、attribute-of(概念实例与概念属性的关系)。后期还需要不断根据需要梳理更多的语义关系,构建出更加完善的本体。
在明确知识存在形式的基础上,基于构建好的领域本体对知识进行形式化的表示,给出该领域内基于本体的知识表示模型框架。利用本体对领域各种类型知识进行统一的规范化描述,形成一种计算机可以理解的用于描述知识的数据结构,知识表征模型的整体框架如图3所示。
知识表达模型分为三个层次:知识层,语义模型层和本体层。
知识层是知识的物理存储层,由于知识类型繁多,从知识表达所需的预处理技术来分可以把这些知识分为两大类:文档类知识和字段组合类型的知识简称为知识条目。其中文档类型的知识包括设计实例、重要报告、标准规范、情报资料、技术文献、设计模型、仿真模型和优化模型;知识条目类型的知识包括经验技巧、专家资源、公式资源、性能参数资源、软件资源和实验数据等。在进行知识表达预处理的过程中文档类的知识要先进行文档解析,然后再进行后续操作。
模型层的目的要基于本体构建知识的语义表达形式,对文档和知识条目利用相关算法进行分词和词频统计,在此基础上进行初始特征向量提取,初始特征向量中的元素与本体中元素进行实体语义匹配,语义关联度高的元素被称为候选元素。候选元素按照不同的语义表达形式会形成不同的最终特征向量,不同的特征向量各自表达知识的一个语义侧面,因此要全面描述一条知识的语义信息可能需要有多个特征向量组合。
本体层是所涉及领域的重要概念的规范化描述,依照层次化多语义的本体构建方法构建领域内本体,为知识建模提供基础条件。
图3 基于本体的知识表示模型
明确了知识的具体存在形式并建立完成领域本体后,需要将本体和知识建立关联,即利用本体对知识进行语义建模。在这个过程中,如果人工构建本体与知识间的关联不仅难度大、效率低下、准确率低,而且工作量巨大。一般来讲人为实现知识的语义建模是不现实的。因此,对自动的知识特征向量提取和表达技术的研究尤为重要。本项研究将知识特征向量提取与表示主要包括如下几个步骤:1)文档/知识预处理;2)权重设置与候选向量提取;3)本体解析;4)语义相似度匹配;5)知识特征向量表示与存储,如图4所示。
图4 知识特征向量提取整体流程
预处理模块是对文档或知识条目进行分词及统计处理。主要实现的功能包括:分词,标注词性,统计词频以及将统计结果保存至数据库。如果是文档类的知识事先必须进行文档解析,解析后的文档和字段类型的知识都可以利用进行分词。
特征提取模块是基于分词的词性,将名词和动词提取出来,作为初始候选的特征词。
权重计算模块是在提取出的名词和动词,计算这些词的权重,选取权重大的作为文档或知识条目的候选特征向量。候选特征向量中词的数目由用户定义精度,一般选取若干个词。
本体解析与语义匹配模块是将候选特征向量中带有权重的候选特征词与本体元素进行语义匹配,语义相似度大于一定阈值的词将被选为最终特征词对文档或知识进行表示。其中本体的解析和相似度计算是研究的难点。
特征向量表示模块是将最终特征词表示成知识的特征向量。
知识表征技术是解决知识管理相关问题时所需突破的首要技术,本文阐述了知识表征技术的研究背景及研究现状,并针对舰船领域特点采用基于本体的知识建模方法,提出了具有三层体系结构的语义知识表达模型。在此基础上初步建立了所涉及的领域本体的基本框架,采用知识特征向量自动提取技术实现对知识的语义表达,为基于语义检索提供基础。在后续的研究工作中需要对所建立的知识模型不断完善,并在此基础上进一步研究基于语义知识模型的检索和推送技术。
[1]陈磊,潘翔,叶修梓,等.基于本体的产品知识表达和检索技术研究[J].浙江大学学报(工学版),2008(12).
[2]林琳.浅议本体在企业知识库中的应用[J].现代情报,2007(11).
[3]朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005(05).
[4]顾巧祥,祈国宁,纪杨建,等.基于元数据的产品数据本体建模技术[J].浙江大学学报(工学版),2007(5).
[5]杨建林.基于本体的文本信息检索研究[J].情报理论与实践,2006(05).
[6]刘红阁,郑丽萍,张少方.本体论的研究和应用现状[J].信息技术快报,2005,3(1):1-12.
[7]韩婕,向阳.本体构建研究综述[J].计算机应用与软件,2007,24(9).
[8]杜文华,董慧.本体建设工具比较研究[J].情报杂志,2005,(2):5-7.
[9]王珊,张俊,彭朝晖,等.基于本体的关系数据库语义检索[J].计算机科学与探索,2007(1).
[10]张莉,姜浩.领域本体半自动化建模工具的设计与实现[J].计算机与数字工程,2009(9).
[11]钟诚,赵明霞,何秋燕,等.军事仓储领域本体的构建[J].计算机与数字工程,2011(9).
[12]陈钰,张功亮,阚述贤,等.一种基于领域本体的用户建模方法[J].计算机与数字工程,2011(2).
[13]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1).