◎北京航天长征飞行器研究所 王锦程 王刚 谢雷 杨宁
当前,技术文档与操作规程是航天型号科研生产的主要知识载体,是知识传承的主要媒介,但随着文档与规程的越来越多及内容的不断细化,导致学习难度增加。在网络学习模式中,知识的组织单位是文档,组织方式是超链接,而文档内的知识组织依旧采用线性排列方式。这种继承于传统纸介质的知识组织方式很难显示知识单元间的内在关联,也无法实现海量设计资源的语义描述,很容易产生认知过载与迷航问题。
知识地图可以用知识单元为顶点,知识单元之间的语义关联关系为边来描述知识内部结构,是当前海量网络资源语义描述的主要工具。其中,知识单元是指具有完备表达能力的基本知识单位,如定义、定理、算法等;学习依赖关系是一类语义关联关系,表现为在学习某项知识单元之前必须掌握的前提知识。
目前,对于知识地图构建中知识单元及其学习依赖关系的挖掘,国内外还缺少针对性的研究,但对于文本中概念、实体等类型对象及其之间关联关系的挖掘,人们已在Ontology Learning、KAT(Knowledge Acquisition from Text)、RDC(Relation Detection and Characterization)等方面开展了大量研究,提出了基于模板、聚类及分类等的挖掘方法。然而,这些方法还是很难解决知识地图的构建问题,原因包括以下2点。
首先,知识单元是对某个具体术语的语义注释说明,是一个文档片段,其核心术语是“潜藏”在文档片段内的,且一个知识单元前后通常都存在着大量辅助性说明的文字片段。因此,对知识单元挖掘的关键技术是核心术语抽取和语义边界识别,但目前还没有可借鉴的方法来自动识别。
其次,学习依赖关系是导航查询的依据,揭示的是知识在知识单元之间被继承和发展的内在关系,完全有别于术语之间或文档之间现有的各种语义关联关系。
笔者通过分析知识地图的部分网络特性,提出了一种挖掘知识单元和学习依赖关系的方法框架。
由于航天技术文档与操作规程的不宜公开性,笔者选择了目前已经公开发布的数据集进行研究。试验数据集包含平面几何、C语言、Java语言、操作系统、计算机网络、计算机系统结构、计算机组成原理、数据结构等8门课程的知识地图,其中包括知识单元14,838个,学习依赖关系48,459个。
笔者通过对试验数据集的分析,得出知识地图的4项特性。
一是小世界性。统计知识地图的聚集系数和平均最短路径长度,并与同规模的随机网络对应参数进行比较发现:知识地图的聚集系数远大于随机网络,而平均最短路径则与之相近,这说明知识地图具有小世界性,意味着知识地图上任意2个知识单元之间只需要经过非常有限的中间知识单元就可以连通。因此,学习以依赖关系描述的知识地图具有克服认知迷航的功能。
二是无尺度性。知识单元关联度表现出明显的幂律分布:P(k)~k-γ, 其 中k表示知识单元关联度、γ表示度分布系数。这一公式说明知识地图具有无尺度特性,存在着一批关联度非常大的知识单元会直接影响学习效能。另外,还发现在已研究过的无尺度网络中,绝大部分的度分布系数大于2,而知识地图的度分布系数却小于2,这说明知识地图上知识单元的重要程度分布相对比较均匀。
三是学习依赖局部性。在定义了任意2个知识单元之间距离的基础上,笔者对其中的学习依赖关系数量分布进行统计后发现:知识地图中的学习依赖关系趋向于距离比较小的知识单元之间,这一特性称为学习依赖局部性。
四是领域术语分布的不对称性。利用术语分布的不对称性,可发现主题接近的2个文本中知识单元是否存在学习依赖关系。
根据领域术语分布的不对称性,笔者提出了一种知识单元挖掘框架,分为4步。
首先是预处理。将领域本体中的各种关联关系转换为术语之间的学习依赖关系,生成有向性术语级知识地图。
其次是候选知识单元挖掘。以有向性术语级知识地图为参照,生成知识单元的语义框架,从文本集中挖掘包含某知识单元的语义框架的自然段作为对应的候选知识单元。
再次是核心术语挖掘。从候选知识单元包含的术语集中识别出相对层次最高的领域术语作为候选知识单元的核心术语。
最后是知识单元识别。使用计算候选知识单元中每个句子和连续句子块的核心术语语义相似度来确定知识单元的起始句和下边界。
根据知识地图的学习依赖局部性和领域术语分布的不对称性,笔者提出了如图1所示的学习依赖关系挖掘框架。文本关联挖掘通过文本聚类找到具有相同或相近主题的文档,根据术语分布的不对称性构建文档关联对。候选知识单元对挖掘根据文档中的学习依赖局部性生成候选知识单元对。学习依赖关系识别根据候选知识单元对的词频、距离和语义类型等属性来识别学习依赖关系。
知识地图的知识管理与组织方式能够有效提高知识获取的效率,减少知识查询过程中的时间消耗。目前,在航天型号研制与日常工作管理中产生了大量的设计文档与管理规程等资料,这些资料对型号的研制及知识的传承意义重大,但大量的文档却容易让设计与管理人员难于高效地找到所需资料。基于这种情况,采用以知识地图为指导、以实际文档为内容的学习模式能够有效提高工作和学习效率。
以飞行器设计为例,大学毕业生若要成长为合格的总设计师,需要掌握各类知识,这些知识互相依赖,形成庞大的知识网络,而各类知识之间又互相影响,如结构设计的结果影响着飞行器的动力学特性,动力学特性进而又影响飞行器的控制。由于飞行器设计知识之间的相关性,学习这些知识时,先学什么、后学什么,什么知识需要串行学习,什么知识可以并行学习,需要有一定的逻辑层次关系,只有掌握清晰的学习思路,才能够取得高效学习的效果。传统的树状知识结构难以充分反应知识之间的关联性,更无法体现出相关知识之间关联关系的含义,使知识的表达缺失很多重要因素,为知识学习增加了难度。而知识地图不仅能充分体现知识之间的关联关系,还能进一步体现出关系的类型、关系的指向性,更适合帮助学习者深入理解知识内涵,快速掌握学习目标。
图1 学习依赖关系的挖掘流程
采用知识地图能够将型号的分系统和专业形成层次鲜明且关系清晰的组织形式,并以知识单元及其之间的关联关系为媒介将文档有机地组织起来。
一般说来,设计文档通常以专业进行划分归类,这就自然而然地形成了文本聚类。专业之间的关联性与专业术语的不对称性又能将文档联系起来形成文档关联对。因此,从指标X来看,文档B有指向文档A的关联关系。另外,文档内部知识之间存在非串行的关系,但总的来说,同一文档中位置靠后出现的知识依赖于已经出现过的知识。基于这些特性,每个文档内部形成局部知识地图,再根据文档间的关联关系,形成整个型号的知识地图。
设计人员在浏览知识地图时,既可以清晰地掌握各节点之间的逻辑关系,又能够通过节点深入了解其所对应的资料。以型号研制数据文件为例,进行知识地图的构建与应用主要有以下几个步骤:
原始数据的准备。利用AVIDM系统收集型号研制原始数据,包括各类设计报告、计算报告、试验结果分析报告、质疑单、更改单、通知单等,并按照研制阶段、专业、分系统、产品状态、地面试验、飞行试验、质量问题等进行归类。
特征分析与特征提取。包括设计要求与设计报告的配对关系,计算报告与试验报告的配对关系,设计文件与设计更改单的配对关系,各分系统的接口匹配关系等。
数据集标注与数据集的生成。将数据文件按照分类规则进行标注。
试验与验证。在数据集的基础上,按照数据文件的逻辑关系建立索引并开展验证工作。
知识地图的自动构建与应用。将特征运用到知识地图自动构建算法中,并将算法进行运用,实现有逻辑关系的数据文件的自动识别功能。
应用知识地图构建具有航天特色的知识管理构架。知识地图是知识管理与组织形式的一种新模式,不仅能挖掘出知识之间的隐含关系,还能够描绘出完整的知识体系,同时有利于型号设计质量的自我检验与排查。知识地图不仅能将型号设计中大量未得到有效利用的数据组织管理起来,还能够为新人快速掌握相关知识提供良好的平台。
海量技术资源与传统知识组织结构的结合,使得认知过载和迷航成为提升阅读及学习效率的主要瓶颈。知识内部语义结构显性描述将是下一代知识管理技术发展的热点。知识地图是海量资源语义结构显性描述的主要工具,其内部知识单元数量众多,语义关联分布不均匀,具有显著的复杂网络特性。另外,知识地图上学习过程的实质是反应知识单元之间知识被继承和发展的关系,是知识地图上的一种游走动力行为。