国内知识元研究综述

2014-02-11 20:15郭少友常桢窦畅郑州大学信息管理学院郑州450001
图书馆理论与实践 2014年11期
关键词:本体语义文本

●郭少友,常桢,窦畅(郑州大学信息管理学院,郑州450001)

国内知识元研究综述

●郭少友,常桢,窦畅(郑州大学信息管理学院,郑州450001)

知识元;知识元抽取;知识元表示;知识元集成;知识元链接

分析国内知识元研究的现状,包括知识元的基本概念、类型、抽取、表示、链接与集成、应用等多个方面。针对知识元研究中的一些关键问题,提出自己的看法。

对蕴含在数字资源中的知识进行揭示、描述与组织,是实现知识检索和知识管理的前提。将揭示和描述知识的粒度细化为知识元,有助于提高知识获取的效率和精确度。自20世纪70年代末美国情报学家弗拉基米尔·斯拉麦卡提出,知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”开始,国内学者对这一概念及其相关问题进行了较为深入和持久的研究。本文通过知网检索发现,题目包含“知识元”的期刊论文72篇、硕博士论文25篇、会议论文6篇,关键词包含“知识元”的期刊论文323篇、硕博士论文71篇、会议论文19篇。研究成果的作者主要来自教育学领域、计算机科学领域、图书情报领域,所讨论的对象主要是中小学教育资源、医学数字资源、一般数字资源,所讨论的内容涉及知识元的基本概念、类型、抽取、表示、链接与集成、应用等多个方面。

1 基本问题研究

1.1 知识元的概念

在国内,知识元这一概念出现较早,学者们对其进行了不同的界定和解读。

刘新等[1]认为,一个相对独立且能够准确地表达知识的内涵和外延,并能对一个知识进行完整描述的知识单元就是知识元。张亮等[2]认为,知识元是指不可再分割的具有完备知识表达的知识单位。姜永常等[3]认为,知识元是构成知识结构的最小独立单元,用来表示一个个针对特定问题的解决方案。文庭孝等[4]认为知识元是在知识管理中可以对知识进行独立、自由、有效地识别、处理与组合的基本知识单位。温有奎等[5]认为知识元是构造知识结构的基元,将知识分解为知识元以后,比较容易选择与之相适应的查询及存储方式,以便用户直接查找、组装以及完善知识结构,加快知识的创新速度。毕经元[6]认为知识元是进行知识的存储、共享和引用的最小存储单位。

尽管国内学者都强调了知识元应具有独立性、稳定性和完整性,但对它的理解却有一定差别,主要反映在知识元的粒度上,大部分学者认为知识元是最小独立单元,不能再分割;少部分学者则认为知识元是基本知识单位,可以再细分。

1.2 知识元的类型

王延章[7]把知识元分为对象知识元、属性知识元和属性映射关系知识元。其中,对象知识元表示的是客观事物实体,属性知识元对客观事物实体的特征进行描述,属性映射关系知识元是对对象知识元内部属性状态相互作用关系的展开描述。温有奎等[8]将知识元分成描述型和过程型两类,前者可细分为信息报道型、名词解释型、数值型、问题描述型、文献引证型等;后者可细分为步骤型、方法型、定义型、原理型、经验型等。张静等[9]将知识元分为七个类型,即概念型、原理型、方法型、事实型、陈述型、数值型、模型型。原小玲[10]认为,知识元可以分为理论与方法型知识元、事实型知识元和数值型知识元。其中,理论与方法型知识元包括思想、方法论、公理、原理、定律以及正在探索中的观念、观点、方法与技巧,事实型知识元包括自然、社会存在和演变的事实信息,数值型知识元包括各种数据类知识和科学数据,具有数值分析和知识推理功能。

虽然上述各种观点的文字描述有所不同,所给出的类型也不一,但每种观点基本上大同小异,都从概念、事实、方法策略等几个维度来分类知识元。此外,有些文献给出的类型并不来源于同一个分类标准,且类型之间有重叠,如文献[9]中的事实型和陈述型。

2 知识元的抽取和表示方法研究

2.1 知识元的抽取方法

从数字资源中抽取知识元是知识元应用的基础,通过对现有相关文献的分析发现,国内学者所提出的方法大致可分为基于文本结构的抽取方法与基于规则的抽取方法两种类型。

(1)基于文本结构的抽取方法。典型代表有两个。①姜永常等[11]提出基于文本物理结构和逻辑结构的抽取方法。其中,物理结构={标题,作者,机构,章,节,段,句,词,引文},表达了文本的主观认知结构;逻辑结构={主题,层次,段落,句子,主题词,标识词,分类号},表达了文本的客观知识结构。通过对文本物理结构的分析,建立文本的逻辑结构,从中抽取标题、小标题、段首、段尾、结论、引文等作为引导知识元的向导信息。通过向导信息即可建立文本信息与知识元之间的关系,为文本知识元的发现指明方向。②周宁等[12]提出的抽取方法包含三个步骤:结构解析、长度解析、内容解析。针对给定的文本,该方法首先根据事先给定的结构约束来抽取文本片段,并用长度解析器来检查文本片段的最大和最小长度,用内容解析器将文本片段解析成仅包含单词的单词线性表并在此基础上生成知识元。

(2)基于规则的抽取方法。典型代表是蒋玲[13]提出的基于规则的知识元抽取方法。该方法首先对文本进行分句,然后提取向导信息所在的相关主题句,构成候选主题句集合;在分析文本各属性的句法结构特征的基础上建立各属性知识元的句法模型,即提取规则;将主题词与提取规则组合,根据属性值知识元句法模型对所有主题句做句法匹配,从而提取具有该句法的知识元描述候选句,并通过人工干预确定知识元描述句;然后将主题词+属性词的组合作为知识元名称,将提取的主题句作为知识元描述,并根据句法模型来确定各知识元描述句的属性,将输入文本作为知识元来源等。最后将提取出的知识元入库。

2.2 知识元的表示方法

知识元的表示是指通过使用框架、模型、符号等来描述知识元,使知识元符号化、形式化或模型化,以使知识元成为便于机器处理的形式。现有研究主要采用基于框架表示法的方法和基于本体的方法来表示知识元。

(1)基于框架表示法的知识元表示方法。框架表示法是以框架理论为基础发展起来的一种结构化表示方法,它将知识表示成高度模块化的结构。框架由框架名与若干个槽组成,每个槽拥有若干个侧面,每个侧面还可拥有若干值,而具体情况则可根据实际需求来取舍。通过从不同角度分别建立框架,可以得到一个框架系统。该系统可以从不同角度来描述一个事物,而通过框架间的转换也可以表示事物状态的变化以及其他活动。周宁等[12]在框架表示法的基础上,提出了XML平台上的知识元表示方法,并给出了知识元框架的巴科斯范式格式。

(2)基于本体的知识元表示方法。本体是对某一领域中的术语及术语间关系的规范说明,提供对领域知识的共同理解和描述,用于共享、交流和复用,由经过精确定义的概念及概念间的关系组成。袁名依等[14]提出一种基于知识元本体的知识统一表示方法,其中知识元本体包含Creator、KnowledgeElement、KnowldegeElementAbstract、KnowledgeElementDescription和History等五个类,KnowledgeElement用于描述不同的知识单元,KnowledgeElementDescription用于表示知识元描述体,History用于记录知识元的演进发展过程。

如前所述,知识元是一种相对独立的知识单元,其本身也是知识,常用的知识表示方法也适用于知识元的表示。现有的研究较多地关注知识元的框架表示法、基于本体的表示法,较少涉及知识元的谓词逻辑表示法、产生式规则表示法、语义网络表示法、面向对象表示法。

3 知识元的集成与应用研究

虽然知识元本身具有一定的结构且能够在逻辑上完备地表达某一完整的事实、方法等,但是将知识元作为独立的个体进行分析所能获得的效益是有限的。为了更有效地利用知识元,对其进行集成是必要的。而知识元的应用也建立在知识元的集成之上。

3.1 知识元的集成

知识元集成是指通过某种技术、方法或策略,在所提取并已标引和表示的知识元或知识元集之间建立一定的联系,以便于理解显性知识、揭示隐性知识、发现新知识的行为。

毕经元[6]提出了一种基于Web2.0的知识元链接体系。首先将文献单元按知识结构分类,并过滤掉无用信息;然后根据知识内容对知识元的特征信息层的属性(名称、内容、作用等)进行填充,设置知识元的导航信息层属性内容(链接、来源)。成鹏[15]提出了一种基于语义Web的知识元集成模型——SBKⅠ模型。该模型分为三个模块:知识元挖掘模块、本体构建模块以及语义集成模块。其中,语义集成模块通过在本体中的领域间添加语义逻辑关系将本体中领域间的非相关的概念集成起来,使其中非相关的概念间隐性的关系能够显性化,从而得到具有语义逻辑的知识元链。温有奎等[16]提出了一个知识元语义链接模型,其公式为:K(S)+N(K(E)+K(S))=K(S+)S),其中K(S)表示知识结构,K(E)表示知识元,N表示信息导航链接。强调知识结构是一个比较完整的认知结构,知识结构的构成主要是由信息对独立的知识元的导航而形成。

综合起来看,现有研究主要是通过在知识元之间建立导航链接来实现集成,并考虑了语义因素,但对集成过程中知识元的规范化、同义知识元的有效关联等问题缺乏深入的探讨。

3.2 知识元的应用

(1)在突发事件处理中的应用。仲秋雁等[17]通过抽取情景共性要素及要素关系来形成情景元模型,在此基础上提出具体领域的基于知识元的情景概念模型,并认为该研究有利于应用计算机进行情景模拟的研究实现,有助于决策人员的决策行为,并为进一步针对情景进行非常规突发事件的应对提供基础。杨德宽等[18]认为,随着突发事件复杂性的增加,科学与高效应急的关键是如何实现模型的组合调用,根据突发事件应急决策的特点,提出了基于知识元网络的组合调用方法,可通过构造动态模型组合网络来解决模型组合调用问题。

(2)在古籍研究中的应用。肖怀志等[19]认为,可以利用那些基于历史年代本体建立的语义关联来聚集相关历史年代知识元,以此达到聚集同一或相关史实的目的。其中,历史年代知识元由历史年代标引和历史事件或史实构成,是史书中可以控制的最小知识单元,具有完整的逻辑性。丁侃[20]讨论了中医古籍元数据规范体系,构建了以知识元结构为标准的中医古籍元数据分类体系。游章才等[21]在知识元语义分析的基础上,探讨了中药“性-效-证-症-病”知识元之间的内在关联规律。陈冠林等[22]在药性-功效知识元语义分析的基础上论述了中药复方的整体功效。此外,还有学者通过抽取、构建中医药知识元,分析知识元语义及知识元之间的关联规律,来尝试探析中医古籍中概念不明确的知识元的含义。

(3)在信息检索方面的应用。信息检索一直面临着查准率、查全率不高的问题。传统信息检索系统不能满足人们的知识需求的根本原因在于知识组织的深度仅仅停留在文献层次上,解决方法之一是将文献知识的控制单位深入到知识的最小单位——知识元层次上。[23]温有奎[24]提出了知识组织与检索中知识元与向导信息的导航变换的理论与方法,并对知识元的理论基础——认知元进行了研究。

综合起来看,知识元理论和方法在古籍整理和突发事件处理领域的应用研究较多,而在信息检索领域的应用研究较少。从理论上讲,利用知识元来实现信息资源的组织和检索,有助于从根本上解决信息检索的传统痼疾,但目前这方面的研究尚有待加强。

4 思考

关于知识元的含义。现有研究在讨论知识元这一概念的含义时,或者强调知识元是不可再分割的最小知识单元,或者认为知识元是基本知识单位,大多都是从理论层面进行描述,很少有简单、清晰的知识元示例,读者理解起来比较困难。笔者认为,知识元的含义可以理解为用三元组表示的、包含主谓宾结构的最小知识单元,例如“吗丁啉是多潘立酮”、“吗丁啉是Domperidone”、“中国中央电视台央视”是三个不同的知识元。其中,斜体字是谓词,其前后词语分别是主语和宾语。对于“中共十八大于2012年11月8日在北京召开”这一陈述,按现有文献的主流观点来看只包含一个知识元,但从最小知识单元的角度看,可从中解析出“中共十八大召开时间是2012年11月8日”、“中共十八大召开地点是北京”两个知识元。

关于知识元的类型。如果上述知识元定义成立的话,判断知识元的类型则是比较困难的事情。对于一个只包含主谓宾的三元组来说,其所包含的信息不足以用来准确地判断其类型,如知识元“DNAⅤaccines treat Mice”,其含义是DNA疫苗治疗鼠类,如果按本文1.2节所述的类型进行分类的话,可算作方法型、经验型、事实型或陈述型知识元。同一个知识元在不同的上下文环境中具有不同的身份,从现有分类方法来看,可能属于不同的类型。这种分类上的多变性导致关于知识元类型的讨论意义不大。

关于知识元的表示。从知识元集成、应用以及知识推理的角度看,采用合适的模型来表示知识元是至关重要的。本文2.2节简单讨论了可用于知识元表示的各种方法。笔者认为,其中,基于本体的表示方法可将知识元表示成规范的、公共可理解的形式,易于满足知识元集成与应用以及知识推理的需求。文献[15]对此进行了探讨,但只考虑了知识元本体的使用,忽略了与各种领域知识相关的领域本体,而这些本体可以有效地规范蕴含在知识元中的概念及关系。例如,知识元“DNAⅤaccines treat Mice”描述的是医学领域的知识,其主语和宾语可用医学领域本体UMLS中的概念加以规范,谓词可用UMLS中的语义关系加以规范,结果是:“DNAⅤaccines”规范为“Ⅴaccines,DNA”、“treat”规范为“treats”、“Mice”规范为“Mus”,规范后的知识元可表示为“Ⅴaccines,DNA treats Mus”。笔者建议,可进一步按RDF格式的要求来表示知识元,结果形如“umls:Ⅴaccines,DNA umls:treats umls:Mus”。其中,前缀umls指向UMLS本体。任何能兼容UMLS的系统都可以准确无误地理解并应用该知识元。

关于知识元的集成。当采用RDF格式来表示知识元时,知识元集成的难度则大为降低,集成过程中需要解决的主要问题是不同本体之间的映射问题以及映射之后同义知识元之间的关联问题。如果所有知识元均属于同一个领域,且其主谓宾都采用同一本体的词语进行规范,则在将这些知识元按RDF格式保存起来的同时,实质上已经自动进行了集成,形成了知识元链接网络。如果知识元采用多个领域本体进行规范,集成时,需要事先在不同领域本体之间建立映射关系,然后根据映射关系来判断两个知识元是否同义。笔者认为,分别经过两个不同本体规范处理的同义知识元,可通过owl:sameAs建立关联。例如,假设两个知识元“umls:Ⅴaccines,DNA umls:treats umls:Mus”、“medonto:DNA疫苗medonto:治疗medon to:鼠类”是同义关系,可新增一个知识元“umls:Ⅴaccines,DNA owl:sameAs medonto:DNA疫苗”来描述概念“umls:Ⅴaccines,DNA”与“medonto:DNA疫苗”之间的同义关系,从而间接达到在两个同义知识元之间建立联系的目的。

关于知识元的应用。从现有研究成果来看,知识元在教学、管理、科学研究等众多领域都能发挥作用。依笔者看,知识元理论与方法无论应用在哪个领域,本质上都是对领域知识的细粒度组织以及基于此的知识检索与知识服务。具体应用时,需要重点解决两个问题:(1)应用领域的本体选择或构建问题。知识元最终要利用本体进行规范,形成公共可理解的RDF数据。如果所选的应用领域有成熟的本体可用,则可直接采纳;否则,需要组织领域专家构建可用的本体。(2)基于知识元的知识检索。在知识元的基础上实现的知识组织,与关联数据技术相结合,可以实现数字资源的深度整合——聚合。聚合结果可以通过可视化形式呈现给用户,由用户直接从中找到所需知识,也可以让用户通过SPARQL端点进行查询。前者需要为用户提供清晰、直观的可视化界面,后者需要提供简单易行的SPARQL查询构建器,两项工作实现起来都有一定难度。

[1]刘新,王泰森.学习型知识元数据库链接理论研究[J].图书馆学研究,2009(11):25-28.

[2]张亮,杨溢.论基于三维包络灰预测与知识元理论的图书馆文献采购优化[J].图书馆学研究, 2013(8):45-48.

[3]姜永常,等.基于知识元的知识组织及其系统服务功能研究[J].情报理论与实践,2007(1):37-40.

[4]文庭孝,等.中文文本知识元的构建及其现实意义[J].中国图书馆学报,2007(6):91-95.

[5]温有奎,徐国华.知识元链接理论[J].情报学报,2003,22(6):665-670.

[6]毕经元.基于web2.0的知识元链接网络系统[D].杭州:浙江大学,2010:24-25.

[7]王延章.模型管理的知识及其表示方法[J].系统工程学报,2011,26(6):850-856.

[8]温有奎,等.基于知识元的文本知识标引[J].情报学报,2003,25(3):282-288.

[9]张静,等.论中小学多媒体知识元库的建设[J].现代教育技术,2005(5):68-71.

[10]原小玲.基于知识元的知识标引[J].图书馆学研究,2007(6):45-47.

[11]姜永常,等.基于知识元的知识组织及其系统服务功能研究[J].情报理论与实践,2007(1):37-40.

[12]周宁,等.基于XML平台的知识元表示与抽取研究[J].中国图书馆学报,2006(3):41-45.

[13]蒋玲.面向学科的知识元标引关键技术研究[D].武汉:华中师范大学,2011:36-37.

[14]袁名依,谢深泉.基于知识元本体的知识统一表示[J].现代计算机(专业版),2008(5):46-48,57.

[15]成鹏.基于语义Web的知识元集成模型研究[D].西安:西安电子科技大学,2007:88-90.

[16]温有奎,焦玉英.知识元语义链接模型研究[J].图书情报工作,2010,54(12):27-31.

[17]仲秋雁,等.基于知识元的非常规突发事件情景模型研究[J].情报科学,2012,30(1):115-120.

[18]杨德宽,等.基于知识元网络的突发事件模型组合调用[J].系统工程,2012(9):87-93.

[19]肖怀志,李明.基于本体的历史年代知识元在古籍数字化中的应用[J].图书情报知识,2005(3):28-33.

[20]丁侃.基于知识元信息技术的中医古籍元数据研究[D].北京:中国中医科学院,2009:76-78.

[21]游章才,等.基于中药“性-效-证-症-病”知识元关联探讨“涩味”的内涵[J].四川中医,2010,28(8):54-57.

[22]陈冠林,等.基于“药性-功效知识元语义分析”探析中药复方的整体功效[J].辽宁中医杂志,2011,38(78):1260-1264.

[23]温有奎,等.基于XML平台的知识元本体推理[J].情报学报,2004,23(6):643-648.

[24]温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57,91.

G250

A

1005-8214(2014)11-0038-04

郭少友(1965-),男,郑州大学信息管理学院教授;常桢(1992-),男,郑州大学信息管理学院硕士研究生;窦畅(1991-),女,郑州大学信息管理学院硕士研究生。

2014-01-26[责任编辑]闫东芳

本文系2013年度教育部人文社会科学研究规划基金项目“图书馆数字资源的细粒度语义化描述与复用研究”(项目编号:13YJA870008)研究成果之一。

猜你喜欢
本体语义文本
文本联读学概括 细致观察促写作
眼睛是“本体”
语言与语义
作为“文本链”的元电影
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究