张慧玲
(河北金融学院图书馆,河北 保定 071051)
在20世纪90年代之后,随着Internet网的普及和通信技术的发展,信息的存储和传播发生了巨大的变革,随之出现了数字图书馆[1,2]。数字图书馆和传统图书馆在信息存储和信息组织方式上都有着巨大的不同。本文分析了数字图书馆的概念,信息的组织方式和语义网技术在数字图书馆语义描述模式中的应用。
对于数字图书馆,描述系统的构建首先必须要确定数据的描述方式。目前,描述信息主要有两种方式[3,4]。一种是传统图书馆所采用的机读编目格式,另一种是以都柏林核心元数据为代表的新的数据组织方式。
元数据是关于数字的数据,由数字信息系统产生,可以提供完整的数据描述,是一种标准和通用的数据描述方法和整合工具,因此也可以给数字图书馆提供一个标准的数据存取接口。尽管都柏林核心元数据有很多优点,但是距离有效的语义信息描述有一定的距离。因此,我们有必要将语义网和数字图书馆进行有效的整合。我们在都柏林核心元数据模式的基础上,改进了语义描述的十五个元素。通过都柏林核心元数据和语义网的结合,提出了一个有效的数字图书馆信息描述模式。都柏林核心元数据简单灵活,在数字图书馆的元数据构建中具有一定的优势。目前,都柏林核心元数据在数字图书馆信息组织中起着非常重要的作用[6]。因此在将都柏林核心元数据整合进语义网时,我们应该特别注意保持都柏林核心元数据的简单和灵活性的优势。这样,可使数字图书馆既保留传统图书馆的优势,又增添了语义网智能和高效检索的特点。问题的关键在于,如何有效地将都柏林核心元数据通过语义网描述融合进我们的描述模式。实际上,语义网和本体都具有各自在都柏林核心元数据中的使用方法。都柏林核心元数据在本体构建的基本性质中共有三个方面和十五个元素。
当讨论数字图书馆的本体模式框架时,我们应该理解使用者应用主题,换句话说,就是使用者检索什么主题。实际上,都柏林核心元数据在这方面有很好的作用。这里,我们将数字图书馆资源分成三个方面和十五个主题:内容描述元素方面,分别是标题、主体、解释、来源、语言、关系、范围;知识产权方面,分别是作者、出版商、出资人、版权;外部描述元素方面,分别是数据、类型、格式、标识符。主题属性的基本引用是题目。在OWL构建的本体中,只使用单个属性来链接基本状态的领域和范围。对于十五个特定的描述,有十五个基本属性,分别是题目,主题,描述,资源,语言,关系,范围,作者,出版商,出资人,版权,日期,类型,格式,身份。我们可以建立一个基本的双层资源关系图,如图1所示。
图1 资源基本描述框架
在都柏林核心元数据框架下,我们构建语义描述,这个描述和传统的资源描述一样,可以对基本的信息进行分类,比如作者、题目、日期等等。在检索的时候,作者、题目和主题起着关键的作用。但是,仍然需要其它的过程来完成有效的语义资源描述,都柏林核心元数据提供了一个很好的基础。在传统的资源组织中,信息没有清晰的含义,有时表达的意义不清楚,有时存在同意,这就是检索准确率低的重要原因。当我们检索某一篇文章时,输入某一作者姓名,可能找到的是另一篇同一作者名的文章。当点击这个作者的超链接的时候,不仅找到了该作者的其它文章,也找到同名的其它作者的其它的文章。这种情况严重的影响了检索的效果。比如,我想检索《有效的C++》这本书,我认为该书的作者侯杰没有其它的书,结果在我点击超链接后,我发现有很多书籍。但是显然《现代中国的黑龙江》不是这个作者写的。这种情况显然降低了数字图书馆效率。基于前述的基本框架,关键要解决的问题就是这个传统资源存储的模糊意思所产生的问题。我们使用有效的语义框架来描述主要的检索项,通过这个方式,可以识别模糊意义的不同的情况。本文根据自然类型来描述每个关键检索项。比如,当我们描述创作者时,它包含多个意义,比如作者名、生日、性别等多个作为人包含的含义。如果我们想将每个创作者逐一区分开来,我们必须清楚描述作为人的各个方面的内容。如果我们想解决这个问题,我们应该在图书馆内对基本的信息进行分类,比如名字、性别、生日、国籍、组织、教育水平等等。这样我们就可以将相同名字的不同作者区分开来。下面是一个创作者的描述框架,包含了六个属性:名字,生日,性别,国籍,组织,教育水平。如图2所示。
图2 创作者结构图
上述的创作者描述方法可以提高检索的效率。我们也可以使用类似的方式来分析和描述其它的元素。这种方式关键解决的问题是对传统资源的模糊意义进行清楚的描述。当然这也不能解决模糊意思所带来的所有的问题。本文重点是关注例如主题、题目、出版商等一些最基本的问题。各个元素的每个描述属性如表1所示。
表1 主要描述元素属性
在构建本体框架后,该模式不仅可以描述一些资源的语义含义,同时也可以对有相同名字的不同作者的模糊意义进行清楚的识别。但是在现在的框架下,我们不能描述资源所应获取的所有的信息。这意味着资源没有足够的语义表示。有更多的工作需要我们去做。在所有的描述资源中,主题是最重要的部分。在传统的资源存储框架中,机器所能识别的几个属性并没有定义具体的意义。因此,检索的准确率非常低。在检索结果中,会出现很多同义或不相关的内容。本体是相同的意义,但是,许多使用者只提供一个词去检索,另外,有很多作者在他们的文献中之提供一个词作为关键词,这样就造成有很多与关键词相关的文献不能够出现在检索结果中。也可能造成许多不相关的文章出现在检索结果中。之所有出现这样的问题,是因为传统描述中没有给出含义的清楚的解释。本文提供了一个方法来对主题进行清楚的解释,这样可以提高检索的效率。本文对数字图书馆资源语义描述给出了一个基本的框架,在这个框架下,我们可以解决一些最基本的问题,以提高检索的效率。
语义网技术是一个新的研究热点,并且有着巨大的发展前景。本文首先介绍了数字图书馆技术和系统结构,分析了数字图书馆的资源描述的作用。另外,在数字图书馆的应用背景下,讨论了语义网技术和相关的本体论,设计了一个基于语义网的数字图书馆语义描述框架,这个框架可以解决传统资源组织所带来的效率低下的问题。
[1]黄晨.资源整合模式及其实现研究[J].大学图书馆学报,2004( 1):25-28.
[2]黄传慧,李娟.我国图书馆数字资源整合研究[J].图书与情报,2009(4):66-69.
[3]刘晓娟.图书馆数字资源整合[J].图书馆理论与实践,2007( 1):63-65.
[4]Tim Bern ers L ee.Semantic web road map[EB/OL].http:/ /www.w 3.org/DesignIssues/Semantic.htm.
[5]毕强,韩毅.泛在知识环境下数字图书馆知识空间构建研究[J].情报科学,2008,(7):971-977.
[6]杨帆,肖希明.从资源网络到知识网络--Web2.0泛在知识环境下数字信息服务基础建构[J].图书情报工作,2007,(8):72.
[7]Hong-Gee Kim.Links on the Semantic Web[EB/OL].http://www.eurosouthkorea -ict.org/documents/forum_presentations/Hong -Gee% 20Kim _Links% 20on% 20the% 20Semantic%20Web.pdf,2009-01-12.
[8]夏翠娟.数字图书馆的语义互操作及其实现[D].上海:华东师范大学,2005.