骆 舒,邓 丽
(1.中国传媒大学外国语学院,北京 100024;2.《现代教育报》新闻部,北京 100053)
重塑图书馆生存和发展的环境、推动图书资料自身变革是云计算环境下图书馆未来发展的趋势。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)技术的发展,从本质上讲,云计算是指用户终端通过远程连接,获取存储、计算、数据库等资源。作为一种IT基础设施与服务的交付和使用模式,将会深刻地影响未来互联网的运作和服务模式,同时为传统图书馆和数字图书馆未来的发展提供全方位的指导和启发,也为传统图书馆提供了一种新的运营模式,图书馆的云时代即将到来。
云计算环境下实现语义检索的首要条件是有丰富的领域本体,且为分布式的[1]。因此,构建本体的方法是当前本体研究中的热点问题。由于本体的构建多是面向特定领域,如果没有好的方法路线指导,就难以在不同领域本体的构建中保持一致,也不利于本体的规模化和规范建设。因此,本体构建方法的研究对于本体的应用起着至关重要的作用。本文提出的面向云计算图书资料管理的本体构建技术旨在解决上述问题。
随着云计算技术的深入开发和实践,其在图书馆的应用也会逐步深入发展,并逐渐进入实践和理论相互促进、共同发展的阶段。
1.1.1 图书馆生存和发展环境发生变革
云计算将改变图书馆的上游产业——出版发行服务商对于数据信息知识的组织、整合和提供方式,使其与图书馆的界线更为模糊,职能更为复杂,知识产权需要进一步明确甚至是重新确定“游戏规则”。云计算作用于文化的内在机制,将逐步渗透到物质文化、制度文化,最后到观念文化,图书馆将处在一个全新的文化生态中,人们对图书馆的需求、观念、应用、评价方式等也将随之改变。图书馆将要经历从量变到质变的过程,通过这个嬗变过程,资源的配置将逐步实现优化,图书馆的理念和政策也会相应地进行调整。
1.1.2 图书资料资源实现更广泛地共享
云计算简化了IT架构的实施,给人们提供了一种理想的方式,即IT应用可以像水电煤气等公用设施一样,实时定制,随时取用,按需付费。云计算为图书馆提供了高效率、低成本、安全高、竞争力强的技术。“云存贮”是解决庞大数字资源的存储和知识信息剧增与单个图书馆馆藏能力不足这一矛盾的有效途径;云计算为图书馆用户提供信息服务泛在平台;提高了图书馆信息资源的安全性;云计算提高图书馆信息服务资源的利用率;构建本地化、标准化、低成本、自适应的云解决方案,实现共享。
1.1.3 图书资料管理业务流程将被再造
图书资料管理应用云计算是一项战略选择,尤其是在IT基础设施领域,图书馆和资料室一旦选择了云计算,就需要对原有信息系统的管理与服务进行重新部署,包括整个图书馆机构与流程、IT部门人员数量与结构、图书馆对于云计算服务的质量检测与控制手段等。由于现代图书馆的业务流程除了实体图书馆的服务端(指借阅、流通与参考咨询工作)外,其余几乎完全建立在计算机和网络基础之上,如果整个IT架构向“云”中迁移,传统的业务流程将被逐一拆解,然后组合、外包、虚拟化。
1.1.4 图书资料服务范围更为宽广
首先是软件服务,即各类软件应用。采用本地安装形式的图书馆自动化系统、办公自动化系统等,都以一种网络服务的形式提供;其次是云存储服务。大量的数字资源,不论是自建的还是购买的,都可以存放于“云”上,而不再需要“镜像”于本地;第三,中心图书馆作为“云”提供商,提供本地数据中心或者其他业务支持;第四,平台服务。大型图书馆引入“云”设施,利用商用的云计算解决方案,架构满足本地或局部应用的“私有云”平台;第五,互联网整合服务。图书馆作为一种服务中介,需要整合多家平台和资源,利用各类公共云,实现不同“云”之间的互操作,拾遗补缺,向读者提供更专指、贴心的服务。
云时代的数字图书馆是个分布在异构环境中的知识体系,解决分布式网络环境下系统或资源间的互操作问题是其核心技术。“异构”是指系统或资源在结构上的不同,互操作是指系统或资源之间的兼容性或关联关系。万维网是目前最大的开放分布式网络,可以看成由无数三层结构应用组成的大型资源库群(repositories)。这些资源库群是彻底异构的,从数据结构、操作系统到数据库系统、应用系统,从命名方式到数据格式、结构模型用户界面,都有可能完全不同。从某种意义上来讲,就是将信息科学、网络技术与管理思想相融合的知识管理技术,其核心是基于分布式本体的知识元数据的应用。
图书资料管理服务在云时代面临的一个巨大挑战是如何深入到更细小的知识单元(如数据),进行组织、整理、“策管”(Curator)和服务,而不局限于电子书、期刊文章、技术报告等。这一直是高校图书馆近年来研究的热点和核心内容,被认为是图书馆学和图书馆行业的核心竞争力。新的技术架构(包括关联数据、知识组织、云平台和移动技术等)让虚拟图书馆逐渐走向后台,隐形于各类网络服务中,不一定要直接面向读者,而是作为一种基础服务(包括数据服务),成为赛百空间的基础设施之一。这种新的存在形式,真正能够体现数字图书馆的价值,特别是能够对科研、教育和医药卫生等方面提供持续的支持。
元数据提供了数字图书馆的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题,包括资源采用不同元数据方案所造成的微观结构的异构问题,以及资源对象之间存在的复杂的关联关系,本体在某种程度上可以看成是“元”元数据,信息系统中不同实体对象可能采用不同的元数据方案,不同的实体对象之间的关联关系非常复杂,本体能够对这些情况进行很好地描述,从而为信息的组织、管理、检索以及查询提供模型和方法。
从本体的概念来看,它的本质要求包括概念化、形式化、明确、共享、重用等特征,可以说工程性是本体建设的天然属性。出于对各自学科领域和具体工程的不同考虑,构建本体的过程各不相同。目前还没有一套标准的本体构建方法。一般认为,Gruber在1995年提出的5条规则是比较有影响的:
(1)明确性和客观性:本体应该用自然语言对术语给出明确客观的语义定义。
(2)完整性:所给出的定义是完整的,能表达特定术语的含义。
(3)一致性:知识推理产生的结论与术语本身的含义不会产生矛盾。
(4)最大单向可扩展性:向本体中添加通用或专用的术语时,通常不需要修改己有的内容。
(5)最少约束:对待建模对象应该尽可能少列出限定约束条件。
目前大家公认在构建领域本体的过程中,需要领域专家的参与和协作。领域内的术语解释一般是领域专家运用自然语言给出的,不利于计算机运算和存储,而明确、清晰地表示这些术语和概念是决定最终构造出本体的基础。本文以高校图书和音像资料管理为背景,采用知识网络图来表示语义之间的联系,利用基于知识网络图的分布式本体构建方法,使得在语义表达上更加清楚,很好地解决了云环境下语义检索的问题。
知识网络图是一种属于语义网络范畴的知识表示方法,它使用节点表示概念,使用有向弧表示概念之间的关系。这种本体构建方法基本思想是每个词的词义可以由称作“字图”的知识图来表示,进而通过合并“字图”组成“短语图”,再通过合并“短语图”组成“语句图”,最后通过合并“语句图”组成“篇章图”。这种思路和人们理解过程相似,因而构造出的本体也更为直观。在自然语言处理过程中,知识表示是其中的核心问题,知识网络图作为一种语义网络范畴的概念图,是一种更为一般的知识表示方法,用这种方法作为本体构造的知识表示方法,消除语义表示的不确定性[2]。
设C为概念的集合,T为关系类型的集合,G= <N,A,ln,la> 是知识图,其中:N 表示节点的集合;A表示弧的集合;ln表示节点集到概念集的映射,即ln:N→C;la表示弧集到关系类型集的映射,即 la:A→T。
传统的本体创建方法主要依靠小部分专家的力量,在适应网络信息的动态性、复杂性上存在缺陷,云计算和Web2.0技术能够为本体建立和演化提供丰富的语料库和概念语义信息,建立知识网络图,从而为本体的建立提供强大的支持[3]。系统允许用户在线收藏,并与他人共享网络书签,同时也允许用户使用任意选取的关键词对书签进行标注、分类,形成初步的知识网络图。与传统的知识网络图本体构建方法相比,面向云计算的分布式本体构建具有回馈性,即具有很强的社群性和协作性。由于知识网络图的构建是基于关键词标签分类的公开共享,任何用户都能通过观察其他用户如何标注同一资源和某一个标签被用于哪些资源,自由修改自己所提交的标签,使用户之间形成“异步反馈”,自动形成一种半结构化的知识网络图,如图1所示。
图1 基于知识网络图的分布式领域本体构建
正是基于上述特点,该方法帮助人们半自动搭建领域本体,再由专家利用TOVE评价法或Meth本体方法建立完整的知识网络图,完成领域本体的构建[4]。
本文以中国传媒大学图书、音像和档案管理为例,建立面向高校图书资料管理的领域本体框架。高校图书资料的资源不论是虚拟的还是实在的,不论涉及单个还是多个信息系统,其涉及的实体类型往往不可能是单一的,这些类型之间往往具有复杂的关系,因此很难运用一套平面的元数据方案进行数据组织。例如涉及美国总统奥巴马的相关图书、音像资料有《奥巴马演说词选》、《像奥巴马一样说英语:奥巴马演讲集》等,分别有译林出版社2011年、人民日报出版社2009年、世界知识出版社2009年、东方出版社2008年、社会科学文献出版社2008年等数十家出版社,几十个版本,并且还有翻译手稿、有声读物、衍生电影、声像资料、精彩画册等相关资料,以及奥巴马及其相关亲友、团队的资料等,这些信息不论是否存在于分布的信息库中,都应该通过一定的方法进行有效的映射和描述,但通过现有的平面的元数据方法显然是无法实现的,但是利用本体模型(例如ABC本体模型,见图2所示 )能清晰、准确地揭示这些资源对象的各类属性及相互关系,这种描述方式对音像出版物等多媒体资源所涉及的复杂责任关系和版权关系特别有帮助。知识本体模型原本就是对领域知识的归纳和形式化,目的在于共享和重用,因此特别适合作为信息模型对知识系统进行描述、表达和呈现。
图2 ABC本体模型描述有关奥巴马的图书音像作品
如果我们把图书分类法看成一种基本的简单的知识本体,一个书目数据库就可以按照分类法的层次结构组织成一棵庞大的“树”,每一片“叶子”就是一本书。这样可以形成一个简单的、一维的知识导航地图。当我们同时采用分类主题词表或其它分面分类方法对资源的内容从不同的“本体”角度进行揭示,整个资源库就有了多维的导航机制。同时,通过不同知识本体的映射可以动态建立从一个信息库到另一个信息库的语义连接,这种连接并非预先设立的,而是“后组”的。如果有本体注册服务中间件或代理进行自动地翻译、映射服务,就能从很大程度上解决知识的跨库提取、动态浏览展示以及异构系统的动态勾连等问题,彻底解决高校图书音像异构信息检索的目标[5]。
高校数字图书馆系统的架构基于云计算的图书馆公共模块之上,由四层构成,自下而上分别是格式适配层、业务管理层、业务应用层和门户展现层。格式适配层将图书资源中各种格式的数字图书转换为终端可支持的格式,如:HTML、TXT、JPG、CAJ、PDF等,也包含 avi、mpg等多媒体格式,采用通用编解码库自适应适配;业务管理层包括栏目策划、内容策划、页面定制、排行策略、热门推荐、关联推荐、产品上架、终端适配等,其中终端适配主要维护终端型号之间的对应关系;业务应用层是用户登录站点后可以进行的一些操作和应用的集合,主要包括在线阅读、用户下载、个人空间、流媒体播放等功能;门户展现层通过各种有线/无线访问方式提供阅读业务,针对不同用户群为用户提供不同的访问方式。
该系统采用规范的接口和协议,保证系统各组成部分的协同一致,具备可兼容、易移植的系统平台。对外接口具有很强的开放性,支持与运营商之间的连接。数字图书馆的云计算服务提供商目前主要有IBM、思科和OCLC,其中OCLC已经试水华盛顿大学、加州大学等校园图书资料管理。本系统采用兼容IBM和OCLC云计算资源接口模式,并支持与运营商之间的连接,以实现鉴权或计费功能。
上述系统中的查询请求是基于知识本体的应用实现的,并基于查询处理中介或代理的帮助,查询提问式可以智能地处理成复合不同资源集合的规范词或者表达式形式,自动分发到不同的资源站点进行查询,同时还可以对返回结果进行基于本体的排序处理,将最终结果返回给用户。
本文在校园网建立的上述试验系统中测试了KACTUS法、TOVE法和分布式知识网络图法,对准确率和搜索效率进行了比较,结果如表1所示。
表1 实验结果对比
此处采用的方法经过370位读者对关键词“奥巴马”进行标注,并由3名专家使用TOVE法建立知识本体,搜索时使用了云计算数字图书管理实验系统。实验结果表明,本方法准确率较传统方法有所提升,在云计算服务环境下搜索效率也较高。
本文在探索云时代高校图书资料管理新模式的基础上,提出一种面向云计算图书资料管理的本体构建方法,并以高校图书、音像和档案管理为例,建立了面向高校图书资料管理的领域本体框架。实验结果表明,该方法在云计算服务条件下具有良好的准确率和搜索效率。随着云计算、移动通信、知识组织等技术在图书管理中应用的不断深入,知识本体的创建、使用、互操作和评价越来越受到重视,也必将在图书馆建设中发挥更重要的作用。
[1]陈 琨,张 蕾.基于知识图的领域本体构建方法[J].计算机应用,2011,(6):1164 -1170.
[2]Sean Bechhofer,Ian Horrocks,Carole Goble,Robert Stevens.OILEd:a Reason-able Ontology Editor for the Semantic Web[C]. Proceedings of KI2001, Joint German/Austrian conference on Artificial Intelligence,September 19 -21,Vienna.Springer- Verlag LNAI Vol.2174,pp 396 -408.2001.
[3]房 巍,李万龙.基于本体的图书智能检索系统的建模与应用研究[J].长春理工大学学报,2006,(2):72-75.
[4]樊小辉,石晨光.本体构建研究综述[J].舰船电子工程,2011,(6):15 -18.
[5]刘 楠,王俊彪,蒋建军.基于总线式集成框架的本体构建及映射研究[J].航空计算技术,2011,(2):87-92.