郑丽珺
(赤峰学院图书馆,内蒙古 赤峰 024000)
在大数据时代,图书馆对数字资源进行整理、转化、搜集与输出是其核心业务之一,应用大数据技术和网络平台对馆藏资源进行跨媒体的整合,能够满足读者日益增加的资源需求,促进图书馆知识服务由单一的检索向复合式跨媒体方向延伸发展。实际上,早在上个世纪90年代,美国等西方国家就尝试过将不同类型和载体的资源进行整合共享,提出“互助异构”的概念,建设起大数据的资源交换平台,增强了馆藏数据资源的统一性[1]。结合大数据时代的环境,图书馆对馆藏资源进行跨媒体建设成为一种必然趋势,通过搭建集成资源检索、资源整合与资源输出为一体的数据平台,能够为读者提供一站式的知识服务,提高图书馆馆藏资源的使用效率,优化图书馆的知识服务质量。
从馆藏资源跨媒体知识服务的流程来看,图书馆的知识服务可分为3大模块,即跨媒体本体模块、跨媒体检索技术模块与用户检索模块。
图书馆馆藏资源跨媒体建设需要规范语义数据库,使来自不同平台和数据库的资源能够被挖掘和利用,这也是实现馆藏资源跨媒体构建的基础。具体来说,跨媒体本体模块旨在规范资源本体的信息,并经过数据转换技术组建起跨媒体跨平台的数据库,资源本体作为跨媒体知识服务的物质基础,规范的本体语义能够为跨媒体的资源库构建提供全局的视图,从资源本体方面格式化并规范化数据模型。
在图书馆进行馆藏资源的跨媒体知识服务过程中,检索技术起关键作用,检索技术模块是图书馆进行高质量知识服务的保障,也是馆藏资源跨媒体构建的基本载体[2]。一般来说,大数据时代应用于跨媒体检索方面的技术更侧重于数据间的关联与整合,重在挖掘数据间的隐藏知识和内在关联规律,目的在于保障资源检索成果的全面性和完整性。对比传统的单一检索算法,跨媒体的检索技术模块将不同数据库间馆藏资源进行有效整合,例如美国国家图书馆实现了资源库的跨媒体链接,将50 个州和华盛顿哥伦比亚特区的数字资源库、专题库、法院档案等整合起来,形成了集成的检索系统,实现了跨媒体检索的有效输出。
用户检索模块是图书馆知识服务的终端模块,跨媒体的馆藏资源建设与知识服务的成效需要经过用户检索模块的检验。用户检索模块主要包括3个功能。第一,用户请求功能。用户通过输入关键词,向图书馆检索平台发送请求,图书馆在制定的检索算法运转下,实现跨媒体检索和本体映射;第二,检索成果输出。即图书馆完成跨媒体检索后,将与关键词存在关联的结果呈现出来,输出给读者;第三,相关资源推荐。基于跨媒体馆藏资源的知识服务优势在于能够根据读者的需求,将其他数据库中与之相关的内容进行推送,纵向深化面向读者的知识服务[3],优化读者的检索体验。
大数据时代图书馆馆藏资源的跨媒体知识服务系统的构建要以数据关联为重点,统一不同资源库中知识数据的语义描述,揭示数据间的内在联系,并依据资源的关联实现聚合,为规范资源互通平台提供基础与保障。笔者从资源提供层与规范层、知识粒度层、语义描述层与关联实现层等维度,构建了图书馆馆藏资源的跨媒体知识服务系统,突出馆藏资源跨媒体整合的语义统一性处理规范[4]。
图1 大数据时代图书馆馆藏资源的跨媒体知识服务系统的构建示意图
资源提供层是图书馆跨媒体知识服务的基础,主要指馆藏资源和其他形式知识库的资源供给,是实现跨媒体语义关联与数据聚合的第一步,也是满足用户多元化知识需求的源泉。资源规范层在接收到来自各个平台的馆藏资源后,需要对资源进行规范化和统一化整理,具体来说,在这个层级,图书馆需要利用数字资源统一描述技术对跨媒体的数据来源进行统一表达格式的处理,实现跨媒体异构数据源描述结构的统一。目前,哈佛大学图书馆率先引入了数据资源跨媒体服务的方式,将图书馆大数据通过媒体平台公之于众,在资源提供层综合了广泛的数据库,丰富了其知识服务内容与基础。
在资源规范层对异构知识资源进行规范化语义描述的基础上,知识粒度层按照知识级别对其进行重要级别排序,并对关键内容进行细化处理,在馆藏资源本体的作用之下,形成独立的概念知识单元,可以说,每一个跨媒体馆藏知识元继承了上一级关键内容的特性,并对应了下一个知识元的特性。通过知识粒度层对关键内容的处理,使跨媒体的规范性资源元数据形成了相互关联的整体[5]。设计知识粒度层的目的在于简化复杂的跨媒体馆藏资源,提取关键数据的特征,提升图书馆基于跨媒体馆藏资源的知识服务的灵活性和即时性。
语义描述层是大数据时代图书馆馆藏资源的跨媒体知识服务系统构建体系的核心环节,其目的是将跨媒体的馆藏资源转换为可被识别和整合的RDF 文件,形成能够被计算机运算系统理解的元数据集。在语义描述层,图书馆对资源知识元和相关信息进行RDF形式描述,生成命名图,并给每一命名图分配URI,便于跨媒体资源整合平台的识别。在具体的语义描述过程中,URI的宾语既可以是馆藏资源的所属机构或原始链接,也可以是精准到资源的生成者。总之,语义描述层负责RDF 文件的生成与URI 的描述,为馆藏资源跨媒体关联的实现奠定基础。
在关联实现层,图书馆利用跨媒体的资源语义描述,将异构的知识数据源进行有规律的关联和整合,形成一种立体的、语义化的跨媒体馆藏资源体系,应用RDF 链接机制保障跨媒体知识资源的有效流通与交互,降低不同馆藏资源在平台内共享的难度,以保障图书馆知识服务的延续性。
结合上述对跨媒体馆藏资源知识服务系统构建的分析,笔者着重论述海量知识资源的内在联系,将重点放在跨媒体知识服务过程中知识聚合的环节,这就涉及到跨媒体知识检索技术方法的创新与应用。因此,笔者对大数据时代图书馆馆藏资源跨媒体知识服务的方法进行论述,这对于提高跨媒体资源检索与整合效率、提高知识服务精准性和针对性具有积极作用。大数据时代图书馆馆藏资源跨媒体知识服务的方法主要有馆藏资源采集与维护、知识特征提取与语义关联、跨媒体本体构建与自学习3方面(见图2)。
图2 大数据时代图书馆馆藏资源跨媒体知识服务的检索框架
大数据时代,图书馆要强化馆藏资源的采集与维护能力,一方面,图书馆可以对传统纸质资源进行数字化转化,丰富数据库馆藏;另一方面,图书馆也可以借助代理软件,抓取捕捉网页上的知识资源,完善数据库中知识资源的类别与格式,为跨媒体的知识服务提供丰富全面的资源基础。跨媒体馆藏资源数据库再进一步对采集来的数据进行分类储存与统一性处理,便于后续的数据维护,例如数据自动更新、剔除陈旧资源等,从而保障馆藏数据资源库的性能[6]。总之,在大数据时代,数据信息呈爆炸式增长,图书馆建设跨媒体的馆藏资源库,要着重强调数据的全面采集和维护,加强学科知识的更新与维护力度。
大数据时代图书馆馆藏资源跨媒体知识服务的方法还表现在知识特征提取与语义关联,通过对跨媒体异构知识资源的采集,图书馆要从语义层面进行分析和统计,结合本体库对元数据进行标注、识别,抽取知识特征与核心概念,发现数据间的联系,并将其纳入语义库中。基于知识特征的提取与语义关联,可以有效打破跨媒体带来的资源整合瓶颈,将知识数据重新进行分配和组合,实现数据资源的增值,消除语义鸿沟,进一步将底层的特征向语义层面上映射,挖掘出知识资源隐含的价值,从而提高语义表述的精确度,提高知识服务的效率。
清华大学图书馆致力于打造大数据时代的数字图书馆知识服务,对馆藏数据的知识特征提取与语义关联方面进行探索和实践,尝试从大数据环境中提取关键词,并应用先进的数据挖掘技术,揭示媒体特征的语义关联分析关键词走向,获取更深层次更全面的关联信息。
在图书馆馆藏跨媒体知识服务过程中,资源的检索十分重要,直接影响到知识服务成果输出,决定了图书馆知识服务的质量。跨媒体的语义检索涉及到来自不同媒体和数据库的多样类型知识资源,因此很容易产生语义的歧义或重复问题,为了提高检索效率、优化检索结果,图书馆需要构建起跨媒体的本体体系,让低层的语义特征能够向高层进行转化,并结合参考的本体库进行完善和校正,然后以提取的语义数据和数据关联为基础,自动构建本体知识库,实现跨媒体本体的自学习功能,进而为跨媒体知识检索提供全局的视图。跨媒体本体构建与自学习有利于图书馆可视化知识服务检索结果,提高知识服务的准确性和有效率,是大数据时代图书馆馆藏资源跨媒体知识服务的重要方法。
在大数据环境下,图书馆馆藏跨媒体知识服务需要人才、技术和平台3方面的保障。
英国图书馆与信息学专家认为智慧图书馆员能够推动图书馆建设的发展,能够致力于终身学习和服务系统创新。大数据时代赋予了图书馆跨媒体资源整合的重要任务,它的实现需要信息技术的突破和理论的创新,因此,图书馆要推进馆藏资源跨媒体语义关联聚合技术更新换代,主动建立学习型组织,保障跨媒体资源整合的持续开展,深化知识服务的全面改革。通过建立学习型组织,培养图书馆工作人员的终身学习理念,在跨媒体资源整合和语义关联方面始终发挥主观能动性,激活图书馆人员的创新能力,发挥其专业素养优势,推动知识服务的技术创新。总之,高素质图书馆人员因其专业性强被认为是图书馆的优势所在,无论在跨媒体馆藏资源整合方面还在具体的知识服务过程中,图书馆员都发挥着重要作用,建设学习型图书馆人才队伍能够为大数据时代图书馆馆藏资源跨媒体知识服务模式的构建提供良好的人才基础。
在大数据时代图书馆馆藏资源跨媒体知识服务过程中,对数据关联的挖掘和语义描述至关重要,因此,图书馆需要提升潜在语义关联挖掘技术水平。一般来说,多层次树结构的语义关联技术被得到广泛应用,其优势在于可以运用本体知识,在修复语义重复节点与集成浅层次节点基础上,实现元数据上下类关系、同位关系等多种类型数据的多元关联[7]。总之,树结构技术能够充分挖掘数据的规律,提升跨媒体多特征异构资源间的语义关联知识质量,为大数据时代图书馆馆藏资源跨媒体知识服务模式的构建提供充分的技术保障。
经过规范化的语义处理,跨媒体的馆藏资源形成了标准化的数据格式,便于图书馆资源存档、分类、检索等工作的有序开展。为了实现馆藏资源跨媒体的无障碍流通,图书馆知识服务需要建立起广泛的交流渠道,促进图书馆内部外部的经验交流,使图书馆的知识服务尽快实现向实践的转化。总之,集成式一体化知识服务平台能够缩短资源流通的周期,降低资源获取的成本,更好地提升读者用户的使用体验。
在大数据时代,开放关联成为跨媒体馆藏资源建设的实现方式,也是新一代语义互联网的发展趋势,应用开放的语义关联能够实现不同类型不同结构数据之间的规范化处理,进一步挖掘数据间的关联,建设超文本型、图像型等多种数字馆藏资源一体化管理与服务的数据库模型,满足读者用户日趋多样的知识需求,再通过建立广泛的交流渠道,实现面向读者用户的知识服务。目前,在图书馆馆藏资源跨媒体建设知识链接方面,要着重突出馆藏资源质量问题,图书馆应该结合自身资源特色,使跨媒体的知识服务优势得到彰显,同时要重视资源标准的统一问题,避免资源流通不畅等状况。