章珞佳
(山西大学文学院,太原,030006)
随着信息和通信技术的发展,人类社会生产的数据资源越来越多,且呈现出密集化的态势,愈加复杂的信息环境使人们获取知识时感到困难。然而,以图书馆为代表的信息服务行业在数据密集环境下利用包括大数据在内的高新技术进行知识生产和导航可以化被动为主动,化挑战为机遇。基于这样的理念,国际图书馆协会联合会(International Federation of Library Associations and Institutions,IFLA)在其趋势报告(Trend Report)中指出以英特尔为代表的密集数据计算是革新信息科学行业服务的一把“尖刀”[1];IEEE 计算机学会主办的2015年大数据服务专题会议列出七大大数据应用,其中图书馆的信息服务是其中重要的一个领域[2]。在图书馆应用方面,美国国会图书馆(Library of Congress)将“美国记忆工程”、历史文献部、印刷图像部等部门和项目的元数据进行整合,以提供更好地密集数据集成服务;哈佛大学图书馆(Harvard University Library)宣布使用Hadoop分布式计算管理书目海量数据;欧洲数字图书馆(Europeana)将其超过2000万的图片、文献、档案等记录利用大数据技术进行重制,并开放地提供给各国研究者。因此,数据密集环境下的图书馆服务无论从理念、手段还是内容上都将迎来一场革新。
海量数据的概念早在21世纪初就已被提出,随着摩尔定律持续产生作用,人类社会所拥有的计算机硬件与数据资源在持续不断地快速增长。麦肯锡在2011年的研究报告《大数据:创新、竞争和生产力的下一个前沿领域》[3]中首次定义了“大数据”,并指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素”。而微软研究院经过对信息环境的研究,提出了基于数据密集型的科学研究“第四范式”,数据密集型环境也成为国内外图书情报领域研究的一个热点。目前国内外对数据密集型环境的研究主要有两个层面:①应用层面:Google公司开发的MapReduce分布式编程模式和因特尔开发的Hadoop系统已经成为密集数据处理的重要工具,IBM、浪潮等公司加强对分布式数据管理技术的研发投入,工业界已经生产出一系列解决数据密集环境知识管理的工具和产品;②研究层面:关于密集数据的期刊论文、会议论文和最新的科研成果层出不穷。从2013年开始,国家自然科学基金和国家社会科学基金都在相关学科的申报指引中将数据密集型计算相关研究列入其中,已有相当数量的立项项目是以该领域的研究为主题的。国际顶级期刊Nature、Science,IEEE顶级的学术会议和CODATA等国际知名的数据管理组织都将数据密集环境下的知识管理作为重要的研究对象。
一直以来,图书馆所占有的数据资源相当丰富,图书情报学科也是以此类信息资源为研究对象的,借助数据密集型环境下的新技术能够大大提升图书情报领域的知识服务效率和质量。图书馆是知识信息服务的中介机构,高校和科研机构、不同类型的智库以及政府管理机构等都对知识服务有很高的要求。因此,图书馆迫切需要利用密集数据处理技术开发新形式的学科评价、知识导航、数据分析等增值服务。随着图书馆安装使用越来越多的智能化设备和与用户交互能力的提升,其开始产生大量的非结构化程序,如用户记录、用户评价、传感器数据等。如能利用新技术从这部分密集数据中寻找读者用户、科研工作者的隐形需求并透析借阅、科研的热点,那么将在很大程度上改善个性化荐读、学科评价与导航、科研热点预测等服务。
目前密集数据的最大特点是数据量非常大,需要占用大量的物理和网络存储空间。另一方面,数字资源的长期保存是图书情报领域对数据管理研究的一个重点,密集数据的长期保存问题成为一个新的研究点。基于密集数据的特点,本文认为其存储应从四个方面考虑:在空间上应保障服务器部署的扩展空间;在硬件上采用动态虚拟存储和虚拟路由技术来提高存储效率;在构架上与软件配置上使用基于MapReduce和Hadoop的分布式数据管理技术,提供密集数据的查询效率;在人才培养上应重视引进数据管理型人才,设置相应的数据管理馆员等职位。
3.2.1 语义化处理
近年来,以本体为代表的语义化技术在图书情报领域得到广泛而深入的研究,并产生了一批质量较高的本体模型,例如“中文叙词表本体”、“汉语主题词表本体”、“情感词汇本体”等,推动了知识共享工程和语义化信息资源的建设。对密集数据进行语义化处理有许多好处:一方面能够使不相关的数据集合统一为一个整体同时将传统网络资源语义化;另一方面语义化能够提高这部分资源的使用率。目前,大规模数据的语义化处理主要有以下三种方法:一是“词表—本体”的自动转化,即通过构造词表上下位类的逻辑关系和词汇级别来实现本体化;二是以本体映射来实现模型的构建,常见的有基于RDA/ONIX框架的书目本体映射数据库;三是通过自动抽词技术实现的领域本体的构建,即通过提前设定一系列本体内所需要的父类、子类、实例等关系来对某一领域的词汇进行抽取和本体构建。数字资源的语义化处理为密集数据环境下的知识咨询开发提供了底层资源池的准备。
3.2.2 开放关联
与语义化相对应的是利用开放关联技术来使大规模数据资源实现关联、分类和聚类等应用。2011年,W3C图书馆关联数据(Library Linked Data)孵化小组发表了系列研究报告[4],定义其使命为“通过带动更多的人参与语义网活动——特别是关注图书馆及相关领域关联数据活动,应用现有的先导活动,确定未来合作发展的轨迹,以此促进图书馆数据在万维网上的互操作”,其实质是图书馆利用关联数据技术对其内部广泛存在的数据集、元数据元素集和取值词汇集等资源进行描述和组织,以提高图书馆数据的检索和利用效率。此外,图书馆的关联数据应用已经从书目数据扩展到了更多的数据源。在数据密集型环境下,关联数据技术使多数据源实现聚合能够优化图书馆的业务流程、提高其服务质量并扩展服务内容。
3.3.1 人工分析
参考咨询和数据分析是图书馆人的核心能力和专业所长。事实上,图书馆工作人员的能力和素养是随着知识资源的扩充而不停增长的,两者呈正相关的关系。随着数据量变得越来越大、数据类型变得越来越多,图书馆人在新的数据密集型环境中所掌握的技能和知识也随之增长。数据分析能力的核心是从规模庞大的数据资源中获取科研热点的能力,是从纷繁复杂的数据类型中获取有效知识的能力,是从信息爆炸的环境中提供知识咨询的能力。
3.3.2 可视化展现
SPSS、CiteSpace、Google Fusion Tables等流行的可视化分析软件能够很好地对密集数据进行分析展现,针对密集数据的可视化分析能够打破海量数据所带来的知识藩篱,将粒度更小的知识传递给用户。知识网络地图,就是以分析软件为工具,对从密集数据中提取出来的用户所需求的专业知识进行分析总结,按照科研发展脉络、科研热点、科研低中高层次分析等方面进行地图式的分析,给科研用户带来前所未有的清晰的知识咨询体验。在繁杂的科学数据管理工作中,知识网络地图能够有效避免重复劳动,减少数据重复和数据冲突,为科研团队的工作助力。
数据密集型知识生产技术就是将泛在于网络空间和图书馆实体中的信息逐步提炼为情报和知识的过程,一般表现为知识库的建立和应用。知识库的建立一般按照需求分析、技术准备、知识组织等流程来进行,以实现用户需求与从密集数据中提炼出来的知识的双向对接。总体来说,知识库的构建可以分为以下几个步骤:
(1)信息获取:采用基于分布式计算的密集数据处理技术来从密集数据中按照一定的关系模型提炼出所需要的信息,保障知识生产。
(2)知识组织:将提取出来的知识以科学的分类法加以组织,增强元数据描述的厚度,制作索引、目录以方便检索,目的是更方便用户使用和检索;
(3)构建知识库:将经过组织的知识资源进行存储,使用语义化技术构建知识库检索系统,同时进行必要的备份策略;
(4)更新与维护:在知识爆炸环境中,知识是不断更新的,因此图书馆工作者也必须跟上知识更新的脚步,不断更新“知识库”,并进行维护工作。
利用密集数据进行知识咨询服务,就是在保障图书馆大数据安全储存的基础上,使用科学方法采集与学科服务相关的大数据,挖掘、分析和展现,然后通过学科导航平台将通过密集数据获得的科研热点、科研趋势、情报计量等学科服务信息精确推送到相应的用户面前。最终使学科服务实现从被动服务到主动服务的转变、从传统参考咨询服务到现代知识服务的转变、从低效耗散服务到高效集中服务的转变。
在Web2.0的环境下,图书馆与用户的知识交流模式发生了变革,以微博、微信为代表的社交媒体逐渐被图书馆所应用,这些工具打破了图书馆与用户在时间与空间上的界限,扩展了图书馆的形态,提升了服务质量。因此,在知识导航过程中应当采用基于新媒体的主动服务模式,又可以细分为以下几种类型:
4.3.1 传统咨询模式的革新
即知识导航和咨询是基于图书馆传统的参考咨询服务的,但其工作流程和服务内容发生了质的变化。其不仅仅为读者和科研用户提供文献的检索和全文传递,更提供了贯穿知识管理全部生命周期的服务。首先由用户提出需求,然后馆员可以根据需求从密集数据中提炼知识,形成知识库,通过知识导航递送给用户并提供持续服务。一旦某些知识内容形成专题,那么将会使更多的用户关注这些知识热点。
4.3.2 基于 Web2.0的知识咨询
即依托于微博、微信、博客、RSS、WIKI写作等Web2.0技术的知识咨询。图书馆定期更新知识库并通过Web2.0工具进行推送,在用户参与知识共享的过程中,可以进一步使用大数据技术分析用户的个性化需求,利用反馈信息优化知识库。同时,重视Web2.0所带来的交互性,使用户在使用过程中产生身临其境的感觉。
4.3.3 基于人工智能的知识导航
人工智能(Artificial Intelligence,AI)随着近年来计算机软硬件技术的革新发展较快。图书馆所能利用的人工智能目前还有限,但可以预见的是AI会成为智慧城市和智慧型图书馆建设的核心环节。人工智能的核心是机器学习、模式识别和专家系统等技术,而这些技术同样适用于大规模数据处理。数据密集型环境下,应用人工智能可以协调图书馆内传感器、数据库、用户记录等不同类型的数据资源,从而实现智慧化的知识导航服务。目前,清华大学图书馆“小图”机器人程序已经开始为用户提供全新模式的咨询服务;苹果公司的Siri能够将智能手机变身为带有AI的机器人。可以预见,未来AI能够更好地提升图书馆的文献检索、图书分类和知识导航等业务。
随着数据密集型环境的不断发展,图书馆的业务在不断扩展,以数据为核心的服务将为图书馆带来机遇和挑战。面对越来越强大的搜索引擎和商业数字图书馆的双重威胁,图书馆在信息交流和知识共享领域的核心地位遭遇了前所未有的挑战。然而,图书馆软硬件水平不断提高,其数据存储能力、情报计量水平、知识咨询服务等都在持续进步,同时越来越多的接受过专业图书馆教育的馆员正在走进这个行业。因此,图书馆有能力抓住数据密集环境下的机遇,大力提升其知识咨询水平,为用户带来福音。
新媒体、物联网、云计算、大数据等一系列技术不断地被应用在图书馆中,并提高了图书馆的服务能力和效率,传统的图书馆正在朝着智慧型图书馆的方向升级。在这个大趋势中,图书馆的知识咨询服务势必将成为核心内容,在数据爆炸时代增强图书馆的核心竞争力。
[1]Vision Paper-Distributed Data Mining and Big Data:Intel’s Perspective on Data at the Edge[EB/OL].[2015-04-08].http://trends.ifla.org/node/99
[2]IEEE Big Data Service 2015[EB/OL].[2015-04-08].http://www.big-dataservice.net
[3]Bia Data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-04-08].http://www.mckinsey.com/Insights/MGI/Research/Technologu_and_Innovation/Big_data_the_next_frontier for innovation
[4]Library Linked Data Incubator Group:Use Cases[EB/OL].[2015-04-08].http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/