曹丽娜,李 若,邢兰君,杨 华,于 金
(沈阳航空航天大学a.图书馆;b.计算机学院,沈阳 110136)
信息技术迅猛发展,数据量正经历爆炸式增长,新型数据也不断涌现,大数据(big-data)时代已经到来。图书馆是公共信息服务体系的重要组成部分,必然受到信息技术潮流的推动和影响,目前正经历全方位的数字化建设,在对技术、资源、标准、管理、法律等诸多方面的难题的探索中前进。大数据给图书馆数字化建设带来了前所未有的机遇和挑战,二者之间存在深刻的内在关联:一方面,大数据相关技术将有力推动图书馆数字化建设进程,另一方面,图书馆数字化建设进程将为大数据相关研究提供重要的应用空间和经验启示。本文结合高校图书馆的发展,论述大数据与数字图书馆的内在关联,对大数据时代如何加强数字图书馆三要素建设进行分析,对当前条件下可开展的大数据相关前导性工作提出了若干建议。
较早认为“大数据时代”到来的是麦肯锡公司在2011年5月发布的报告中,之后《纽约时报》、《华尔街日报》的专栏上也出现了对大数据的介绍,2012年3月美国政府表示将投资2 亿美元启动“大数据研究和发展计划”,这标志着大数据已经上升到国家战略层面[1-4]。
大数据的特点,IBM 用“3V”来概括,即量大(volume)、多样(variety)、实时(velocity)[5]。所谓量大,是指数据体量巨大。从TB 级别跃升到PB 乃至EB 级别。所谓多样,是指数据类型繁多,包括结构化数据、非结构化数据和半结构化数据。除了结构化数据,还有图像、视频、音频、数据流、图片、网页等多种非结构化数据,对数据的处理能力提出了更高的要求。所谓实时,是指数据实时生成,同时要求按需提供交互式、实时的数据分析,帮助用户了解正在发生和预测即将发生的情况。大数据作为逐渐显现的技术趋势和现实需求,到目前为止还没有一个准确的定义。但通过综合分析不同的概念表述发现一个共识——从各种各样类型数据中快速获得有价值信息的能力即大数据技术[6]。
数字图书馆产生于上世纪90年代,是计算机、网络、多媒体和其它相关技术发展应用的产物,其实质是把图书馆馆藏的各种信息经过数字化之后形成的一个大型知识库。数字图书馆的建设,包括馆藏文献资源的数字化、电子图书、电子期刊以及网上的数字资源建设,使知识信息的有序化加强,传递速度加快,能够更好地服务于用户。目前数字图书馆已实现了信息资源数字化、信息资源传递网络化、信息技术共享化、信息技术集成化和服务全面快捷[7]。
高校图书馆作为现代图书馆的重要组成部分,是学校信息化和社会信息化的重要阵地,是为教学和科研服务的学术性机构,在高等教育发展中发挥着重要作用。在当前信息技术高度发展的时代,数字图书馆的建设是保持高校图书馆可持续发展的重要举措。随着海量数据的爆炸式增长,大量非结构化数据的涌现,以及用户对检索结果的更高要求,数字图书馆存储和处理数据的能力正受到前所未有的挑战,这类问题也正是大数据相关研究所关注的问题。
数字图书馆和大数据具有深刻的内在关联,下面对二者的关系作以简要分析:
1)数字图书馆是大数据的重要载体。图书馆的功能和运行方式被用户所熟悉,不管是收藏对象上的变化(从印刷型文献到电子信息资源)还是收藏空间上的变化(从实体物理空间到虚拟网络空间),图书馆作为知识信息中心的功能不会改变。通过有形的图书馆把无形的大数据组织起来,供用户使用,满足用户的信息需求。可以说数字图书馆是人们用于获取知识和信息的摸得着、看得见的一个具体抓手,而大数据将逐渐成为其背后的技术支撑与推动。
2)数字图书馆为大数据技术提供试验和应用空间。大数据属于计算机科学技术一个重要的发展趋势。数字图书馆是一个大型知识库,随着知识信息的巨幅增长和用户需求的不断变化,它本身就是一个大数据问题。未来图书馆数字化建设,需要结合大数据技术,如数据处理、数据存储、数据分类、数据挖掘等技术,大数据的技术也要应用在数字图书馆建设当中,复杂数据的处理将成为大数据时代图书馆的基础功能之一。从技术角度来说,大数据的许多技术、趋势就是未来数字图书馆的趋势。
3)数字图书馆是一个大的数据源,是大数据的一部分。用户关注隐藏在大数据中的对自己有价值的信息,图书馆作为社会信息服务的中心,可以把知识和信息组织起来,提供给用户使用。随着图书馆数字化建设如火如荼地展开,必然要涉及大数据相关概念和技术的应用,大数据技术从根本上解决好了,才能实现数字图书馆的一个大数据平台的呈现,而数字图书馆为大数据提供应用空间,其建设进程为大数据相关研究提供重要的经验启示。
下面结合大数据技术带来的机遇和挑战,论述数字图书馆的三要素(技术、资源和服务)的建设思路。
1)数据量由TB 级升至PB 级,并仍在源源不断地增长。IDC 的《数字宇宙》研究报告称,2011年全球被创建和被复制的数据总量为1.8 ZB,预测到2020年,整个世界的数据总量将会增长44倍,全球将拥有35 ZB 的数据量[8]。例如作为世界最大的知识宝库,美国国会图书馆在2011年与微博客Twitter 签订协议,将把所有公开的推特消息保存到图书馆的历史档案资料库中[9]。截至目前,美国国会图书馆所保存的Twitter 信息数量已达到1700 亿条、存储文件体积更达到133TB[10]。根据WinterCorp 调查显示,最大数据仓库中的数据量年均增长173%,2015年最大数据仓库中的数据量将逼近100PB[11]。存储能力的增长远远落后于数据量的增长,亟需分布式大规模数据库的开发应用。
2)数字图书馆中数据种类繁多,除了可以用二维表结构存储的结构化数据,还有视频、音频、图片等非结构化数据。世界结构化数据增长率大概是32%,而非结构化数据增长则是63%。2012年非结构化数据达到互联网整个数据量的75%以上[12]。关系数据库已经无法有效管理这些非结构化数据,如何快速访问数据成为核心挑战。以Hadoop 为代表的分布式文件系统和MapReduce 计算框架应运而生[13]。基于MapReduce 编程模型的高性能并行大数据处理服务,能够提供对结构化和复杂数据、非结构数据的快速、可靠分析变为现实,而在云计算环境中可以初步实现更加复杂和更大规模的大数据处理,比如大规模社会计算、大规模社交网络、时间序列分析、大规模图分析、及更细粒度的仿真等[14]。目前,MapReduce 和Hadoop 在应用性能等方面仍存在不少问题,还需要研发更有效、实用的大数据分析和管理技术。
3)处理速度的实时性。数字图书馆为用户提供的是即时性的服务,用户可以随时从数字图书馆中阅读或下载知识和信息。而“大数据”技术强调数据处理的实时性,即数据处理的时间必须要短,比如通常情况下分析处理300 GB 的数据需要一小时,而大数据技术能在一秒钟之内完成,这种极端高速的秒级处理速度将会增加很大价值。
4)大数据时代需要数据的去冗分类、去粗取精、挖掘知识[15],近年来数据仓库、数据挖掘等相关信息技术的发展很快,预示着对大数据的数据分析、数据挖掘将成为未来图书馆的重要业务之一。只有从大数据中发现规律、找出潜在价值,图书馆的智能化服务水平才能实现根本性提升。
资源建设是数字图书馆建设的核心,是实现数字图书馆服务的基础。在资源建设上,充分挖掘和利用大数据技术,要不断丰富资源内容、完善资源结构,重视特色资源、领域资源、原生资源,重视资源的共建共享,建成大数据资源。
1)特色数据库的建设。特色是建馆之本,生存之道,没有特色的数字图书馆终究会被用户所遗弃。在大数据时代,图书馆不可能也没有必要将馆藏全部数字化,应该根据本馆馆藏特色和学科优势,重点建设具有学科专业特色和用户急需的数据库,为高校的教学和科研提供高层次的信息服务,满足用户的个性化、专业化需求。建设特色数据库,实现信息资源的优势互补,有利于珍稀文献信息资源的保存和利用,有利于实现馆际之间信息资源的共建共享。
2)资源的共建共享。面对海量信息资源与用户信息需求的不断增长,一个图书馆已经无法独自满足用户的所有信息需求。图书馆可以寻求广泛的协调与合作,建立资源的共建共享联盟。可以通过建立统一的标准化软、硬件平台,实现各级图书馆在统一规划下共建资源,协调服务。各级图书馆只是区域数字图书馆系统的一个服务节点,整个区域形成一个有机的图书馆群,为本区域的用户提供服务。可以向全国、全球范围推广,对各级图书馆的数字资源情况进行统一登记,避免重复建设,对已建资源进行充分整合,形成有序的资源集合,逐步呈现一个全球数字图书馆的共建共享平台。
3)原生信息资源的建立。原生文献信息资源是指高校在教学、科研和管理过程中产生的,主要包括导师、博硕士研究生发表、撰写的专著、期刊论文、会议论文、研究报告、科研成果以及各教学单位使用和制作的多媒体课件、各种专题数据库等。原生信息资源是高校教学实践和学术理论研究的重要成果,是高校教师的自产性成果,其建设成本低、利用价值高,又达到很好的文献保障作用。
4)应注意的几个问题。首先是知识产权问题。在建设数字资源的过程中,遵守知识产权法律法规,慎重对待版权、著作权和网络传播权等问题。其次是标准化问题。包括元数据标准、检索语言标准、数据描述语言标准、电子图书标准等,要在数字图书馆建设过程中推动其标准化工作的国际化进程,优先采用国际已有成熟标准,实现信息资源的无缝接合。还有信息安全问题,需要从技术、管理和法律等多方面建立完整的安全体系。在数据共享、数据公开的大趋势下,注意保护用户隐私,争取大数据时代图书馆的服务权益与自身知识产权保护。
数字图书馆未来的核心服务价值在于解决用户获取知识过程中的三大问题:为用户提供高质量的信息资源,帮助用户从海量的信息中迅速找到所需信息,持续不断地跟踪并推送用户所关注的信息。大数据技术的发展将有助于这三大问题的更好解决,推动服务升级。
(1)提供智能化服务。智能化服务主要借助于网络并通过计算机模拟或实现类似于人的智能行为,为用户提供信息服务,是一种全新的信息服务模式。例如,由IBM 开发的机器人沃森(Watson)在2011年成为新一代人机大战的冠军,它是一个能够与人类答题能力相匹敌的计算系统,速度和准确性都超过其人类对手。“沃森”大约“阅读”了两亿页的内容(约100 万册书籍),大量的服务器和处理器支持,使得其能在三秒钟之内检索数亿页的材料并给出答案[16]。可以预见,未来服务机器人将代替人类出现在图书馆的各个服务环节中,帮助用户从海量的信息中迅速找到所需信息,为用户提供实时性、交互性、智能性的服务。清华大学图书馆在这方面进行了有益的尝试和探索,其应用的具有自动学习功能的机器人“小图”就是在线咨询服务的一种全新体验。
(2)提供个性化服务。数字图书馆的个性化服务主要表现为两个层次:一是按照用户要求进行信息定制,二是根据用户特征及对信息资源的访问历史挖掘用户兴趣模式,主动地向用户提供最新的信息资源,跟踪并推送用户所关注的信息,满足用户的个性化需求。例如:个性化推荐系统是建立在海量数据挖掘基础上的一种高级智能平台,为用户提供完全个性化的决策支持和信息服务。系统进行的是实时性推荐,当数据库或用户信息库改变时,给出的推荐序列会自动改变,显著提升数字图书馆的个性化服务水平。
尽管目前大数据技术的研究还处于起步阶段,依然还面临许多难题和争议,但图书馆数字化建设时不我待,不能守株待兔,建议在以下方面开展一些前导性工作。
(1)数字资源整合平台的建立。数字资源分布于不同数据库,采用的构建方式、支持平台、数据组织形式、管理模式、存储格式都不尽相同。此外,不同数字资源关联程度较低、内容交叉重复,检索界面和检索方法都不一样,用户需要在不同数据库之间切换和重复操作,造成不便。为适应未来“大数据”的整合使用要求,应建立数字资源统一检索平台,提供“一站式”服务,实现快速、无重复、聚类呈现及多角度导航。北大图书馆的“未名学术搜索”系统在该方面做出了有益的探索和尝试,目前能检索到该馆馆藏的所有图书、期刊、多媒体、学位论文、电子书、电子期刊以及各种订购的数据资源,或提供资源的“来源”、“位置”等信息途径。
(2)加强原生信息资源的整合。未来大数据的一个重要源泉是不断产生的原生数据资源,因此应加强对原生数据资源的整合,建立原生信息资源数据库。目前不同的数据库之间知识关联程度较低,而且内容交叉重复,应提高原生数据库的互操作性,形成知识融合、跨学科、跨领域的动态、发展的原生大数据库。建库过程中要朝着有利于大数据的方面去做,统一协议,建立标准平台。
(3)精准个性化推荐系统的建立。通过用户在数字图书馆网页的停留时间、浏览次数、链接点击、搜索等行为的记录,根据用户的兴趣特征,为用户主动做出个性化精准推荐。目前的这种基于用户的个性化推荐系统的建立为大数据环境下用户行为分析与预测做的应对准备,其实践过程可为大数据建设提供重要参考依据。
大数据时代即将到来,其不断推进的技术将为图书馆数字化建设提供强有力的技术支撑和指导方法。高校图书馆作为信息与知识重要集散、存储、处理中心、原生数据的重要产生地,既是大数据的重要载体,又是构成大数据的重要元素。因此,高校图书馆不应仅作为大数据技术的受益者或旁观者,而在图书馆数字化建设中应积极适应、迎接、探索、乃至主动参与“大数据”形态的构建,是大数据的参与者、践行者。数字图书馆的建设为大数据技术的发展提供一个很好的探索和实践平台,同时大数据技术的不断推进势必将对未来数字图书馆的建设过程、形态等造成深远影响。
(References):
[1]Big data:the next frontier for innovation,competition,and productivity[EB/OL].http://www.mckinsey.corn/ Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[2]The New York Times.The Age of Big Data[EB/OL].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.[2012-05-23].
[3]The Wall Street Journal.Big-Data Success Stories:Splunk[EB/OL].http://blogs.wsj.com/ venturecapital/2011/10/21/big-data-suceess-stories-splunk/.[2012-07-19].
[4]Big Data is a Big Deal[EB/OL].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.[2013-08-23].
[5]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.[2012-07-21].
[6]大数据成最新挑战传统业务形态受冲击[EB/OL].http://www.cnsoftnews.com/ static/ 20120614/93138.html.[2012-06-14].
[7]朱开忠.图书馆转型研究[M].北京:人民邮电出版社,2011.
[8]大数据成为信息科技关注新热点[EB/OL].http://www.scs.moa.gov.cn/ dongtai/ 201212/ t20121 204_3095088.htm.[2012-12-04].
[9]Twitter 消息将被收入美国国会图书馆存档[EB/OL].http://www.dajianet.com/ world/ 2011/1214/ 177360.shtml.[2011-12-14].
[10]Talk about big data:How the Library of Congress can index all 170 billion tweets ever posted[EB/OL].http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn.[2013-01-08].
[11]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
[12]大数据时代到来[EB/OL].http://www.ciweekly.com/article/2012/0118/A20 120118554491.shtml.[2012-02-02].
[13]周晓方,陆嘉恒,李翠平,等.从数据管理视角看大数据挑战[J].中国计算机学会通讯,2012,8(9):16-20.
[14]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-77.
[15]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[16]IBM 超级电脑“沃森”击败人类[EB/OL].http://tech.163.com/11/0218/07/6T5IMTS 6000915BD.html.[2011-02-18].