冯秋燕
(河南财经政法大学,河南 郑州450000)
大数据时代信息文献资源共建共享的创新与发展
冯秋燕
(河南财经政法大学,河南 郑州450000)
大数据时代下,电子书刊等电子资源的积累、云计算和社交网络等信息技术的发展、高速网络和智能手机的普及,为信息文献资源提供了广泛的数据来源。如何更好地管理、利用大数据成为现今的热点话题。本文首先介绍了大数据的特征、概念和应用情况;然后以我省为例讲述信息文献资源共建共享目前的情况为例;最后,以经典案例为契机,探讨了大数据时代下信息文献资源共建共享的创新模式。
大数据;信息文献资源;共建共享
随着博客、社交网路、物联网等新型技术的兴起,大数据时代的到来,学术界、工业界、政府机构都开始关注大数据问题。2008年,《Nature》推出了BigData专刊。
大数据不仅仅指数据量的庞大和数据规模的庞大,依据大数据所具有的规模性、多样性、高速性、价值性、真实性等特征,大数据具有3V和4V定义,维基百科对大数据的定义[1]为:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过了可容忍时间的数据集。
大数据的典型应用有:科学计算、金融、社会网络、移动数据、网络数据、多媒体等,其中所用数据量均在GB级以上,大数据给人们带来便利的同时也给传统的数据管理方式带来了极大的挑战,详见表1。目前,大数据的处理以云计算为基础,有流处理和批处理[2]两种模式。表1给出了大数据集成、大数据分析、大数据隐私、大数据能耗、大数据处理与硬件的协同问题、大数据管理的易用性、性能的测试基准等大数据目前所面临的问题及其子问题。
以河南省高等教育文献保障系统(HALIS)为例,HALIS以中国教育科研网(CERNET)为依托,配合CALIS,联合河南省各高校图书馆,实现了全省高校信息文献资源的有效开发和利用;黄河金三角“示范区”[3]中的6所高校,建立学校联盟,调配资源,优势互补,逐步推进区域性资源共建共享。
表2描述了以HALIS为平台,高校图书馆对超星电子图书、电子版《四库全书》、CSSCI数据库、CCC数据库、中文科技期刊数据库的订购情况,最高的是超星电子图书96.67%,而最低的CCC数据库只有36.67%,可见,河南省高校图书馆的共建共享服务情况并不理想。
表2 河南省HALIS的利用情况
大数据对信息文献资源的冲击不可避免,本文以数据这项基础性资源为出发点,分别从大数据时代下信息文献资源共建共享创新层面、创建虚拟图书共建共享社区、创建区域性总分馆模式三个方面对大数据时代下信息文献资源共建共享创新方法进行阐述。
4.1 大数据时代下信息文献资源共建共享创新层面
本节从管理层次、技术层次、人员建设、服务模式四个层面对大数据时代下的信息文献资源共建共享进行简单的分析。
大数据建设是一项系统工程,需具备良好的运作机制:
4.1.1 在管理层次,应完善数据管理措施,建立数据管理部门,负责数据的获取、管理、使用、分析、协调等工作,如美国的MIT、康奈尔大学图书馆成了专门的“研究数据管理服务工作组(RDMSG)”,负责如元数据标准、数据重用、数据共享、处理数据版权等数据管理工作。
4.1.2 大数据技术是解决大数据问题的核心,搭建合理的大数据技术架构是基础性同时也是全局性工作。大数据架构,自底向上,第一层即底层是大数据的采集工作,即对结构化、半结构化、非结构化数据、科学数据、课件、数据库、论文、邮件、社交网络、微博等的处理;大数据架构的第二层是大数据的存储工作,可以采用云存储、NoSQL、Hadoop、HDFS、Mapduce、HBASE等技术;大数据架构的第三层是大数据处理工作,即大数据的集成、数据抽取、数据建模、重复数据删除、聚合与关联、网格计算、数据加密、数据容灾等工作;大数据架构的第四层即大数据的应用,包括信息检索、资源发现、数据挖掘、数据可视化、相关应用软件、推荐服务、学科化服务、知识服务等。
4.1.3 在人员建设上,应具有一批懂技术、通管理的人员队伍。美国国家科学委员会(NSB)提出的“数据科学家(DataScientist)”中,包含学科专家、信息科学家、数据处理员、计算机科学家、图书馆员等。
4.1.4 由于信息已经从“纸质”向“数字”进行转变,原有的服务方式、模式也应当做适当的调整。首先,应当收集、整理、编辑数据,其次,应当对信息进行分析、认知、推理,然后,发现、获取、应用知识,最后,对知识进行积累、预见形成智慧(Wisdom),通过这四层对信息的处理模式,最终将有效的信息提供给需求者。
4.2 创建虚拟图书共建共享社区
虚拟图书共建共享社区指的是,成立多个不同种类的社区兴趣小组,小组内部成员有相同或相似的兴趣、爱好,相互之间可以分享自己感兴趣的图书或杂志等,还可以将兴趣指数、评价较高的资源放置到该小组的“云”端,供大家分享,小组之间可以通过组间“云”端共享所需资源。换言之,创建社区兴趣小组即将大数据划分为不同质(“质”指兴趣、爱好等分类依据)的数据,对大数据的处理在小范围内迭代进行,实现了大数据时代下信息文献资源的共建共享。
表3 创建虚拟图书共建共享社区影响因子
创建虚拟图书共建共享社区除需要考虑如表3所示的几个因素,还需满足以下三个转变:第一,纸质文献转变为电子资源;第二,传统的固定服务模式向移动服务模式转变;第三,工作人员由原来的坐班制变为Web在线服务制。
4.3 创建区域性总分馆模式
本文秉着科学计划、系统整体、规范统一、共建共赢、注重特色的原则,以平台共享、权威协调为策略创建区域性总分馆模式。
区域性总分馆模式是指以学校特色、类型为依据,结合地域分布的特点,在该区域建立总分馆模式,整合区域内高校的文献信息资源,提高资源共知共享程度的管理体制和服务模式。
区域性总分馆模式,以区域内总馆为中心,在区域内设置分馆、汽车流动图书馆、24小时自助图书馆等。该模式,首先,可以通过建立分馆(如图1所示)进行馆际互借,实现纸质资源的区域性传播;其次,根据用户需求,可以通过邮件等形式,提供给用户所需电子版资源;最后,总分馆之间进行沟通交流,定期更换各自馆内的馆藏等。
本文以河南省高等教育文献保障系统为例,阐述了大数据时代下信息文献资源共建共享的发展方法,这些创新模式有望在更多的地区加以使用。
[1]Bigdata[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/ Big_data.
[2]KumarR.Twocomputationalparadigmforbigdata[EB/OL]. [2012-10-02].KDDsummerschool,2012.http://kdd2012.sigkdd. org/sites/images/summerschool/Ravi-Kumar.pdf.
[3]梁转琴.黄河金三角“示范区”高校文献信息资源共建共享探析[J].图书馆学研究,2013(6):63-67.
[4]王海.总分馆模式下文献资源共建共享的探索与实践—以济南市图书馆为例[J].图书馆学刊,2013,(4):45-47.
G250
A
1671-0037(2014)-48-1.5
2013年12月26日。
冯秋燕(1988-),女,硕士,助理馆员,研究方向:现代软件工程技术、数据挖掘、大数据等研究工作。