摘 要:近年来,随着计算机的广泛应用和云计算和物联网技术的飞快进步,数据的类型和规模也在迅速增加。在大数据时代,如何将这些海量数据转化为有价值的信息是图书馆界普遍关注的话题,文章在大数据的概念及特点下,谈了图书馆学界目前对于大数据研究的现状,给出了几点图书馆数字资源建设的策略。
关键词:图书馆 大数据 数字资源建设
一、大数据的概念
大数据并没有一个确切的、完整的定义,从提出这个概念以来,研究大数据的专家学者们就没有对这个概念达成过共识,基本上各人有各人的理解与定义。刚开始时,这个概念指的是需要处理的信息量太大了,已经超出了一般电脑能处理的数据量。大数据目前得到公认的是大数据的“4V”特性,Volume(大量)、Velocity(高速)、Variety(多样)、value(价值)。 其中Volume指收集和分析的数据量巨大,从 TB 级别上升到 PB 级别;velocity 指数据处理速度要足够快,与传统的数据挖掘技术有着本质的区别;Value 指数据中蕴含着潜在的价值转化,虽然大量的数据表现出价值密度低的特点,但只要有足够的技术储备,合理的利用数据,对数据进行准确的挖掘、分析,可以带来很高的价值回报;variety 指数据类型多样复杂,这些数据不单包括传统数据库表格整齐排列的结构化数据,更多是视频、音频、图像、电子邮件、即时通信工具、微博、社交网络等以非结构化文本存储的数据。所以,有人总结大数据是“海量数据+复杂类型”的数据,包含分析、带宽、内容三个因素,其因素是蕴含价值。[1]
二、图书馆学界目前对于大数据的研究现状
为了了解国内图书馆学界对于大数据的研究, 笔者借助中国知网检索了图书馆学跟大数据相关的论文,在中国知网上按篇名,使用“大数据”、“图书馆”两个关键字(合并条件)进行检索,2011 年是 0 条结果,2012 年是 4 条结果,2013 年度是 58 条结果,2014 年迄今为止是 173 条结果。 通过这些结果来看,大数据已经引起了我国图书馆界的专家学者们的重视,相关的研究正在飞速的发展。 专家学者们在对大数据研究的相关文章后,归纳了我国图书馆界大数据研究的关键特征:1。论文的数量逐年增加。2011年以前,首要讨论内容是计算机领域大数据量体系结构。2012年开始,特地研究大数据的文献开始出现,并在2013年急剧增加。图书馆领域的文献出版也呈现出增长趋势。2。发表论文主要集中在计算机和管理类期刊上。研究发现,出版大型数据研究论文的期刊大多以计算机和管理为重点。近两年来,图书馆和信息科学期刊发表的大数据文章也较多,反映了图书馆界基于大数据理论的跨学科研究的趋势,而其他期刊的论文较少。 3.研究视角多元化,研究重点突出。在计算机期刊上发表的论文主要集中在大数据的技术框架和设计上,而管理类期刊则集中在大数据的理论探索和实践参考上。 4.。我国图书馆员对大数据的应用很少关注,过于注重大数据的理论引进,而忽视了大数据在图书馆应用的实践研究。[2]
三、大数据下的图书馆数字资源建设
1.存储架构从传统IT环境向大数据环境的均衡过渡
首先,大数据时代,图书馆传统 IT 环境下的集中式存储架构, 已经不能满足用户对大数据存储服务大量高效的需求,管理员很难通过扩展存储设备的容量和性能来满足图书馆大型数据服务的功能需求。其次,在传统的IT环境下,图书馆往往通过添加存储系统模块来扩充数据存储容量,导致存储系统结构复杂,管理艰难,存储负载不平衡,容易产生数据孤岛。[3] 因此,存储体系结构必须从传统IT环境下的集中存储转变为大数据环境下的分布式存储体系结构。第三,随着读者对大数据服务需求的发展,图书馆应改变存储系统,重点建设读者的大数据服务支撑能力,提高大数据存储、管理、部署和迁移的安全性、效率、可用性和可控性。第四,大数据存储体系结构必须加强软硬件平台的开放性,消除传统存储平台不同系统和功能模块之间的层次性、紧密性和隔离性,实现大数据资源的改善存储和部署。
2.大数据存储系统应构建新式的指標参数体系
根据图书馆大型数据存储系统的科学结构、系统功能、存储可用性和可控性,存储平台系统的指标体系应着眼于数据库的结构复杂性、可扩展性、操作效率、灵活性、弱一致性和系统的建设经济性。大数据存储系统的功能性和可控性指标体系应主要包括数据安全性、长期存储、数据可访问性、数据定位和查询效率、存储系统的数据吞吐量和延迟、大数据存储节点的科学部署。另外,根据索引参数,根据图书馆大数据存储系统的科学结构和功能影响,以及读者大数据服务的内容和模式转换程度,动态调整索引的内容、参数和影响因素。
3.搜索引擎系统应功能强大和牢靠。
图书馆要按照大数据时代读者的阅读需要、用户服务模式和数据环境特征,强化搜索引擎的可用性、可控性和功能创立,确保搜索引擎的可靠性易用性、经济性和方便性。第一,搜索引擎在设计流程中,应对服务器日志数据、读者访问记录、Office 文档、XML 格式的电子表格数据、博客与论坛数据、APP 应用产生的数据、图片、音频、视频等半结构化和非结构化数据,实现统一搜索界面、统一运营模式和完成数据渠道的整合搜索。其次,通过建设有效的索引,加快数据的读取速度和完整性检查。索引进程应设法确保语句符合查询优化器的规则,并避免进行数据库全表扫描以提高数据查询的效率。同时,搜索算法应允许索引和搜索同步更新,以确保首先返回最佳查询结。第三,图书馆应独立或与第三方开发商合作,利用谷歌、百度、亚马逊、微软等大型信息服务商预留的 API (应用程序编程接口),并结合图书馆管理和读者服务需求进行二次开发。为大型信息服务提供商提供数据共享和增值服务。图书馆管理员和读者可以利用大型信息服务提供商的大数据处理能力,实现用户定位、在线翻译、数据分析、大数据处理和云计算等大数据升值服务。[4]
4.链接网络技术,发掘网络音视频资源。
数字时代的音视频产业传播介质已实现多样化,包含出版和宣传有形载体(比如光、录像带等),也包含网络、流媒体等新载体的出版传播已成为具备深远发展前景的内容产业。图书馆积极的与网络信息技术接轨,已成为当今发展的方向,热衷于捕获读者的行为数据,确保读者快速搜索各种声像资料的网络。图书馆可以通过互联网利用新技术的优势,在家庭终端等各种空间为读者提供及时的在线音频和视频资源。在版权许可的情况下,图书馆可以远程推动大量的时事信息和影视娱乐资料。这是图书馆通过推广网上资源吸引读者的措施,也是外包数据库的延伸。虽然大量的在线音频和视频资源对物理资源的采集和数据库建设有必然的影响,但图书馆能够为读者做好数据导航工作,帮助他们及时遇上他们喜欢的音频和视频网站。这也是一个为读者提供音频和视频资源的必要途径。
5.创建高效的科学的大数据可视化分析系统
建立科学、高效的大数据可视化分析系统是发现大数据价值、发现数据关系、实现图书馆知识表达的前提。图书馆大数据分析涉及大量的内部、外部和第三方共享数据,主要由服务系统运营和管理日志数据、CRM关系数据、服务市场环境数据、读者社会关系数据、读者地理位置和迁移路线数据、读者阅读行为和阅读终端数据等组成,它数据量大、管理复杂、计算与分析困难、可视化展示要求高的特点,对可视化分析系统提出了较高要求。[5]首先,大数据可视化分析系统应根据系统功能要求和工作流程,在统一的系统平台上设计具有数清晰、数据计算、数据存储管理、大数据挖掘与分析、数据分析结果可视化展示的独立功能模块,才能确保大数据可视化分析系统统一平台、统一管理、统一认证和统一服务。其次,可视化分析系统应具备处理多数据源数据、第三方开放数据集、社交网络数据、第三方脚本等半结构化和非结构化数据的能力,以及在大数据可视化分析全过程实现数据的流动、交互和融合。第三,大数据可视化分析系统应涉及图书馆服务系统建设、服务模式构建与QOS 保障、精准营销、客户分析与 CRM 管理、服务市场风险监测和业务流程管理等方面。同时,可视化分析系统应具备的功能有多类型图表多层面展示、移动实时分析、多平台数据源支持、全景分析、可视化图表显示效果定制、和跨多数据源图表分析、使用权限管理、安全可靠性管理等。
6.创建数据安全监管体制
大数据关键技术的快速发展为图书馆的存储和分析大数据奠定了基础。而现在图书馆的重要资产就是大数据。可是,一旦大量数據和数据分析结论走漏,跟以前相比,它给给别读者甚至整个图书馆带来巨大的经济损失,也会造成图书馆声誉受损或者承担相关的法律责任。大数据安全保障不仅是技术问题,更是管理问题。因此,在大数据时代,图书馆不仅是从技术上实现安全储存、云安全、网络安全等方法来抵抗外来的信息带来的威胁,还需要对数据安全监管、数据资源共享机制、数据隐私保护、敏感数据审计等方面加强制度建设,防止图书馆核心数据、隐私数据和敏感数据的泄露要从管理上进行, 力图建设贯穿于数据生命周期的数据监管机制。从技术层面来讲,如何采用先进的信息技术进行数据监管工作,比如,利用已有的隐私处理、数据预处理等技术保障数据在使用和传输中能够拒绝服务攻击、数据传输机密性及 DNS 安全等。在管理层面,首先要提高图书馆内工作人员的信息安全意识,各业务部门内部管理加强,重要数据库的范围明确,创建科学有效的数据监管手段与方式,定制安全使用终端设备尤其是移动终端的规程,定制和完善对重要数据、敏感数据、隐私数据操作安全和管理章程,并规范大数据的使用方法和流程。
图书馆资源建设在大数据环境下尚处于探索阶段,国内外尚无可借鉴和学习的最佳实践。在当前的形势下,图书馆服务工作就是要做好信息资源建设的基础工作,为大数据的到来铺平道路。
参考文献
[1]马晓亭.数字图书馆大数据分布式存储架构模式与策略研究[J].新世纪图书馆,2015(5).
[2]马晓亭.图书馆大数据可视化分析系统的设计与实现[J].图书馆学研究,2015(10):37-41.
[3]鲍劼,李苏丰.大数据环境下图书馆信息安全问题与对策分析[J].科技情报开发与经济,2014(22):12-14.
[4]赵琨.大数据环境下图书馆音视频资源发展及建设研究[J].图书馆建设,2015(2).
[5]秦小华.大数据及其对高校图书馆的技术影响[J].图书情报导刊,2015,25(9):98-100.
作者简介
凌风(1982.4.20—),女,汉族,福建德化,西南大学网络教育学院法学专业,福建德化县图书馆,中级职称,主要研究方向:图书馆理论与实践。