周彦
摘 要:随着数字图书馆的建设发展,各类型数据急剧增长,正朝着海量数据方向发展,数字图书馆面临着数字资源长期保存、资源整合、信息安全以及服务创新等多方面的挑战。大数据系统建设正是解决上述问题、全面提升服务能力的有效途径。
关键词:大数据;数字图书馆;创新应用
大数据作为继云计算、物联网之后信息技术的又一重大突破,必将深刻影响人们的日常生活。特别是在数字图书馆的建设发展方面的作用不容小觑。本文研究分析了在数字图书馆建设领域大数据建设的重要意义、面临挑战、主要应用,对数字图书馆大数据系统建设进行了有益思考。
一、大数据概述
(一)大数据定义
对于“大数据”,研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一个体量特别大、数据类别特别多的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理,具有体量巨大、类型繁多、时效性强、价值密度低四个基本特征。大数据技术是数据采集、数据存取、云存储和分布式文件存储、各类统计分析、数据挖掘、模型预测、结果呈现等数据处理技术的统称,可以为决策乃至个人生活带来便利。
(二)大数据研究的发展
大数据研究热潮刚一兴起,就得到了众多发达国家和IT厂商的支持。2012年,美国宣布投资2亿美元用于大数据研究。市场咨询公司IDC、Gartner、麦肯锡等,均展开了大数据专项业务和服务支持;IBM等硬件厂商纷纷推出大数据从存储到分析的全套方案。我国于2015年出台了《促进大数据发展行动纲要》,这从政府到民生全方位规划部署了大数据产业的发展战略。对大数据的研究逐渐从理论到实践、从硬件到软件配套、从企业行为到国家战略。今年3月5日,在第十二届全国人民代表大会第三次会议上,李克强总理提出制定“互联网+”行动计划。所谓“互联网+”,实际上是创新2.0下的互联网发展新形态、新业态,是知识社会创新2.0推动下的互联网形态演进。它不仅仅是互联网移动了、泛在了、应用于传统行业了,更会同无处不在的计算、数据、知识,造就了无处不在的创新,推动了知识社会以用户创新、开放创新、大众创新、协同创新为特点的创新2.0。这势必对广泛应用互联网、云计算、大数据技术的数字图书馆领域产生深远的影响。
(三)数字图书馆与大数据技术
数字图书馆管理与服务数据具有规模海量、种类繁多、价值挖掘难度大的特点,这恰恰与大数据的特征是相契合,并且大数据比海量数据结构更复杂、价值密度更低、分析更为深度广度、使用价值更大。因此我们可以考虑能否通过大数据技术解决巨大的甚至是海量的图书信息存储压力、过大的资源和用户需求数据分析和过高的系统建设管理要求,从而提高数字图书馆的核心竞争力。
二、数字图书馆建设发展面临的挑战
随着大数据时代的来临,数字图书馆建设发展面临着很多新的挑战。
(一)传统数据存储模式应对数据海量增加的挑战。一是计算能力、存储能力的增强远远落后于数据量的增长及数据复杂性的变化。数字图书馆管理与服务数据类型除传统结构化文本数据外,还包括网络日志、图片、音频、视频、读者地理位置信息等非结构化数据,且非结构化数据占据数据总量的65%以上。二是物联网、传感网、云计算等信息技术的飞速发展,知识服务应用领域不断扩展,服务类型、数量、应用高速增长,基数巨大,使大量非结构化数据广泛交互移动,为知识管理及信息服务模式提出更高的要求。
(二)传统数据分析向广度深度发展的挑战。高可靠性、高可扩展性的数据分析技术成为亟待解决的问题。大数据技术不仅可以通过数据了解用户的行为、信息需求、知识应用能力,更可以利用数据对与用户的交互知识服务过程进行分析预测,如进行读者流失分析及价值分析,从而应对图书馆未来所面对的生存危机。
(三)总结数字图书管理经验规律的挑战。各类现行数字图书管理软件统计记录了大量重复的管理信息,管理者很难从这些重复的信息中理出头绪,总结出有价值的管理经验和规律。造成末端管理员需求很难影响顶层设计决策,至上而下的管理方式无法满足数字图书管理精确化、实时性、全过程的管理需求。
(四)有效规避知识产权风险的挑战。随着数字图书馆应用平台越发广泛,目前已由互联网向移动通信网、广播电视网、移动网络等平台延伸,任何人都可通过数字图书馆获取所需的知识,但如何保护知识产权这一难题,不仅要从立法许可方面着手,也需从技术上进行限制规避,最大限度的实现版权的排他性与信息共享之间平衡。
三、大数据技术在数字图书馆建设中的应用
从大数据中分析和挖掘出数字图书馆建设发展的特点规律,促进知识服务的智能辅助决策能力提高,是在新起点上推动数字图书馆服务创新发展的必然选择。大数据技术在数字图书馆建设中主要有以下应用:
(一)进行数字资源整合。以用户需求为导向,以保证信息资源质量为目标,建立超大型元数据仓储,构建数据资源目录体系和交换体系,从而实现资源的统一聚合与一站式检索,将云服务与关联数据结合起来实现数字馆藏的组织与聚合,构建“资源—用户”关系模型的思路展开工作。面向各项业务应用主题建立数据仓库,按照统一定义的格式提取数据,再通过清洗、转换、集成后进入数据仓库,形成面向主题、单一、完整和一致的数据存储,实现数据共享和“一数一源”。大数据环境下,既要对多种异质文档进行管理,又要支持多媒体文档的存储、检索和管理,并且对原生资源进行有系统、有组织地开发整理,以便将资源数据长期保存,充分发挥数字图书馆的规模效益。
(二)实现资源合理配置。通过开展数据资源流向、流量和流速分析,测算数字图书的需求量和服务能力,对数字图书馆服务资源“先手”投子布势,合理安排投向和投量,展开馆际区域合作和资源实时共享。同时,对用户满意度、资源利用分布及趋势发展等知识服务应用情况作出深度解析和跟踪,并通过信息回路及时进行反馈,为科学进行信息导航、图书推荐、读者互动、知识链接等服务提供技术支撑,从而实现数据主导型的知识服务,提升数字图书馆服务效益。
(三)深度分析和调用资源。基于大数据的数字图书馆资源平台通过资源的整合和统一调度,不仅可以解决资源共享的问题,而且还可将各个专业性局部性的资源作为整体综合性资源的一部分,归纳提炼用户观察数据、分析数据的不同维度,并按照这些维度为用户在后台构建多维的数据立方体,实现知识发现和预测等深度应用,极大提升了资源的利用价值。比如,读者可以整个平台的资源为研究对象,对同一主题的各种不同数据进行综合计算,在因果关系之外,发现数据间的相关性,获得新的知识和信息,使得读者对单个或全体数据的分析和预测成为可能。
(四)有效规避知识风险。在大数据时代,数字图书馆必须重视知识产权的保护,在技术上进行有效规避。按照国家统一的技术体制和标准要求,研发具有完全自主知识产权的系统平台,规定各类数字图书馆的法定许可权,通过访问控制技术、数字水印技术、身份识别技术等手段对数字资源及用户权进行限制,并对信息资源建设、传播和利用进行合法授权,从而实现版权的排他性与信息共享之间的平衡,最大限度地维护数字图书馆的合法权益。
长期以来,传统图书馆都在一个“供应文献”的状态下。随着大数据技术的发展和广泛应用,数字图书馆建设必须一改以往的状态和思路,在大数据技术的广泛应用和支持下,进一步加大各类资源的揭示力度,加大数据实时共享,加大用户数据分析,提供多样化的知识应用服务,全面提升数字图书馆服务效益,更好地实现数字图书馆的服务使命,为每一名读者带来更好的用户体验。
(作者单位:深圳少年儿童图书馆)
参考文献:
[1] 李白杨,张心源.数字图书馆建设中大数据问题初探[J].情报科学,2013(11):26-29