郝亚可
【摘 要】随着信息技术的飞速发展进步,大数据的研究和应用已经成为了关注度非常高的热门技术,可以说,大数据时代已经到来了。在大数据时代,图书馆馆藏资源的整理技术需要进行进一步的优化和提升,而将资源数字化来进行资源整合和存储,既可以提高实现资源共享,又可以提高文献的易用性,对图书馆的工作优化有着很大帮助。本文针对大数据时代图书馆馆藏数字资源的整合和存储策略进行分析,对相关内容进行了介绍,以供参考。
【关键词】大数据时代;图书馆;馆藏数字资源;整合和存储
随着信息技术的发展以及物联网技术等新型技术的涌现,信息平台上所存储和传输的数据呈指数型爆炸增长,大数据时代已然到来。而如何对巨量的数据进行有效分析和处理,从中寻找到自己所需要的信息分量,即大数据分析技术,已经成为了当下的研究热点,在各行各业中都进行了分析和应用。对于图书馆而言,作为图书资源的汇集处和整合中心,图书馆也应该跟上时代的步伐,提高自身的图书检索和资源整理效率。在大数据时代背景下,图书馆应该积极进行信息化数字化资源平台的建设,积极将大数据处理分析技术运用到图书的资源整合和存储中来,使图书整理和检索的效率最大化,从而提高自身的工作水平,保证用户的阅读体验。
一、大数据有关内容介绍
大数据是IT行业的术语,其最早是由奥地利学者维克托·迈尔-舍恩伯格以及肯尼斯·库克耶所提出简要来说就是巨量数据的集合体,这部分数据使用常规手段不能进行完全搜集和整理,也无法进行分析,需要更为有效的数据处理手段才能进行大数据分析,大数据的主要特点可以概括为5V,即Volume(大量):信息数量远远大于之前的常规数据、Velocity(高速):数据产生的速度与获得数据的速度极快,以之前的常规信息处理手段无法正常处理、Variety(多样):数据类型非常多样化,、Value(低价值密度):数据质量参差不齐,海量数据中所蕴含的高价值信息较少,价值密度较低、Veracity(真实性):数据都是由即时情况所转化而来,需要进行真实性筛选,此外还具有复杂性等其它特点。
二、大数据时代背景下进行图书馆资源数字化整合的原因分析
1.为了提高资源整合的效率,保持资源时效性
长期以来,图书馆进行书籍资源的整理时都是使用人力进行工作的,无论是书籍的种类标示、分类存放还是标号都需要人工进行,并且进行书籍检索的关键字确定时也需要手工确定和录入,不仅需要耗费大量的时间,一旦工作人员出现疏忽或者疲惫情况,出错的可能性还非常大。而进入网络信息时代以后,网络数字资源例如数字多媒体资料等逐渐增多,而大部分数字资源都拥有一定的时效性,如果还是按照之前的人工整理方式进行资源整合的话不仅效率低,还会严重降低资料使用时的时效性。因此对于数字资源来讲,必须寻找更加智能化高效率的资源自动标注和整理方法,这也是现在图书馆管理和资源整理研究的重点内容。目前,通过大数据分析技术结合智能化整理技术对数字资源进行整合成为了主流选择,与人工方式相比,大数据技术不仅资源筛选速度快、准确率高,其整合速度和分类速度也非常迅速,对于保持数字资源的时效性以及提高资源整合的效率都有很大的帮助。
2.为了提高数字信息资源的标准程度,使其便于使用
网络资源是通过互联网这一媒介将各种类型各种领域的资源所整合在一起的大型集合体,其在网络中的分布是无序且较为散乱的。如果需要对网络储存的数据进行交流使用的话,必须要将其进行整合,否则未经加工的数字资源不仅在格式类型上不一致,其索引方式和使用方式也不一样,直接进行利用基本无法进行有效的信息获得。除此之外,进行互联网信息访问并不需要专门的场所和机构,普通用户都可以借助个人信息设备例如智能手机、平板电脑等来登陆数字图书馆进行信息浏览,而普通用户很难做到准确使用信息平台对各种类型的数据文件进行正确浏览的。因此,必须要对杂乱的数字资源进行整合和合理化的存储,从而提高信息资源的标准化程度,并且使其使用更加简便,从而保证数字图书馆平台能够具有应有的使用价值。
三、数字资源整合和存储的具体方法探讨
在大数据时代背景下,利用大数据对数字资源进行整合要按照不同的信息模块进行顺序操纵,信息模块一般分为四种,即大数据资源提取模块、资源筛选与分析模块、资源整理与分类模块以及最后的综合控制与反馈系统。其功能包括数字资源的提取、过滤、整理、储存。接下来分别进行介绍。
大数据资源提取模块的任务是将数据进行抓取与储存,主要的处理数据类型包括信息数据、系统以及客户的管理数据等。除了进行数据获取,该系统也能根据数据的源头、基本特点等将数据进行初步分类,分配到其应该进入的数据库之中,这个模块是信息资源整合系统的基础部分,主要负责信息的录入工作。
资源筛选与分析模块紧紧承接着大数据资源模块而来,上一模块将资源注入到数据库中之后,资源筛选和分析模块要对数据进行特征过滤,首先清除掉无用的冗余资源,然后要根据数据的特征和格式等特点对资源进行进一步的分类,提高数字资源的利用准确程度。
资源整理模块是在数据经过大数据处理和分类转换之后对数据进行进一步的分类处理和存储工作,将数据按照类型存放入数据库,为数据进行最关键的处理做准备。
综合控制和反馈系统是对数字资源进行整合和存储的最关键部分,数据经过前三个阶段的大数据提取和筛选分析并存放进入数据库之后,由综合控制及反馈系统使用信息数據分析处理技术对最终余下的数据进行资源可利用程度的评估,对资源的分区储存等进行调整,并且对信息回传做好反馈。此系统还负责对数据处理工作进行监控,寻找工作中的问题点和错误,并及时进行更正,从而提高数字资源整合和存储的效率和正确度。该系统是整个处理步骤的核心部分。
在进行数字资源整合和储存时要按照这四个模块建设存储系统,将存储系统分为多个层次以对应不同模块的处理工作,基本层次分为基础设施服务层(IaaS),负责大数据资源提取模块的工作以及存储工作,PaaS层即平台服务层即平台服务层,负责资源整理模块以及提供多种信息接口,例如管理接口、加工以及分布接口等,还有应用服务层(SaaS),是整个存储系统的软件结构,并且用户可以借助此层次中的软件功能实现多种信息检索和使用功能。
进行系统设计时要注意以下几点:优化资源整理模块的功能,尽量使用功能更为强大的信息筛选技术,提高信息过滤的效率,为数据筛选和分析功能腾出工作空间;注意硬件系统的负载,防止大量的数据流入而导致硬件负载过高而降低效率。
四、总结
在大数据时代下,数据由书面化向数据化信息化转变,并且数据的量大大增加,这对图书馆这一公共数据平台而言是很大的挑战。图书馆想要得到进一步的发展就要与时俱进,积极使用先进的技术。要结合大数据技术进行资源整合和存储技术的优化,认真研究图书馆馆藏数字资源整合和存储工作的开展必要性、基本工作模块结构、服务层种类等内容,并积极进行有关技术的应用和开展,从而提高自身的工作效率,优化用户的阅读和信息搜集体验。
【参考文献】
[1]刘静春.大数据时代图书馆信息资源建设与服务方式变革[J].中国中医药图书情报杂志,2019,43(01):23-25.
[2]张青锟.大数据时代高校图书馆数字资源服务创新研究[J].信息记录材料,2019,20(01):163-164.
[3]王震宇,王宁.大数据时代图书馆馆藏数字资源整合与存储策略分析[J].中国中医药图书情报杂志,2017,41(03):35-38.