摘 要:数据挖掘技术是大数据时代的产物,具有计算性能、功能性、可用性和辅助功能。图书馆使用数据挖掘技术,有助于充分发挥数字资源的价值,实现图书馆数字资源共享的目标。本文将简单介绍数据挖掘技术和大数据的特征,分析大数据与高校图书馆的关系,并探讨数据挖掘技术在图书馆系统中的应用策略。
关键词:数据挖掘技术;大数据时代;图书馆系统;数字资源共享
数据挖掘技术即数据处理技术,该技术方法包括神经网络法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析法和模糊集方法等。
目前,图书馆管理系统开始采用数据挖掘技术以实现数字管理和数字资源共享的目标。
一、数据挖掘技术和大数据的特征
数据挖掘技术是大数据时代的产物,挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等,基本流程有五个步骤:
第一步是定义问题,确定数据挖掘的目的;
第二步是做好数据准备工作;
第三步则开始进行数据挖掘;
第四步就要分析数据挖掘的结果;
第五步是将分析所得的知识编制到信息系统中。
数据挖掘的技术方法包括神经网络法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析法和模糊集方法等。
神经网络法是通过建立网络模型来解决数据挖掘的问题,遗传算法是一种随机搜索算法,决策树方法用于预测模型,粗集方法发挥着数学工具的作用,覆盖正例排斥反例方法用于筛选有价值的数据信息,统计分析法能够处理函数关系和相关关系,模糊集方法可以对数据信息进行基本评判与分析,并建立云模型,总结云理论。
“大数据时代”被用来描述处于海量信息爆炸的今天,大数据是指巨量数据和海量数据,是一种数量巨大、结构复杂、类型繁多的数据集合,具备知识服务功能,可以集成共享数据,交叉复用形成的智力资源,主要数据结构包括结构化数据、半结构化数据和非结构化数据,数据类型繁多,有视频、音频、地理信息、网络日志等。
大数据的价值密度很低,需要用云计算机对数据进行处理与应用才可以提取有价值的信息。
二、大数据与图书馆管理系统的关系
图书馆也和大数据有一定的相关关系,主要表现为数字图书馆具备大数据的结构类型和特征,数字资源总量增加,信息服务要求提高等方面。
大数据的结构包括结构化数据、半结构化数据和非结构化数据,图书馆管理系统也选用了这三种结构。
结构化数据是指在数据库中,经常用二维表结构来表示的数据,一般情况下,图书馆在购买商业数据或者建立特色数据的时候都采用结构化数据。
半结构化数据类型包括HIML、邮件、报表和资源库等,一般用于数据挖掘系统、教学资源库、WEB群和邮件系统等。
非结构化数据的每一条数据记录都由可重复或者不可重复的字段所构成,包括视频、音频、图片和文档等形式。文件服务器、视频点播与监控和媒体资源管理都会运用这种结构。
三、数据挖掘技术在图书馆系统中的应用策略
(一)采用数据挖掘技术提炼有价值的信息资源
使用数据挖掘技术可以集中所有分散的数字资源,通过数据处理与统计分析提炼出大量有价值的数据信息。
图书馆的数字资源主要包括所有的电子书、数据库、视频与音频等,运用数据挖掘技术可以分析并利用图书馆的全部数字资源,并得出最为准确的结果。
用户在使用图书馆数字资源的过程中,可以建立很多交互数据,从而增加了许多非结构化数据。部分图书馆已经开始使用微博信息服务,从而产生许多交互数据。
图书馆会将这些数据以不同的组织方式和形态分布在各个管理系统中,然后把所有的数据资源整理到同一个云平台之中,用云技术将这些数据进行处理与分析,建立成完备的数字资源体系。
(二)统一管理数字资源
运用数据挖掘技术可以统一管理数字资源,提高信息服务质量。图书馆数据信息的分析与处理离不开云技术体系,该技术体系中的虚拟化技术可以有效实现物理设备共享,整合并调配图书馆系统中的硬件设备,有效延长设备的使用寿命,降低硬件建设的成本,保证实现数字资源共享的硬件安全。
(三)保证数字资源的规范管理
采用数据挖掘技术有助于实现图书馆数字资源共享的目标,辅助图书馆完善管理系统以保证数字资源的规范管理。基于数据挖掘技术体系下的图书馆系统是一个分工细致的数据管理机构,可以在分析、处理与利用数字信息的过程中实现数字资源共享,保证图书馆管理工作的程序化、清晰化与科学化。
四、结语
综上所述,数据挖掘技术是大数据时代的产物,图书馆和大数据有一定的相关关系,主要表现在数字图书馆具备大数据的结构类型和特征,数字资源总量增加以及用户的信息服务要求提高三个方面。将数据挖掘技术应用于图书馆管理系统可以提炼有价值的信息资源,统一管理数字资源,保证数字资源的规范管理。
参考文献:
[1] 陈丽丽,夏捷,陶贤继.实现大数据时代图书馆的数字资源共享的有效措施[J].上海师范大学,2010(4).
[2] 何建新.浅谈如何实现大数据时代图书馆的数字资源共享的策略[J].广东大学,2011(12).
[3] 陈丽丽.数据挖掘在图书馆个性化服务的应用研究[J].上海师范大学,2010(5).
[4] 金玉婵.数据挖掘技术中基于关联规则算法的研究[J].科技传播,2011(12).
作者简介:武艳荣,包头市委党校,研究方向:图书信息。