SPSS在高职院校图书馆中挖掘设计与实现

2011-10-29 09:28
天津商务职业学院学报 2011年3期
关键词:馆藏数据挖掘数据库

李 慧

天津广播电视大学图书馆,天津 300191

目前,数据挖掘和知识发现已成为计算机科学和应用技术科学的一个研究焦点。在科技发展和知识爆炸的大环境下,图书馆业务工作产生海量业务数据,但读者对文献资源的需求日益增长,这二者之间存在明显的矛盾,数据挖掘技术的出现在很大程度解决了这个矛盾,同时开启了数据挖掘技术应用于图书馆事业发展的源头。本文主要是为了解决高职院校图书馆开展知识服务工作中遇到的问题,确定围绕高职院校图书馆知识服务主要针对馆藏资源利用率情况进行数据挖掘设计与实现的论述。

一、高职院校图书馆现状与特点

高职院校图书馆于近年来伴随高职院校的产生而出现,它的建设情况、发展历史、服务对象等方面与高等普通院校图书馆存在许多差异。高职院校图书馆的建立与发展是紧随高等职业技术教育,它存在成立年限较短、资源建设基础较弱、人员队伍建设较弱等特点。目前高职院校图书馆整体情况特点是:

1.高职院校图书馆的建设与高职院校教学发展不协调。从高职院校发展的全面情况而言,高职院校图书馆的建设与高职院校教学发展不协调。高职院校图书馆的历史沿革比较复杂,这是因为高职院校图书馆的建立大多数是伴随高职院校升格应运而生,其中大部分高职院校是由原先的中专类院校合并而形成的,因此高职院校的图书馆一般是伴随高职院校的成立而建成的,或是由原先中专学校的图书室传承下来的。虽然高职院校图书馆被列入高校图书馆系列,但它的办馆理念、馆内人员素质水平、馆藏体系结构、馆舍条件、资源建设情况等都难以适应目前高职院校人才培养模式与科研教学这两大重点工作的要求。

2.高职院校图书馆建设规模有限,办馆水平不高。高职图书馆的发展与其他高等院校类图书馆的发展面临同样的问题,即图书馆的受重视程度不够,甚至比普通高等院校图书馆的境地更为艰难。主要是由于高职院校的整体教育经费投入远低于普通高等院校,师资力量薄弱,因此高职院校图书馆的发展可被称为举步维艰。这是由于一方面受传统普通高等教育观念的影响,普通的高等院校是培养高级知识研究型人才的教育模式。而高职院校一般是由学术研究水平较低能力较低的中专合并升格成为高职院校,所以从人力、物力、财力等方面的投入较少。另一方面,高职院校图书馆建馆时间短、底子薄、图书情报专业人员建制薄弱,文献资源馆藏数量不可能在学院升格的短时间内显著增长。但是长期以来受传统观念的影响,衡量馆藏水平的要素之一则为馆藏量,许多高职院校馆为了完成前些年的教育部对高职院校的教学检查工作,在短时间内迅速采购图书以增加馆藏量、提高生均量(学生每人拥有图书数量),而忽视了馆藏图书的质量与副本量。经过几年的“拔苗式”的馆藏资源建设严重地影响了馆藏质量与图书馆整体水平的健康发展。

3.高职院校图书馆的整体水平良莠不齐。高职院校图书馆目前缺乏对高职教育特点的足够重视与充分认识,到目前为止,高职图书馆仍未形成以高职教育特点为基础的办馆机制。高职馆的工作目前仍处于满足最基本的学生读者需求阶段,缺乏开拓性、创新性、知识化、智能化的资源建设与服务建设性工作,从而导致其规模虽在稳步向前发展,整体水平与高职教育的快速发展不协调。这些问题不及时纠正,势必对图书馆的长远发展产生极为不利的影响。

4.图书馆经费支持不到位。依据《普通高等学校图书馆规程(修订)》2002年颁发的规定,高等学校图书馆的经费包括运行费和专项经费。运行费主要包括文献信息资源购置费、设备设施维护费、办公费等。文献资源购置费应占全校教育事业费的5%左右,并应从科研经费和计划外收入中提取适当比例作为文献购置费用。再根据全国高校图工委制定的《高校图书馆评估标准》规定,每年采购新书应为6册/学生,每年订阅期刊应为0.4份/学生。然而目前大多数高职馆在经费支持方面与文件要求相距甚远,并且很多高职院校没有设立年度图书馆经费计划,在遇到前些年的评估工作时学校就给予部分投入,但评估工作结束后,图书馆的经费一般则又被挪作它用了。图书馆的发展一方面依靠图书馆专业人员的专业建设与管理,另一方面也更为重要的就是资金方面的大力支持,否则图书馆必将陷入“巧妇不为无米之炊”的尴尬境地。

5.高职类院校图书馆的服务对象、服务内容、服务方式都不同于普通高校图书馆,具有特殊性和典型性,主要体现在以下几个方面。

(1)在服务对象方面,主要面向高等职业技术学生、教师(面授高职学生、成人学生)、科研人员、行政管理人员、社会工作人士等。高职院校的教学对象主要是理论基础较薄弱的高中毕业生或中专毕业生,高职院校教学重点是培养学生实践技能;高职院校教职工人员主要存在学历层次良莠不齐、学科研究范围较狭窄、理论研究层次不深和专业科学研究水平不高等特点。

(2)在服务内容方面,高职学生知识积累程度较普通高校大学生弱,兴趣偏好与学业关注方向也存在差异,缺乏对专业学科的深入学习与研究的兴趣;教师教学重点、科研研究方向主要偏重培养高职类学生的实践技能研究与在职成人类学生的教学研究与探索。

(3)在服务方式方面,高职学生通常利用业余时间在网上学习与交流;教师一方面面授高职学生,另一方面还兼职教授成人教育、网络教育的学员,因此高职院校对教师的要求比较偏重基础知识理论与实践技能的传授,而不要求进行深层次的理论研究与科研课题研究。

基于以上高职院校图书馆与高等院校图书馆的差异性,为了实现优化图书馆资源建设、科学管理、知识服务的目的,本文以作者单位图书馆的业务数据库数据为数据源设计挖掘图书馆藏利用率实验,经过设计实验后得出分析挖掘结果,将分析结论应用到研究高职院校图书馆开展知识服务工作的内容与方向上。

二、数据挖掘

1.数据挖掘概念。数据挖掘(Data Mining)就是从海量数据中提取或挖掘知识。然而,数据挖掘从诞生发展至今已有20年的历史,可是到目前为止仍没有一个获得完全认同的定义。这是由于数据挖掘技术在不同领域具有不同的应用,各位学者和专家都分别从不同的角度进行不同定义。例如从统计学角度看,数据挖掘是指分析数据集,发现可信的数据间的未知关系,并提供给数据拥有者可理解的、新颖的和有用的归纳数据;从数据库角度看,数据挖掘定义为从存储在数据库、数据仓库或者其他信息库中的大量数据中发现用户感兴趣的知识的过程;从机器学习的角度看,数据挖掘是指从数据中抽取未知的、隐含的、潜在的有价值信息的过程。从商业角度看,数据挖掘是一种新的商业信息处理技术,数据挖掘技术通过对搜集数据进行微观、中观、宏观层面的统计、分析、预测,挖掘数据间的隐性联系,最终形成知识,并将形成的挖掘知识结果指导商务业务工作。总之,笔者认为,数据挖掘是从海洋的数据信息中通过一系列挖掘步骤形成满足用户需求的知识的过程。

2.数据挖掘CRISP-DM模型。1999年,DaimlerChrysler、SPSS、NCR为了建立数据挖掘方法和过程的标准,共同创建了数据挖掘的跨行业标准过程(Cross Industry Standard Process for Data Mining,CRISP-DM),如图1所示。如何运用挖掘模型是数据挖掘中用户最关心的问题。本文设计的挖掘实验是遵循CRISP-DM标准。CRISP-DM模型过程的基本步骤包括:业务理解、数据理解、数据准备、模型建立、模型评价、模型实施。其中业务理解包括:确定任务项目目标、评估环境、确定数据挖掘目标、产生项目计划;数据理解包括:收集原始数据、描述数据、探测数据;数据准备包括:数据选择、数据清理、数据建构、数据整合、数据格式转换;建立模型包括:选择模型建模技术、产生测试设计、建立模型、评估模型;评价包括评价挖掘结果、回顾过程、确定下一步工作。模型的各个步骤之间的顺序有的是必须遵循,而有的是往复循环挖掘出有价值知识的过程。

图1 DRISP-DM标准挖掘流程图

三、高职院校图书馆知识服务的数据挖掘设计与实现

本文进行的数据挖掘设计工作主要是利用业务数据库产生的日常业务数据,经过数据挖掘分析,形成数据挖掘模型与结果,最后将挖掘结论应用到知识服务工作中。依据CRISP-DM模型过程设计数据挖掘过程步骤与内容是:

1.确定挖掘主题。为了实现提高图书馆的服务层次与服务质量,改变传统的被动服务、信息服务,将图书馆未来的工作向深层次、主动化、人性化、智能化、知识化方向推进的图书馆知识服务工作的目标,设计图书馆馆藏利用率的数据挖掘主题。

2.收集源数据。根据作者本单位实际业务数据,收集图书馆图书管理系统2000—2010年SQL Server2003的Book数据库和Reader数据库的业务数据。数据挖掘实验设计为不影响正常的工作将数据库数据拷贝到实验设计的机器上,再将备份数据附件到本地数据库中,根据本地数据库进行数据挖掘实验设计。

3.数据清理与转换。针对收集的数据表根据数据挖掘主题通过VB程序设计,合理有效的处理源数据,为数据挖掘设计工作做准备。

利用VB进行程序设计,设计实验程序逐步进行数据的批量删除与清理工作。两个数据清理程序均通过点击查询条件的“查询”按钮,检索将要删除的数据记录,再单击“删除”按钮,最后确认将符合条件的数据全部删除,记录删除后数据库进行更新。数据清理主要针对图书总库数据和读者库数据进行清理。

利用VB语言设计执行程序,以实现条件查询、删除数据,并更新数据库数据的目的。主要程序代码:

清理数据执行结果如图2所示。

图2 reader数据库中keys表清理数据

4.馆藏资源利用率挖掘实验。根据Reader数据库中记录的读者借阅历史信息,挖掘读者借阅图书即馆藏利用率的情况。由于reader数据库中的keys表和book图书总库中都没有借阅历史图书的具体图书题名、图书分类、图书主题词等详细信息,因此设计第四个实验前,需要利用Transact—SQL语言在,SQL Server2003中进行程序设计,将两个库中的数据进行联接生成新的数据表,即即读者借阅历史详细信息表,导入SPSS进行量化统计。馆藏资源利用率挖掘实验流程如下图3所示:

图3 图书馆藏资源挖掘实验流程

最后将新生成的读者借阅历史流通信息(temp_table)表导入SPSS,挖掘统计读者利用资源情况,以多重散点图的形式得出直观性的结论,如图4所示。

图4 馆藏利用率多重散点图

5.馆藏利用率挖掘结论。根据上面的图书借阅历史情况数据挖掘实验设计,从挖掘结论可以明显看出I247.57小说类图书的借阅利用率最高,其次是TP391.41计算机类图书,第三位的是H310.42英语学习类图书。针对上一节论述的图书资源分布特点,即集中在I文学、H语言、F经济、TP计算机、D法律五大分类,这个资源分布的总体特点与读者馆藏利用率特征基本相符,因此我馆的资源建设原则合理性得到客观数据的验证,另一方面说明读者需求的偏颇较明显的特点。

四、数据挖掘实验结论

通过以上大量数据分析挖掘得出的相关结论,我们应该看到读者利用资源的偏颇较严重,对于专业方面的知识学习与研究较少涉及。因此,图书馆未来的知识服务工作应该实现个性化、智能化、高效化的服务方式,服务方式由被动转为主动,服务内容由表面深入到内部,即由信息咨询服务转向知识服务智能服务,服务范围由校园内拓展为校园外的全球读者。高职院校图书馆知识服务模式的建立则应该:一是,突出高职院校读者需求的特点,提供灵活多样的人性化、智能化、知识化的高层次服务;二是,提供多类型、多学科、重实践的文献信息资源、视频资源、多媒体资源;三是,高等职业教育培养目标的特点,重点建设发展职业技能培养和职业素质提高的资源项目,为读者提供个性化的知识服务。

[1]张英.高职院校图书馆文献资源建设的现状分析与对策[J].图书馆工作与研究,2004(3):30-32.

[2]徐诗豪.新时期高职院校图书馆的发展策略[J].图书馆论坛,2005(3):77-79.

[3]吴静.高职院校图书馆文献资源建设的现状分析及对策[J].南京职业技术学院学报2009(9):30-32.

[4]元昌安,数据挖掘原理与 SPSS Clementine 应用宝典[M].北京:北京:电子工业出版社,2006:77-79.

猜你喜欢
馆藏数据挖掘数据库
馆藏
探讨人工智能与数据挖掘发展趋势
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
数据库
数据库
一种基于Hadoop的大数据挖掘云服务及应用