●张立春(中共太原市委党校 图书馆,太原 030012)
图书馆服务平台的管理方法非常多,由于其大量的信息流,采用不同的数据处理手段对平台性能的影响也是很大的。[1]Web数据流控制技术是目前流行的一种技术手段,它的特点是针对大量的数据资源进行快速的处理、分类等。[2]对于高等院校的图书馆而言,充分利用网络资源可以为广大师生提供完善的数据信息,对于教育、科研都具有重要的意义。
采用先进的网络化技术可以高效地利用教育教学资源,能提高教学质量,拓宽教学层次,使师生的思想更具备发散性,有利于高校教学综合素质的提高。所以,开发高校的网络教育平台资源,是实现网络资源整合服务的核心。
通过图书馆服务平台的Web资源平台实现整体网络资源的整合,包括数据挖掘、资源分类、决策处理、网络服务等的研究。应用Web资源与图书馆服务平台相结合的思想,可以使整个高校的信息平台更加完善。以Web资源数据挖掘等手段的平台更适应多样化用户的使用,兼容了科研型教师梯队、教学型教师梯队以及学习型学生网络的特点,有利于广大师生在图书馆的大量数据中更快、更好地发现对应的有效信息。
目前,国内外对数据挖掘技术的研究日益火爆,在图书馆中应用数据挖掘技术从海量信息中提取有用信息已经是重要的发展方向之一。不但有助于图书馆的数字化、自动化的形成,还可以针对不同用户的需求采取不同的应对措施。所以,基于Web资源平台的数据挖掘技术在图书馆信息整理、处理等方面是非常实用的,也是世界各国的很多图书馆服务平台的发展趋势。
高校图书馆利用数据挖掘等技术主要是在文献信息管理、信息服务和人员管理方面。因为传统的图书信息采集由专人完成,存在主观因素,所以各分类学科的分配上有偏差,常常不能达到最佳利用的效果。采用数据挖掘、有效地分类,通过一些相关算法可以有效地将利用率不同的书刊资料区分出来,更好地完成图书资源的分配。如通过数据挖掘中的动态关系图找出图书类别和借阅次数之间的函数关系,通过综合分析而完成新书资源配比的问题。在信息服务方面,不再是被动式的借书还书模式,而是主动配置模式,根据不同的用户特征为其提供不同的搜索服务,根据用户的检所要求,设计直接检索效果以及一些相关链接,使数据资源更全面的展现在用户面前。在人员管理方面,不再是简单的层次管理和个人信息记录等,而要求图书馆员的服务帮助等建立评价体系等,使服务更加的完善,从而激发馆员的工作热情,提供信息交流的平台,提高其业务能力,为广大读者提供不同的服务。
利用统计分析、逻辑回归、决策树、粗糙集分类、BP神经网络等多种算法,通过对用户的行为、兴趣等分析,将用户的个性化需求与系统的服务平台结合起来,为每个用户提供更有针对性的服务,提高图书资源的利用效率。
由于社会信息化过程中各个系统、软件及数据库之间关联性差,而造成的数据共享性差,无法实现资源共享模式而导致系统效率低。各高校图书馆都有大量的数字化资源,如馆藏图书、全文期刊数据库、学位论文数据库等。如果能进行有效的数据交换,可以极大地拓宽各个高校的数字资源服务平台。这个过程就需要Web资源共享技术,结合数据挖掘等技术手段实现图书馆服务平台性能的高效化。综合Web数据的特点,在短时间内可以处理大量数据,时间动态变化等情况,将Web数据挖掘技术应用于图书馆服务平台建设中非常合适。
图书馆的数字化程度越来越高,通过数据挖掘技术为图书馆服务平台提供技术支持。通过信息的整合,主动发掘各种读者的阅读需求,满足读者的不同想法,有利于信息多元化的发展。每种数据挖掘都有各自的特点和方式,对于Web数据挖掘技术也是如此,整个过程是一个相当复杂的算法处理的过程。这一过程是人机结合、处理循环、逼近目标、知识发现的过程,包括了数据的收集、整理、挖掘等,同时,不是简单地单次模式,而是一个循环迭代的工作模式,也只有这样才可以使其实现最终的要求。
完整的数据库是数据挖掘技术应用的基本条件,数据库的建立一般采用常用的数据库建立手段,将可以用于决策的海量数据信息从操作环境中取出来,形成独立的数据资源体系。在图书馆服务平台中的数据库和传统的数据库是有有所不同的,其更加强调系统的集中性、统一性。数据库是决策系统的基本组成单元,是管理信息的基本元素,数据库提供了整理处理后的数据,给决策者提供信息保障,并通过这些数据完成决策。所以建立数据库对于图书馆服务平台的数据挖掘是很重要的。
在目前绝大部分图书馆中,都已经采用完整的图书卡借阅模式,在高校的图书馆中更是常见,如校园一卡通等。这种形式非常适合收集读者的各种信息,包括读者的个人简介信息,借阅数据等。在借阅过程中,以身份、书籍类型、借阅时间作为主要的分类方式,定义一个3维度的数据空间,建立数据表收集信息。维表上对应记录着对应维度的信息,用于查询对应的约束条件,通常是离散分布的,不具备可加性。由于要记录的数据量大,所以一般采用多维数据的记录形式,这样可以更好地实现多维数据的记录、分析、处理等。多维数据结构普遍采用星形模式,对于星形模式而言,由事实表及维表通过星形结构连接成,其中,事实表存储有借阅数据信息,用于查询和分析。因为数据取值一般是可以度量的,并且具有可加性的,同时数据信息量很大。与此同时,借阅数据的信息可通过多个维度获得,每个维度都可以产生相应的维表。
在数据库星形工作模式建立完毕以后,就可以数据聚集了。数据聚集是数据库的重要组成部分,可以用于分析对应应用的需求关系,与事实表及维表都有着紧密的关系。
创建数据聚集的方法如下:
(1) 在各个维向上分析需要聚集的属性数据,以时间作为横轴,图书种类作为纵轴,依据借阅人的身份特征(例如是学生、老师等) 建立对应的数据聚集。
(2)组合不同维的属性。数据聚集后,分析、查询的过程都是复杂的,所以数据库的资源数据都很大,所以需要建立索引从而提高数据库的访问能力。只有在明确数据库体系及其结构的基础上,完成数据模型的设计才能实现对后续问题的预处理。也就是需要对事实表及维表中的数据流进行分类、净化等处理。数据库经建设后还需要定期的维护。
(1)数据的预储存。对采集得到的数据首先需要进行预处理,包括净化、识别、路径补充等。在本文设计的Web数据挖掘方式基础上,采用的预处理主要是只收集数据资源的记录信息,这样保证了数据的完整性,同时又不需要在收集过程中占用大量的时间,在建立数据库的过程中再根据需要从中获取相应的数据信息,结合IP地址信息实现网站的拓扑结构,从而实现联机采集的效果。
(2)数据的算法。挖掘数据是一个长期、动态的工作过程,对于不同的数据而言,需要不同的数据挖掘处理算法。例如有滑动窗口模型(针对最近时间段的数据进行处理)、定期抽取模型(按固定时间进行采集的方式)、特征时间模型(按特定时间进行采集的方式)等。利用分类、聚类、关联等算法对资源进行整合,将数据中近似的、相近的、相关联的提取出来。
(3)模式的构建。通过分类、聚类、关联的方法进行模式的自组织。分类通过分类模型实现,利用分类函数获得类别信息,分析相应的公共属性,分类后可以通过类型特征进行聚类。聚类可以将Web数据库中存在相似属性的用户资源相关联,同时分析他们的相似性,找出共同特性,从而更好地掌握用户的需求。最后,由关联规则完成用户对网站上各种资源的相互关系,通过对规则的设定挖掘出用户的阅读趋向及规律,从而实现主动服务的高级功能。
(4) 整合资源信息。由于Web资源信息的多样性、广泛性,所以需要有合理的资源导航及检索能力,通过资源的发现、分类及标注功能完成资源的有效定位。通过资源的名称、URL地址、简介、关键词以及类型等特征信息,完成数据库的扫描检索功能。例如针对某个需要查找的内容信息进行检索,信息的特种特征越是具体,检索效果就会越好,这样才能实现检索结果的具体化,这需要在检索过滤方面采用相关技术进行有效地定位。在搜索过程中,应该存在细线条、深层次、大范围的搜索,找到用户需要的资源信息,随着特征的具体化而越具体,避免了造成搜索过程中产生大量的冗余信息。方便快捷地找到需要的搜索结果是用户的目的。根据对资源的不同请求情况,对资源实时分类,从而满足不同用户的信息检索要求,提供用户需要的文献服务。
图书馆资源服务平台是根据读者用户所提出的问题在传统功能的基础上改进、更新的服务方式。虽然具有网络化的新功能,但是需要建立在原有信息资源的基础上,同时结合读者用户的各种需求。利用Web数据挖掘技术,对数据的分析提取、整合聚类、综合整理完成相应的功能模块。为了实现对应的应用功能,形成易于理解、操作简洁的用户数据检索形式,充分体现数据资源有效性,需要在了解掌握传统数据库工作机理上添加Web数据挖掘的相关功能。实现Web资源平台的方法是以分类为基础,将各种不同的资源信息离散化,将分类完毕的资源信息利用决策树等算法手段,把读者用户的阅读请求及目的抽象出来,发给图书馆综合服务平台,同时,服务平台会根据不同的请求,建立新的链接及提供原始服务,依据分析算法实现挖掘结果的附加服务。
读者用户是资源使用者,是资源对外服务的载体,是资源沟通的桥梁。图书馆资源是否能方便地使用和资源服务方式方法有着密切的关系,因此设计较好的可视化的信息服务平台是优化的一个重要方面。除可视化服务平台外,还需要制定一些服务策略,提高扩大读者用户的被服务范围。主动分析读者用户的需求,利用信息资源的优势,提高数据服务的综合质量及效率,从而体现数据时代数据挖掘的特色。
本文通过采用Web数据挖掘技术设计了一种更利于读者获取所需信息的工作模式。系统通过对样本库的分类分析,将分类后的相应数据进行处理,从而构建了基于Web数据挖掘的图书馆服务平台。数据库是数据挖掘的基础,在完成了数据收集、处理、存储等工作的基础上,数据挖掘技术实现了知识的特征提取,最终达到图书馆服务平台功能的提升,使其能够充分地发挥数据信息的力量。
[1]李征.云计算在图书馆建设与信息服务中潜在价值探析 [J].大学图书馆学报,2011,(1) :59-62,82.
[2]姚玉阁.浅析数据挖掘技术[J].信息与电脑,2010 (11):115.