福建中医药大学思想政治理论课教学科研部 吴 翔
数据挖掘技术在图书馆建设中的应用
福建中医药大学思想政治理论课教学科研部 吴 翔
数据挖掘技术在各行业都有广泛运用,是一种新兴信息技术。而图书馆作为一个海量信息的聚集点,数据挖掘技术对其建设有着重要的意义,数据挖掘技术以其在图书建设方面的良好的应用前景,引起了图书馆管理工作者的注意,本文,笔者介绍数据挖掘的概念,以此为出发点,对数据挖掘技术做出一个简单的诠释。数据挖掘技术包含了人工智能、数据库、统计学等学科的内容,是一门综合性的技术。这种技术的主要特点是对数据库中大量的数据进行抽取、转换和分析,从中提取出能够对使用者工作有作用的关键性数据。而挖掘技术用于图书建设中,可以让用户的学习和工作更加方便快捷,同时在图书馆自身的竞争力上面也能得到一步大的跨越。
数据挖掘技术的运用还可以对用户访问图书馆的目的、趋势和特征有一个充分的了解,以此为基础来改进图书馆的服务质量和为图书馆购书提供一个指标、一个标准,对图书馆的建设有着非凡的意义。
1. 为图书馆的工作提供决策管理和技术支持。如今用户的需求对图书馆的信息管理提出了新的要求。首先现在图书馆要处理更加复杂的信息,然后为使用者提供一个更为针对性的服务;其次要提供一个个性化的主动信息服务,让信息来找人,按使用者的需求提供服务。在图书馆的建设中,实现个性化服务的方式就是对使用者的信息需要、爱好以及访问历史的数据信息建立用户模型,并加以分析,并将此用于网上信息的排序和过滤,从而指导图书馆的服务,这些都是数据挖掘技术的优势;另外图书馆使用有大量的统计数据和表单,数据挖掘技术能够用这些数据和表单为图书馆的工作提供决策管理和技术支持。
2. 提高图书馆服务质量,优化馆藏结构。图书馆建设中,图书馆服务质量占有一个重要的位置,做好图书馆的服务工作,能使图书馆建设更加符合用户的要求。数据挖掘技术可以找到图书借阅之间的联系,让图书管理者对读者的需求有一个更加系统的了解,同时能够优化馆藏结构,对信息服务的提升起到一个促进作用,从而促进图书馆的建设。
1. 数据分类。数据挖掘技术通过对数据库中的数据进行分析,把数据按照相似性归纳成若干类别,然后做出分类,并能够为每一个类别都做出一个准确的描述,挖掘出分类的规则或建立一个分类模型。
2. 数据关联分析。数据库中的数据关联是一项非常重要并可以发现的知识。数据关联就是两组或两组以上的数据之间有着某种规律性的联系。数据关联分析的作用就是找出数据库中隐藏的联系,从中得到一些对图书馆建设中的管理工作有用的信息。就像是在购物中,就可以通过顾客的购买物品的联系,从中得到顾客的购买习惯。
3. 预测。预测是根据已经得到的数据,从而对未来的情况做出一个可能性的分析。数据挖掘技术能自动在大型的数据库中做出一个较为准确的分析。就像是在市场投资中,可以通过各种商品促销的数据来做出一个未来商品的促销走势,从而在投资中得到最大的回报。
数据挖掘技术融合了多个学科、多个领域的知识与技术,因此数据挖掘的方法也呈现出很多种类的形式。就目前的统计分析类的数据挖掘技术的角度来讲,光统计分析技术中所用到的数据挖掘模型就有回归分析、逻辑回归分析、有线性分析、非线性分析、单变量分析、多变量分析、最近邻算法、最近序列分析、聚类分析和时间序列分析等多种方法。数据挖掘技术利用这些方法对那些异常形式的数据进行检查,然后通过各种数据模型和统计模型对这些数据进行解释,并从这些数据中找出隐藏在其中的商业机会和市场规律。另外还有知识发现类数据挖掘技术,这种和统计分析类的数据挖掘技术完全不同,其中包括了支持向量机、人工神经元网络、遗传算法、决策树、粗糙集、关联顺序和规则发现等多种方法。
1. 图书馆建设中用户资源的管理。图书馆的用户是指使用图书馆信息资源的一切团体和个人,在长期使用图书馆的过程中逐步形成的,是对图书馆的社会关系体系和服务能力的一种肯定。数据挖掘技术可以很好地分析用户的数据,从中得到用户的属性和行为特征,明确得到用户的服务需求和信息需求。以此为基础把用户划分为不同的用户群,针对他们的个性化需求,进行相应的信息服务系统和资源建设,实现用户相关活动信息的集成。然后通过对用户属性和行为特征的分析推理,为图书馆的服务建设和决策提供一个客观依据。
2. 图书馆建设中的读者信息服务。图书馆在使用了数据挖掘技术后,能拓宽图书馆的信息服务的范围,增加信息服务的项目,让图书馆建设中的信息服务更加高效,且具有了主动性,在服务质量上大大地跨出了一步。随着现在数据库的信息量的不断增大和使用者越来越多,利用传统的检索方式来进行定题情报服务的难度不断增加,排序不规范或无序的电子信息还需要在不同的操作平台上做出切换。而在利用数据挖掘技术以后,就可以做到整合各种类型的信息和数据,将不同操作平台上的电子信息和纸质的图书资料通过四种规则给用户提供一个规范而统一的数据平台,这样大大增加了用户的检索效率。
3. 指导图书采购。图书的订购是图书馆建设的重要工作,主要归属于图书馆采访部门,它是图书馆建设工作的起始端,同时也是现代图书馆资源建设的开端。每年图书馆的图书采购经费有限,如何利用有限的资源进行各门学科之间的搭配以及各种文献载体的均衡就变成了一件让图书管理者为难的问题。而且现在的出版物数量也不断增加,各种资源载体也越来越丰富。这些问题让图书馆对结构信息的把握、资金的均衡利用更加为难,采购工作的难度不断加大。而利用数据挖掘技术可以进行采访数据库和流通数据库的历史数据进行序列分析和关联性分析,从而轻松地得到各种文献的利用率,为图书采购提供一个科学合理的报告和预测信息,进而指导图书采购人员对图书的采购,保障图书馆信息资源体系建设的合理性和科学性,从而对图书馆信息资源建设做出优化。
4. 分析借阅流量周期。数据挖掘技术可以运用时间序列的挖掘方向从流量数据库中找出流通量的周期性规律,从中分析出用户使用图书的低谷期和高峰期。在人力资源和图书资源都有限的情况下,以此可以对图书馆建设中流通部门的长期以及短期的工作做出科学的安排,为用户提供更加优质的服务。比如,在全年的高峰期时段,可以把图书馆的服务集中在用户的流通服务上;而在流通的低谷段,除了进行日常借阅的流通服务,还可以进行图书整理、业务学习、读者培训之类的工作。这样的做法能够更好地利用时间和图书馆资源。
数据挖掘技术在社会各行各业中都有一定程度的使用,基于其在数据组织、分析能力、知识发现和信息深层次挖掘的能力,在使用中取得了显著的成效。但数据挖掘技术中还存在着一些问题,如数据的挖掘算法、预处理、可视化问题、模式识别和解释等。对于这些问题,图书馆管理人员要予以清醒认识,并合理使用数据挖掘信息,使数据挖掘技术能够更加有效地发挥其作用。