李玉兰
(五邑大学 广东 江门 529020)
高校是培养社会所需高素质人才的基地,而高校图书馆是人类文化传承和创新的基础性设施,在中国先进文化建设方面具有重要作用。但近年来高校因连续扩招,学校规模快速扩大,在校人数众多带来对馆藏图书需求很大变化,不仅数量需求增加,而且图书种类也向多样化发展,图书馆的价值不再仅仅以其所拥有的馆藏图书档案的数量来衡量,而是以它为用户提供各种形式的信息的能力和质量来衡量,在高校连续扩招形式下,如何利用目前有限的人力、经费资源,为在校师生提供高质量的服务,是目前高校图书工作者需要认真研究和解决的一个重要课题。
网络技术的发展为传统的图书管理带来新的技术手段,国内大多数高校的图书馆都采用图书管理信息系统,实现了图书馆业务的计算机管理和网络化查询服务。在长年的使用过程中,计算机系统积累了庞大的数据资料,以往,这些数据资料仅仅作为记录凭证供查询使用,发挥的功能非常有限。而随着信息技术的发展,数据挖掘技术[1]与计算机强大的处理能力有效的结合,使我们一窥海量数据背后的秘密成为了可能,也为档案管理者提高管理水平提供了新的机会。引入数据挖掘技术,图书馆管理信息系统中海量的数据就不仅仅用于事务查询,最主要的是发现数据背后隐藏的潜在需求,从而为图书馆的图书归类、图书采购、图书分配、及图书摆放提供更加科学的依据。[2]
数据挖掘(Dat a M i ni ng)是一种新的信息处理技术,其主要特点是对单位、企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,以从中提取辅助管理决策的关键性数据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识。随着信息化的普及和数据库的广泛应用,很多大型企业事业单位积累了数百亿字节的数据,分析利用如此海量的数据,是数据挖掘技术的用武之地。数据挖掘和数据分析最大的区别在于,数据统计分析是通过一定量的数据来验证事先的假设,而数据挖掘则是从大量的规则的数据当中通过科学的方法来发现其中的关联,从而得出某种“出人意料”的结论。在经济管理领域,数据挖掘技术在争取与保留客户、交叉销售、趋势分析与市场预测、欺诈检测与风险防范等方面的成功应用令人鼓舞。自20世纪90年代后期,图书馆开始高度关注并研究数据挖掘技术,并致力于将其引入到图书馆的现代化建设中,有不少图书馆学专家提出了面向图书馆的数据挖掘技术应用理论与方法[3]。
数据挖掘的主要任务包括:
1.分类。分类分析就是通过分析样本数据库中的数据,为每个类别做出准确的描述,或建立分类模型,或挖掘出分类规则,然后用这个分类规则对其他记录进行分类。分类模型也可用于预测,根据已经分好类的资料来研究它们的特征,然后再根据这些特征对其他未经分类的或是新的数据做预测。
2.聚类。聚类是把一组个体按照相似性归纳成若干类别。聚类将没有分类的记录,在不知道应分成几类的情况下,按照数据内在的差异性大小,合理地划分成几类,并确定每个记录所属类别。聚类的原则是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
3.关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,关联规则挖掘的一个典型例子就是购物分析,通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯,从而为零售商制定营销策略提供支持。
4.预测。预测是根据对象属性之过去观察值来预测该属性未来之值。数据挖掘自动在大型数据库中寻找预测性信息,一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。
数据挖掘的常用方法包括:
1.人工神经网络:人工神经网络是模拟人类的形象直觉思维、是在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的方法,用神经网络本身结构可以表达输人与输出的关联知识。它完成输入空间与输出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定结构来表达的,没有显式函数表达。
2.决策树:决策树是一种典型的分类算法,可以得到类似在什么条件下会得到什么结果的规则。比如,建立顾客决策树模型,进行市场细分,找出最有可能对促销宣传感兴趣的客户群。
3.遗传算法:遗传算法是基于达尔文的进化论中基因重组、突变和自然选择等概念。这些算法作用于对某一特定问题的一组可能的解法。它们试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛弃,从而导致解法的集合,即繁殖的结果得到改善。
4.近邻算法:近邻算法是将数据集合中每一个记录进行分类的方法,是最容易使用和理解的技术之一。近邻算法是以人们思维方式相似的方式作用—检测最近的匹配样本。相互之间“接近”的对象也会有相似的预测值。这样,如果你知道了其中一个对象的预测值,也就可以用它来预测它最近的邻居对象。
5.规则推导:规则归纳就是通过统计方法归纳、提取有价值的IF-TH EN规则。神经网络经常为人所指责的一点是它只能给出学习模型的一个黑盒表示,而基于规则的数据挖掘技术则可以给出模型的生成规则描述。这些规则是通过使用某些统计方法对数据集合进行分段而生成的。通常包括有导师算法和无导师算法。
图书馆用户是指利用图书馆信息资源及信息服务的一切个体或群体。图书馆用户资源是图书馆在长期的信息服务过程中逐步形成的,是图书馆服务能力在社会关系体系中的呈现。通过数据挖掘技术,对用户数据进行分析,真实反映用户的行为特征和属性。通过对用户信息的统计和分析,明确用户信息需求和服务需求,划分用户群,针对用户个性化需求,制定出图书馆相应的信息资源建设和服务策略,实现与用户服务活动相关的所有信息的集成。通过对用户行为特征的整理和分析,能广泛地从用户信息中发现能够反映其信息与服务需求特质的模式或模型并进行相关用户的规模化分类与聚类,并据此进行各种推理和分析,为图书馆决策和服务行为提供客观依据。
数据挖掘技术的应用,拓宽了图书馆信息服务的范围,增加了信息服务的项目,使图书馆的信息服务变得更加主动,大大提高服务质量。利用传统的检索方式在越来越大的信息数据库进行定题情报服务难度也越来越大,对于无序的或者排序不规范的电子信息还要在不同的操作平台进行切换。利用数据挖掘技术可以整合各种类型的数据,将纸质的图书和不同操作平台的电子版的信息,通过四种规则为读者提供一个统一的数据平台,会大大提高读者检索的命中率。
图书订购是图书馆采访部门的主要工作,它是图书馆工作链的开端,也是现代化图书馆资源建设的开始。图书馆每年的图书采购费用是有限的,各门学科之间如何分配、各种文献载体形式如何均衡才能使这些经费最好地发挥效益,这是一件令人头疼的事。随着出版物的数量日益增多,载体日益丰富,高校图书馆信息结构、读者需求与资金利用的平衡问题越来越不易把握,也令采购工作的决策变得更加复杂。数据挖掘技术可以对流通数据库和采访数据库中的历史记录数据进行关联性分析和序列分析,可以轻松地统计出图书文献的频繁借阅集合,科学分析各类文献的利用率,为采购文献提供科学合理的各种分析报告及预测信息,从而指导采访人员对文献种类进行科学地筛选[4],合理地确定各种文献所需的复本量,及时补充短缺的文献,剔除过时的文献,帮助采购人员确定采购重点,保障图书馆信息资源体系的科学性和合理性。
运用时间序列挖掘方法,可以从流通数据库中挖掘出流通量的周期性规律,分析读者借出图书流通的高峰期和低谷期,借此可以科学安排流通部门的全年和每天的工作,在人力资源、图书资源有限的情况下,为读者提供更多更优质的服务,为流通部门日常工作的安排提供科学的参考数据。例如,对于全年的高峰期.可以集中精力致力于读者的流通服务;在低谷期,除了日常借阅流通服务外,可以安排一些图书整理、读者培训和业务学习之类的工作,而不像过去那样盲目地浪费时间和资源。
数据挖掘作为方兴未艾的信息技术之一,由于其在数据组织、分析和知识发现及信息深层挖掘等方面体现出的强大优势,在图书馆领域的应用前景极为广阔。随着硬件环境、挖掘算法的改进、应用的普及和经验的积累,数据挖掘技术在图书馆的应用必将取得长足的发展与进步。
[1]安淑芝,《数据仓库与数据挖掘》,北京:清华大学出版社,2005.
[2]张金艳,王煌,《数据挖掘技术在图书馆中的应用展望》,载《桂林航天工业高等专科学校学报》,2005年第2期.
[3]魏育辉,潘洁,《图书流通数据的关联挖掘量化分析》,载《现代情报》,2005年第11期.
[4]张存禄等,《数据挖掘在图书采购中的应用》,载《情报科学》,2004年第5期.