洪碧云
摘要: 关联规则分析是当前数据挖掘研究的重要模式之一,可以定量地处理图书馆学领域中各类优化问题。本文在简要介绍关联规则分析的基础上,从流通信息、个性化推送、文献计量、信息检索等方面总结了关联规则分析法在国内图书馆学领域的应用。
关键词: 关联规则分析数据挖掘数字图书馆
近年来,数据挖掘(data mining,也称知识发现(knowledge discoveryin databases,简称KDD),受到当今图书情报领域的广泛重视,其主要目的就是设计算法,用于从海量数据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是数据挖掘研究中的一个重要的研究课题。
1.关联分析规则基本原理
Agrawal等人(1993年)[1]最先发现了顾客交易数据库中的项集间存在关联规则,其核心方法是基于频集理论的递推方法,它侧重于确定数据中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为:
、
此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算法优化[2]、多层次关联规则算法[3]、多值属性关联规则算法[4]等,以提高算法挖掘规则的效率。
关联规则的挖掘一般可分成两个子问题:①找出所有支持度≥最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易,它在第一步的基础上很容易实现,因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大,所以算法的效率是关键。
2.关联规则分析在国内图书馆学领域的应用
关联规则分析经过十几年的发展,目前已经在各个领域广泛应用。从国内已有的研究成果来看,国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用,并针对不同主题进行了一系列的探讨和研究,涉及的主题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。
2.1在流通信息统计中的应用
在读者日常借阅记录事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据长期的读者借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联,不同学科之间也存在着关联,以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标,更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的,这些因素不仅包括馆藏图书种类和数量的多少、借阅方式的差异、读者群体的大小、借阅权限的区分,而且包括由于读者个体间的差异和不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然,在上述复杂而又相关的各因素中,既有大量已知信息,又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息,又含有未知的、非确知的信息,实际上是一种灰色系统[5]。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则,其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布,不仅可以帮助师生的学习教研工作,甚至可以发掘不同学科间的隐藏联系[6]。
珵继华[7]等认为多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。
聂珍[8]在分析单数据库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM,使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集,并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。这样可使算法的效率得到提高,改善了内存的使用率。
2.2在个性化推送中的应用
未来图书馆的发展趋势是数字化的,然而目前,国内图书馆技术与应用基础薄弱,起步较晚,网络个性化服务发展更是滞后,其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力,学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。
图书推荐服务是图书馆个性化服务的一种,在图书馆巨大的馆藏资源中,每个读者感兴趣的只能是其中的一小部分,如何高效率地找出对读者有用的书目是图书馆学要研究的问题[9]。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特定需求,向用户提供满足其个性化需求的信息内容和功能的一种服务[10]。
鲍静[11]运用Apriori算法通过对读者借阅数据的关联挖掘,挖掘出各年龄层次、各职业、各学历层次及不同职称的读者对图书馆图书资源利用的关联规则,并引入兴趣度,对挖掘出的关联规则做进一步分析,分析正相关关联规则、负关联规则,并根据兴趣度来分析规则的有效性,提出了基于关联挖掘的读者个性化服务模型,由借阅记录数据库、数据挖掘引擎、图形用户界面、匹配器、规则库等部分组成。
韩开来[12]等利用读者五年内书籍的借阅数据,在Apriori关联挖掘算法的基础上,对事务集中每个项集按每个项的最小支持度从小到大排列有序,最小支持度的值采用根据每个项的值结合用户指定的最小支持度上限和下限来计算。针对新书推荐特点,采用新书推荐关联规则挖掘隐藏在借阅历史数据中的有价值的信息。为个性化服务平台的构建打下基础;转换图书馆的服务模式,由被动转为主动,建立以读者为中心的个性化服务体系。
2.3在文献计量中的应用
在文献计量学的研究中,通常需要通过定量分析以确定核心期刊、核心作者、核心情报源等等。对最优目标或某种具体要求的量化数据列,即标准数据列或最优数据列,来源一般有两种方式[13],一种是人为指定,另一种是从被分析的项集合的指标值中选取最优值。用关联分析法进行处理,相较其他方法具有更为广泛的适用性,只要是由某些指标数据来对目标项或要求进行优化排序的均可用此法。方法简单,原理直观明了,计算量较少,对指标因素无任何限制,因此应用广泛。
科学文献的编排格式为文献计量学提供了可统计的外部特征。邹常诗[14]从引文、关键词、分类号等外部特征入手,采用文献计量方法分析了文献的关联性——相关文献群和相关著者群,并阐述了两个相关群的实际应用。
杨代庆等[15]分别从合著者、共关键词、共引三个角度对来自于万方数字化期刊群、SCI、EI的院士期刊文献进行关联性分析,通过期刊及院士作为媒介,最终映射到学部之间的关联关系。根据生成的关联图从关联广度、关联孤立性、关联强度分析了学部之间的关联程度及原因,并揭示了作为合著者的外部文献特征与作为关键词、共引的内容特征在学部关联性上的差异。
曹志杰[16]等提出了基于共词分析的隐性关联知识发现方法,用于发现这些尚未被发现的联系或复现这些被主观隐藏的特定联系,揭示出技术发展动向,以提高情报研究质量和情报工作地位。
徐慧[17]等利用频数统计、关联规则算法,对中国中医药期刊文献数据库中1984~2007年病毒性心肌炎文献涉及的主题词和副主题词进行分析,抽取隐含规律,为病毒性心肌炎的临床诊疗及科研提供思路。
2.4在信息检索中的应用
金玮[18]等针对Web信息检索系统在海量数据下的服务质量和效率问题,讨论了数据挖掘技术在Internet信息检索中的运用,在经典的关联规则算法研究基础上,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARMLL用于提高Web信息检索质量。实验结果表明该算法是可行的,有较高的效率。
黄名选[19]等以关联规则挖掘技术的发展为主线,将目前的研究方法归纳为五类:项无加权关联规则挖掘、项加权关联规则挖掘、项完全加权关联规则挖掘、负关联规则挖掘和增量挖掘,对这五类挖掘技术进行整体性阐述和比较性研究,指出了挖掘技术的局限性。
刘俊熙[20]认为搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,对搜索引擎的相关技术(搜索技术、索引技术、检索技术和接口技术)进行关联分析。
于春[21]等介绍相关性是信息检索科学的核心概念,用户观点则是相关性研究的主要观点;从用户角度研究相关性理论,以试验法为研究方法,力图证明存在一个核心的、可以跨不同用户类型、问题情境和信息源环境的关于信息用户在信息需求检索中的相关性判断的因素集,以此阐述如何提高信息检索的准确率,指导信息用户能够及时、准确地查找到所需信息。
2.5其他方面
除以上几个方面外,关联分析还应用在图书馆学领域的诸多方面。有的学者运用灰色关联度分析法对所调研图书馆读者满意程度进行对比分析,并进一步对读者满意度评价指标进行灰色关联分析,得出影响图书馆读者满意度的主要指标[22]。还有学者将关联规则分析应用在期刊评价、馆藏建设、专利分析等方面。
3.关联规则分析在国内图书馆学领域应用的总结和思考
从关联规则分析在国内图书馆学领域应用的文献数量来看,国内学者越来越重视这种分析工具的应用。从近年来文章的主题来看,关联规则分析在国内图书情报领域应用的研究主要集中在以下几个方面:(1)在流通信息统计中的应用;(2)在个性化服务推介方面的应用;(3)文献计量分析;(4)信息检索方面的应用;(5)读者满意度满意度评价,此外还包括期刊评价、馆藏建设、专利分析、编目规则、文献采访、学科馆员选拔、知识管理和竞争情报等。
通过对国内研究的分析,可以看到该主题的研究越来越丰富,应用越来越广泛,既有理论研究,又有实践探讨。但是同国外相比,国内的理论探讨不够深入,实证研究相对比较少,因此不论从理论还是实践上都需要向国外借鉴和学习。
参考文献:
[1]Agrawal R,Srikant R.Mining association rules between sets of items in large databases[A].Prco ACM SIGMOD Intl Conf Management of data[C].Washington DC, May,1993:207-216.
[2]Agrawal R,SrikantR. Fast algorithms for mining association rules[A].Prco 20th Intl Conf Very Large Database[C].Santiago,Chile,Sept,1994:487-499.
[3]Srikant R,Agrawal R.Mining generalized association rules[A].Proceedings of the 21th International Conference on Very Large Databases[C].Zurich,Switzerland,Sept,1995:407-419.
[4]尹阿东等.基于数值属性的关联规则挖掘算法[J].微机发展,2003(4):67-70.
[5]高波.对高校图书流通的灰关联法分析[J].辽宁师范大学学报(自然科学版),2001(03):327-330.
[6]王磊,刘东苏.关联规则挖掘在图书馆信息服务中的应用[J].情报杂志,2008(2):154-158.
[7]珵继华,施鹏飞.多层关联规则的有效挖掘算法[J].软件学报,1998(12):937-941.
[8]聂珍.分布式多层关联规则在图书流通优化中的应用[J].科技情报开发与经济,2008(22):1-3.
[9]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2006(1):32-34.
[10]马文峰.数字图书馆个性化信息服务检索[J].图书馆杂志,2003(4):65-67.
[11]鲍静.关联规则挖掘及其在图书流通数据中的应用研究[D].合肥工业大学,2007.
[12]韩开来.关联规则在图书馆新书推荐中的研究[J].科技信息,2008(6):10-13.
[13]李荫涛.关联分析法在情报学中的应用.情报理论与实践,1990(1):5-8.
[14]邹常诗.科学文献计量分析与文献关联性研究[J].情报资料工作,2000(4):18-20.
[15]杨代庆等.从院士期刊文献对学部关联度的挖掘探索[J].情报杂志,2009(8):26-29.
[16]曹志杰,冷伏海.共词分析法用于文献隐性关联知识发现研究[J].情报理论与实践,2009(10):99-103.
[17]徐慧等.病毒性心肌炎主题词和副主题词关联规则分析[J].世界科学技术:中医药现代化,2009(4):593-596.
[18]金玮等.Web信息检索技术中关联规则挖掘算法应用研究.情报杂志,2007(01):39-42.
[19]黄名选,陈燕红.关联规则挖掘技术研究[J].情报杂志:2008(4):119-121,115.
[20]刘俊熙.搜索引擎的搜索、索引和检索技术的关联分析[J].图书馆学研究,2005(09):84-86.
[21]于春等.信息用户对信息检索相关性判断的因素分析.图书情报工作,2009(03):103-107.
[22]郑艳玲.灰色关联分析在读者满意度评价中的应用[J].情报杂志,2007(02):117-120.