【摘要】数据挖掘技术是一种基于人工智能的技术,数据挖掘技术在数字化图书馆中的应用提高了数字化图书馆的服务质量。文章介绍了数据挖掘技术的概念、分类和分析方法,从提高图书馆建设决策和提高信息的获取速度等方面分析了数据挖掘技术在数字化图书馆中的应用,并给出了数据挖掘技术当前面临的问题。
【关键词】数字图书馆;数据挖掘;个性化服务
数据挖掘技术在数字图书馆(Digiatl Libray)[1]个性化服务中的研究和实践是IT行业新起的一个交叉领域的研究。数据挖掘技术主要是依赖人工智能、模式识别、机器学习、数据库、统计学、可视化技术从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取不易为人知的但是有巨大价值的关联信息,是数据库中的知识发现的核心。数据挖掘技术主要分为数据整理、数据集成、数据筛选、数据转化、数据挖掘、模式评估和知识表达几个步骤。该技术的目的是从大量的杂乱无序的数据中自动分析数据,做出归纳统计,从中挖掘出潜在的模式,为用户提供价值信息。数据挖掘技术在数字化图书馆中的应用可以优化图书馆期刊的布局,提高效率节省资源。也可以为读者提供个性化服务,通过对读者借阅量的统计分析读者的周期借阅习惯,结合现有资源向读者推荐其喜好的图书,提高图书馆的服务质量。
1.数据挖掘技术及其分类
1.1 数据挖掘技术
数据挖掘是指从大量的表面上没有关系的数据中通过关键算法发掘隐藏在其中的关联信息的过程。为了能找到数据的变化规律以及数据之间的相互关系,从海量的数据存储中抽取模式、充分挖掘数据以及指导决策等各项工作,人们越来越迫切的想把数据分析转化为易于理解的知识。知识发现和数据挖掘技术正好可以满足我们的需要,为自动并智能地把海量数据转化成可用信息提供了坚强有力的手段,同时也在数据和知识之间的架起了桥梁[2]。
1.2 数据挖掘对象分类
数据挖掘技术按照挖掘的对象可以分为web数据挖掘、文本数据挖掘[3]和多媒体数据挖掘。
web数据挖掘可以分为:内容挖掘,是从web页面内容和后台数据库进行挖掘,从www相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息;web使用记录挖掘,通过挖掘网站上的日志信息和数据挖掘用户的偏好和行为模式,获取价值信息[5]。
文本数据挖掘是指当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程叫文本数据挖掘。
多媒体数据挖掘是基于多媒体数据的内容特征,以及这些特征的相关语义,从大型多媒体数据库集中、发现和分析出隐含的、有效的、有价值的、可理解的模式。它不同于web和文本数据挖掘,多媒体的数据是非线性结构的且特征向量维数不仅仅局限在二维空间。
2.数据挖掘分析方法
2.1 关联分析(association analysis)
关联是指两个以上变量之间的取值存在的规律性。关联分析法主要是挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。
2.2 聚类分析(clustering)
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,聚类分析用于分析数据的数据属性和分布模式及之间存在可能的相互关系。
2.3 分类(classification)
分类是一个类的概念,是类别的内在描述,把一个群按一定的原则划分为不同的類别。分类通常是用规则或决策树模式来表示的,它代表这类数据的整体信息,并通过描述来构造模型。分类可被用于规则描述和预测,它通过一定的算法利用训练数据集的方法得到分类规则。
2.4 预测(predication)
预测是指从大量的历史数据中找出变化规律并按照一定的算法建立数学模型,根据建立的数学模型来预测未来的数据的走势或者特征。预测的目的是对未知对象做预测,预测的结果有极大的不确定性,要通过一段时间的检验才能估算其准确性。
2.5 时序模式(time-series pattern)
时序模式方法也是依据现有的知识来对未来的对象进行预测,它是通过对时间序列分析找出的重复率较高的模式来进行预测。
2.6 偏差分析(deviation)
偏差中发现数据存在的异常是极为重要的,数据仓库中的数据存在很多异常情况,包括很多有价值的知识。找到观察结果与参照结果二者的差别是检验偏差的基本方法。
3.数据挖掘技术在数字化图书馆中的应用
3.1 提高图书馆建设的决策
资源采集和信息资源的采集数字化图书馆建设发展的基础,通过分析历史采购信息、资源访问信息、读者信息、读者反馈信息以及各个学科前沿发展和读者的需求,帮助采购人员确定采购重点。比如说为了更多的购进读者需要的书籍,给借阅需求高的用户更多的借阅机会。这样可以保障图书馆信息的合理性和科学性,以及采购资金的合理分布。
3.2 提高信息的获取速度
为了提高用户在使用时能快速获取价值信息的服务速度,可以用关联规则挖掘算法按照给定阈值匹配相似模式的信息,把其存在服务器的知识库上,当用户浏览某页时,网络代理根据规则预先连接其关联页,从而提高响应速度。
3.3 提供个性化服务
我们可以通过了解用户的特点和需求,采用数据挖掘技术,挖掘出来一些潜在的服务[4]来吸引用户,提高用户的使用满意度。并对一些特殊的用户进行特殊的服务。我们还可以通过挖掘用户的兴趣爱好,主动提供服务,使数字图书馆成为一个智能型、主动性的信息平台。
3.4 拓展服务形式
数据挖掘可实现信息服务质量的提升和业务的拓展。数字图书馆借助现代信息技术,不仅在于服务媒体和时空的转变,更重要的能够借助数据挖掘技术,完善其服务结构和提升服务水平。扩展的服务形式可以分为如下几种:
(1)通过用户按照自己的个人兴趣爱好设定信息类型和表现形式选取特定的系统服务。
(2)给用户提供信息推送服务,为用户提供实时的关注信息,运用推送技术来实现的一种个性化主动信息服务方式,推送技术又称“WEB广播”,它是通过一定的标准和协议,在Inetrnet上按照用户的需求,主动传送用户感兴趣的信息的一项计算机技术。
(3)通过信息智能代理服务方式自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。
(4)为用户提供虚拟咨询服务,可以通过电子邮件、留言版和实时聊天等形式向用户提供全方位的咨询服务,为用户提供专業的解答。
3.5 挖掘不同读者群的需求
通过数据挖掘关联规则挖掘出读者间的关系与特征。可以把读者按照性别、年龄、职业、爱好、地域等因素进行分类[6]。也可以通过聚类的方式对用户进行分类,通过对用户的分类以,可以更加容易地了解用户,掌握不同用户之间的需求,为不同群体提供不同的服务。
3.6 提高图书馆的服务水平
通过对关联规则和数据挖掘的方法的运用,我们更加清楚的了解了图书馆的服务流程,提高了决策水平,然后根据不足改进了服务流程,增强了图书馆的服务水平。
4.面临的问题
数据挖掘技术、方法、用户交互、系统性能和数据的多样性给数据挖掘技术的广泛使用带来了严峻的挑战,高效的数据挖掘方法、高集成的数据挖掘环境的建立、数据挖掘语言的标准化和数据的可视化等,都是当前面临的技术性问题。数据挖掘有关的,还牵扯到隐私问题,可以通过数据挖掘技术关联查到用户的一些个人隐私甚至是商业机密信息,所以必须要有相关的法律法规来规范其行为,否则一旦被某些不法分子使用,那么就会出现一些涉及保密、法律和伦理的问题。
5.结束语
数据挖掘作为一门前沿技术,尽管自身还在不断发展完善,还面临着许多问题, 但鉴于它在数据的组织、分析和知识发现等方面的巨大优势和潜力, 同时随着数据挖掘这一新兴智能信息处理技术的进一步完善和发展,深入研究数据挖掘与图书馆系统的有效结合可以使它在图书馆信息管理中发挥更大作用,而且我们有理由坚信数据挖掘技术必将在高校数字图书馆建设中发挥关键性的作用。
参考文献
[1]战春光.数字图书馆发展概述[J].晋图学刊,2003(2):19-20.
[2]王艳.数据挖掘在数字图书馆中的应用[J].情报科学,2003(2):211-214.
[3]冯研,王馨.国内图书馆数据挖掘技术实践应用进展分析[J].图书馆学研究,2011,10:2-4.
[4]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].科技情报开发与经济,2006(6):11-13.
[5]林彬煌.数字图书馆服务中的Web数据挖掘[J].科技创新与应用,2012,10:46-47.
[6]唐吉深.图书馆数据挖掘技术研究现状述评[J].图书馆界,2011(1):42-44.
作者简介:厍睿(1984—),女,辽宁人,西北民族大学硕士研究生,助理馆员,现供职于西安医学院图书馆文献建设部。