熊 燕
(怀化学院图书馆,湖南怀化418008)
近年来,随着信息技术、通信技术和计算机技术的迅速发展,数字化成为图书馆发展的主要方向。但是,拥有丰富信息的数字图书馆极容易陷入“数据丰富,但信息贫乏”的局面,因此,图书馆有必要加强对信息的处理能力以及对资源的组织能力。数据挖掘技术可以帮助人们对海量信息进行深层次的开发,提取表面上庞杂无序的信息的内在联系,从而推动图书馆的数字化进程。
数据挖掘 (Data Mining,简称DM),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。数据挖掘能够对过去的数据进行查询和遍历,对将来的趋势和行为进行预测和发现。它是知识发现中的核心工作,主要研究发现知识的各种方法和技术。数据挖掘所得到的相关信息,具有未知、有效和实用三个特征。
数据挖掘的过程可以分为以下五个步骤[2]:
(1)数据准备:了解相关领域的有关情况,熟悉相关的背景知识,弄清用户的要求,定义要挖掘的目标;
(2)数据提取:根据用户的要求从数据库中提取相关的数据;
(3)数据预处理:对提取的数据进行再加工,对丢失数据进行填补,对噪音数据进行处理;
(4)知识提取:运用选定的知识发现算法,从数据中提取用户所需要的知识;
(5)知识评价:将提取的知识以用户理解的方式呈现。
此外,还要根据实际执行情况对具体的知识发现处理阶段进行优化,直到满足用户的要求。
数据挖掘的方法按功能可分为两大类:描述性分析和预测性分析。描述性分析用于了解系统数据实际存在的特性,为预测做准备;预测性分析是在前者得到结论的基础上对系统的发展进行估计,得到最终需要的结果,为决策者提供依据。典型的数据挖掘方法主要包括以下几种:
分类分析的主要功能就是建立一个分类函数或分类模型,根据数据的属性,利用数学方法确定数据的类型,将数据分派到相关的类中。分类分析预先设有一个数据库和一组具有不同特征的类别,通过分析数据库中的数据,对每个类别建立分析模型或挖掘分类规则,使用这个分类模型或分类规则对未来的测试数据进行分类。在分析测试数据之前,根据预先定义好的类,构造一个分类函数,再把具有某些特征的数据映射到预先定义好的类上。
聚类分析是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的技术[3]。与分类分析法不同,聚类分析法预先设定的数据库中没有进行任何分类,只是把数据按照相似性归纳成若干类别。聚类分析法还可细分为直接聚类法、最短距离聚类法和最远距离聚类法。聚类分析可以发现数据的分布模式以及数据属性之间的相互关系,是概念描述和偏差分析的先决条件。
若两个或两个以上数据项的取值之间存在某种规律性,就称为关联[4],可以建立起这些数据项的关联规则。在大型数据库中,这种关联规则是很多的,一般用“支持度”和“可信度”两个阈值来度量关联规则的相关性。关联分析的目的就是利用关联规则挖掘隐藏在数据间的相互关系,识别特殊类型的数据关联模型,生成所有具有用户指定的最小置信度和最小支持度的关系规则。
序列分析是指通过时间序列搜索出的重复发生概率较高的模式[5]。时间序列模型分为时间序列平滑模型和时间序列分解模型。序列分析法不是研究数据之间的数量关系,而是研究预测目标与时间过程之间的演变关系。序列分析的预测过程是:根据有序数的集合进行规律分析,选出拟合该时间序列的最佳数学模式,然后利用该模式进行未来的预测,同时还要计算出预测结果的误差分析,做出关于未来趋势发展的解释。但是,序列分析法不能预测事物发展的突变,一般也难以预测事物发展趋势的转变。
偏差分析的目的是找出正常值范围之外的数据,识别异常数据的关键是要有一个能够准确体现正常数据集的挖掘模型,作为其它数据的比较标准。例如,发现黑客行为或网站漏洞的一个方法,就是看用户是否偏离逻辑路径。通过发现异常,可以引起人们对特殊情况的加倍注意。偏差分析的一个重要特征就是它可以有效地过滤大量的不合适的模式。
预测是指采集历史数据并用某种数学模型对未来数据的种类及特征进行预测,它可能是只考虑了一种可能性的简单预测,也可能是考虑了所有各种可能性的复杂预测。数据挖掘自动在大型数据库中寻找预测性信息,根据时间序列型数据,自动地提出描述重要数据类的模型。
回归分析是一种典型的预测法,它利用大量的历史数据,以时间为变量来近似地确定变量间的函数关系。回归分析根据变量数量可分为一元回归分析和多元回归分析,根据函数关系可分为线性回归分析和非线性回归分析。分类也能进行预测,但分类一般用于离散数值,回归用于连续数值。通常线性回归分析是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
各种方法有其自身的功能特点以及应用领域,不同方法的选择还会影响结果的质量和效果,因此,在进行数据挖掘时,通常是将多种方法综合运用的。
数字图书馆利用数字技术对分散于不同载体、不同地域的海量数字化信息资源进行组织和管理,并且以网络化的方式将这些信息互相联结,使信息用户可以不受时间和地域的限制,在任何时间和任何地点,通过网络查询和检索信息,从而满足用户的信息需求,最终实现信息资源的共享。目前,网上数字图书馆越来越多,数字图书馆的数据挖掘和知识发现研究具有较大的实用价值。数据挖掘技术在数字图书馆中的应用为数字图书馆的信息服务提供了技术支持,并显示出强大的生命力。
数字环境下信息资源的品种和数量急剧增加,采用数据挖掘技术可以在经费有限的情况下,广泛搜集信息需求,聚集用户智慧,科学采集、优化配置各类信息资源,具体方法有:(1)按类统计信息资源的利用率,对传统的文献资源可统计流通记录、检索请求等,对数字信息资源可统计点击率、下载篇数、登录次数等,通过分析对馆藏的优化配置提供合理化建议,及时剔除利用率较少的信息资源;(2)运用关联分析法统计用户的借阅信息,发现各类文献之间的关联规则或比例关系,有针对性的补充和丰富信息资源;(3)用户的兴趣模式会随着需求不断变化,采用数据挖掘技术,可以预先感知用户群体兴趣的变迁,提前做好信息资源的采访工作[6]。
传统的图书馆参考咨询服务主要是针对用户提出的检索任务和信息需求,利用手工或半自动的方式,向用户提供具体的文献、文献知识和文献线索。随着现代化技术的发展,参考咨询服务向对数字资源系统中的信息内容进行深层次地挖掘和分析方面扩展,例如提供网络资源导航、编制专题数据库等。数字图书馆在提供基于语义的自然语言智能检索的同时,具有基于文本的知识挖掘功能,提供基于概念的智能检索。此外,语音识别技术、图像识别技术、对时序数据采取关联检索技术等多种信息检索手段,大大提高了咨询服务的效率和质量。
随着数字图书馆的不断发展,其数据种类迅速扩大,数字资源也越来越多,包括各种电子期刊、电子图书、光盘数据库、多媒体数据以及海量的Web数据,采用数据挖掘技术可以实现上述信息的自动化处理。信息处理自动化是围绕信息有序化而采取的实现技术,主要包括:(1)自动标引技术,即根据标题、文摘或全文等信息,借助一定的算法自动给出反映文献主题内容词汇(关键词、主题词等)的技术;(2)自动分类技术,即利用计算机分析信息 (文献)内容,并为其自动聚类或赋予分类号的技术;(3)自动文摘技术,即计算机通过“阅读”全文,采用一定的处理技术和算法,抽取文中主题句构造出文献文摘的方法[7]。
读者分类研究包括读者的分类、读者的属性和特征分析、读者满意度分析、学科交叉分析及学科发展方向预测等。开展对读者的分类研究是图书馆实现定向服务的重要途径。数据挖掘中的分类模式用于提取能代表群体的特征属性,数字图书馆可以建立一个对读者情况进行详细描述的数据仓库,利用数据挖掘中的分类技术,把读者群体按照年龄、学历、职业等因素进行细分,针对不同层次读者的特点,采取相应的服务措施。
信息需求是信息心理的一个主要内容,是信息行为产生的前提和基础,是开展信息服务工作的根本目的。信息需求具有一定的复杂性和随机性,不同用户之间存在着明显的个体及群体差异,但是,同一类型用户的信息需求在学科内容、类型属性、服务形式等方面却存在着某些共同之处,具有有序的层次结构,图书馆可以以用户信息需求为出发点,建立一系列相关规则[8],提供如下需求服务:(1)集成化服务,即根据用户的需求,将学科范围内原本离散的、多元的、异构的信息资源链接成一个整体,在保证较高专指性的情况下找到用户所需的信息;(2)知识服务,即从用户研究领域及相关领域的专业知识中提炼出对用户的研究、开发与创新有用的“知识精品”;(3)个性化服务,即分析用户信息访问过程,保证对用户决策过程的跟踪和全面信息服务。
时间序列,是将某一事物 (或现象)所发生的数量变化,按时间先后顺序排列,用于揭示该事物 (或现象)随时间变化的规律。时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。数字图书馆可以利用时间序列模式,以月度数据作为分析的基本数据跨度,从流通数据库中挖掘出流通量的变化规律与影响因素,在人力资源和图书资源有限的情况下,为流通部门日常工作的安排提供科学的参考数据。
数据挖掘技术在数字图书馆领域中的应用还处于起步阶段,但是,它的应用已经给图书馆带来了巨大的社会效益和经济效益,并且在数据组织、数据分析和知识发现等方面显示出了强大的发展潜力和广阔的应用前景。我们相信,数据挖掘技术必将成为数字图书馆建设不可或缺的技术支撑,并在其中发挥关键性的作用。
[1]邵峰晶,于忠清.数据挖掘原理与算法 [M].北京:中国水利水电出版社,2003.
[2]Han Jiawei,Micheline Kamber.范明,孟小峰译.数据挖掘概念与技术 (原书第2版)[M].北京:机械工业出版社,2007.
[3]姜园,张朝阳,仇佩亮,等.用于数据挖掘的聚类算法 [J].电子与信息学报,2005,(4):655-662.
[4]郭佳慧.数据挖掘技术在数字图书馆中的实现 [J].农业图书情报学刊,2008,(9):36-38,49.
[5]李默.基于Web的数据挖掘技术在数字图书馆中的应用 [J].大学图书情报学刊,2007,(4):44-46.
[6]周军.基于数据挖掘的数字图书馆个性化服务系统的构建 [J].图书馆学研究,2007,(3):15-17.
[7]高巨山.数字图书馆构建中的数据挖掘应用研究 [J].图书馆工作与研究,2009,(4):20-21.
[8]李志明,胡森树.数据挖掘及其在现代化图书馆中的应用 [J].图书馆学研究,2006,(6):39-41.