武汉大学图书馆 奚志红
大数据时代,在计算机、网络和生活中充斥着大量数据,政府机关、科研机构和企业的计算机和服务器中保存的文件及数据量成倍增长,用户其实是非常希望从自己拥有的这些数据信息中得到他们想要的有价值的信息。虽然每个企业、商业公司和高等院校等部门都积累了海量数据,实际上,只有很少一部分数据被利用来进行统计分析,也只是为了应付年度将相关数据上报到学校或者个人工作述职需要做得最基本统计工作。因此在很多情况下,数据量过于庞大,难于管理,或者数据结构本身太复杂了,不能进行有效的分析,因而信息用户面临数据丰富而知识缺乏的问题,迫切需要能自动高效率地从海量数据中提取有价值的信息数据处理新技术。
对于大量的、多样化的、快速化的丰富数据集的理解是几乎所有商业、科学、工程领域的共同需求,在这样的需求背景下,提取并利用隐藏在这些数据中的有用知识的能力变得越来越重要,数据挖掘技术就此应运而生。因此可以在原来传统的数据分析方法和技术基础上,利用现阶段比较成熟的处理大量数据信息的优秀算法和技术,两者结合起来处理数据信息,从数据中获得并发现有用的知识的整个过程,就称之为数据挖掘。
数据挖掘理论和技术是目前比较热门的、新颖的一个交叉性学科,它主要涉及统计学、人工智能、模式识别、机器学习以及数据库理论与技术等多门学科,数据挖掘自从它的概念诞生以来,在各大小研究学术机构和电子商务领域迅速掀起了数据挖掘的研究和应用的浪潮,其地位变得越来越重要,其应用也日益广泛。20世纪90年代初期开始,我国很多高校图书馆开始引进图书馆自动化管理系统,随着网络技术的成熟发展及技术推广,数字图书馆迅速发展,图书馆的各项服务在功能有了新的需求变化,图书馆在馆藏资源的查询借阅的服务中,每天会有大量的读者行为数据生成,例如图书馆网站的点击查询、商业数据库检索及下载、读者入馆门禁系统、座位系统预约、图书资料的借阅及预约、OPAC检索等数据、工作人员的图书资料的采访、编目、流通,以及日常的参考咨询数据等。这些数据虽然从表面上看不出有什么内在联系,其实这些数据蕴含着丰富的有价值的信息,例如图书馆哪些网站页面读者的点击利用率最高,哪些商业数据最受欢迎,哪些图书被频繁的借阅,读者个体的行为特点,读者与文献资源的内在关联、不同学科之间的内在联系等等,这些关联的信息是目前图书馆很多应用系统所不能解决的,因此有必要引进新的技术和方法,挖掘和发现隐藏在这些数据后面的信息则显得尤为重要,有了数据挖掘技术,数据之间隐含的关联问题就会有途径和办法进行解决。数据挖掘技术在图书馆的应用,必然能提升图书馆的服务水平,对图书馆各项业务全面的发展起到了很大的促进作用。
在图书馆的业务研究工作中引入数据挖掘技术是十分有必要的,应用这一项技术,对图书馆馆藏借阅服务中生成的读者借阅行为历史数据进行有效的挖掘,总结归纳出图书资源的借阅情况、读者对馆藏资源需求的规律,为合理布局文献资源,提高文献资源的利用率,完善和提高图书馆的管理和服务质量提供数据支持和决策参考。
(1)有利于优化馆藏。文献资源采购是图书馆非常重要的工作,也是图书馆决策者最为关心的问题,一方面由于涉及年度采购经费的配置问题,另一方面是如何利用仅有的资金采购到读者需要的文献资源,提升图书馆的服务水准。一般来说,图书馆的文献采购中心是围绕学校的学科建设来进行的,然而受到传统文献资源的采购惯性影响,文献资源的采购权只掌握在少数几个采访人员的手上,他们一般不太了解读者的迫切需求,针对性不是很强,常常凭着以往的经验进行文献采购,导致采购到的文献资源不是十分准确反映读者的诉求,不太符合学校学科建设需要和发展规划目标。因此提取图书馆文献资源的借阅记录、资源检索和预约请求、馆藏资源的借阅频率等信息,利用数据挖掘技术的聚类分析以及关联规则进行相关数据的挖掘,归纳总结出文献借阅的借阅频率,文献的利用情况,从而有针对性地进行文献采购,丰富馆藏资源。同时也能发掘出很长时间没有被借阅过的馆藏文献,将他们进行剔除或者减少该文献的副本量,优化馆藏资源配置,实现馆藏文献架位的合理布局,使得图书馆文献资源采购工作更科学更合理,让有限的文献资源采购经费和有限的馆舍资源配置效率得到提高。
(2)有利于读者服务。目前图书馆的服务实现了从收藏文献为主,发展到现在以利用文献为主的功能转变,用户在图书馆日常工作中的地位越来越高和显得十分重要。个性化服务是数字图书馆发展的主方向,开展个性化服务就是要从读者的个性化需求出发,了解读者,主动为读者提供方便快捷准确的知识服务。数据挖掘技术主要是通过对图书馆系统中的读者借阅数据进行收集、加工和处理,发掘读者群体的借阅行为,根据挖掘出来的信息,进行归纳总结相应群体的需求信息,为读者提供个性化的服务。
(3)促进服务管理水平的提升。图书馆是高校重要的服务型机构之一,为广大师生提供资源服务,是为教学和科研服务的关键部门。高校图书馆不同于其他公共服务性质的图书馆,服务的对象具有专业性、层次性和规律性的服务特征。不同院系不同专业的学生,他们对信息服务的需求也不同;不同类型层次的读者对图书馆信息的需求差别也很大;同一类型的读者利用资源的规律在每一个年度也有可能有变化,但也具有一定的周期性规律。因此,利用数据挖掘技术对图书馆集成系统中的读者流通历史数据进行挖掘,发掘读者与文献资源之间存在的规律以及隐含的关联性,为优化图书馆文献馆藏资源、调整文献资源的布局、合理地安排图书馆的人员和服务时间提供数据上的决策参考,提高图书馆的服务管理水平。
(4)完善图书馆的服务层次。通过数据挖掘,完善和改进图书馆的服务方式和服务手段,使人性化服务更加完美,图书馆服务模式得到改变,提高了读者服务的满意度。因此进行深层次的知识服务揭示,可以在很大程度上提升高校图书馆的服务层次。
数据预处理的初衷是为了提高数据质量,使数据挖掘的过程更加容易、更加有效,同时也是为了提高数据挖掘的质量。数据预处理的作用是处理数据源中含有的噪声数据、错误数据、数据值是空的和数据结构不完整的数据。数据预处理工作是在数据挖掘之前不可缺少的一个环节。数据预处理主要包含以下两个方面的工作:
(1)数据清洗:数据挖掘的结论取决于数据质量,数据清理过程主要是通过填写缺失数据值、识别或者删除离群点、光滑这些数据,并根据不一致性来清理数据,以求达到这样几个目标(格式标准化处理、纠正错误的数据、异常数据清理、重复数据的清理),对于来自多个系统或者数据源的数据,在生产数据仓库的数据清理过程中,重要的一个步骤是解决不正确拼写、冲突的数据和多个系统间拼写规则之类的错误。在数据中出现的录入错误,或者是编码错误会直接影响到数据挖掘的效果。数据清理能解决数据中的人为错误,以及数据文件中对统计分析结果影响较大的有误数值,提高数据挖掘的准确性和有效性。
(2)数据转换:数据转换是根据数据对象不同可以分类为两大类,一类是对于传统的常规数据进行转换,另外一类是对非常规的数据进行数据转换。对于常规的数据转换通常采用线性或者非线性的数学变化方法,将数据转成适合当前数据挖掘的数据形式。非常规数据的变换,一般根据数据的特性不同而又不同形式的转换方式。可以说数据转换是数据挖掘过程中很重要的一个环节,是决定数据挖掘是否有效的一个关键。
数据集成是将来自不同数据源的数据根据一定的集成规则组织在一起,存放到事先准备的数据存储仓库中的一个过程。做数据集成的目的是对数据仓库中的数据进行汇总、数据概念化等工作。由于来源于不同系统的数据集成涉及的问题有很多,比如理论依据和数据规则,而不同数据表中的定义也有所不同,因此,数据集成可以说是比较需要专业知识的一项工作,数据集成一般包括两个部分:(1)数据集成:将来自不同数据源中的数据整合到一个数据仓库中;(2)模式集成:整合不同数据库中数据的元数据。
数据集成需要相关的行业知识,用这些知识来处理实体识别问题,以匹配不同数据源中的现实实体。另外在数据集成中,我们需要检测并解决数据值的冲突问题。对现实世界中的数据同一实体,来自不同数据库的属性值可能不同。可能冲突的原因有各种各样,比如不同数据表示和量度也会不相同。数据集成的目的非常明确,就是把数据从不同的信息源整合到同一个数据平台之中,以便于数据挖掘。
经过前期的数据预处理和数据集成,在进行数据进行挖掘前,首先要选择合适的挖掘算法,让挖掘的一切工作系统都能自动地完成。在算法的选择上,应该从下面两个因素进行考虑:第一是根据不同的数据有不同的特点,我们就需要用与它们相关的算法来进行挖掘;第二是要根据系统实际运行的需求,调整挖掘技术策略。在此期间还要考虑数据特点和结果、以及知识描述方式方法,然后通过分析数据,最终得到并且形成知识的模式模型。目前采用较多的挖掘技术有下面几个:决策树、分类、关联规则、聚类、遗传算法、粗糙集、神经网络等。
常用的数据挖掘技术应该可以分为三大类:一是统计分析类型的有线性分析、时间序列分析、回归分析、非线性分析、单变量分析、逻辑回归分析、最近邻算法、多变量分析和聚类分析等;二是知识发现类型术主要有人工神经网络、规则发现、遗传算法、关联顺序和决策树等;第三是其他类数据挖掘技术一般包含有文本数据挖掘、分布式数据挖掘、空间数据挖掘和Web数据挖掘等。
1.数据挖掘工具分类
市场上有很多比较成熟的数据挖掘工具,大概有以下几 种:SAS Enterprise Miner、SGI MineSet、IBM Intelligent Miner、Partek、IBM Intelligent Miner、SQL Server BusinessIntelligence development studio、LEVEL5 Quest、SPSS Clementine、Oracle Darwin、KnowledgeSeeker、SAS Enterprise Miner、SE-Learn、Cognos Scenario、UnicaPRW等,常用的数据挖掘工具按照它们的适用范围,大概可以分为基于神经网络、规则和决策树、模糊逻辑和综合多方法工具等几大类。
2.数据挖掘工具的选择
数据挖掘是一个逐步完善的过程,在实际的数据挖掘过程中,需要根据业务的逻辑需求和挖掘工具紧密结合,在实施过程中不断地调整和磨合,使流程规范化,挖掘工作才能取得成功。在选择数据挖掘工具开展业务工作时,需要结合目标的实际情况,因此选择数据挖掘工具时,要考虑的因素主要有:数据挖掘工具的模式种类是否能够完成数据挖掘任务;数据挖掘工具是否具备解决复杂数据和数据量大的挖掘能力;数据挖掘工具的运行性能,能否为用户提供可视化的操作界面,以及挖掘结果是否具备图形可视化工具展示,数据挖掘工具是否具备可视化,主要包括数据的可视化、数据挖掘模型的可视化、数据挖掘过程的可视化、数据挖掘后结果的可视化、可视化的展示深度和质量等;还有一个是挖掘工具的开放性要好,具备和大部分数据库系统有良好的兼容性和集成性。
文献的采购是丰富馆藏资源的方式之一,有目的地丰富馆藏资源,才能使读者更加有兴趣到图书馆来借阅图书,从而提高馆藏图书的利用率。目前高校图书馆采购权限一般还是放在文献采访部门,由于采访人员不是一线服务的工作人员,也不是专门研究读者借阅行为分析的研究馆员,因此在采购文献时,只凭借以往的工作经验来采购哪类文献以及采购数量的多少。因此可能会采购一些无人借阅的文献,而读者迫切需要的文献却没有购买。因此可以通过对读者借阅数据的挖掘分析,可以帮助我们掌握读者的借书需求和阅读趋向,在今后的采购工作中有数据上的决策性依据。总的来说采购文献一方面要符合我校学科发展建设的需要,有丰富的馆藏为广大师生提供学习和科研方面的帮助,另一方面多采购一些热门的文献,可以解决因图书资源短缺无充足馆藏可借局面,提高图书采购经费的利用率。
“以人为本,读者至上”是图书馆的服务理念,这一服务理念应该始终贯穿在图书馆的各项工作之中,因此馆藏的布局应该以读者为中心,切实考虑读者对图书的借阅需求,让读者能方便快捷地找到需要的图书资源。结合图书馆的实际情况,以及在数据挖掘分析的基础上从两个方面进行馆藏布局的创新。
(1)以读者为中心的馆藏布局。根据工作经验和数据挖掘的结果进行对比,其实只有百分之二十的图书是被读者经常借阅的,而剩下的百分之八十的图书借阅量比较小,图书馆应依据读者对图书借阅“二八”定理进行馆藏布局。可以利用三线典藏的模式进行馆藏布局,提高馆藏的布局合理性,方便读者借阅,提高馆舍的利用率。
(2)学科关联一体化的馆藏布局。在飞速发展的网络时代,知识信息的传播方式、服务手段、服务属性都有所变化,传动的按照馆藏文献的载体形式布局的模式应该进行优化变革,图书馆应根据对读者的借阅数据进行学科关联挖掘分析,找出学科之间的隐含的关系,进行归纳汇总,逐步形成一套按学科关联进行图书资料的馆藏布局方案,引导读者的借阅行为,激发读者的借阅兴趣,提高相关联学科图书的利用率。
虽然图书馆实现了借阅一体化的服务模式,给了读者宽松舒适的借阅氛围,读者可以畅通无阻的借阅各种类型的文献资源。基本上做到了“以读者为中心”的服务理念,但图书馆在借阅服务及政策方面还有待改进的地方。图书馆应该依据集成系统的借阅历史、OPAC查询、入馆学习等行文数据,深入挖掘分析读者的借阅行为,了解和预测读者的隐含的需求,为读者制定灵活的文献借阅政策和提供准确及时的个性化知识服务。
随着网络和计算机技术的飞速发展,挖掘技术在图书馆的应用越来越成熟,利用成熟的数据挖掘技术分析读者的借阅行为规律,预判读者对馆藏借阅的真实需求,为优化藏布局和开展个性化的知识服务提供数据依据,尽一切可能提高图书资源的利用率。