吴文光
(湖南文理学院 湖南·常德 41500)
纵观图书馆的发展,其经历了印刷纸张、自动化集成与数字化等三个阶段。图书馆作为信息存储与信息服务的中心,随着现代信息技术的飞速发展而积累了海量的数据资源。为满足读者的信息需求,高校图书馆应创新自身的服务模式、拓展服务空间及服务层面。数据挖掘技术的出现有效改变了图书馆的服务功能,其可从数据库中发掘未知的有用的信息,为读者提供个性化信息服务,使得读者结合自身需求便捷高效地获取信息资源,也促进了高校图书馆资源的有效利用。
数据挖掘是指从模糊、不完全、随机、大量的数据中挖掘并提取中先前未知的、潜在而有用的知识信息。简单来说,数据挖掘过程就是一个发现知识信息的过程。数据挖掘技术主要涉及如下五个方面。(1)关联分析。即从两个或两个以上变量中找出其共存的因果结构或规律,也就是从数据库中找到潜在的关联规则。图书馆可从数据库中找到隐藏的关联规则,准确预测读者的信息需求,有针对性地、有效地将文献资料推送给读者,这便于读者高效地查阅与获取所需资料信息。(2)聚类。也就是将数据库中的一组个体根据相似性归纳总结为若干类型。图书馆可将相似的文献资料进行集中,使得读者在搜索资料时还可查阅到很多相关内容,方便读者进一步归纳;也可对读者所需特定信息进行汇总,并将相关信息提供给读者。(3)分类。即根据分析对象的属性对类组进行建立。由于读者搜索查阅资料时对知识信息的需求程度不同,故可将读者的知识信息需求按照高度、中度、低度等三个层级进行划分。(4)预测。图书馆可对读者使用文献资料的规律进行预测,也就是结合用户的历史查阅记录预测读者所需文献资料的特征及类型,在此基础上及时更新这些资料信息,确保读者便捷高效地查阅到这些资料。(5)时序模式。图书馆可将读者的检索访问记录用时间段进行标记,然后通过时间序列对重复率高的内容信息进行挖掘,并对读者接下来的信息需求进行预测,了解读者感兴趣的信息内容,这便于读者查阅资料。
处于信息繁杂的时代,为读者提供个性化的信息服务是高校图书馆的重要工作。高校图书馆个性化服务是指结合读者的专业、研究方向、兴趣爱好、行为习惯等,为读者及时、主动、准确地提供针对性的信息服务,便于读者搜索、查阅与获取更为完整的信息资料,并展开进一步的学习与研究。具体表现为以下几点。(1)信息分类定制服务。分类定制指的是读者可结合自己的需求对信息资源的类型及表现形式进行设定,对系统服务功能进行选择,确保在图书馆中搜索查询到相关资料信息。(2)信息推送服务。高校图书馆通过识别读者频繁访问的网址路径及页面来掌握读者所关注的信息内容,结合读者浏览信息资源的时间长短来发掘读者的兴趣爱好,并且对相关信息资料进行及时的更新,主动推送给读者所需要的信息资源,从而提升图书馆信息资源的利用率。(3)导航链接服务。高校图书馆可通过挖掘读者的Web log来探寻读者所访问网页的关联性,从网页关联性中发现其期望位置。倘若读者对期望位置的访问频率比实际位置高,则可建立并优化导航链接结构,从而方便读者应用链接。
(1)必要性分析。处于信息化时代环境下,高校图书馆中的信息数据日益增加,读者对信息资源类型的需求愈来愈多样化,对信息内容的要求也愈来愈高。将数据挖掘技术运用于高校图书馆中符合时代发展趋势。一是符合高校图书馆发展需求。传统图书馆来仅为读者提供简单的一键检索功能,读者进入图书馆主页检索,只能从繁多杂乱的检索结果中寻找所需资料信息,这无法满足读者个性化需求。数据挖掘技术为图书馆信息化建设提供了强大动力。其不仅能将高校图书馆数据库中读者的检索、访问、借阅记录进行挖掘,还能将读者查阅数据中隐藏的关联性进行挖掘,并且从中提取出有用的、有价值的信息和知识,从而提升图书馆信息资源利用率。而且,图书馆员可通过数据挖掘技术对借阅情况、学科设置情况等进行分析,并结合数据分析结果实现对各类资源的合理采购、分配与剔除,进一步完善馆藏的布局。二是符合读者服务需求。高校图书馆的服务水平直接影响着读者的评价及满意度。以前读者要想查阅图书馆内的某些资料,需要提供检索号。对于如何根据读者偏好及读者兴趣转移情况,为其提供个性化的信息资源服务,仅依赖传统的高校图书管理系统的查询统计功能是不行的。数据挖掘技术能对读者查阅访问资料记录进行深入挖掘、分析与处理,掌握读者查阅行为模式及兴趣爱好,并且主动将信息资源提供给读者,从而大大提升了图书馆服务质量水平。(2)可行性分析。一是大部分高校图书馆已经具备了一定的物质条件,也配备了图书馆信息技术人才、管理人才,这些为数据挖掘技术在高校图书馆中的运用创造了条件。二是政府为数据挖掘技术应用制定了相关政策,并且提供了相应的经费投入,以确保该技术应用的推行。三是近些年数据挖掘技术飞速发展,能为高校图书馆开展个性化服务提供技术支撑。
高校图书馆要想开展个性化服务,应根据读者的信息需求将相关信息内容进行动态化的呈现。下面将结合数据挖掘的流程来探讨高校图书馆个性化服务中数据挖掘技术的应用。
确定数据挖掘目标是展开数据挖掘的第一步。通过研究读者的信息需求,制定出有效而合理的数据挖掘目标。待数据挖掘目标确定之后,就进入数据准备工作,也就是从海量数据中选取一个跟数据挖掘目标有关的样板数据子集,并且建立一个保存所有数据挖掘所需数据的数据仓库。倘若数据仓库未被建立而直接展开数据挖掘,则易导致挖掘中断甚至失败,所以很有必要建立一个数据仓库。而且,数据挖掘前期工作的关键内容就是数据准备。将数据挖掘技术运用于高校图书馆个性化服务中,首要步骤是建立起两个数据库,一是读者数据库,二是图书馆特色资源数据库。读者在使用高校图书馆过程中会产生网站访问痕迹、借阅记录等,这些潜藏着很多有价值的信息。
待建好两个数据库之后,需分析与调整两个数据库中的数据,确保最初数据的质量。倘若原始数据的质量不好,那么即使建立的数据模型很好,也会影响预测结果的质量。所以有必要分析调整数据库中的数据,即对数据进行抽取、清洗与转换。其中数据抽取指的是搜索出与数据挖掘目标相关的所有数据信息,数据清洗指的是对数据的噪声、重复记录进行消除,以及对计算缺值数据进行推导。高校图书馆每天会产生读者访问借阅的大量数据,但并非所有数据都适用于数据挖掘处理,所以应清理、剔除出那些无用数据。数据转换指的是对数据维数进行精减,从数据初始特征中找到有用的那部分特征,目的是缩减在数据挖掘过程中需考虑的变量数。
对于数据挖掘过程中的一个任务,可能有不同的算法。对于算法的选择,需考虑两方面因素。一是结合数据特点来选择相应的算法;二是结合实际运行系统要求或者读者要求来选择算法,因为有的读者想要获得易于理解的知识或描述型的知识,有的读者想要获得预测型知识。接着就是建立相应的数据挖掘模型,即经过聚类、分类且采用时序模式,抽象出读者的普遍性、个性化的需求,然后对关联规则模型进行构建。对于建立的一系列模型,还要进行反复验证与试用。倘若建立的模型能解决目标问题,则说明该模型是有效的。倘若建立的模型尚有不足之处或存在缺陷,则须结合反馈对模型进行调整修改,也可对算法进行重新选择,再建立新的数据挖掘模型。通过对不同模型进行仔细的考察与判断,最终选用有效解决目标问题的最佳模型。
在运用算法规则建立数据挖掘模型之后,还需运用该算法再进行运算,从而得出数据挖掘结果。高校图书馆要将结果进行可视化处理,将抽象的数据结果解释得易读、易于理解,从而帮助图书馆管理做出相应的决策,并为读者提供有效的服务。比如对于图书馆引进的一批某专业的学术论文,经过数据挖掘分析得知查阅者绝大部分来自该专业的师生,其他专业的师生查阅率很低,故而应向该专业的读者推送这批论文的信息。
待数据挖掘结果产生之后,还要对其可用性与有效性进行验证,并评价模型的实用性。也就是说,对数据挖掘结果进行解释后,还要跟踪了解数据挖掘结果实践应用情况,从读者的反馈信息中验证数据挖掘结果的实用性。对于一个数据挖掘模型来说,其很难实现与已有数据完全相符,而且其也不会适用于任意环境与任意时间节点,所以评价数据挖掘结果是很有必要的。倘若读者反馈挖掘结果能解决问题,则可说明数据挖掘目标、读者需求均得以实现,也能证明该模型是合理而实用的。当读者根据数据挖掘结果满足了自身需求时,则会反馈满意的信息。图书馆决策者收到这一反馈信息后会进行下一步实施。这一阶段完成之后,高校图书馆也就实现了完整的数据挖掘过程,从而为读者提供个性化服务。需要注意的是,若数据挖掘结果不能使读者需求得到满足,则系统会重复以上步骤,对数据进行重新抽取,对数据转换方法进行重新选择,对挖掘参数值进行重新设置,并对新算法加以选取。