朱玉斌
[摘要] 馆员培训,作为提高业务水平的重要途径,历来为各图书馆所重视。然而传统方式多为照本宣科,本文以采编部培训为例,探讨了如何结合数据挖掘技术,察觉业务短板所在,使馆员的培训更有针对性和实时性。
[关键词] 关联规则; 馆员; 培训
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 10. 062
[中图分类号]G251[文献标识码]A[文章编号]1673 - 0194(2012)10- 0109- 01
1馆员培训现状
馆员培训,作为提高业务水平的重要途径,历来为各图书馆所重视。目前,常见的培训方式有:
(1) 业务讲座。通过邀请专家学者举办专题讲座,是常见的一种业务培训方式。专家学者高屋建瓴,业务知识渊博,能够谈到很多日常工作中不易觉察的问题,且多有新的理念和见解,很有学习价值,因此广受各图书馆欢迎。但这种方式往往针对性不足,对于各馆具体的业务问题和短板,未必能够提供及时的帮助。
(2) 组织学习。通过参加大馆、核心馆的培训班,提高业务水平。这种方式覆盖面广,可以有针对性地对各部门的不同业务人员进行专业培训,也是一种常见的方式。不过,这一培训方式多为新入馆工作人员的岗前培训,实时性往往不强,不能对工作中的具体问题进行帮助和指导。
(3) 学术会议。通过参加年会,技术研讨会等主题讨论的机会,学习新的知识和技术,理解动态和方向,也是一个重要的培训方式。同样,也是缺乏针对性。
在实际工作中,以采编部为例,在Marc著录的过程中,工作人员对于已完成的工作往往缺乏评估和察觉错误的方式,如拼音录入错误,字段编写不规范等业务问题,每个工作人员的情况都有不同,如何实时性地依据以往工作进行分析,提供业务报告,从而可以给具体工作人员提供业务学习的方向,能够更有针对性和实时性地进行专项培训,提高业务水平便成了一个很有价值的研究课题。
2数据挖掘技术
数据挖掘(Data Mining),就是从海量数据中挖掘出隐含在其中的矿藏——知识。一般认为,广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。它是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。
数据挖掘技术是一个多学科交叉的综合研究领域。它融合了数据库技术、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索以及信号处理等多个学科领域的技术。
3关联规则在馆员培训中的作用
关联规则在数据挖掘领域中是一个重要的研究方向,这一技术主要用来揭示数据与数据之间未知的相互依赖关系。
在研究图书Marc加工数据时,数据著录错漏之处的相互依赖关系,恰恰体现了著录人在图书Marc加工中的个人习惯以及潜在的业务短板所在。因此采用关联规则算法可以很好地分析Marc数据的加工过程中存在的问题以及隐含在其中的规律,为业务培训指明方向。
为了提高培训工作的智能性,可以将基础培训资料输入数据库,形成培训资料库。通过图形化的界面,结合关联规则分析结果,定期形成分析报告,然后依据报告推荐培训资料,实现无人工干预的全自动培训系统。如再结合RSS订阅推送,则可完全解决实时性和针对性不足的问题,切中要害,提高培训效率。
4我馆在实际应用中的尝试
图书加工评估工作的重点是建立评估标准,我们依据Marc数据规范,使用正则表达式进行了表述,考虑到信息交互性,采用XML文件进行存储。为了便于程序访问和实施挖掘算法,在验证规则完成后,建立错漏代码表,针对各条规则,相应地进行变量命名编号,以便标志错误类型。
准备工作完成后,对馆藏数据进行抽样,形成数据段,以我馆汇文Oracel数据库为例,下面是分段代码片段:
select
marc.marc_rec_no,marc.cata_oper,marc.cata_date,marc.m_call_no,marc.m_title,marc.m_author,marc.m_publisher,marc.m_pub_year,marc_data.marc01,marc_idx.marc_data_code,marc_idx.marc_idx_cont from marc inner join marc_data on marc.marc_rec_no=marc_data.marc_rec_no inner join marc_idx on marc.marc_rec_no=marc_idx.marc_rec_no where marc.cata_date between '2004-01-01' and '2004-12-31'
对数据进行模式匹配后,生成1阶频繁项集,并在此基础上生成多阶频繁项集。根据结果生成情况,适当调整支持度和置信度的阈值,以获得有价值的挖掘结果。通常,这个过程会反复进行,在初次获得有价值信息后,可将该阈值作为初始化数据,作为系统正常运行时的参数。
针对分析报告中的字段关联信息,程序访问错漏字段代码,获得错漏类型,然后通过访问培训资料数据库中相应类型编码的培训数据,生成业务报告和培训指南,从而实现培训工作的自动化。最后,可以结合RSS订阅,以离线推送的方式,向馆员提供培训指南,从而更实时、便捷地进行业务培训工作,提高图书馆的业务水平。
5结束语
文中探讨了应用数据挖掘技术,如何提高馆员培训工作的针对性和实效性。从馆藏数据库中Marc相关各数据表字段的结构出发,通过应用关联规则挖掘技术,实现图书馆Marc数据定期自动检测,并通过分析产生业务报表,结合培训资料库和RSS订阅,实现动态推送针对性培训的智能培训系统。
主要参考文献
[1] 汪育健,邹攀. 基于线性链表的关联规则数据挖掘技术在数字图书馆中的应用[J]. 图书馆杂志,2009(12).