戈妍妍 牟虹 窦雪
【摘 要】数据挖掘是数据库中知识发现的一个过程,数据挖掘技术是从大型数据库中提取以前未知的有意义的数据,然后做出决策的过程。本文在分析数据挖掘概念及其主要技术方法的基础上,结合徐州医科大学档案馆的实际工作,探讨了数据挖掘技术在档案信息服务中的具体应用。
【关键字】数据挖掘;高校档案;信息服务
中图分类号: G273.5;G647.24 文献标识码: A 文章编号: 2095-2457(2018)32-0226-002
DOI:10.19694/j.cnki.issn2095-2457.2018.32.104
【Abstract】Data mining is a process of knowledge discovery in a database. Data mining is a process of extracting meaningful data from a large database and then making decisions. Based on the analysis of the concept of data mining and its main technical methods, this paper discusses the application of data mining technology in archives management based on the practice of archives of Xuzhou Medical University.
【Key words】Data Mining; University Archives; Service
随着电子政务和社会信息化的加快推进,档案的工作理念、技术、方法及模式受到深刻影响。过去传统的档案管理方式,已经不能够满足当前信息化建设的需求,在高校档案信息化管理过程中积累了海量的数据,挖掘出这些数据背后隐藏的大量有价值的信息。对加强高校档案服务功能起到重要作用。
1 数据挖掘及其在高校档案信息服务中的基本应用
1.1 数据挖掘的概念及主要方法
数据挖掘,是从大量的、不完全、模糊的数据中挖掘或抽取未知的、有价值的知识的过程[1]。整个知识的挖掘过程由六个挖掘步骤组成,分别是数据清洗、数据集成、数据转换、数据挖掘、知识表示,数据挖掘只是其中主要的一个步骤。作为一种有效利用数据资源的方法和途径,数据挖掘技术在档案信息服务领域具有广阔的应用范围和开发前景,数据挖掘在档案信息服务中适用的三种技术方法是:(1)关联规则:它是数据挖掘技术中重要的研究方法之一,它可以从海量的数据和关联的数据中,挖掘出有价值的知识和模式[2]。(2)分类与预测:分类是数据挖掘的一种重要的方法,主要是在现有的数据基础上,选出分类好的训练集,构造一个分类函数或者一个分类模型,把对象总体区分成各个类别的过程。预测是从历史数据中自动计算出给定数的推广描述,挖掘出隐藏的规律信息,从而对未来相关的数据进行预测。(3)聚类规则:它是一种比较常见的描述工作,它将数据分成不同群组,属于同一类的群组的数据尽可能的相似,而不同群组的数据的差别尽可能的大,通常采用数值分析中图论的相关知识来进行聚类,一般来说聚类要经过多次才能得到一个理想的结果。
1.2 数据挖掘技术在高校档案信息服务中的基本应用
数据挖掘技术目前的发展已相对成熟,在图书情报、教育研究等领域也有了一定的价值体现,而在档案信息管理中,该技术还没有得到推广,仍处于实验阶段[3]。从2004年开始我校档案馆就开始了档案的数字化建设,我们使用档案管理系统,把各个门类的档案录入到系统中,至今为止徐州医科大学档案馆存储了大量的案卷级、文件级目录库、全文数据库、图像数掘库、数字化扫描数据库,并建立了干部任免、科研成果,职称等专题数据库。随着档案数字化建设的资源积累,馆内存储了海量数据,但数据本身存在重复、冗余的现象。如何更加有效的利用档案信息中现有的数据,提高档案利用的效率,提供更便利的档案服务已成为当前迫切需要解决的问题。经研究发現,数据挖掘技术正是解决这个问题的最佳技术方法,为档案信息服务的应用奠定了物质基础。
数据挖掘技术无论是在理论上还是实际上都能够应用于档案信息服务中。在这个知识经济时代,数据挖掘技术是很重要的知识获取工具,它是在网络技术和数字知识的基础上,发掘和寻找出档案信息管理中的有价值的知识资源,使档案信息管理中的数据得到更合理的利用。而且随着信息化时代的来临,社会各界对档案服务的需求更趋多样和迫切,对档案工作领域拓展和服务能力提升提出了更高的要求,越来越多的数字化档案被利用,领导对档案工作也是越来越重视,给予了大量人力、财力、技术上的支持,这些都为数据挖掘技术在档案信息服务中应用提供了强有力的保障,确保数据挖掘技术在档案信息服务中应用的可行性。
2 数据挖掘技术在档案信息服务中的具体功能体现
2.1 为用户提供个性化服务
传统的档案信息服务是被动的,被咨询的,随着社会信息化的加快推进,档案工作要主动提供服务,关联规则通过对用户数据库进行关联分析,从海量数据中挖掘出对档案管理员有参考价值的数据,从而主动提供个性化服务。例如,在档案馆的网站上建立一个留言板窗口:如图1所示,用户可以进行查档咨询,提供个人相关信息和查询内容。如有用户输入留言板这个数据库,系统则针对用户的需求来提供服务。运用关联分析的技术方法根据用户提供的信息和查询内容的情况进行综合分类;根据用户提问的问题,发现用户的关注点;根据这些数据挖掘出不同用户的需求和使用特点,主动向用户推荐;通过对用户兴趣的统计,我们可以把握当下与用户个人利益相关的信息。比如申报卫生职业医师、职称申报、出国留学等时间节点,发现某类档案的在某月份利用率会比其它时候的高,可以提前做好准备,挖掘用户数据库中有参考价值的信息,把“死”档案变成“活”档案,为用户提供有效、准确、快捷的个性化服务。
2.2 提高档案信息检索效率
我们现在所使用的检索工具是输入关键字的模糊检索,检索出一堆无关的信息,需要逐条逐页的进行筛选,工作量很大,给查找有用信息带来不便,利用数据挖掘技术可以将查询结果进行归类和预测,将检索信息进一步进行定位,这样可以极大的提高检索的速度。例如学生在校期间的一些信息记录,把学生的姓名与其学号、性别、学籍、成绩、毕业证书号、学位证号进行关联,还可以将其获得奖励、处分等进行关联,并且实现任意相关检索词都可以查到相关档案的功能,即一次检索就可以查到某个学生的在校奖惩情况、成绩、毕业信息等与该学生相关的所有信息,这样可以快速的获取学生的较为完整的信息集合,提高查找速度。再比如,我们还可以把学校教师的相关信息进行整合,将教师的个人信息与职称、课题名称、基金名称、奖项、年龄进行关联,并且将其申请课题基金的时间、级别以及基金号、等进行关联,通过一次检索,就可以查到某个教师的职称、课题以及获得哪些奖项,还可以利用数据挖掘技术将职称和获得人数相关联,这样我们可以很清楚的了解到我们学校教授人数、副教授人数、讲师人数等,还可以统计出某个年龄段教授的人数、副教授人数等,以及各类职称所占的比例和发展趋势,另外还可以把课题级别和申请课题人数相关联,结果可以发现教师申请国自然课题的教师比例逐年上升,申请市级以下的课题的反而有下降趋势。由此可见,利用数据挖掘技术的分类和预测技术将信息资源进行整合和关联后,不用手工检索累计相加,就可以更加快速的获得我们需要的结果,分类和预测技术的应用极大的提高了工作效率。
2.3 为优化馆藏档案信息资源提供便利
随着档案信息化建设的推进,海量传统纸质档案转化为数字档案,数据挖掘技术可以分析馆藏的数字化信息、用户数据库、检索数据库、专题数据库以及归档部门信息,从而了解学校的发展走向和用户需求,确定数字化重点,优化馆藏结构,运用聚类规则在归档单位信息和用户信息中進行归类,如教学获奖类、专业设置类、人事任免类文件在归档部门中使用比较频繁,研究生成绩单在考研复试阶段,查找使用的比较多等等,通过关联分析检索用户数据库,我们可以深入挖掘各个时间段的用户需求,找准用户在哪个时间节点哪些档案使用较为频繁,我们可以优先重点扫描使用相对频繁的档案,从而确定数字化扫描的方向和重点,使档案馆的数字化资源更加科学合理。
3 结束和体会
随着信息化带来的信息量的不断增加,及对档案信息提取的更高要求,数据挖掘技术在档案信息服务中的应用有着巨大的潜力,本在分析数据挖掘概念及技术的基础上,针对徐州医科大学档案馆的特点,对数据挖掘技术在档案信息管理中的具体应用进行了一定的探索,实践证明,数据挖掘技术将给档案信息服务带来前所未有的机遇和挑战。
【参考文献】
[1]韩吉义.基于数据挖掘技术的高校图书馆档案信息管理平台的构筑[J].山西档案,2015,06:61-63.
[2]王平,安亚翔.大数据时代的档案信息平台建设[J].档案与建设,2015,10:8-13.
[3]王铁牛.大数据档案学国内研究现状及研究方向分析[J].山西档案,2015,03:107-110.