数据挖掘技术在档案管理中的应用研究

2022-11-21 03:54赵旭鲁达志
智库时代 2022年36期
关键词:档案资料数据挖掘资料

赵旭 鲁达志

(吉林大学)

随着社会的发展、信息化程度的提高,档案管理中的信息化技术日益受到社会重视。目前,档案管理型的传统模式已不能适应当今时代档案管理的现实要求,所需是一种能够适应时代、系统性和需求的技术模型。数据挖掘技术的存在使档案分类、收集和保存工作得到了极大的提高。

一、数据挖掘技术的概述

随着技术的发展,传统的档案管理无法适应工作的需要,而新的信息也给档案管理带来了很大的困难,而现在,随着信息化的发展,档案管理的能力得到了极大的强化,工作的速度也得到了极大的提升。数字化数据挖掘技术是将大量的信息流进行分类,并将这些数据转化为有用的信息流。通过对数据、信息的综合,对其进行分析、高效地加工,从而使其具有较高的价值,具有实际意义。数据挖掘技术在很多方面都有广泛的用途,他首先涉猎的是数学,在实际运用中,他对资料的管理和查询进行了优化,对数据的保存和监控都有很好的效果,直到后来,才开始在各行各业中使用[1]。

二、数据挖掘技术的发展

在这个资讯大爆炸的年代,我们必须要在各种资讯资源的基础上,挑选自己所需的资讯,加以加工,以建立自己的知识系统,为整个产业的发展提供依据。数据挖掘技术可以说是与因特网一起成长起来的。20世纪80年代,在第11次国际 AI大会上,人类首先提出了“数据知识仓库”这个词,让人意识到了数据的潜在意义,而数据挖掘也逐渐进入了人类的视线。然而,在国内,数据挖掘技术仍处在初级发展的初期,许多实际问题都有待于处理,以充分利用和服务于各个产业。从80年代起,我国的档案馆信息系统已经基本建立,并已积累了海量的资料,并产生了各种各样的管理格式和各种 档案管理型的资料。目前,档案管理的主要任务是“资料存储”和“资料检索”,并没有能够挖掘出更多的信息。单纯的数据堆积不仅会造成资源的消耗,还会导致系统的维修成本大幅上升。在我国,随着信息技术的飞速发展,人们对于档案管理的认知也越来越深刻,并开始探索其背后的价值。要深入地挖掘和使用这些数据,就必须要有一套完整的数据挖掘系统,才能将这些数据进行全面的挖掘[2]。

三、大数据背景下档案服务的问题

在如今的大环境下,档案管理模式已经逐渐从过去的纸质文件发展到今天的数码化。档案管理室肯定储存了海量的资料,资料的覆盖范围也在不断扩大,资源也在不断地增加。很显然,过去的档案管理模式和手段已经不能适应我们的需要了。因此,由于各种媒介形式多样、数据覆盖量大,电脑数据库对数据处理工作提出了新的要求,并将其运用到档案管理中。

(一)怎样抽取和挖掘有用的信息和知识

知识管理是未来档案管理发展的必然趋势,如今的用户已经不仅仅局限于资料和文档,他们更愿意从数据中获取更多的知识和信息。因此,档案使用也不能只是单纯地提供资料,而是要把资料转变成知识。

(二)怎样查询到所需要的档案信息

在当今的信息化社会中,电子档案得到了大量的应用。然而,由于大量的各类资讯档案,导致资讯的大量涌入,难以有效地甄别资讯。随着我国档案馆信息化工作不断强化,资料覆盖面不断扩大,经常会把一些有价值的资料掩埋在无用资料中,搜索效率也大幅降低。所以,在海量的文件中寻找有用的资料,是当前的一个关键问题。

(三)怎样对大数据进行充分的开发利用

档案的经营目标是为了方便今后使用,因此必须对文献资料进行二次开发,形成多种类型的文献研究成果,并积极为检索人员服务。随着社会经济的发展,各类档案数量急剧增加,各类档案种类繁多,编研人员大量发放档案资料,给档案资料的二次发展带来了难度。首先要从大量的资料中找到有用的资料,然后是编写、研究、发展无组织的文件资料,减少档案开发的工作量[3]。

四、档案管理中应用数据挖掘技术的意义

档案记录文件都是非常关键的,也是档案管理工作的一个缩影。由于数据挖掘技术和电脑技术的发展,逐步将数据挖掘技术引入到档案资料的处理中,改变了以往的档案管理型,从而推动了档案管理的发展。首先,它可以增加档案管理的安全性。档案文献记载的都是具有一定历史意义的珍贵文献,而档案信息是其价值的主要载体。作为档案管理工作的工作者,应该尽量多地保持和保持档案资料的使用,以更好地反映和增添其使用的价值,同时也应该提高其使用的频度。然而,在这样的条件下,档案的存储和管理工作将面临困难,而且随着使用时间的延长,其生命周期也会随之减少。而在管理工作中,保密工作也是重中之重,一旦资料外泄,将会对工作人员的个人隐私造成不良的后果,造成文件管理和利用的困难。而在档案管理中采用数据挖掘技术可以有效避免此类问题的发生,提高文件的保密程度。其次,利用数据挖掘技术可以降低档案管理的费用支出,从而改善经营的效益。数据挖掘技术可以极大地改善传统档案管理的缺陷,从而使档案管理的工作效率和质量得到改善。使用数据采集技术,可以节约大量的时间,加快数据的收集速度。在档案资料的处理中,鉴定工作是一个非常关键的工作,以前的鉴定工作主要依靠档案主管的工作经历,具有很大的主观性,数据挖掘技术的运用可以有效地防止由于行政人员的主观原因造成的资料遗失等现象,从而达到定性的目的,确保档案鉴定更加科学、有依据[4]。

五、数据挖掘技术在档案管理中的应用

(一)档案分类

档案分类就是根据某种标准和规范,对各种类型的文件进行划分,利用归类可以区分出各种类型和性质的文件。将数据挖掘技术引入到文件的分类中,可以实现对文件的分类和归档,从而提高了检索的速度和效率。把数据挖掘技术用于文件的归类和解析,通常是通过数据库的分析函数,把各个数据进行分解,形成各种工作流程。当用户在网上存取文件时,数据挖掘技术会根据用户的具体状况和资料,将用户的存取资料进行分类。由于使用者本身的特性和偏好等不同,所以采用数据挖掘技术可以提高使用者资讯的准确性,提高资讯的品质与水准[5]。

(二)档案收集

数据挖掘技术在档案收集中心的应用,实际上就是通过对数据库的数据进行科学的研究,并构建一个数据模型,比较不同的数据模式和不同的样品,当检测结果与数据的一致性时,可以根据不同的数据类型进行不同的划分。数据挖掘技术要求对数据库中的数据进行科学化的研究,确保所描述的方法是科学的、合理的,能对现有的数据和模型进行有效的刻画,并且通过实验验证,在经过反复的实验之后,该方案的精确度达到了一定程度,就可以用它来进行科学的划分。档案管理工作中的档案搜集是基本工作,要实现档案管理的个性化,首先要对资料进行搜集。比如,在网上发布了一份调查表,把该调查表的内容录入了资料库,其中包含了用户的基本信息等。如有新的使用者资讯被录入到资料库,程式会根据档案资料与现实需求,进行自动的剖析,明确使用者类别,让服务更具针对性和效能。

(三)档案保留

档案保留是利用科技方法对旧职工的资料进行管理,避免档案丢失。科学地挖掘、分析和整合老干部的档案丢失情况,找准造成的原因,采取科学的管理措施和手段,可以避免人才的外流。数据挖掘技术在档案管理中的运用,可以提高档案管理的工作效率,使得查询更为便捷和快速,从而把档案管理和人力资源的管理有机地融合在一起,从而达到人力资源的有效利用。

(四)降低档案鉴定工作的成本

对于档案管理工作来说,其工作费用是档案管理业务整个工作流程中的一个关键因素。在对文件进行鉴别时,既要考虑其真实性,又要对档案管理工作的科学化起到一定的作用。但是,在某些领域,没有什么条条框框,全靠工作人员的工作经验,很可能会影响到档案的工作。将数据挖掘技术运用到档案资料的管理中,可以根据档案的使用状况和档案的现实状况,了解档案的形成过程、方式、规律和涵盖的领域,从而掌握档案的搜集工作的要点。通过该方法,可以为档案的识别工作提出一种定量的方法,增强档案的可信度[6]。

(五)高校档案馆、校史馆、博物馆具有相似性,可以集中统管

学校档案馆管理的是档案,档案资料目的是育人,校史馆、博物馆管理的是实物,实物信息也是育人的价值。三者在本质上有很大的相似之处,都有教书育人的文化特色。有些高校综合管理档案馆、校史馆、博物馆,使其融为一体,充分发挥其教育职能;有些高校虽然各自行政相对独立,但相互之间却有着紧密的关系。比如,许多书籍的资料都是从史书、校史馆、博物馆中搜集的资料,并在这些资料的基础上,再进行二次加工、打磨。对高校档案馆、校史馆、博物馆等进行统一管理,将现有的资料与档案大数据库进行整合,使使用者能够在高密度的数据中,找到有价值的资料。通过对资源的统一管理和综合使用,各种信息将互相补充、互为补充,形成大型档案馆的数据资源库[7]。

(六)对档案大数据进行清洗处理,保证数据有效性

将大数据挖掘技术应用到了海量的档案中的效果取决于档案数据的有效程度。由于在与外界的信息系统连接时,存在着大量的差错或矛盾,造成了数据噪音和冗余,因此必须进行清理、筛选和集中。例如,档案资料中的数据会不准确,按照一定的程序,可以判断哪些数据是不正确的,哪些数据会由于各种因素而丢失,或是数据中有很多的重复,所以要进行核对和加工。具体的解决方法是:如果依据档案的操作规程或一般知识,数据有不一致的地方,例如输入方法、专门领域知识的可辨识等易于修正的问题,可以通过电脑进行自动的辨识和修正;如果无法进行自动的辨识和修正,可以将其分类发给有关的业务单位,以修正对应的系统内数据。对于数据的无效性问题,如果确实是重要数据,可以采取整型方式进行处理,而不是使用删除变数或使用专用代码,以确保数据的总数量。通常情况下,数据丢失问题都是由数据负责人人工进行补充的。可以采用合并或删除的方法来解决数据重复问题。数据清洗是一项长时间的处理工作,要求档案工作者和相关部门的工作人员,本着责任心和毅力,多角度反复清洗、反馈、处理,通过不懈的工作,才能保证数据价值的高效利用。

(七)严防网络入侵、网络泄密,保障档案大数据安全无患

除了防止自然灾害、环境影响和人为因素造成的高温、高湿、虫蛀、霉变等危害文件的安全性问题,网络入侵、网络泄密等问题已构成了数据时代异常重要的安全隐患。针对此类风险,目前我国的档案馆大多采取的是基于身份的认证方式,即利用不同的身份来设置相应的权限。随着资料保密技术的不断发展,许多资料保密技术可以在档案资料资料的处理中得到应用。数据传输加密、数据存储加密、密钥处理等都是保障个人信息和敏感数据的一种主要手段,保证不会泄露文件数据,不会对文件数据进行非法利用,并能根据自身的权限对文件数据进行有选择的存取,保证了海量文件数据的高效、安全[8]。

六、数据挖掘应用于档案管理要依据的原则

(一)数据前提

数据挖掘技术能够有效地处理复杂的数据问题,但它需要满足数据的需求。数据挖掘的先决条件是:

(1)必须满足数据的挖掘需求,并将最少的数据量与利用的导向相联系,并按照scikitlearn数据挖掘开放源码的标准来进行,数据挖掘必须确保数据的数量超过50。数据的数量愈多,其表现的就愈具代表性。

(2)数据必须要有品质,也就是要反映其本身的信息。因为电子文件管理的信息化,使传统的纸质文件变成了电子文件。但是,无法将数字文件直接应用到数据挖掘中去。数据挖掘是以文字资料为基础,若数字化文档无法真正地反映原始文本,则会出现乱码、错别字等现象。

(3)数据之间要反映出特性差异,不能反映同一属性。例如工程图纸若在色彩、轮廓等方面没有清晰的划分,特点不鲜明,很难进行数据挖掘[9]。

(二)需求导向

在档案管理中要根据使用者的需要进行数据挖掘,在挖掘的时候要满足普遍的使用者需要,同时要兼顾将来的各种情况,并确保出现的问题能够得到快速反应。

(三)成本效益

数据挖掘技术对 档案管理的运用需要人力、物力、财力的支持。目前,很多单位的档案室都处在“边缘化”的位置,资金有限,兼职人员众多,实际训练程度低。要确保文献数据的有效利用,不仅要有相应的投资,而且要尽可能地减少科研经费,而且要把投资与产出的收益相联系。所以,在进行数据挖掘时,应侧重于使用价值,以达到有效地使用以前生成的文档,并在数据挖掘后为辅助决策提供支持[10]。

七、结语

档案大数据挖掘技术是在当前数据激增的社会背景下,有效地挖掘、整理、存储、分析、判断海量数据资源的有效途径。同时,也要对档案管理手段与技术策略进行及时更新,使之成为提高档案利用服务功能的一个重要突破口。大数据挖掘是一种具有趋势性的知识服务技术,它越来越引起了人们的重视。高校档案馆要加强与各级部门的沟通与合作,将大数据挖掘技术应用到日常工作中,以提高工作的效率和服务水平。

猜你喜欢
档案资料数据挖掘资料
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
展览档案资料的收集和归档探讨
Party Time
PAIRS & TWOS
JUST A THOUGHT
地质档案资料的保密工作探析
新时期地质档案资料修复保护面临的问题及对策
探究地勘单位档案资料管理与利用
软件工程领域中的异常数据挖掘算法