赖 倩
(山东省青岛第二中学分校,山东 青岛 266071)
进入新时期以来,行业内的竞争加剧,为实现自身竞争力的提升,很多企业开始探索以大数据技术为基础的档案数据挖掘在档案管理中的应用,目的是解决现存的档案数据挖掘问题,进一步提升企业的信息处理效率,实现企业竞争力的提升。在企业档案管理信息化发展的同时,为保障档案数据挖掘技术在企业档案管理中的可持续发展,需以数据挖掘为核心构造企业管理系统,采取以人为本的管理模式,为数据挖掘的安全长远发展提供全面的保障。
大数据技术特征可从以下四个方面进行简要概述:
信息庞大是大数据技术的主要特征,相关技术人员将庞大的数据信息进行搜集与整理,并统一地存放于数据系统中。
数据库中存放着各种类型的信息,例如,生态系统信息、国防安全信息与日常生活信息等,都会按照其具体类型进行保存。
各行各业中人们的生活信息与工作信息都会保存在数据库中,这为相关有需要的人员进行数据处理与数据采集提供了较大便利。
相关人员在数据库中就相关信息进行检索时能够快速地获取所需信息,这能在一定程度上有效地提升相关人员的工作效率。
大数据背景下,档案数据挖掘需要相关工作人员在档案管理过程中进行不断探索。现阶段的数据挖掘技术可从以下三个方面进行简要论述:
分类技术是数据挖掘中常用的技术手段,通过决策树技术,定义数据库中所有记录的输出属性与输入属性,选取数据库中的部分数据进行训练,从而找出数据属性之间的规则,通过规则实现新的数据,并可记录预测。企业在对供应商管理以及银行客户管理中应用决策树技术较多,主要用来预测客户行为,且准确性很高。在档案管理中应用分类技术可结合客户资料与档案信息的每年详细数据进行相关信息的及时修正[1]。
聚类技术对档案数据库中的所有数据进行相似性分析,从而将属性较为相似的数据归为一类实现分类化与集中化管理。聚类技术对数据没有特别高的要求,因此,应用较为广泛。在档案管理中应用聚类技术可实现不同渠道与不同部门之间数据的有效关联,实现数据间的深层次联系,有效提升数据管理效率。
关联技术主要用于描述数据项间的关系规则,通过一件事物中的事项导出其他事项的出现,以此来挖掘数据之间隐藏的关联性。档案数据之间一般会存在方方面面的联系,这些联系体现事物之间的某些规律,通过对这部分数据的挖掘,能够促进决策与预测的科学合理化发展,但是,这种技术的实现通常需要较为丰富的数据库。
档案数据挖掘现状可从以下两个方面进行简单论述:
当前许多研究机构、企业以及国家相关部门仍采用较为落后的档案管理方式,不同部门之间独立管理,不同类型档案文件缺乏关联,这使得在档案管理中浪费了大量的人力物力资源。随着信息技术的快速发展,档案管理开始积极吸取各种先进的管理经验,呈现多元化发展态势,这也从侧面反映出档案数据挖掘技术的重要性[2]。
大数据背景下,信息技术在各行各业实现了快速发展,其档案信息量不断攀升,然而部门档案管理工作人员缺乏足够的先进意识,依然忙于各种数据储存,不能实现数据之间的有效关联,从而无法发挥数据的最大功效,同时也不利于企业的快速发展。
大数据技术背景下的档案数据挖掘可从多方面进行论述,在此不能完全涵盖,仅从以下几个方面进行简单论述。通过大数据技术深度挖掘档案数据;通过大数据技术实现数据挖掘的精细化发展;综合性对策实现档案数据的深度挖掘。
(1)数据采集层管理
数据采集是大数据技术中的基础环节,其质量高低直接关系大数据技术的功效大小。只有完备化、高质量的数据信息才能协助大数据技术提取出有用的隐含信息。由于大数据的动态性与实时性特征,离线、近线、在线等数字资源皆在采集范围之内。为突出采集数据的有效性与代表性,应选择合理的数据信息采集方式,收集所需的数据,为档案数据挖掘打好基础。
(2)数据管理层管理
各种方式与渠道挖掘的数据结构多样、种类繁多,通过数据管理层的处理、集成与存储,可实现以下功能:
其一,将结构复杂、难于管理的数据转化为便于处理、结构单一的数据。现代互联网环境下,非结构化数据与半结构化数据应用幅度不断增长,这些资源数据逐渐成为馆藏重要来源;其二,对挖掘数据采取“清洗”与“去噪”处理,以此保障数据的可靠性与高质量。由于刚采集数据有冗余数据以及噪声数据,对数据进行解析、清洗以及重构,能够有效地提升挖掘数据质量;其三,储存数据。为不同的数据建立独立的数据库并进行存放,缩短访问与查询时间,提升数据获取效率[3]。
(3)分析层管理
数据分析是大数据技术的核心部分,通过对档案数据关联性的分析,挖掘数据之间的密切联系,提升数据挖掘的深度与广度。相关性分析能够实现档案资源功效的最大化,大数据技术的关键性作用即是发掘出档案数据独有的价值,不管是储存的“冷数据”,还是基于网络实时在线的“热数据”,通过大数据技术对档案数据的挖掘、整合、分析,激活档案数据中潜在的资源,实现数据功效的同时,创造出新价值与新知识,有效破除信息孤岛壁垒效应,实现孤立而互不联通档案数据库间的信息共享。
(1)档案资源挖掘
其一,通过大数据技术明确“大档案”思路,在日常的数据挖掘中重视数据积累,不但需要完善档案资源管理体系,还应确立数据资源体系观;其二,建立档案数据资源共享库。以省级为基本建设单位,建立共享的、规范的、集中的档案数据库,实现各个档案馆藏的关联,形成资源丰富依托于网络空间的档案数据库;利用处理技术与云计算平台构建档案数据网,用于实时接收最新档案数据,并分类处理非实时性数据,为档案用户提供更加优质的服务平台。
(2)数据挖掘
其一,用户信息挖掘。挖掘用户的需求,查看其访问服务器留下的日志,实现对用户的在线跟踪,根据用户需求进行个性化服务;其二,发掘用户浏览记录与检索记录。通过统计分析,选取点击率较高的档案数据进行数字化处理;归纳整理用户常用搜索词来充实档案数据库中的关键词,降低搜索时间,提升查准率[4]。
(3)关系洞察、趋势分析
不论是用户数据还是档案资源,通过挖掘只能获取单方面数据,无法将独立的数据汇集成完整的网络。因此要实现数据的集中化管理,将其集成为完整的管理网络,需要对其进行全面深入的分析。通过整合孤立数据点,形成完整的档案网络,有效促进档案的可持续发展。
(1)实现“以人为本”的用户关系管理
通过大数据技术可以实时掌握用户此前行为与当下行为,并预测分析用户未来行为,深入挖掘档案数据之间的内在关联,促进资源的集成化与创新化;利用大数据技术实现对用户储存行为、利用兴趣、使用习惯、行为轨迹、搜索方式的分析,发掘用户的隐性诉求。根据不同的用户建立个性化数据库,并在其中放入数据挖掘结果以及用户所需。
(2)合理应用“智慧因子”
智慧城市在提出以后,其概念已经辐射到各个领域,其中也包括智慧档案馆,将智慧因子植入大数据技术,利用物联网技术将用户、数据、网络、档案、馆舍统一在智能网络中,达到深度挖掘与有效整合的目的。大数据技术不但能实现关系洞察、用户数据、档案资源、趋势分析数据的融合,还能通过智慧服务理念实现个性化服务,推动档案数据信息的知识空间构建。
综上所述,现阶段的档案数据挖掘还存在着一些问题亟待解决,这对于档案管理工作的可持续发展有着一定的阻碍作用。基于这种状况,很多企业相关从业者开始探索基于大数据技术的档案数据挖掘,目的是进一步提升档案管理信息化进程,解决现有的档案数据挖掘问题,实现企业档案管理的长远发展。