大数据技术与档案数据挖掘

2018-01-23 06:00郑杨
中国管理信息化 2018年1期
关键词:数据挖掘大数据

郑杨

[摘 要] 随着信息时代的到来,人们处理信息的方式越来越多种多样,传统的档案数据检索和处理技术已经不能满足人们的日常工作需求,为此,人们开始将关注重点放在大型数据库的档案数据挖掘技术上面,成功提高了工作人员的信息处理效率,在一定程度上推动了大数据时代的发展。本文基于大型数据库的档案数据挖掘技术进行研究,分析了其当前的应用情况以及未来的应用前景。

[关键词] 大数据;档案数据;数据挖掘

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 01. 053

[中图分类号] G270.7;TP311.13 [文献标识码] A [文章编号] 1673 - 0194(2018)01- 0132- 03

1 大数据技术

近年来,“大数据技术”一词经常为人们所提及,从字面意思来看,它所指代的是人们已经进入到信息爆炸的时代,在日常生活当中,各式各样的网络信息、个人信息、资源信息等充斥在我们身边,它对人们的生活带来了较为深远的影响。可以说,大数据技术把人们带到了一个新的纪元当中,同时,它的出现也为企业或工厂的生产销售带来了巨大的便利条件。当前社会,每一个领域的正常运作都离不开数据的收集和整合,而数据的处理恰恰又要依附“大数据”。

1.1 “大数据”的背景介绍

近年来,互联网技术发展突飞猛进,人们的生活越来越依靠网络信息,这在很大程度上改善了人们的生活质量。无论是日常的工作学习,还是度假游玩,人们已经开始越来越依赖网络,在某种程度上来说,离开了互联网数据,人们的生活就难以继续。人们将工作和生活的信息存储在互联网当中,利用互联网技术对信息进行整合,处理,使其更加方便快捷。

1.2 “大数据”的定义

至今为止,中外的学者都没有给出“大数据”的统一定义。当前,越来越多的人开始关注“大数据时代”,将其研究对象锁定在对大数据的研究和分析上面,但不同学者的观点有所不同,因而,对于“大数据”的定义仁者见仁智者见智。

总的来说,“大数据”给人们的生活带来了翻天覆地的变化,推动了国内外的产业革命。大数据不仅包括数据整合,数学模型,还包括对原始数据的分析和处理,它是一种新兴的技术,利用互联网对数据信息进行收集和处理,从而提高人们的工作效率,减轻人们的工作负担。

1.3 “大数据技术”的基本特征

对于“大数据技术”来说,它有其独特的个性和特征。第一,大数据的信息是十分庞大的,在数据库当中,技术人员会将成千上万的数据信息进行收集和整理,并将它们统一地存放在对应的数据系统当中。第二,大数据的信息是多样化的。在数据库当中存在着各式各样的信息,无论是日常生活信息,还是国防安全、生态系统信息,都会分门别类地保存在数据库当中。第三,大数据具有较高的价值性。各行各业的人们的工作信息、生活信息都可以很好地反映在数据库系统当中,这对于数据的采集和处理提供了很大的便利。第四,大数据的高效性。在数据库系统中进行检索的时候,可以方便快捷地获取所需的有用信息,这种时效性有效提高了工作人员的工作效率。

2 档案数据挖掘技术

2.1 档案数据挖掘技术基本概念

在日常的信息检索和整合处理的时候,管理档案的技术工作人员会采用一些较为特殊的技术手段进行处理,这种特殊的数据处理方式就是我们所说的档案数据挖掘技术。在传统的信息检索处理中,档案管理工作人员往往需要花费很多的时间和精力才能在众多的数据库当中挑选出合适的数据信息[1]。数据时代的到来给人们的生活带来了无限的便利条件,当前,档案管理技术工人可以利用数据挖掘技术处理日常的工作,大大提高了工作效率,拓宽了档案数据挖掘技术的应用空间。

2.2 档案数据挖掘技术的特点

一般来说,在大数据时代下的档案数据挖掘技术相对十分复杂,它虽然在一定程度上改善了传统档案数据检索中常常遇到的问题和困难,但还需要建立合适的数学模型。没有合适的数据数学模型,档案技术人员很难进行下一步的工作,也就无法对数据进行相应的处理。另外,对于档案数据挖掘技术来说,它所使用的数据库十分庞大,这在无形中增加了出现微小错误的可能性,这种错误虽然不影响最终的处理结果,但还是不能保证十全十美。最后,相比于原有的档案数据处理技术,档案数据挖掘技术更加人性化,它可以从用户的角度出发,最大限度地满足用户的根本需求。

2.3 档案数据挖掘技术的应用

随着时间的推移,人们的生活已经离不开大数据,我们已经正式进入大数据时代。第一,它可以依照不同用户的不同需求在档案数据库中进行信息的收集和处理,保证了档案数据处理的个性化。第二,不同用户之间的信息是相互关联的,因此,可以根据全网用户的检索情况分析他们之间的联系或工作内容等项目。第三,档案系统会自动将相似的信息进行汇总,并统一于一个档案数据库当中,这样一来,在日后的處理过程中,档案管理技术人员的工作效率就可以得到提升。

3 大型数据库的档案数据挖掘系统与挖掘技术

3.1 大型数据库的档案数据挖掘系统

3.1.1 关联规则挖掘

对于档案数据挖掘中的关联规则来说,它的主要内容就是将不同用户的信息进行整合处理,利用这些信息对用户的个人生活或工作情况进行分析和预测。在档案的管理和运行上面起到了较好的辅助作用。关联规则挖掘可以有效地帮助企业了解潜在客户人群,并更准确地掌握客户的喜好情况,了解客户的真实需求,这样一来,档案管理的工作人员就能为客户提供更加优质的服务。当前,档案管理广泛使用的程序算法是Apriori算法,这种算法很大程度上避免了传统算法的各种缺陷,提高了时间的利用率。

3.1.2 分类

对于档案数据挖掘来说,它还可以对用户人群进行分类,根据不同人群的信息处理方式和检索条件的差别,对这些用户进行更为细致的分类。依照这些分类结果,企业或档案管理技术人员可以更好地了解不同数据信息,不同用户之间的联系,并将这种联系进行整合处理,方便日后使用。这种新的档案数据挖掘技术的推广和使用对人们的生活起到了很好的辅助作用。endprint

3.1.3 聚类

除了上述的两种档案数据挖掘处理技术之外,应用较为广泛的一类档案数据挖掘技术就是我们所说的聚类数据挖掘技术,这类技术的前景较好,准确度更高,在企业和档案管理技术人员的管理工作中被大量使用。一般来说,分割聚类算法可以将不同档案数据处理程序进行比较,并将比较之后的信息进行综合处理,形成一个高效、科学的分类表。而分层聚类算法处理更加简便,应用更加优化,它有效改善了分割聚类算法中存在的缺点和不足,开创了自身的应用领域,为人们的生活带来了更多的便利条件。

3.2 大型数据库的档案数据挖掘技术

3.2.1 库存管理档案数据挖掘

库存管理档案数据挖掘是基于大型数据库的一种档案数据处理方式,它被广泛应用在档案管理当中。在档案的管理当中,很多的管理人员选择使用库存管理档案数据挖掘技术,这主要是由该档案数据挖掘系统的自身特点所决定的。相比于传统的档案管理数据系统来说,这种大数据的档案管理挖掘技术更加简便,更为细致,可以更加准确地对库存档案进行清点和信息统计。系统会自动将档案的数据信息记录在数据库当中,方便档案管理人员的调用和更改。

3.2.2 空间档案数据挖掘

空间档案数据挖掘技术是一类新兴的档案数据挖掘处理技术,它的理论体系还不完全成熟,因此,它的应用范围并没有库存档案数据挖掘技术广泛。这种技术的出现是为了更好地解决和处理用户的空间信息,它除了需要依托大型数据库之外,还需要依托空间可视地图,因此,它的技术要求相对较高。然而,无论是在日常的档案管理工作当中,还是在军事,农业等其他领域,空间档案数据挖掘都有着良好的应用前景,我们可以预测,在未来的生活和工作当中,空间档案数据挖掘技术可以随处可见。

4 大数据下的档案数据挖掘

4.1 实现了档案数据采集层的优化管理

将大数据技术应用在档案数据的管理和挖掘当中,进一步提高了数据处理的效率。一般来说,在进行档案数据管理的时候,第一步就是要对相关的档案数据进行采集,只有实现对档案数据的有效采集,才能避免在后续的管理过程中出现错误[2]。可以说,只有利用大数据技术才能实现高质量的档案数据采集,这样,隐藏在档案文件后的全部信息都可以被采集出来,另外,在档案数据的采集过程中,还可以依照实际的采集需要,对档案数据进行更为细致的筛选,这样的档案数据采集方式既保留了档案数据来源的准确性,同时,在日后的调用过程中也不会出现不必要的失误。

4.2 实现了档案数据整理层的优化管理

在档案数据采集之后,相关的工作人员就要实现对档案数据的整理,一般来说,这些档案数据信息都是十分复杂的,因此,工作人员的整理工作也相当麻烦。因此,将大数据技术应用在档案数据的整理过程中,可以有效地提高工作人员的工作效率,既能保证档案数据的有效存储,同时,还可以避免在整理的过程中出现失误,导致数据的缺失。随着互联网技术的不断发展,当前,可应用在档案数据整理中的大数据技术已经相对成熟,大数据技术已经成了档案数据整理人员必不可少的技术工具,可以说,一旦离开了大数据技术,档案数据的整理工作将会变得异常艰难。

4.3 实现了档案数据分析层的优化管理

每一份档案数据都有其自身的特点和应用,因此,对于档案数据管理的工作人员来说,还需要在后台对这些档案数据进行分析管理。另外,不同的档案数据之间并不是完全孤立的,它们之间可能存在某些联系,这种数据的相关性分析需要依靠大数据技术才能实现。就档案数据的表面分析来说,工作人员很难在第一时间了解到不同档案数据之间的关联,只有通过大数据技术,才能挖掘到隐藏在档案数据背后的相关信息[3]。在了解档案数据之间的相关性之后,工作人员才能更好地利用档案数据信息,挖掘它们的最大价值,进行档案数据的分析整合,更好地实现信息和资源的共享。

4.4 实现了档案数据展示层的优化管理

对于档案数据来说,无论是对其进行采集整理,还是对其进行分析整理,其最终的目的都是为了将档案数据展示出来,供人们参考使用。因此,档案数据的展示工作是极其重要的,在进行档案数据的展示时,工作人员需要利用大数据技术更好地实现对数据的可视化管理,建立并完善良好的档案数据管理系统,这样一来,在用户进行档案数据的调用和查阅的时候,可以更加方便快捷,避免浪费用户的时间,同时,也避免产生不必要的麻烦[4]。大数据技术的出现在很大程度上实现了工作人员对于档案数據信息的展示管理,为人们提供了更多的便利条件。

5 结 语

大数据时代的到来给人们的生活增添了很多新的便利条件,无论是传统的档案数据挖掘处理技术,还是当前的档案管理数据,空间管理档案数据挖掘技术,都成了人们档案管理中必不可少的条件。可以说,一旦人们离开了大型数据库,生活就会举步维艰,难以继续。另外,对于当前的档案数据挖掘技术来说,它自身还存在很多的缺点和不足,还需要进一步地完善和改进,这样,才能更好地为人们服务。

主要参考文献

[1]于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2):4-8.

[2]王雅洁,杨冰,罗艳,等.大数据挖掘在食品安全风险预警领域的应用[J].安徽农业科学,2015(8):332-334.

[3]周枫.资源技术思维——大数据时代档案馆的三维诠释[J].档案学研究,2013(6):61-64.

[4]张芳霖,唐霜.大数据影响下档案学发展趋势的思考[J].北京档案,2014(9):9-13.endprint

猜你喜欢
数据挖掘大数据
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究