大数据背景下海洋档案数据挖掘研究

2017-11-25 10:31:36国家海洋局东海信息中心国家海洋局东海档案馆吴晓文孙杰杨帆
办公室业务 2017年19期
关键词:国家海洋局档案馆数据挖掘

文/国家海洋局东海信息中心(国家海洋局东海档案馆) 吴晓文 孙杰 杨帆

大数据背景下海洋档案数据挖掘研究

文/国家海洋局东海信息中心(国家海洋局东海档案馆) 吴晓文 孙杰 杨帆

海洋档案大数据挖掘技术应用于档案知识管理是新时期我国海洋档案事业发展的重要方向。本文阐述了海洋档案数据挖掘的概念,分析其当前面临的问题与挑战,剖析了海洋档案大数据挖掘技术的表现形式,以满足海洋档案多元化信息服务需求,为探索档案管理模式由传统服务利用向智能化服务模式的创新和转型提供有益借鉴。

大数据技术;海洋档案;数据挖掘

一、引言

伴随着信息技术的飞速发展,各类电子设备的大量普及,信息化发展迎来了“大数据”时代。海洋档案是“蓝色记忆”的守护者、传承者,是海洋事业发展的重要部分。大数据时代,每个人都是知识的生产者、传播者、利用者,同时也是档案的形成者、利用者。档案不像图书、文献,所承载的数据呈分散形式存在,不会自动形成知识资源,如何将海量档案数据转变成信息或效用更大的知识网络,这就需要海洋档案工作者和科研工作者共同的劳动介入。国家海洋局东海档案馆为我国在三个海区设立的海洋档案馆之一,目前正在寻求与大数据开发公司合作,开发适合海洋档案的大数据挖掘工具,增强从大数据中分析萃取信息的能力,进而提高档案为海洋管理部门决策、业务部门科研水平的服务能力。

二、海洋档案数据挖掘

海洋档案是各项海洋工作活动的记录和凭证,包含国家机构、社会组织和个人在从事海洋管理、科研调查、资源开发、公益服务、对外合作与交流以及海洋部门党政工作等活动中,直接形成的具有保存价值的原始记录,对服务国家海洋事业发展具有不可替代的作用,是我国档案界中宝贵的“蓝色财富”。

大数据时代应建立“大档案”概念,海洋档案数据挖掘(Marine Archives Data Mining),就是从大量的档案文献、专业基础数据、网络收集资料、档案编研资料等不完全的、有噪声的、模糊的、随机的海洋档案数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。从广义上说,数据挖掘又称为数据库中知识发现(Knowledge Discovery in Database,KDD),就是从存放在数据库、数据仓库或其他信息库的大量数据中“挖掘”知识的过程,能够有效地解决数据和知识之间的鸿沟,实现数据与知识的转变、交换。

大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。

三、海洋档案数据挖掘面临的挑战

数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。海洋档案数据来源广泛,业务种类繁多,数据结构多样。探索大数据挖掘技术应用于海洋档案,面临诸多挑战。

(一)数据化与数字化的辨析与技术转换。数据化是随着大数据技术的发展逐渐被人们从数字化概念中分离并提炼出来的。数字化档案在利用检索上存在一定的局限性,需要用户明确知道所查找内容的出处,并且以数字图像呈现的档案只有依靠用户阅读转变为有用的信息和知识。数据化档案则借助OCR光学字符识别软件等数据识别技术来识别数据,使档案信息能够被计算机处理和分析。我国海洋档案数字化建设经过多年的发展已经取得丰硕的成果,各级海洋档案馆(室)已基本实现了档案目录信息的数字化甚至档案信息全文数字化,例如东海数字档案馆经过5年多的建设运行,已基本实现电子文件和档案信息检索利用。但大多数的海洋档案馆(室)在档案数据化程度上仍停留在初步探索阶段,如何对纸质和数字图像等非数据化的海洋档案,通过数据识别技术转变为数据化的档案是大数据技术应用于海洋档案数据挖掘亟须解决的难点之一。

(二)海洋档案中的电子文件在规范程度上参差不齐。数据的输入形式不统一,涉及语言标准化、数据结构规范化问题对数据深度挖掘产生了阻碍。海洋档案通常具有信息资源数据量大、专业交叉、融合难度大等特点,多数海洋政企部门现有的海洋档案业务系统与综合业务平台、其他应用系统之间无法进行互联,形成了信息孤岛。同时越来越多的专业信息系统、业务平台和专业结构数据库无法纳入档案管理范畴或无法提供档案服务。“数据海量、信息缺乏”是众多政企部门在数据大集中之后面临的尴尬问题。目前,大多数事务型数据库仅实现了数据录入、查询和统计等较低层次的功能,无法发现数据中存在的有用信息,更无法进一步通过数据分析发现更高的价值。这些因素都会影响到大数据挖掘的深度和广度。

(三)档案数据化方面的行业技术规范仍处于初步探索阶段。国家针对档案数字化出台了《电子文件归档与管理规范》《纸质档案数字化技术规范》和《数字档案馆建设指南》等标准规范,但由于海洋学科和业务范围覆盖广泛、纵横交叉,为档案数据化标准规范的制定增加了相当的难度。海洋档案大数据挖掘技术的应用和实施也因此缺少良好的数据质量基础。

四、海洋档案数据挖掘的基础优势

在建设海洋强国战略目标的指引下,我国海洋事业空前发展,海洋工作的广度、频度和深度不断拓展,利用海洋档案的需求也随之增强。集中统一管理海洋档案、全面开发海洋档案信息资源,已成为国家海洋行政管理和宏观决策获取依据的重要举措。

传统的数据壁垒、信息孤岛对于新形势下海洋档案应用大数据挖掘技术形成难以突破的阻碍和限制。为此,国家海洋局东海档案馆依托我国东海区“六网合一”的大网络格局,探索大数据背景下的“大档案”发展方向,尝试在海洋行业内创新性探索建设区域性海洋大数据中心,当好海洋数据资料、文献档案和信息产品的集成者、加工者、研究者、服务者。可见,海洋档案要实现数据深度挖掘离不开海洋管理和业务的“大联通”,离不开数据与信息的网络互通,海洋业务及网络的互联互通对于打破海洋档案和档案信息资源之间存在的传统数据壁垒具有非常大的格局优势。

五、海洋档案大数据挖掘技术的表现形式

数据挖掘技术的形式主要分两种,分别为描述型与预测型。在海洋档案数据挖掘中,该两种表现形式均有重要作用:

(一)描述型数据挖掘技术。描述型数据挖掘技术指的是利用描述的行为将数据中存在的规则进行描述,从而根据数据的微观性特点找出数据存在的深层次的、宏观的知识,并将同一类事物的相同属性表现在数据的概括总结以及抽象的事物描述中。传统的海洋档案服务比较狭隘和单一,一般情况是在需求明确(如明确知道某份文件)的前提下,档案人员为其提供一对一的服务。通过数字化手段和数字档案馆的建设,传统的海洋档案服务开始着重于查全查准,但总的来看服务单一的现象依然未能得到根本改善。究其原因:一是严重依赖于档案管理水平,比如著录的准确度、详细度。二是在跨类别、跨库检索上会有缺陷。通过描述型数据挖掘技术的应用,借助聚类和关联手段,可以克服以上缺点,实现馆藏信息的主动推送和档案知识多元服务。

(二)预测型数据挖掘技术。预测型数据挖掘技术是指针对现有的、已存在的数据进行分析处理,总结出同一类事物的共同属性,并预测在未来一段时间内事物的规律。该种方法一方面可以应用在海洋专业数据档案的挖掘分析,针对海洋专业数据,如风、浪、潮、流,通过专用的模型对历史资料进行分析,并发布各种预报类产品。在实际工作中,这种方法已经得到了大量的应用,如海洋预报中心发布的海浪预报、台风路径分析等。另一方面,通过档案资源的深入挖掘,整合真正意义上的海洋大数据库,对海洋事务性档案进行预测性挖掘,通过海洋档案大数据库建立,使用模型工具进行挖掘,如根据海域使用论证档案、海域管理相关的文书档案、海监行政执法档案以及调查档案中的档案信息进行海域使用论证行为、海域审批行为、海域违法行为及处罚行为的大数据分析,可以为海洋行政管理提供决策支持。

[1]国家海洋局.海洋档案管理规定[Z].1999.

[2]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016(2):33-35.

[3]孔乐佳,卢宏伟.大数据思维下的档案资源数据挖掘[J].兰台世界,2016(17):28-29.

[4]於立勇.计算机数据挖掘技术应用在档案信息管理系统中的探讨[J].电脑知识与技术,2012(01):33-34.

[5]彭皖民.基于用户档案管理的数据挖掘分析[J].河南科技,2008(04):89-90.

[6]栾立娟,卢健,刘佳.数据挖掘技术在档案管理系统中的应用[J].计算机光盘软件与应用,2015(01):35-36.

本文为2016年国家海洋局东海分局青年科技基金“大数据技术与海洋档案数据挖掘应用研究”(项目编号:201615)的研究成果】

猜你喜欢
国家海洋局档案馆数据挖掘
探讨人工智能与数据挖掘发展趋势
关于县级档案馆馆藏档案开发利用的思考
兰台内外(2017年6期)2017-05-30 06:46:41
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
全省部分档案馆新馆掠影
浙江档案(2017年10期)2017-03-31 06:27:31
一种基于Hadoop的大数据挖掘云服务及应用
when与while档案馆
国家海洋局确定2014年十大海洋科技重点工作
水道港口(2014年1期)2014-04-27 14:14:35
基于GPGPU的离散数据挖掘研究
我国主要省份风暴潮灾情损失对比分析
科隆档案馆突然坍塌
环球时报(2009-03-04)2009-03-04 13:05:33