大数据档案开发利用起步战略

2017-08-16 05:53丁枚
山东档案 2017年3期
关键词:科研单位档案馆机构

文·丁枚

大数据档案开发利用起步战略

文·丁枚

本文分析了当下大数据档案开发利用特点及影响大数据档案开发利用的有利、不利因素,探讨了大数据档案开发利用起步战略。

大数据 开发利用战略

自美国2012年启动大数据研究开发计划,尤其是2015年国务院印发《促进大数据发展行动纲要》以来,大数据成为政府、企业、科研部门关注的焦点,档案界、学术界也感受到了大数据战略带来的机遇,发表了几百篇关于大数据背景下档案开发利用新趋势的文章。近一、二十年来,社会进入了信息化时代,档案信息呈现出数量大、增长快、载体形式多样化、时效性强的特点,这几乎与大数据4V特征相同。部分档案信息具备了大数据特征,通过一定的收集、整合方式其将成为大数据档案。大数据档案的开发利用也就提到了议事日程。大数据档案开发利用能够产生巨大的经济效益和社会效益,这正是几十年来档案界孜孜以求的目标。搞好大数据档案的开发利用,将使整个档案开发利用工作产生重大突破,将对我国经济、科技、社会发展起到巨大的推动作用,档案机构也将由一般的文化事业单位转变为重要的经济科技文化事业单位。目前,大数据档案的开发利用工作还没有开展起来,全面论述大数据档案开发利用战略的时机尚未成熟。本文将在分析当下大数据档案开发利用特点、影响大数据档案开发利用有利因素、不利因素情况下,结合档案机构、档案工作者的现有条件,探讨大数据档案开发利用起步战略。

一、大数据档案馆藏状况和开发利用情况

了解大数据档案首先要搞清楚数据、传统数据与大数据,传统档案与大数据档案的概念与区别。

数据是计算机语言,指对客观事件进行记录并可鉴别的符号。虽然数据概念的产生只是近几十年的事情,但它与已经产生几千年的档案概念基本相同,都是对客观事件的记录。档案也是数据。

传统数据又称小数据,是相对于大数据而言的。大数据指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,而传统数据也就是用常规方法获得的数据,例如用抽样调查方法获得的数据就是传统数据。

传统档案指用常规方法获得数据形成的档案,例如档案形成单位向档案馆移交的纸质档案。大数据档案主要指用感应技术、存储技术、云计算等非常规方法获得数据形成的档案。在实际工作中,可以用两种方法判断大数据档案,除了看是否是用非常规方法获得的数据外,还可以用大数据4V特征来判断,一般来说满足数据量巨大和应用价值大这两个特征,就是大数据档案。像会计报表、查体报告这样的传统档案在数量非常大且具有应用价值的情况下,也成为大数据档案。应用价值大是判断大数据档案的必要条件,如果仅仅是数量大,但无应用价值,也不是大数据档案。

目前,我国档案机构中基本上还不存在现成的大数据档案,也还没有见到大数据档案开发利用的报道,从整体上看,我国大数据档案的开发利用还没有起步。

二、当下大数据档案开发利用的特点分析

(一)档案界自身开发利用大数据档案的能力不足,采用联合模式有利于起步。从开发利用经验看,档案部门不仅缺乏大数据档案开发利用的经验,就连传统档案开发利用的经验也不足。从技术条件看,大数据开发利用的优势部门是互联网企业和电信企业,以及少量的用户单位,档案机构在这方面的能力是比较弱的。当下档案机构靠自身的能力开发利用大数据档案面临诸多困难,起步时,宜与其它机构合作,采用联合模式。

(二)大数据档案不是现成的,需要把部分符合一定条件的传统档案通过一定方式集合起来作为大数据档案使用。目前,我国档案馆馆藏的主要是传统档案。但部分传统档案,如会计报表、查体报告等,通过一定方式集合起来可以做为大数据档案使用。现在,这些传统档案分散在全国4000多家档案馆中,有的还由档案形成单位保管。起步时,需要先做统一档案标准格式,以及档案馆之间互联互通等基础性工作。

(三)互联网企业、电信企业开发利用的主要是反映最近行为的新鲜大数据,而档案部门在起步时,则需要从开发利用反映历史行为的大数据开始。美国互联网数据中心指出,目前世界上90%以上的数据是最近几年才产生的,互联网上的数据每年增长50%,两年就翻一番。尽可能使用新鲜度高的大数据是大数据开发利用的一个重要原则。然而,对档案机构而言,一是不具备收集新鲜大数据的技术条件,二是受档案开放时限的制约,一些档案还没有达到开放时限,或者还没有移交给档案馆,使即时开发受到限制,开发利用新鲜大数据不是档案机构的优势。一般来说,相对于新鲜大数据而言,历史大数据的价值是低一些,但对某些研究项目来说,是必须使用历史大数据的,其在某些情况下的价值也是非常大的,例如研究几十年前人们的生活方式对人体血脂、血糖的影响,就必须使用几十年前的查体数据。

(四)大数据开发利用的用户主体是企业,而大数据档案的开发利用在起步阶段宜面向政府部门和科研单位。市场化的大数据开发利用的主要目的是取得经济效益,其用户主要是企业,如百度、腾讯、阿里巴巴等互联网企业、中国移动、中国联通、中国电信等电信企业。例如电信企业通过把开发的大数据用于改善自身的经营管理或卖给其它企业的方式获得收益。档案机构目前不具备这样的条件,搞不了这样的服务。政府部门、科研单位也是大数据开发利用的服务对象。政府部门通过大数据分析实现决策科学化。科研单位通过大数据分析进行科学研究。虽然这两个部门不是大数据开发利用的最重要用户,但档案机构在开发利用大数据档案的起步阶段,主要面向政府部门和科研单位,符合档案机构的实际情况。

三、大数据档案开发利用的有利因素与不利因素分析

(一)有利因素

1.社会环境发生了重大变化,国家支持大数据档案开发利用。2015年8月31日,国务院印发了《促进大数据发展行动纲要》。《纲要》指出,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。还提出要实行政产学研用相结合的协同创新模式,推动大数据的开发利用。我国经济发展持续向好,大数据开发利用技术迅速发展,各地积极建设数字城市以及国家鼓励智库建设等,也都是有利于大数据开发利用的社会环境因素。

2.进入大数据时代后,档案所具有的原始数据属性,大大提升了档案的价值和档案部门的地位。在小数据时代,档案的价值与图书、情报的价值相差不大,进入大数据时代后,情况发生了根本性的变化,档案是原始数据,图书、情报不是原始数据,只有原始数据才有可能成为大数据,图书、情报与大数据无缘。这样档案的价值就大大高于图书、情报了。这是有利于大数据档案开发利用的最根本因素。

3.《档案法修订草案》送审稿和档案事业十三五规划对大数据档案的开发利用提供了法律、法规保障。修订草案对档案的开放、利用做出了重大改革,原来档案的开放期限是自形成之日起满30年,现在取消了对档案开放期限的限制,提出“开放为原则,不开放为例外”的精神,并规定国家档案馆保管的档案,开放日最晚不迟于形成后20年。这对需要快速处理的大数据档案而言是重大利好。现行的《档案法》没有关于信息化建设的内容,修订草案专门增设了“档案信息化与电子档案管理”一章,对电子档案管理系统的建立、电子档案的安全及档案数字化都做出了明确的法律规定,这有利于大数据档案的形成和开发利用。档案事业十三五规划确定到2020年全面推进档案资源存量数字化、增量电子化、利用网络化的管理模式,还提出探索电子档案与大数据行动融合,采用大数据、智慧管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平的要求,这更是对大数据档案的开发利用做出了具体规定。

4.大数据的广泛传播,提升了人们的大数据意识,形成了一批大数据档案开发利用的潜在用户,这是大数据档案开发利用的市场基础。近几年,大数据作为重要信息资源、重要资产的理念已经深入人心。虽然一些机构暂时还没有认识到档案里面也有大数据,但只要认可大数据的开发利用价值,就是大数据档案开发利用的潜在用户。

5.档案机构兼有政府部门角色,具有整合资源能力强的优势。档案机构既是档案馆又是档案局,既具有文化事业单位的性质,又具有政府部门的角色。档案机构与政府部门、科研单位、互联网企业、电信企业以及用户单位合作,共同对档案资源进行开发利用的联合模式是档案开发利用的一个很重要的模式。档案机构所具有的政府部门角色对联合开发利用大数据档案是十分有利的。

(二)不利因素

1.档案界在整体上缺乏开发利用档案信息资源的经验。档案界对传统档案的开发利用一直滞后于经济科技社会发展的需要,现在又面临开发利用难度更高的大数据档案的任务,存在先天经验不足的问题。从近几年发表的几百篇涉及大数据档案的论文就可以看出这一点,这些论文大都注意到进入大数据时代后,将出现大数据档案的开发利用问题,但对如何开发利用基本上都没有提及。

2.档案机构收集新鲜大数据的能力,无法与互联网企业、电信企业相比。新鲜大数据主要来自互联网、物联网和移动电话,在当今时代,人们在频繁地打电话、浏览网页、网上购物、发微信等,都在不停地产生着新鲜大数据,互联网企业、电信企业具有收集新鲜大数据的天然优势,档案机构在这方面处于弱势。

3.档案工作者的观念、素质不适应大数据档案开发利用的需要。档案工作者是大数据档案开发利用的重要主体之一,但其在观念、素质等方面还存在一些问题。例如,进入大数据时代后,档案所具有的原始数据属性,使档案工作搭上了大数据的快车,但在调研中发现档案工作者普遍没有认识到这个机遇;很多档案工作者也不知道通过一定方式能够把部分传统档案整合成大数据档案。

4.档案馆藏状态不适合大数据档案开发利用的需要。目前,各级各地档案馆馆藏主要是传统档案,还没有现成的大数据档案。一些能够整合成大数据档案的传统档案,也因档案馆之间互联互通做的不够,档案馆之间形成了信息孤岛,增加了把传统档案整合成大数据档案的难度。

5.档案用户的大数据档案信息素质尚需提高。虽然部分档案用户认识到了大数据的重要性,但在调研中了解到,大多数用户单位还不了解档案里面也有大数据,还没有想到开发利用大数据档案。

四、大数据档案开发利用起步阶段宜采用的做法

(一)以开发利用历史大数据档案为主。档案机构目前总体上不掌握感应技术、存储技术、云计算等用于收集大数据的非常规方法,不具备收集新鲜大数据的能力。而通过整合历史档案中的传统数据获得历史大数据是档案机构的优势。这一点又恰恰是互联网企业、电信企业等具有收集新鲜大数据优势的企业所不具备的。起步时应扬长避短,以开发利用历史大数据档案为主,例如开发利用几十年前的人体查体数据等。

(二)以一次性项目合作为主。目前档案机构不具备持续开发利用大数据档案的能力,能够整合成大数据档案的传统档案分散保存在众多档案馆中,档案馆之间的互联互通比例还不高,广泛、持续开发利用大数据档案受到了限制。起步阶段的主要任务是试点、总结经验,从一个具体项目开始比较适宜,这类项目多是科研项目。

(三)以采用联合模式为主。档案机构存在收集大数据能力差、分析大数据能力弱等问题,同时具有整合资源能力强的优势。在起步阶段,档案机构与互联网企业、电信企业、政府部门、科研单位联合,有利于更好地完成大数据档案的开发利用任务。

(四)以为政府和科研单位服务为主。档案机构是政府部门,也是文化事业单位,这一点与科研单位相同。它们的运转资金性质也类似,因此档案机构具有与政府和科研单位方便沟通、方便合作、方便为它们服务的优势。政府、科研单位、企业都是档案机构的服务对象,但在起步阶段,把政府和科研单位作为主要服务对象比较有利,这样还有利于获得政府资金的支持。

(作者单位:济南市技师学院)

猜你喜欢
科研单位档案馆机构
嘉吉(Cargill)进军RAS饲料研发,与美国知名科研单位达成合作
科研单位人事档案管理中存在的问题及对策
云南省档案馆馆藏《东巴经》
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
一周机构净减仓股前20名
科研单位财务精细化管理探析
when与while档案馆