从“数字化”走向“数据化”

2016-04-09 20:39李明娟
办公室业务 2016年6期
关键词:数据化档案管理工作数字化

李明娟

【摘要】“大数据”背景下,我们应以档案著录工作为基础,从档案全文数据库的建设寻找切入点和突破口,从而实现全国全网络的档案大数据平台的构建。

【关键词】档案大数据;数据化;档案管理工作

一、世界性的“大数据”之战

(一)“大数据”的爆发。图灵奖得主、关系数据库的鼻祖詹姆斯·尼古拉·格雷,曾在2007年留下了演讲稿《第四范式:数据密集型科学发现》。他科学地总结并预测了人类科学发展的四个“范式”,描绘了自己关于第四范式的愿景:数据量的急速增长,计算机将不仅能进行动态模拟,还能进行分析总结,得出理论,即数据密集型科学。如今以大数据为代表的数据密集型科学的发展受到了全世界的追捧,海量信息的汇集,动态性数据的汇总使人们全方位地掌握了所要研究领域的概况及发展趋势。各个行业也在争相涉足“大数据”的研究领域中,信息资源发生了爆炸性的膨胀。

(二)档案胀库。随着电子文件的理念被逐步推广,人们也越来越重视档案的管理工作,但没有统一规范的制度,也没有构建全国性档案信息化数据,使得档案数据形成胀库现象。和传统的因档案库房容量所限而造成的档案库房的胀库现象相似,“档案数据库胀库有着许多不同的表现形式,总体来说就是无法增加新的档案数据,或者无法进行有效的查询检索和统计分析”。出现这种现象的原因可以概括为技术性因素。20世纪80、90年代的计算机记录采用二维数据表格的形式,例如每个汉字由两个字节的长度表示。在当时的技术环境下,不能预测及生产出符合更大数据记录内存的软件和硬件。这样的条件下,档案用户直接参与利用的信息数据库和档案工作人员后台管理的档案信息储存数据库都会产生档案胀库现象。

(三)档案大数据。“大数据”顾名思义指不采用传统的随机抽样调查分析的方法抽取数据,而是将所有的数据聚集汇合。通常我们将大数据的特点归纳为4V:Volume(数据量巨大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value (价值密度低)。即数据量巨大,数据类型繁多,处理速度快,价值密度低。

2012年在瑞士举行的达沃斯论坛发布了《大数据,大影响》的报告。这次的报告将数据归为一种新的经济资产类别,探讨了在新的数据生产方式下如何更好地利用庞大的数据产生良好的社会效益。2012年,奥巴马政府集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,公布了旨在提高和改进人们从海量信息获取有效信息能力的“大数据的研究和发展计划”。此次大数据计划特别提到了美国国家档案与文件署(NARA),将档案部门的大数据上升到战略层面。对比我国国家档案局,尚未提出相关的具体政策或规划,所以我们作为档案人,有义务在档案大数据的相关问题上做出思考。

二、从“数字化”走向“數据化”

(一)“数字化”和“数据化”。大数据的背景下,各地区各机构的档案馆(室)的档案数量将急剧增加。所以“大数据”的提出对档案信息化工作面临新的机遇与挑战,促使档案信息化建设面临着转型与创新。我们应注意的是,档案大数据不是我们以前强调的单纯意义上的档案数字化,我们应该把档案管理的思路从“数字化”向“数据化”转化。

所谓的“数字化”指得是将信息转变为0和1所表示的二进制数据并予以储存。档案的数字化既包括档案目录的数字化和档案全文的数字化,它是直接区分于传统纸质形式记录的档案形式。事实上档案的大数据是以数据为基准的研究模式而不是简单地录入档案目录和扫描全文,这样的数字化只是“死”的档案信息,并不能作为大数据环境下的档案研究标准。

我们必须将“死”的档案扫描全文和档案目录变为“活”的档案大数据,这就需要对档案进行“数据化”,进行档案全文的著录工作,对文本和图像中的数字内容进行识别、分类、著录和标引的“数据化”工作,从而便于人们利用检索词检索出合适的档案信息。

(二)档案“数据化”的实现。具体有以下几个方面:

1.档案著录。20世纪80年代,传统的著录形式逐渐向现代著录的方式转变,代表性的美国、英国以及加拿大等国率先采用了计算机著录的方式对档案信息进行著录。档案“数据化”的实现必须依靠档案著录,“档案著录是基础性的至关重要的工作环节,档案著录质量的好坏将直接关系到档案信息的交换、互联互通、实现信息资源共享和社会利用”,这样就为档案“数据化”的实现打好了基础。我国目前采用的档案著录规则是《DA/T18-1999档案著录规则》,该标准距今已经有十几年的历史,虽然此后也发布了一些档案著录的相关细节规则,但是相比较国际档案理事会1999年公布的第二版国际档案著录标准ISAD(G)还是存在一些不足之处。我国档案著录规则在操作上容易出现错误,例如规则中规定,档案主题标引可用主题词也可以用关键词。其次,我国档案著录规则的适用范围较小,国际档案著录标准要求对档案的内容特征、背景、系统来源等一一进行著录。最后,我国的档案著录规则不包含全宗和类别为对象的著录,而ISAD(G)规定的“较为理想的著录,应由全宗级、案卷组合级、案卷级、文件组合级、文件级和分析级六个层次构成”。对比发现,我国要想实现档案“数据化”,必须参照有关国际的档案著录规则规范对我国的档案著录规则进行修改,才能有效开展档案著录工作。

2.档案全文数据库。全文数据库指得是集检索与文献全文提供于一体的网络性数据资源集合体。建立全文数据库既避免了人工查阅文献书目的繁琐,又简便了阅读文献的方式,便于为读者提供直接在线全文阅读的服务。档案全文数据库需要从包括软件硬件在内的各个方面入手来建立,大体上可以分为三个方面。第一,档案数据库的建设。(下转第145页)(上接第171页)档案信息数据库最终要满足不同层次、不同方面的利用者的利用需求,所以这些档案数据库的数据内容、网罗覆盖范围是衡量能否满足利用者需求的决定性因素。其中数据库的数量和质量都要满足“大”的要求。数据库应包括政治、经济、军事、文化教育等各方面内容、各个时期的档案,同时这些档案也应保证真实完整、有条理有顺序。第二,档案检索系统的建设。档案检索系统是用户查找利用档案的关键。档案检索系统的界面设计应简洁且内容覆盖全面,检索应有关键词检索、目录检索、主题检索等多种入口,以满足不同利用者的需求。第三,档案服务功能建设。我国的大多数档案检索系统在这点上做得不够全面,也没有真正树立起网上服务的理念。这里的服务功能建设指得是包括引导利用和互动交流的服务功能建设,不仅要提供网站自动的介绍服务功能,还应该提供人工在线交流服务,引导和帮助利用者在线获取档案信息。

3.档案大数据平台模型构建。档案大数据是档案部门对庞大的档案信息进行有效管理的一种解决方法,档案“数据化”最终的理想目标是对其进行档案大数据平台模型的构建。“在大数据时代,个人、企业和机构都会面临大数据的问题。一般的大数据平台构建大致分为基础层、管理层、分析层和应用层,这里我们应用到档案管理工作中,必须要考虑到档案管理工作的收集、整理、鉴定等八项工作在实际档案大数据平台模型构建中的对接问题,建立适合档案部门的大数据平台。

基础层为档案大数据平台的运行提供基础支撑的作用,提供包括存储服务器、计算服务器等高性能硬件资源,数据库、模型库等全方位的的数据资源,以及平台和服务资源等软件资源。传统的档案管理工作的八项环节应当嵌入档案大数据平台的构建中,形成管理层。在这个层面上的构建应该作为一个单独的管理设计嵌入档案大数据的平台上,所以这也要求今后的档案管理工作具有统一的档案收集、整理、鉴定的数据化的规则。分析层是掌握档案智能数据的中心以及档案数据的高速网络心脏层。它以互联网的服务体系为基础,在此基础上对数据进行存储、处理、挖掘等分析。应用层是针对档案利用者的层面,档案大数据平台的构建最终目的是为了档案利用者获取档案信息。设计时应涵盖档案馆藏的所有种类和内容的大规模的档案数据,不仅应设计简单检索和高级检索的档案全文检索服务,还应该设计档案咨询等实时在线交流服务。

(三)档案大数据的应用。档案“数据化”的实现为我们档案部门发挥效应带来了巨大的便利。放眼国外,已经有许多国家的档案部门开展了档案大数据的应用工作。2003年4月,美国国家档案馆(NARA)的“获取档案数据库”(Access to Archival Databases,简称AAD)在ERA项目的开发下正式运行。该档案全文数据库可以在线获取原生电子文件,方便了广大居民实时在线获取档案信息,掌握档案证据。到2005年,利用者已经达到了大约130万人,并通过AAD进行了约160万次成功的查询。居民们可以通过关键词检索、主題检索、目录检索等多种检索形式获取所需档案,也可以通过“AAD工具”栏、“帮助(help)”功能等了解如何查找获取档案数据。“美国AAD建设给我国档案馆在线档案全文数据库建设的一个重要启示便是在线档案全文数据库建设应始终贯彻‘以用户为中心的理念”,只有在这一理念的指导下才能对档案信息进行有效的数据化开发。

近年来,随着世界经济和文化交流日益频繁,大数据不仅在国际上更是在我国的许多领域都有了收获颇丰的应用实例。我国医疗界的“3521工程”就是一个典型例子。“3521工程”是医疗档案大数据工程,旨在建设国家级、省级和地市级三级卫生信息平台。该平台建设有健康档案和电子病历两个基础数据库和一个专用网络,融合了我国绝大部分三甲医院和二甲医院的数据库信息和影像文件的数字化信息。这一医疗档案大数据的应用可以通过对庞大医疗数据的统计分析,分析预测慢性病、流行病的发展趋势并自动报警,为我国医疗事业的发展提供了有力的数据支持。

【参考文献】

[1]王学平.浅议我国档案数字化建设实践与发展策略[J].档案学通讯,2011(6):54—57.

[2]张健.档案数据库“胀库”问题研究[J].档案学通讯,2012(4):49—51.

[3]徐俊敏.我国档案数字化中档案著录问题探析[J].兰台世界,2014(5):1,4.

[4]应海燕、乐淑芳.《档案著录规则》适用性初探[J].兰台世界,2006(17):20-21.

[5]连志英.“以用户为中心”的在线档案全文数据库建设初探——以美国国家档案馆AAD为例[J].浙江档案,2012(4):11-13.

猜你喜欢
数据化档案管理工作数字化
揭示数字化转型的内在逻辑
数字化起舞
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
“互联网+”背景下的智能互联汽车数据化媒体服务
高校档案管理工作的创新方略解析
中职院校档案管理工作存在的问题及措施
浅谈档案管理工作内容及模式转变
浅谈事业单位档案管理的优化
浅析人力资源管理的E化