赵莉
摘 要 本文介绍大数据的巨大影响,总结档案数字化工作现状,分析其在实施过程中的偏差;然后以大数据为视角,结合大数据的特征和要求,提出优化档案数字化工作的策略;强调在大数据环境下,档案数字化工作要从量的积累转变到质的提升和挖掘上来,让数字化档案资源中的海量数据得到最全、最广的采集,以利用为导向,多渠道、多角度地研究和开发档案数字化成果,使档案数字化工作的收益最大化。
关键词 大数据 档案数字化 现状 策略
一、大数据背景
2008年,《Nature》发表文章《Big Data:Science in the petabyte eta》,首次在计算机领域提出大数据(Big Data)这一名词。2011年5月,全球知名的咨询公司麦肯锡发布了报告《Big Data:The next frontier for innovation,competition,and productivity》,报告极其详细地论述了大数据对全球的影响,许多国家都开始对大数据展开研究,美国甚至认为大数据是“未来的石油”。2014年,大数据正式被写入我国政府工作报告,2015年9月,国务院印发了《促进大数据发展行动纲要》,“数据兴国”被认可。尽管关于什么是大数据目前还没有一个完美的定义,但关于大数据的基本特点在学界已基本达成共识,即大数据规模庞大、类型多样、快捷高效、客观真实,这四个特征是对大数据比较形象和贴切的描述[1][2]。
近年来,大数据及其相关的技术、理论等已成为研究的热点,其重要战略作用已成为共识。同样,档案界也对大数据给予了较多的关注。比如,在大数据与数字档案馆建设、大数据与档案信息资源建设、大数据与档案利用服务等档案工作的各个方面都有了相当多的研究。可见,大数据及其一切相关的理论、技术对档案工作的影响也是极大的。本文拟就以大数据为视角,对当前日渐成熟的档案数字化工作展开进一步的理性思考。
二、档案数字化工作现状
众所周知,在计算机程序中,不管什么样的文件实质上都是用0和1表示的二进制数字编码。所谓数字化,实际上就是利用计算机技术,把文字、图像、语音等信息转换为二进制数字编码的过程。只有通过这样的转换,庞杂的信息才得以存入计算机。从这个角度看,数字化是把文字、图像、語音等信息存入计算机的基础和前提。档案数字化是数字化中非常特别的方面,特指把纸质档案、纸质照片档案、传统介质中的音视频档案等非数字化的档案通过数字化将其内容存入计算机。
经过多年发展,我国档案数字化工作已取得了很大的进步。全国各类档案馆、档案室都在开展档案数字化工作,成绩显著。“存量数字化,增量电子化”的档案信息化战略思路早已形成。2017年,国家档案局批准发布了新的《纸质档案数字化规范》(DA/T 31—2017),对特定类型的档案数字化工作有了更加具体的指导。2017年12月27日,时任国家档案局李明华局长在全国档案局长、馆长会议上的工作报告中总结2016年档案工作时提到,“档案数字化进展顺利”,并且“全国数字化档案资源达2243万GB”。档案数字化工作推动了档案信息化的进程,但其在实施过程中产生的问题和偏差不容小觑。
1.档案数字化工作中量与质的把控有偏差。在档案工作的很多评估、检查、评比等活动中对档案信息化建设都会要求或提到档案数字化率要达到百分之多少,或多少年内完成多少万卷的扫描等。类似相关的描述都是关于档案数字化量的,对档案数字化质的要求、检测、描述却不多。档案数字化工作的这种形式要求和任务性要求在无形中可能会使档案数字化工作产生偏差,即过于追求速度和数量,而轻视质量的提升和工作的实效性。如,档案数字化工作中精益求精,出效益的意识不够,对档案数字化加工环节及后期处理的细节把控不够严格,如图像的去污、纠偏等是否符合规定,形成的图像是否与档案实体的形式和内容相符,数据挂接是否准确等。这些质量细节直接影响着档案数字化成果的质量及其可利用的程度。所以笔者认为在档案数字化工作中对质量的高要求、重检测比可观的数量达标更重要。
2.档案数字化成果后续再加工环节欠缺。把档案数字化成果与目录对应挂接后,可以实现在线浏览、打印,减少了档案实体的利用损耗,工作人员不用频繁进出库房。但把档案数字化工作的价值仅限于浏览和打印上的方便、快捷是远远不够的。非数字化档案尤其是量相对比较大的纸质档案在数字化后大多以图片和PDF格式存储、打印、复制、传递,依然不能进行全文精确检索,依旧是使用目录级检索,即检索方式没有从实质上发生改变,蕴含在每份档案中丰富的数据无法通过统计分析和人工智能方法快速发掘和利用,不能满足数据共享、数据整合、数据处理快捷高效等大数据环境下的高需求[3]。档案数字化成果的利用率得不到提高,档案数字化工作投入的实际效果无法得到真正体现。如何加强档案数字化成果的后续再加工,使数字化后的档案信息在大数据环境下得到最大程度的开发利用,这是档案数字化工作更应思考的问题。
三、大数据环境下档案数字化工作的优化策略
1.在条件允许的情况下,适当扩大档案数字化对象的范围。数据规模庞大、数据海量,并且数据类型多样是大数据显著特征。在早期,受技术和能力的限制,人们一般只能用少量的数据来描述事物。随着技术的发展,计算机技术可以处理所有的数据,海量的数据可以达到更高的精确性,人们借助大数据可以更细致、更精准、更全面地认识和描述事物。这是海量数据所带来的优势。所以在档案数字化工作中,为了获取更多、更全、更广的数字化档案信息,在条件允许的情况下,应适当扩大档案数字化对象的范围。数据量足够大是大数据环境下开展很多工作的基础,否则,诸如数据分析、数据挖掘等都无从谈起[4][5]。但由于档案及档案工作的特殊性,扩大档案数字化对象的范围时必须要区分各类档案的利用权限,并且要在经费、软件、硬件、技术和人员等各方面许可的情况下量力而行。
2.注重档案数字化工作的过程管理,严把质量关。大数据具有真实、准确的特征。在大数据时代,人类只是相关软件和硬件的设计和制造者,并没有全程参与大数据的形成和采集,大数据大都由硬件和软件因自身的基础功能而自动采集和记录下来,人们甚至暂时都不知道这些数据的具体用途。也就是说大数据在形成过程中少了很多,甚至是没有人的主观意图的痕迹,从而确保了大数据的客观、真实和准确性,客观地记录和反映了事物的状态、行为等。数字化的档案资源是非数字化档案的一种转化形式,从大数据的真实准确性特征角度看,档案数字化工作必须确保这种转化的高质量,最大程度地减少数字化档案和非数字化档案的转化误差。
所以在档案数字化工作中,不能因赶时间、赶进度、追数量而忽视了质量和效益。首先,应加强档案基础整理工作,档案数字化工作必须与其他档案业务协同进行。规范、齐全、有序的档案整理是开展数字化工作的基础。在日常工作中应加强业务指导和检查,严格落实案卷质量标准;优化库藏旧档案整理弊端,提高档案整理的规范化程度,为数字化工作的顺利开展、数字化成果质量的提高创造条件。其次,要加强档案数字化工作过程管理,严把质量关。高质量的成果是通过合理的过程链来完成的[6]。要制定明确的、可操作性强的质量标准和要求,降低投入风险。在实施数字化加工的过程中注意随时总结,形成一套能应对所发现问题的处理方法和规定,及时改进档案数字化加工的各个流程。
3.坚持以利用为导向,全力挖掘和开发档案数字化成果。数据的快捷、高效是大数据的另一个重要特征。大数据要求的是快速、持续的实时处理,在大数据环境下,人们对数据的利用越来越趋于高需求,数据处理结果要求更加及时、精准,否则可能就过时和无效。这种快捷和高效带给档案数字化工作的思考就是数字化的档案信息资源一定要“动起来”和“用起来”,以满足越来越高的档案利用需求,充分发挥档案信息资源的价值,实现档案利用服务的转型升级。
(1)利用现有技术手段,结合人工辅助识别,全面采集档案数字化成果中的各种数据。如前所述,数字化后的档案,即图片和PDF文件如果不采取其他措施是无法将其中蕴含的数据信息识别并抓取出来存储的,数据引用、检索、分析更是难以实现。对于普通纸质档案,目前比较常用和成熟的技术是OCR(Optical Cha-
racter Recognition),即光學字符识别技术,简单来说就是运用专门的软件对档案数字化后形成的影像文件进行处理,并把识别到的信息以通用格式输出保存在文本文件中,并辅以人工核查。对于音频、视频档案,可以利用语音识别加上人工辅助,把声音信息转换为文字,还可以添加一些字幕信息,使音频、视频档案也可以按具体内容进行检索。对于纯粹的照片档案,以人工采集为主,编写详细的照片说明输入计算机[7]。技术结合人工,可以保证较高的查全率和查准率,虽然增加了一些工作量,但却是开发档案数字化成果的基础工作,也是引用大数据技术、语义网技术等其他更复杂和先进技术所做的必不可少的准备。
(2)以利用为导向,结合档案编研工作,充分挖掘和利用档案数字化成果。单个数据的实际意义可能不大,如果对大量数据进行有目的地综合分析,其潜在价值就会显现。大数据背景下更重要的是档案附加价值的体现,从大量数据中分析潜在的价值,决定着大数据时代档案馆的发展水平及方向[8]。在大数据背景下如何挖掘已经数字化的档案的价值是当前工作的重点。在对档案数字化成果进行全面数据采集的基础上,对采集到的大量数据进行统计、分类、预测、相关性分析、关联分组、图像及音(视)频等复杂数据类型挖掘等,建立各类专题检索数据库。同时思考选题,创新档案编研的手段、形式及传播方式,以适应大数据环境下的高需求,编辑贴近利用需要的成果,可以充分利用和体现数字化档案资源的优势和价值。
(3)转变思维,更新理念,优化人员结构,提升档案数字化工作队伍的综合素质。在大数据时代,档案工作人员必须主动转变思维方式,从网络化、信息化的角度,借用大数据先进技术,以资源共享的理念,挖掘档案数字化成果的丰富数据,并纳入档案信息资源共享数据库,或者为档案信息资源共享平台的搭建做好数据积累。档案数字化成果中蕴藏的潜在价值需要创新的思维、先进的技术去深入挖掘,但新知识、新技术的复杂多变性是档案部门必须要面对的现实问题。所以档案数字化工作队伍结构和综合素质的与时俱进至关重要。一是要积极引进具有创新意识、相关知识和技术的人才,在人员配置上适时优化结构;二是现有工作人员要通过培训学习、业务交流等措施来拓宽思路,更新知识和技术,以适应现实工作的需要。
综上所述,档案数字化工作已经如火如荼地开展多年,成绩斐然,日渐成熟,但其发展过程中的偏差也或多或少显露出来。尤其是在大数据环境下,档案数字化工作更应实施优化策略,要从量的积累转变到质的提升上来,让数字化档案资源中的海量数据得到最全、最广的采集,以利用为导向,多渠道、多手段地研究和开发档案数字化成果,使档案数字化工作的收益最大化,让档案这一特殊信息资源在大数据进程中的作用和价值最大化。
参考文献
[1]Michael Wessler.Big Data Analytics for Dummies [M].New Jersey:John Wiley & Sons,Inc.2013.
[2]李小刚,谢诗艺,程舒.大数据时代档案馆服务创新研究[J].北京档案,2013(11):11-13.
[3]梁惠卿.档案数字化、数字化档案和数字档案概念辨析[J].档案管理,2013(1):38-40.
[4]涂子沛.大数据:正在到来的数据革命[M].广西师范大学出版社,2012.
[5]曹汉平.互联网金融的新常态[M].北京:清华大学出版社,2016.
[6]龚晓明.卓越绩效模式立足过程管理[N].中国质量报,2006(5).
[7]陶水龙.海量档案数字资源智能管理及挖掘分析方法研究[J].档案学研究,2017(6):75-79.
[8]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8):6-9.