何玲 邢琳悦
(四川大学公共管理学院 成都 610065)
档案数据管理问题从20世纪90年代起就受到我国学者的关注,冯惠玲教授率先使用档案数据一词,探讨了档案计算机检索的数据准备问题。[1]此时,档案数据仅仅指代的是与档案相关的元数据。近年来,随着大数据浪潮下的新一代信息技术在档案工作前端与后端的同时发力,档案数据逐渐成为档案管理的新对象,档案数据也不再被认为是与档案相关的元数据,而是既包括元数据又包括内容数据的大规模档案数据。数据管理、数据治理等领域的研究成果开始渗透到档案管理当中,如何管理档案数据成为档案学研究当中的新问题。经文献调研,已有2篇相关综述,但其强调的是不同阶段档案数据的概念与档案数据治理的概念问题。为反映近年的研究关注热点,本文以相关文献较多且具有代表性的CNKI数据库收录的与档案数据管理相关的研究成果为基础,通过系统地整理和综述,揭示近十年来档案数据管理的研究进展,并对该问题提出研究展望,以期能够为后续研究提供参考。
2011-2012年“大数据”概念的引入,使得我国档案数据管理研究内容产生了巨大改变。为了解近十年的档案数据管理研究现状,笔者以中国知网期刊全文数据库为文献来源,以主题为“档案数据”AND“管理”,检索年限为2011年—2020年,将期刊来源限定为北大核心与CSSCI,剔除不相关文献,同时补充“档案数据”AND“治理”等相关内容,最终选取180篇相关文献作为研究样本。
笔者借助Excel、EndNote以及SATI分析软件,通过定量分析与定性分析来对研究样本进行处理,从发文量、核心机构、核心作者、发文期刊四个角度来分析我国档案数据管理的研究现状。
1.2.1 年度发文量
2011——2020年年度发文量见下表:
表1 2011——2020年年度发文量统计表
年度发文量往往体现一个领域对研究问题的关注程度。表1为筛选后的180篇相关文献年度分布情况,对2011-2020年关于档案数据管理的期刊年度发文量进行统计,得出此主题相关文献整体呈现迅速增长的态势,并在2020年达到31篇。就文献研究增长趋势看,此问题仍然有较大的发展空间与研究关注度。
1.2.2 主要发文机构
2011——2020年主要发文机构见下表:
表2 2011——2020年主要发文机构统计表
主要发文机构往往体现关注研究问题的单位分布情况。通过总结分析,从表2能够看出对档案数据管理问题关注的核心机构主要包括高校与国家档案机构两个群体。其中高校以上海大学图书情报档案系、中国人民大学信息资源管理学院为核心研究单位,档案机构中国家档案局、广东省国土资源档案馆、浙江省档案局、江苏省档案馆都对档案数据管理问题关注度较高。
1.2.3 主要发文作者
2011——2020年主要发文作者见下表:
表3 2011——2020年主要发文作者统计表
主要发文作者往往表现对研究问题关注度较高的学者分布情况。目前关注档案数据管理问题的作者呈现分散分布状态,其中发文量最多的是于英香学者与金波学者。刘永学者、周林兴学者等,多位学者都对此问题有研究。
1.2.4 主要发文期刊
2011——2020年主要发文期刊见下表:
表4 2011——2020年主要发文期刊统计表
高频文献来源期刊能够体现关注此研究问题的期刊分布情况。笔者总结发现,对档案数据管理问题关注度较高的期刊皆为档案学领域期刊,其中《兰台世界》发文量最高,《中国档案》、《浙江档案》、《档案学研究》等期刊也刊登多篇相关文献,表明档案学领域整体对档案数据管理研究表现出高关注的现状。
由于档案数据管理研究处于尚处于初步发展阶段,在现有研究成果中档案数据管理与档案数据治理的研究内容多有交叉,本文统一用“管理”一词表达。文章采用定性分析将主题框架分为三个部分,一是档案数据管理相关概念的解读与辨析,主要包含档案数据概念、档案数据管理模式、档案数据管理工作对象。二是档案数据管理工作面临的困境,从管理思维、管理权限、管理能力三个层面进行分析。三是对已有文献对档案数据管理工作困境提出的解决对策进行总结归纳。
不同的学者对作为档案数据管理对象的“档案数据”的理解不尽一致。有学者从计算机存储的视角出发,认为凡是存储在计算机及相关存储设施当中的数字档案以及元数据都是档案数据。国家档案局发布的《基于文档型非关系型数据库的档案数据存储规范》指出档案数据包括电子档案的内容数据、传统载体档案数字化副本的内容数据以及两者的元数据(含目录数据);有学者认为档案数据除了包括数字档案,还包括与之相关的管理类数据。金波学者等人认为档案数据包括业务活动过程中形成的数据,管理及利用过程中工作人员与用户产生的数据[2][3];有学者认为新兴的具有档案属性的数据是档案数据。甚至有人说大数据是档案数据,有学者依据德里达与弗洛伊德的哲学认识,推知大数据都是档案[4]。网站数据、社交媒体数据、个人日志等网络数据也逐渐被纳入档案数据的范畴[5];还有学者指出,经过数据化处理后形成的数据态的档案称为档案数据。数据化后的档案资源才能进行下一步的档案数据利用[6]。钱毅学者提出部分行业文档管理已经呈现出数据态内容,需要关注数据本体、流程等问题[7]。对数据颗粒单元的档案管理,需要将档案数据化纳入企业信息化发展规划与绩效考核。[8]
笔者认为,档案数据存在广义与狭义的区分,广义的档案数据认为所有系统中生成的具有档案属性的数据都应纳入档案数据管理范畴;狭义的档案数据指的是档案机构保存的数据资源及在管理过程中生成的有保存价值的管理数据。本文所讨论的档案数据处于狭义范围。
大数据浪潮推动档案行业开始探索档案数据管理这一问题,纵观学界对这一概念的研究,其内涵可以解释为:“档案数据+数据管理”与“档案+数据管理”两种模式。第一种模式“档案数据+数据管理”,指的是运用数据管理的方法对档案工作中的数据资源进行管理。于英香等学者将档案数据管理解构为:档案数据管理=档案数据+数据管理,指的是在数据管理范畴管理档案数据[9][10];刘越男学者认为档案也是一类数据,档案管理是数据管理的组成部分[11];谢国强学者等则认为数据属于档案,应将数据纳入档案管理范畴。[12]可见,对于档案数据管理当中档案与数据的关系档案界还存在分歧。第二种模式“档案+数据管理”是指档案部门参与数据管理,与数据管理部门协同治理大数据[13]。刘越男学者提出档案机构对业务上的文档和内容进行管理,与其他机构数据管理活动相辅相成,直接或间接的参与数据管理[14]。可以看出两种界定认为的管理对象存在着本质的不同。
笔者认为档案数据管理应该强调档案机构借助数据管理的方法与技术,在其管理范围内对档案数据资源进行管理。
由于对于档案数据的不同理解,因此当前学界对于档案数据管理对象的认识也是五花八门。一是认为档案数据管理的对象源自档案馆内的原有数据以及生成的管理数据。例如周枫等学者就认为档案数据管理对象主要是档案馆藏资源、管理数据、利用数据[15];也有学者将档案数据分类为档案目录信息资源、档案内容信息资源、多媒体信息资源、应用信息资源、档案馆库信息资源[16]。二是认为档案数据管理的对象包括档案馆存储资源之外的大数据资源。例如有学者提出尚未纳入档案部门保管的数据,如政府公开数据、档案用户数据,甚至新型数据资源,感知数据、社交媒体交互数据等也是档案数据的来源[17]。笔者认为档案数据管理工作的对象首先应该在档案馆内,是从业务部门移交到档案馆内的数据资源。其次档案部门需要对业务部门的档案数据资源进行前端控制,提供管理支持,如数据格式、数据存储系统、数据内容的规范,以便后续对数据收集、保存、利用工作的开展。
综上,学界对于档案数据管理的相关概念并未达成统一,也缺乏对档案数据管理工作的系统解读。主要表现为:一是对档案数据的定义不明确,对于档案数据工作的对象与来源存在不同的认知,是否包括档案机构外部生成的大数据资源是主要矛盾。二是对数据管理与档案管理的关系解读存在分歧,到底是运用数据管理手段开展档案工作,还是档案部门参与数据管理工作,需要进一步的明晰。笔者认为,档案数据应当首先符合档案的基本属性,其次该档案是数据格式的档案。档案数据管理工作的对象应是在档案馆内部对数据格式的档案资源进行管理。
档案数据管理工作处于起步阶段,多数机构的数字档案馆仅限于对半结构化成果(如PDF、图片等)进行管理,对于结构化的数据管理,在实际工作中仍有较大难度。通过对文献进行梳理,得出此困境的形成因素主要分布在档案机构旧有实践中思维的固化,数据浪潮带来的管理对象复杂化导致管理职能与权限的不明确,传统技术难以满足新的工作需求。
数据管理处于萌芽阶段,面对档案数据管理的转型,档案机构在思维上存在传统固化现象。对于档案管理对象,仍局限于传统的纸质档案管理;对于档案存储保管,存在管理思维上重数量、轻质量的倾向;对于档案开放,存在因害怕承担信息泄露、篡改等安全隐患的风险,而持有“不愿共享、不敢共享、不能共享”的心理[18]。这些固化的传统档案管理思维形成档案数据的存储保管、以及价值发挥工作的阻碍。
由于对档案数据来源的不确定,其中认为包含政府数据、多媒体等大数据的划分方式,导致在档案数据管理职能划分上产生争议。由于档案部门自身管理权限的不明晰,使得具体职能未得到明确,导致档案部门与数据管理部门在管理对象上存在交叉,尤其在政务信息资源归档和开放等方面的职责划分不明[19]。在浙江省“最多跑一次”改革中,档案部门与业务部门在业务档案管理问题上权限不明,导致在实际档案收集工作难以开展[20]。面对数据管理大环境,档案部门还未加入已有43个国家部门和单位参与的促进大数据发展部际联系会议,表明档案部门已经在一定程度上失去对数据管理的话语权,无疑会影响到日后档案部门数据管理职能的发挥。
档案机构在开展档案数据管理工作时主要存在两方面的能力局限。一是技术方面。由于实践部门对档案数据深度分析能力尚浅,档案数据生态系统不健全,面对档案数据存量多、增长快、类型繁多、结构复杂的情况,传统的数据库不足以处理TB级别的数据,无法提供有力的解决措施[21]。对于防范档案信息的丢失、泄露等档案数据安全管理问题,更是存在技术上的缺陷。二是数据孤岛、数据难共享问题。在档案部门,没有标准统一的规范来管理不同全宗的不同系统中形成的不同格式的档案数据,导致档案数据资源的格式与内容存在差异。目前档案数据开放共享仅限于部分档案目录层级的开放共享,全内容数据的共享仍难以实现[22]。除此以外,在企业档案数据管理中信息孤岛现象也大量存在,数据标准不统一、数据质量差都是阻碍档案数据共享的重要因素[23]。
概言之,档案数据管理工作目前的困境分为两个方面,一是档案机构内部的管理思维与管理能力的局限。笔者认为,需考虑各级档案馆的现有数字档案馆建设水平,结合具体情况分析困境,不可采取“一刀切”的判断方式,应将不同档案馆的困境进行分类总结,再来寻找应对措施。二是档案机构与外部其他数据管理机构的权责不明确。笔者认为,面对数据资源的管理权限问题,档案机构不能急于全包全揽,而是明确与其他机构在实际工作中的矛盾,针对矛盾来划清权限,明确管理范围。
面对档案数据管理工作中的困境,众多档案学领域的学者从管理思维层面、管理职能层面、管理能力层面提出了多种应对措施,也有单位如青岛市档案馆、浙江省档案馆已经着手开展档案数据管理工作。青岛市档案馆于2018年首期发布“胶澳商埠”史料资源,通过发布数据化档案信息资源成果启动档案数据管理工作。浙江省于2020年启动档案数据中心建设,在省内数字档案馆和区域性档案远程利用系统的基础上,建设档案数据利用平台。
随着档案管理实践工作的探索,学者们提出了大档案观、大数据观以及档案数据观,认为档案业务的拓展要依托档案数据资源[24][25]。金波学者提出要对多种类型的档案数据进行全生命周期的管理,需要结合数据治理与档案治理的理念来推动档案数据治理工作发展[26]。强调关注数据层面的管理,档案部门需调动多元主体利用大数据技术进行档案数据管理[27]。
应对档案数据管理,首先树立档案数据是“战略资源”、“公有”、“共享增值”的理念[28]。其次,服务理念要从馆藏资源为中心向用户为中心转变,运用服务网络化思维、信息化思维、技术性思维及共享性思维的思维方式,提供数据化服务、精准式服务、一站式服务、知识化服务和智库型服务[29]。有学者对从数字化到数据化的档案管理工作思维转变提出具体的路径,即:由存取导向思维向开发导向思维、信息服务思维向知识服务思维、信息管理思维向智慧管理思维、开放档案思维向开放数据思维进行转变[30]。
总之,面对档案数据管理,档案工作思维的转变是必然的,同时需要拓展关注领域,了解不同领域对于档案数据的管理需求,不仅仅局限于档案行业,需加强对航天、医疗、高校等领域的支持。
针对目前形式,档案部门首先需要对自身管理范围内的数据形式档案进行管理,由于数据生成的特殊性,档案部门更需要与业务部门协调档案数据的前端控制问题,为档案数据的统一管理打好坚实基础。
其次档案部门作为数据治理部门,需要去融入数据管理,并积极构建数据治理权责体系[31]。有学者提出档案部门应基于文件连续体理论参与数据的全程管理,制定数据管理部门组织框架和制度体系[32]。刘越男学者明确提出档案数据治理是数据治理的组成部分,档案机构负责部分数据治理工作,如业务数据、文化治理数据的治理工作。并提出加入大数据发展部际联席会议联盟,建立电子档案治理协作部门,寻求与图博领域合作,基层档案机构改变职责定位并融入数据治理的措施来解决档案数据治理的权责问题[33]。
面对档案数据管理的诸多困境,学术界与实践单位均对提升档案数据管理能力进行了探索,提出采用云计算、区块链、机器学习等技术来推动档案管理工作升级。
在档案收集存储环节,江苏省档案局构建了一个档案数据异质备份综合管理平台,以光盘、硬盘、缩微胶片等异质备份载体为对象,搭建系统进行统一管理,来确保档案数据的安全可读[34]。丁家友学者提出磁盘加密、日志技术、数字时间戳、数字签名、3D打印、区块链、量子通信技术等具体方法推动档案数据的保全,确保档案数据保存且持续可用[35]。还有学者分别提出通过区块链技术、分布式文件系统、智能合约、建立档案云数据安全存储框架等方法,来实现档案数据的保护共享[36][37][38]。
在档案利用环节,主要包括两个方面内容:档案数据挖掘与档案数据共享。档案数据挖掘作为重要环节,能够通过语义网分析方法,结合机器学习、数据可视化的操作来实现海量档案数据的分析[39]。注重数据挖掘环节中的隐私问题,通过鉴定档案敏感等级,进行数据脱敏来保证档案数据的安全稳定[40]。
在档案数据共享过程中,利用元数据将行政、业务、后勤各系统数据进行处理,实现数据流通[41]。有学者提出运用机器学习的技术、建设安全统一的平台、通过馆藏、行政职能部门以及在云储存空间上构建档案信息资源数据库来实现档案数据交换、共享、开放[42][43]。
总体来看,不同的观点都对档案数据管理工作中运用新技术持有肯定态度,但是需要结合档案数据的管理对象与目标进行合理选择,结合数据的格式、类型来选取对应技术,如此,才能提高技术运用的可行性与效率。
综上所述,在应对档案数据管理工作中的困境时,档案机构首先应当解决自身在思维上的固化现象与技术上的壁垒,通过提高自身素质、制定相关制度、引进专业技术人才等多种方式来克服困难。其次档案馆应明确档案数据的概念与来源,结合自身管理能力,再与其他机构进行权限界定。正如刘越男学者提出,档案机构在数据管理过程中宏观上应该着重管理业务数据和文化记忆数据;微观上应该注重文档和内容管理。一味将政府数据资源、社交媒体数据资源皆纳入管理范畴,反而容易导致数据的档案属性缺失,使得档案机构与数据管理机构定位产生矛盾。
由于档案数据管理这一概念出现时间短、研究处于初步探索阶段,学界对此有不同认知,存在多方面的理解。目前对档案数据管理的研究已经积累了一些成果,主要集中于为对档案数据管理相关概念的辨析与讨论,如档案数据的来源、档案与数据的关系等。其次是对档案数据管理过程中新理念与技术的应用,学者们提出运用云计算、大数据等技术来对庞杂的档案数据进行管理,尤其关注档案数据安全问题。但对于一些基本问题仍未形成统一认识,需要继续研究讨论。笔者对档案数据管理的未来研究方向提出以下展望。
档案数据管理看似是主动抓住大数据机遇,实则更是档案形成环境的改变对档案工作提出的要求,伴随着各行各业大量数据的生成,档案数据管理新思路新方法的探索工作迫在眉睫。面对各领域蓬勃发展的数据管理研究,档案行业在未来仍需关注以下问题:
第一,档案数据管理向档案数据治理的转变问题。档案数据治理并非将所有数据进行信息治理,而是档案部门作为数据治理的组成机构,对具有档案属性的数据进行全周期的管理。未来研究亟需解决档案数据治理的对象、治理制度、人员管理等问题,提出档案数据治理的治理目标、治理方向,展望档案数据治理的愿景,厘清发展思路,进一步提出档案数据管理的标准与规范。明确档案部门与数据管理部门之间的关系,掌握档案数据管理方面的话语权,推动档案工作融入国家治理体系现代化建设工作;
第二,档案数据化的技术体系与推进策略问题。虽有学者对档案数据化面临的困境与意义进行了探讨,但实践部门具体如何实现档案数据化的工作,仍需要出台相关的指南、建设标准,完善具体技术体系来指导数据化工作的开展与建设。通过顶层设计,借助数字化的成功经验采取自上而下的方案,实现存量的数据化,促进档案工作转型;
第三,档案数据开放相关问题。目前档案开放仅实现档案目录共享,未来仍需要关注档案数据开放的质量、形式问题,依据不同种类档案,确定档案数据开放时限、范围、程度等问题。数据与传统档案的不同在于,面临存储上的挑战的同时也为资源利用提供了更多的可能性,因此档案数据开放与利用工作必然是未来探索的关键问题。通过构建开放档案数据共享平台,实现多种用户主体对档案数据的利用,使得档案数据共享能够打破现有的资源孤岛模式,实现档案机构内部甚至是跨机构的数据互通互联,借助密钥、访问控制的手段来确保数据的开放利用环节安全问题,从而使得档案数据发挥更大的作用。
目前档案数据管理研究的相关文献多集中于档案学领域,少数分布在计算机领域,单一学科对其研究使得研究成果存在一定的局限性。研究文献采用的研究方法多为理论分析,其他研究方法采用较少。
在未来研究中一是要注重多学科交叉,研究方法多样化。在研究过程中,采取不同学科的研究视角进行分析,如利用心理学、社会学等从用户需求角度探索档案数据管理工作的服务模式,计算机学科视角来提升档案数据管理的系统等。采用多样的研究方法,如问卷调查法、实证分析、访谈法等不同研究方法,对实践工作中档案数据管理的情况进行分析,从而提高档案数据管理问题研究成果的科学性与可行性;二是注重跨领域合作。档案数据管理由于其管理对象的复杂性,管理手段的先进性,利用方式的多元化,决定其管理模式绝不只是单一的,多元主体的参与,跨领域的合作已成为定势。与图书情报领域、管理学领域等进行合作,探索档案数据管理的模式与方法,实现档案数据服务的升级,也能够为国家层面的数据治理问题提供帮助。