文·胡晓庆
信息技术的发展催生了一系列新的生产要素,数据是其中之一,对数据的科学治理已成为各行业抢占发展先机的重要手段。目前,国内外数据治理理论研究和实践应用包括政府、科技、金融、文化教育等领域,研究内容包含数据治理内涵界定、治理技术开发、治理框架构建等。
档案数据主要包括档案机构中保管的各类型档案资源。档案数据治理关注档案数据的资源整合和价值挖掘,关注档案数据使用过程的风险控制,最终实现档案数据价值增值的目的。档案数据治理是档案工作适应现代信息技术发展的重要选择,基于对档案数据的特征与治理现状的分析,本文试图将数据治理框架应用于档案数据治理领域,构建档案数据治理框架,拓宽档案理论和实践发展领域。
档案数据是国家数据资源的一部分,档案自身具有原始记录性、凭证价值性等本质特征,档案的本质特征及我国档案管理体制决定了档案数据具有以下特征。
档案是国家机关、社会组织和个人在社会活动过程中直接形成的具有保存价值的各类型原始记录,对档案的内涵界定决定了档案数据的高价值特征。同时,档案机构对所收集的原始资料经过价值鉴定、整理立卷等工作使同一问题的相关资源进行了实体上的聚合,实现了档案价值的首次增值。档案数据是蕴藏在实体档案中的信息宝藏,需要从实体档案中抽取后进行有效聚合,档案数据的聚合价值远远高于单份档案的数据价值,聚合将使档案价值实现二次增值。
档案数据多源性一方面在于其来源的广泛性,国家机关、社会组织、个人都是档案数据的形成者,另一方面在于数据形式的多样化,除了传统档案形式外,出现了诸如网页档案、多媒体档案等新型档案数据形式。档案不同形成者在数据规范、管理制度等方面均有所差异,加之档案数据形成方式主要以“自下而上”的模式开展,导致形成了大量操作系统异构、数据格式异构、数据存储地点异构、数据存储逻辑模型异构的档案数据。
数据粒度是指数据的细化和综合程度,数据的细化程度越高,数据粒度越小,反之则为粗粒度数据。传统的档案数据蕴藏在以“件”和“卷”为保管单位的实体档案中,在现有技术条件下对其检索和利用大都只能以目录级开展,数据细化程度极低,粗粒度特征明显。随着国家档案“存量数字化,增量电子化”战略的推进,数字化档案资源在国家档案资源中占据了较大比例,数字档案是忠实于纸质档案信息的档案数字资源,其开发利用程度可以以全文级开展,粒度有所细化,但仍未形成独立的数据单元,尚不能利用数据治理技术进行数据挖掘等深层次的开发利用,仍属于粗粒度数据。
数据融合是对各种信息源输出的有效信息的采集、传输、综合、过滤及整合开发的过程。由于缺乏统一的资源整合部门,且档案机构保管的大多为非结构化数据,加之档案工作者对数据整合技术敏感度差等因素,档案数据整合难度大,数据融合性弱,档案数据共享现状不太理想,“数据孤岛”大量存在,数据价值未能得到有效发挥,出现档案高价值量和低价值实现的倒挂现象。
政务信息管理、医疗、金融、教育科研等领域对数据治理均有所探索与应用,档案界探索相对较少,主要集中于档案数据治理的路径建设、能力体系构建、档案资产管理等方面。关于档案数据治理的内涵,常大伟、潘娜在《档案数据治理能力的结构体系与建设路径》中认为“档案数据治理是档案事业发展的利益相关者在一定的制度架构内通过协同合作的方式,综合应用各种数据治理工具和治理技术,规范档案数据治理业务流程,构建档案数据治理生态,激发档案数据价值的过程”[1]。
治理一词于20世纪90年代引入公共管理领域,治理强调主体多元化、制度供给等因素,为政府治理提供了理论依据。数据治理是随着大数据时代海量数据和治理技术的出现而产生的治理新课题,国家标准信息技术服务标准(GB/T34960)认为,数据治理是指数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。多元主体、治理技术、价值增值和风险管控是数据治理不可或缺的因素。遵循治理及数据治理的一般原理,本文认为档案数据治理是治理主体遵循相关法律与制度规则,利用数据治理技术,发掘档案数据蕴含的聚合价值,降低档案数据资源开发风险,实现档案数据资源价值增值的过程。
受物质、人才、技术等因素制约,档案界在数据资源建设、数据使用和数据监管等数据治理诸多方面存在薄弱环节。面对不断增长的档案数据资源,在数据质量控制、数据价值挖掘、数据安全管控等方面,均有不足之处。
1.对档案数据质量控制不够。档案数据来源广泛,数量庞大,在数据准确性、一致性、完整性、规范性、稳定性等方面都有待进一步完善。此外,当前档案资源主要以“文件”和“案卷”形态存在,需要经过数据分离、清洗、聚合等技术处理才能成为可挖掘的档案数据,才能进行语义关联、数据挖掘、深度学习等治理,档案数据的质量控制有待进一步提升。
2.对数据治理新技术关注度不够。信息技术发展日新月异,数据治理技术层出不穷,其中不乏适用于档案数据开发者,如元数据自动捕获工具为档案元数据管理带来便捷、云存储技术为档案数据安全高效存储提供便利。档案界对数据治理技术有所探索,但关注度不够,受档案工作者信息素养和专业知识薄弱等因素的影响,对治理技术与档案实际工作如何匹配研究不多,对数据治理新技术的关注度和敏感度不足。
3.对档案数据价值挖掘不足。档案数据治理的终极目标是实现档案数据增值,为国家治理提供可靠保障。档案机构保管着数量庞大、种类丰富的档案数据资源,但对档案的数据价值认识不足,受“重收藏、轻利用”观念的影响,数据资源大多数“躺在”库房里,数据开发利用方式单一粗放,以编制形成浅层检索工具和粗浅编研材料为主,档案数据深度挖掘、数据关联等治理技术未得到充分运用,蕴藏在档案数据中的价值未被充分发掘。对于档案数据的资产意识没有充分认识,对档案数据可能带来的经济利益和社会利益缺乏积极的探索。
4.档案数据安全风险管控不足。在信息技术飞速发展的时代,档案数据从生成、流转、存储到开发利用全生命周期都迎来了新的安全风险与挑战。以数据生成为例,档案数据的生成方式,由传统的收集纸质档案单一渠道,变为集纸质档案数字化、各业务系统直接生成电子档案等多种渠道,数字档案和电子档案在内容的完整性、不可更改性、可读性等方面对技术依赖非常强,安全风险管控的成本和难度都增加。就档案数据存储阶段而言,云存储已成为档案界积极探索的存储技术之一,云端数据可能由于操作系统迁移或存储技术不稳定导致档案数据被篡改、被窃取、被删除,且被修改删除后,很难发现痕迹[2]。面对如此多档案数据风险与挑战,档案界由于资金有限,技术人员不足等原因,无法对数据安全进行全面管控,安全风险较大。
数据治理框架,是为了实现数据治理的总体战略和目标,将数据治理领域所蕴含的基本概念(如原则、组织架构、过程和规则等),利用概念间关系组织起来的一种逻辑结构[3]。国际上有影响力的数据治理框架主要有以下三种:国际数据管理协会提出的DAMA框架,该框架的构建理念是用数据治理解决数据管理中的10个功能 (如元数据管理、数据质量管理等)与7个要素(如角色与职责等)之间的问题[4];数据治理协会提出的DGI框架,认为数据治理包括组织整体、规则、决策权、职责、监控或者其他强制性办法[5];IBM框架将能力成熟度模型和有效数据治理元素框架相结合:成熟度模型包括初始级、已管理级、已定义级、定量管理级和优化级五个级别;有效数据治理元素框架包括目标要素、促成要素、核心要素和支撑要素四类, 每一类包括若干具体要素[6]。
DAMA框架从数据治理的微观角度出发,侧重于探讨数据治理内容及由谁来实现、如何来实现等治理流程;DGI框架则主要从宏观角度探讨数据治理的组织实施;IBM框架引入数据成熟度模型,通过评估数据治理元素框架内的各要素成熟度,逐步推进数据治理的进程。
中国于2019年正式实施《信息技术服务治理第5部分:数据治理规范》(以下简称《数据治理规范》,标准号GB/T 34960.5-2018),明确了构建包括顶层设计、数据治理环境、数据治理域、数据治理过程在内的数据治理框架。中国的数据治理框架汲取了国际上数据治理框架的优秀成果,既有顶层设计、治理环境等宏观设计,也有治理要素及过程等微观考虑,结合中国数据发展实际,为国内各领域数据治理框架构建提供了范本。
数据治理框架作为数据治理工作的有效探索,极大推动了数据治理工作的发展,其理论成果与档案数据治理在要素、手段、程序等方面具有趋同性。数据治理框架理论中的元数据管理、数据质量管理都是档案数据治理中需要重点关注的要素;数据治理框架理论对新型技术手段的关注是档案数据治理中需要积极引入的因素;在治理程序上两者都需要从顶层设计入手,探讨治理环境,审视治理因素,据此构建档案数据治理框架对推动档案数据治理将有积极作用。
档案数据治理框架是档案数据治理实践的指导,吸取国际数据领域关于数据治理框架的研究成果,以中国《数据治理规范》为依据,结合档案数据治理的现状,本文构建由顶层设计、治理原则、治理环境、治理对象和治理过程组成的档案数据治理框架(如图1所示),五个组成部分既具有独立性,又相互作用,形成一个相辅相成的档案数据治理有机整体。
顶层设计是档案数据治理的前提和引领,决定档案数据治理的方向和成效,在数据治理框架中处于引领地位;治理原则和治理环境是影响档案数据治理成效的外部因素;治理对象是决定档案数据治理成效的内部因素;治理过程是开展档案治理实践的方式方法,在档案数据治理中处于核心地位,决定着治理能否顺利开展。
图1:档案数据治理框架
顶层设计是开展档案数据治理的指导,主要包括档案数据治理的战略规划、治理机构的组建、技术架构的设计等。战略规划是指愿景、目标、任务、实施方略等,各级各类档案馆的数据治理战略规划应与各级政府同时期的工作重点和当地信息化水平相适应,其他组织的档案数据战略规划应与该组织的信息化程度及主要业务特点相结合。治理机构组建需要明确档案数据治理的责任主体及其职责权利,明确治理需要的人、财、物的来源,档案数据治理是一项全面系统的工程,各地档案数据治理机构应由当地档案行政管理机构牵头,政府其他职能部门共同参与,推动档案数据治理的全面推进。技术架构设计指建立档案数据治理架构,建设相应的管理策略及支撑体系,技术架构的设计需要档案部门和技术部门共同参与设计。
根据《数据治理规范》及档案工作实际,档案数据治理应遵循合法合规、风险可控、循序渐进的原则。档案数据治理应遵循《中华人民共和国档案法》《中华人民共和国保守国家秘密法》,遵循知识产权法,遵循地方法律法规,注意保护公民个人信息,以合法合规为前提。档案数据治理是对档案数据进行的管理和开发,如对数据进行清洗、挖掘等技术处理,在治理过程中数据的保密性、准确性、有效性都存在安全风险,数据治理必须以风险可控为保障。基于档案数据工作相对落后、档案数据治理技术与资金薄弱的现状,档案数据治理工作的推进不能一蹴而就,应遵循循序渐进的原则开展,数据质量较高、经济条件较好和技术条件较成熟的地区和组织可优先开展数据治理工作,形成“头雁效应”,逐步推进国家整体档案数据治理工作。
治理环境是影响档案数据治理的各种因素组合,包括内部环境和外部环境。内部环境包括组织内部对档案数据治理的态度与预期、对档案数据治理的人员支持及技术支持力度等;外部环境诸如数据治理社会氛围、数据治理技术的发展、对数据治理的科学探讨等。档案机构应该积极推动内外治理环境的改善,宣传数据治理的重要作用,形成良好的数据治理氛围。
档案数据治理包括对档案数据的治理和对影响数据价值增值因素的治理两方面。对档案数据治理指统一档案数据标准、提升档案数据质量、确保档案数据安全、规范档案元数据管理等。对影响档案数据价值增值的因素的治理包括开展档案数据洞察、档案数据深度挖掘等技术活动,释放档案数据价值。
档案数据治理过程是实现档案数据价值增值的核心环节,是开展数据治理的技术路线。根据《数据治理规范》,数据治理过程包括统筹和规划、构建与运行、监控和评价、改进和优化四个环节。在《数据治理规范》的指引下,根据档案数据治理的现状,本文构建的档案数据治理过程如图2所示。
图2:档案数据治理过程
不同组织在档案数据质量、组织整体数据环境和文化氛围上均有所差别,档案数据治理是一个周而复始的过程,治理过程大多需要由治理环境评估开始,经过方案制定与实施、评估,最后根据实施效果对方案进行调整优化,之后根据新的数据环境进行新一轮的数据治理,直至实现档案数据的价值增值。