周丽霞 贺 星
(黑龙江大学信息管理学院,黑龙江哈尔滨, 150080)
数字全球化使得数据价值日益凸显,传统的“管理”理念不再满足数字社会需求,逐渐转化为“治理”。早在2014 年国家档案局就提出要推进档案治理体系与治理能力现代化,此后学者对档案治理展开多维研究,重点涉及档案治理理论研究、专门档案治理、档案治理能力提升、档案数据治理等方面。[1-5]其中,学者们对档案数据安全治理的研究比较少,且大多较为宏观。因此,本文以档案数据安全治理为切入点,以期探索数字治理赋能档案数据治理的能力、手段、方式,促进档案数据协同、共治、共享,进而充分释放档案数据作为生产要素的价值。
数字治理将数据作为基础性、关键性的生产要素。在内容上,数字治理是指对围绕数据要素开展的活动进行治理;在目标上,数字治理利用数据实现全方位的治理;在空间上,数据存在的环境,即网络空间的发展是数字治理发展的基础。因此,数字治理的核心要义是对数据的治理。而当下数据安全问题严重制约了数据开放利用体系的构建与完善,所以目前数字治理应着重解决数据安全问题。
数字技术融入档案数据安全治理能满足档案数据安全的三个需求:一是缩小档案数据信息鸿沟。数字治理优化原来纵向逐层管理方式,打破层级信息数据流通、业务流通限制,实现横向、纵向档案数据的互通互联与超大范围协同共享,给档案数据资源匮乏的档案“弱势群体”带来更多档案数据资源与权利。二是建立可信任网络环境。当前环境下,静态、隔离式、单点的传统安全防护手段的漏洞越来越大,加之档案数据在存取、利用等数据流转过程中的数据追踪方法技术不完善,增加了档案数据风险。数字治理不仅能借助智能合约、加密等手段保护“边界”内部的档案数据本身安全,还能通过数据采集、算力提升、反追踪等技术手段实现对数据风险的管控。三是促进档案数据安全工作提质增效。数字治理通过数字技术提升了档案数据安全治理的精准度,有助于简化工作流程、扩大治理范围,实现微观治理和精准治理。
在数字治理整体框架下,档案数据安全治理聚焦档案数据安全的脆弱性,对档案数据在数字背景下面临的各种安全隐患和风险进行治理(档案数据安全治理模型总体框架如图1 所示)。
档案数据安全治理模型从档案数据安全的目标出发,旨在解决档案数据安全实际问题,释放档案数据价值。目标层包括总体目标与重点目标两部分。档案数据安全治理模型总体目标是在档案数据分级分类基础上,通过多元主体协同方式实现档案数据安全合规利用,释放档案数据要素价值。档案数据通过安全治理为共享、流通提供安全稳定的空间环境与监管措施,以超大范围的协作共治提高档案工作效率,保证档案数据价值实现。档案数据安全保护重点目标是档案安全治理的具体、核心任务,主要包括重点档案数据的安全保护、敏感档案数据的识别与保护以及对档案数据整体环境、工作流程、业务流程等的风险防控三方面。
档案数据生命周期分为采集、存储、整合、分析与应用、归档和销毁几个阶段(见图2)。档案数据在整个生命周期中,其价值、访问次数、利用频率、时效等会随时间而变化。据此,档案数据热度按照生命周期可划分为四个阶段:冷、热、温、冰。采集与存储中的档案数据属于冷数据,其特点是数量巨大、使用频次极低、价值未释放。开始整合、分析利用时,数据进入热数据阶段,档案多元价值不断被挖掘、激活、重组。这一阶段,档案价值高、利用率高、访问频率最高、安全性较低,是重点保护阶段。随着时间推移,档案数据时效性、价值密度逐渐降低,相当一部分档案已完成最大化价值释放而被再次归档保存,档案数据热度降低、使用与访问频率降低,从热数据阶段进入温数据阶段。当档案数据价值释放殆尽成为高龄数据、相当长一段时间内使用与访问频率趋于零、已过保管年限时,档案数据将进入销毁阶段,也就是冰数据阶段。冰数据会随数据积累存储量越来越高,但安全存储不再是该阶段的重点工作。档案数据生命周期数据热度呈现“中间热两头冷”的特点,故每个阶段都有不同工作重点。
图2 档案数据生命周期示意图
冷数据期,档案主要被采集、存储起来,安全治理的重点在存储,宜采取静态封存,利用物理隔离、防火墙等手段保护档案数据静态环境安全。热数据阶段,档案数据从静态变为活跃状态,由于网络环境中安全威胁多,此阶段的安全治理难度最大。当档案数据进入温数据阶段时,档案安全治理侧重点重新回到存储上,与存储阶段保护方式基本相同。当档案数据进入冰数据阶段,档案数据将面临销毁难题,其安全的侧重点是销毁工作本身。
安全控制层在总体上分为两部分:档案数据梳理是档案数据安全治理工作的前提工作;档案数据的安全存储、安全访问、安全利用与安全审计工作都在档案数据梳理的基础上开展。
数据梳理包括两方面内容:一是将采集来的档案数据分级分类,二是重点、敏感档案信息数据发现。“传统的数据仓库无法满足多元化数据结构的存储和查询以及非结构化和结构化数据的交叉分析”[6],需要引入新的存储与管理方式对多元异构档案数据实行保护。档案数据安全治理模型将数据湖引入传统数据仓库存储中,建立湖仓并行的一体化存储模式。身份认证是访问控制的第一步,而基于凭证的网络攻击如凭证填充、钓鱼等加大了网络环境的复杂性,加之档案业务种类丰富化和用户角色多样化,单一密码形式或基于IP地址、VLAN、MAC设置的身份认证逐渐无法满足档案数据安全需求,需要通过多因素身份认证以及对用户访问的持续验证来实现用户行为分层控制。档案数据利用要解决两个安全问题:一是档案数据的合规性,包括档案数据本身的合规性验证与档案数据的合规利用。二是档案数据泄露,最基本的手段是实现档案数据全域脱敏,以此保护档案数据整体安全。就档案数据动态变化而言,档案数据安全监督与审计的主要目的是为档案数据安全治理整体框架提供支撑与保障,确保档案数据整体环境安全,“建设动态网络安全监控感知平台和预判机制,做到数据流程可追溯”[7]。档案数据的安全审计从档案数据生命周期看,需要对数据库进行审计;从档案数据资源角度来看,包括对档案数据的价值审计和有效评估;从整个档案数据安全监管来看,则需要全域定期稽核。
隐私保护层旨在保护档案数据中的敏感数据,不仅包括个人信息,而且包括档案数据内容中的敏感数据。隐私保护应该贯穿档案数据安全治理的始终,防止个人数据与敏感数据被泄露、滥用。
敏感数据包括非结构化和结构化两种类型。由于档案数据数量大、范围广,敏感词汇分散性强,需要在档案数据梳理的基础上进行敏感数据的全域发现。非结构化档案数据敏感信息需被独立识别。智能敏感数据识别技术能从非结构化文本、图像中识别敏感数据信息。文档形式的非结构化档案数据可以基于相似度算法的敏感数据识别提取敏感信息。提取敏感信息后,根据敏感信息种类和敏感程度,建立敏感词、敏感档案文件库,采取无监督、监督学习算法相结合的方式,“自动、实时和精准地从监控数据中发现数据异常”[8]。对于结构化档案数据敏感信息的识别处理可以运用机器学习技术,以提高档案敏感数据发现的精准度和匹配度。对数据库中档案数据进行自动化打标签、分级分类处理,在一级分类上划分个人信息敏感数据、档案内容敏感信息、档案业务数据敏感信息,并根据一级分类细分敏感信息内容。智能引擎通过智能分析控制,出具质量报告与处置报告,从而实现智能全域隐私发现控制。
现代信息技术数据安全的核心元素可以概括为5个A[9],即Authentication(身份认证)、Authorization(授权)、Access Control(访问控制)、Auditable(可审计)、Asset Protection(资产保护)。档案数据安全技术体系框架是档案数据安全治理的基底。单从5A安全元素一个角度考虑档案数据安全技术架构,会出现技术混同现象,如从授权角度看,有数据层授权、用户授权、应用授权等,而授权技术应用相当一部分都是交叉使用的,致使难以厘清技术脉络,使“治理”达不到“治”与“理”的目的。因此有必要增加一个技术目标层,以实现档案数据安全零信任、自动化、可视化、全面化,选取适当的数字技术,让档案数据在零信任的网络环境下,自动化、可视化地实现档案数据安全全面治理。据此笔者将档案数据安全技术体系总结为由5A安全元素层、目标层、技术层三个维度构成的三维模型(见图3)。
2.5.1 零信任
档案数据安全首先建立起“零信任网络”观念,防止流量攻击等纵向攻击造成档案数据安全事件。软件边界自定义将控制面与档案数据处理面分离开来,客户端将档案用户、访问行为、档案应用设备等相关信息赋予身份标识,经由控制平台验证,验证通过的请求将被赋予临时访问限权;用户访问行为受到实时监督、评估、管控,确保动态安全。增强身份认证包括对人的认证和对设备的认证,为确保档案数据的安全性,仅赋予访问者能达成合规访问目标的最小权限。身份认证不信任档案机构内外部所有人,无论是运维管理的工作人员还是档案利用者都需要通过动态口令与身份认证机制相结合进行双因子认证,其中,认证机制需要采用FMA等强身份认证方式将档案数据内容因素、所有权因素、用户身份因素等综合考虑,更灵活、安全地实现身份认证。
2.5.2 自动化
应用自动化技术可以大幅降低人的干预产生的安全问题,同时将人从简单、重复的工作中解放出来从事更高级的脑力劳动,继而达到降低成本提高效率的目的。DLP(Digital Light Processing)数据防泄漏技术根据档案数据等级、类别,分域对敏感重要档案数据与普通档案数据开展数据流转研究,掌握档案数据输出渠道以及档案数据泄漏情况,准确判断、控制、及时过滤数据信息,从而提高档案数据分域防护等级。数据智能聚类是档案数据群分析、业务分析、可视化的前提。其基于不同智能聚类算法分析档案数据库、业务流程等安全治理各个环节中用户访问变化情况、数据流转情况等,快速发现异常因素,避免人工管理的误差。机器学习是实现自动化的关键技术。机器学习利用算法精准预测档案数据安全风险,通过对数据的统计分析捕捉危险源与用户异常行为,在不断学习中提高安全保护能力与档案数据所处环境的安全级别。
2.5.3 可视化
可视化是数字治理的特色呈现方式。在数据内容可视化方面,热度图、图表联动、动态显示报表等能实时监控档案数据全生命周期以及不同业务档案数据的变化情况,尤其针对敏感、重要档案数据,需要通过更加周密、频繁的可视化界面来监控、追踪数据,严格管理时间序列、日志、标签等数据。在用户行为可视化方面,一方面通过用户画像精准描述用户群,为日后制定针对性安全策略做好准备工作;另一方面通过用户行为序列图、用户行为路径可视化等方式跟踪定位用户访问行为,阻断恶意攻击和不合规操作,并对违规用户进行溯源。在网络安全环境方面,采用网络安全态势感知技术评估网络安全状态、预测网络安全影响档案数据安全的发展趋势,并通过可视化的方式呈现出来。
2.5.4 全面化
发现档案全域敏感数据需要进行全域脱敏,全域脱敏依赖AI人工智能技术与机器学习。AI人工智能技术能通过自动化嗅探识别档案数据存储环境、梳理档案数据内容信息,同时借助机器学习的能力,有效解决全域敏感数据发现过程中的准确度、匹配度等问题。机器学习还具备广泛的技术适配性,可通过多种技术的复合应用来实现企业应用场景中的异构数据类型及不同数据源的全域敏感数据的发现。
数字治理要求档案数据安全“可审计”。总的来说,全面审计要建立前、中、后台交互工作模式,以智能审计软件(中台)为主体,利用大数据处理技术实施审计重点输出,驱动审计业务(前台)开展审计并在线反馈。在审计专家(后台)综合分析后,对审计活动实施统一的计划、协调、管理、控制与决策,最终形成并输出审计成果。另外利用智能审计系统的档案管理功能,对前期所有审计项目发现的系统问题和数据问题,进行归集、分类、追踪、分析,为本次审计提供更多的支持证据,得出审计结论。
全面的业务场景分析能最大限度激发各主体的协同价值,发挥不同主体优势,共建安全合力。一方面,安全治理有利于细化档案数据利用安全场景,根据不同业务的侧重点构建不同的安全策略,使用不同安全技术。另一方面,从档案数据自身业务流程出发,细化安全责任,在基础保障、技术支撑、智力支持、平台稳定等方面发挥协作治理作用,提高档案数据安全治理的质量和效率。
档案数据安全治理模型良性运行,依靠各层级之间的相互协调,围绕档案数据要素形成政策规范、流程有序、协同共治的档案数据安全治理模式(见下页图4)。
图4 档案数据安全治理模型运行机理
数字治理要求档案数据安全治理从治理战略出发,为实现长期总体目标指明全局规划与工作方向。目标层的组织规划引导安全层与技术层规划设计。一方面,目标层引导安全内容组织,针对档案数据安全需求,从技术、内容、场景三方面梳理档案数据自身的脆弱性以及面临的风险威胁,确定安全层各模块的安全保护工作重点以及技术应用。另一方面,目标层在模型运行中起到动态协同作用。数字治理拓宽了各责任主体的治理自主权利,但各主体仍需从目标战略层面形成自上而下贯穿组织整体架构的意识共识,根据档案需求动态协调并持续优化。
从数字治理角度,档案数据安全治理须符合合规性要求,目标无论怎么变化都要符合档案数据生命周期规律,只是根据不同的影响因素与档案数据形式等的变化在生命周期基础上有所调整。对于安全模块与技术应用来说,二者共同构建起生命周期安全保护体系,其以档案数据生命周期为引导,并反作用于档案数据生命周期。档案数据安全治理要求对档案数据全生命周期各个环节安全问题与风险进行分析,分区域管理档案数据安全,对不同环节、不同区域采取不同安全治理策略,并充分发挥主体协作作用与优势实施安全联防联控,保障档案数据整体安全。
安全层以目标层为导向,以技术为支撑,以档案数据生命周期发展顺序为构建依据,通过安全层运行实现档案数据安全治理。第一,在数据分级分类原则要求下,对采集筛选后的档案数据进行综合梳理,制定分级分类策略,划分档案数据类型与等级,识别、确定档案数据中的重要数据、敏感数据,为档案数据流转利用阶段的安全治理工作做好准备。再根据档案数据梳理情况对档案数据生命周期进行流程管控。第二,通过档案数据安全层建设执行战略目标,通过数据安全层日常风险管理与运营为档案数据提供安全的存储与流动环境,并通过完善包括风险全域监控、模型能力评估、安全审计等流程的管控机制,提高安全治理可持续的能力。
技术层运行机理在于促进安全治理模型整体功能实现。一是以技术支撑档案数据安全治理目标与安全模块功能实现,推动档案数据资源与技术融合交互,保障档案数据安全治理模型的顺利搭建与运转,并可以通过技术不断完善、更新迭代。二是利用数字技术提高模型开放程度。横向上加强各责任主体与档案业务之间的关联性,纵向上增强对流动中的数据的保护,将档案生命周期的保护重点从源头转移到过程,释放档案数据要素价值,通过档案数据利用倒逼治理能力提升。三是利用数字技术强化环境监管。一方面安全审计为档案数据安全提供风险监管保障;另一方面档案数据隐私保护渗透档案数据安全治理每一环节,防止敏感档案数据、个人隐私信息泄露。