杨晨柳,方安,娄培,王茜,胡佳慧(中国医学科学院医学信息研究所)
《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》[1]指出要坚定不移地建设数字中国、加快数字化发展、建立数据资源安全保护等基础制度和标准规范,保障国家数据安全。随着信息技术的飞速发展及数据密集型计算科学的有力推动,数字技术给信息资源的管理、交互及利用带来的便利显而易见。然而,由于数字资源自身的脆弱性及其对保存环境的依赖性,数字资源在存储和使用过程中容易受到技术、媒体和数据格式变革以及特定用户团体变化等的影响而面临数据机密性、完整性和可用性等方面的问题。同时,安全漏洞、数据泄露、网络诈骗、勒索病毒等安全威胁日益严峻,进一步为数据安全防护工作带来挑战。因此,实现数字资源的安全风险管理已成为资源保障机构的重要课题。根据国际开放归档信息系统(Open Archival Information System,OAIS)[2]的定义,数字资源的长期保存是一项确保数字对象在足够长时间内真实、完整和可理解的管理和维护行为。保护数字对象免受各种风险威胁是数字保存的一项重要内容,通过风险评估对可能影响数字对象的不确定因素进行风险分析[3],有效识别、控制和消除保存风险,是数字资源保存安全风险管理的有效途径。
本研究依据国内外相关标准规范,基于现有的风险管理研究成果,构建数字资源保存安全风险评估体系及风险评价指标,同时结合医学数字资源真实保存环境开展实证研究,以期为我国数字资源保存过程中的安全风险管理提供理论和实践参考。
部分学者从数字资源保存的系统管理、系统运行、技术环境等方面进行探讨。如,通过风险等级和关系分析,明确风险规避、处置、转移和容忍等风险管理策略[4],或者基于周期性和关联性分析,提出风险辨识、风险评价分级、风险预警预控等风险管理策略[5]。还有部分学者针对数字保存的真实性、完整性、可识别性、可理解性等需求提出解决方案。如,建立全方位的风险检测机制,提升数字资源保存质量,降低数字保存风险导致的损失[6-8];对信息对象真实性保障模式进行梳理,提出健康科学数据长期保存真实性的保障方法[9]。也有研究通过对比现有风险评估方法,完善风险管理机制。如,将PDCA(Plan,Do,Check,Act)循环理论嵌入长期保存管理各流程阶段,分析风险评估模型的构建要素[10];识别数字保存管理流程中的潜在风险,创建风险处理计划[11];分析云计算、大数据、物联网等引发的数据风险,提出风险缓解策略[12];等。
部分学者侧重分析现有风险评估模型特征。如:探讨SPOT模型在数字保存风险识别、风险评估与风险管理方面的应用情况[13];对比已有风险管理模型,为数字资源风险评估模型选择提供参考[14];将风险管理模型应用于组织和资产安全风险管理,指定支撑管理决策和备份方案[15]。还有研究特定场景下的风险评估模型进行探索,提出自动过时风险管理系统,对长期保存中的文件格式版本、存储媒体、软硬件、操作系统等进行监测[16],或者设计基于灰色神经网络的云存储风险评估模型,提升对云平台大数据的安全保护[17]。
综上所述,已有研究为数字资源保存提供了多种风险评估思路,但对于数字资源保存安全风险评估的策略研究多集中于模式分析和规范制定,对于风险评估模型构建的研究多集中于已有模型特征分析与发现,而对于真实场景下风险评估体系的构建与效果评价研究尚待开展。
出于对信息安全重要性的认同,国内外已相继发布了一系列和信息安全风险评估与管理标准,如《信息技术 安全技术 信息安全风险管理》(ISO/IEC 27005:2018)[18]、《风险管理指南》(ISO 31000:2018)[19]、《空间数据和信息传输系统 可信任数位典藏审核与认证》(ISO16363:2012)[20]、《IT系统风险管理指南》(NIST SP800-30)[21]、《信息安全技术 信息安全风险管理指南》(GB/Z 24364-2009)[22]等。这些标准规范为信息系统和数字资源风险管理提供了指导,然而真实应用中的数字资源保存安全风险管理还需明确威胁环境、评估内容、优先管理的资源及范围等要素。卡耐基梅隆大学软件工程研究所提出的关键操作威胁、资产和漏洞评估(Operationally Critical Threat,Asset,and Vulnerability Evaluation,OCTAVE)方法,为数字资源提供了安全风险评估线性流程,其最新版本为OCTAVE Allegro[23]。
从适用范围、评估流程、评估方法、处置措施、监控审查等方面将对表中所示6个安全风险管理标准进行对比分析(见表1),可以发现上述这些标准的评估流程基本一致,主要包含风险识别、分析、评估等基本内容,以及相应的风险处置措施与监控审查建议。但这些标准一般仅作为指导性文件,未提供具体的风险评估方法与工具,也未针对应用场景进行细化。数字资源保存安全风险评估需确定优先管理的资源及范围,界定威胁环境及评估内容,针对性选择风险评估与处置标准。就评估方法而言,OCTAVE对风险管理对象、风险评估流程、威胁场景信息、定量分析策略等进行了详细说明,通过将定性描述与定量分析相结合,更适用于判断数字资源保存亟须解决的潜在风险;就处置措施而言,GB/Z 24364-2009基于闭环控制、主动防御的动态安全模型,能够为评估流程各阶段提供更全面、针对性更强的风险处置措施与建议。但OCTAVE评估流程各阶段内容较为简单,未针对评估细节提供具体说明,也未将风险处置、监督、复测评等列入基本流程,仍需进一步完善。
表1 安全风险管理标准对比分析
基于上述对现有标准规范及评估方法的分析,本研究依据《信息安全技术 信息安全风险管理指南》,结合OCTAVE设计思路,构建面向数字资源保存的安全风险评估体系(见图1),具体包括4个阶段,涉及13个步骤及9类记录文档。
图1 数字资源保存安全风险评估体系
创建风险度量及评估指标可以明确数字资源安全风险域和影响因素。本研究基于保存系统重要数字资源及关键应用服务,以文献研究、用户访谈、现场观察等方式进行数据收集,分析安全风险管理内容,将应重点关注的内容定义为“风险域”(Impact Area,IA),如数据、系统、人员、经费等。确定待评估风险域后,创建风险域度量指标作为威胁程度的评价依据,如数字资源损失、系统服务异常、用户信任度降低等。同时,对风险域的重要程度进行优先级排序及赋值,即重要程度越高,优先级越高,赋值越大。
对象识别和范围界定是风险评估活动的基础,对重要数字资源及保存环境进行标识,能够避免混淆风险评估范围以及降低评估对象的不明确性。在具体操作过程中:一方面,梳理基本情况,创建重要数字资源列表,记录质量、特征、价值等重要信息,明确风险评估范围及边界;另一方面,在保存环境中引入“容器”概念,描述数字资源存储、传输和处理等操作的位置和方式,通过将数字资源映射到其所关联的容器来定义必须检查的风险环境。
安全风险要素与场景识别是风险评估的重要环节。首先,创建保存环境列表,结合容器信息定义“威胁场景”(Threat Scenarios,TS),描述与容器相关的可能造成风险域损失的活动,明确数字资源保存可能存在的安全风险。其次,基于安全威胁场景,采用问卷调查和专家咨询法判断威胁发生的情况及可能带来的影响,使用“风险等级”(Risk Level,RL)描述威胁对风险域的影响程度。同时,对威胁场景信息进行记录,如相关人员、威胁手段、威胁结果、安全要求等,作为后续风险评估和管理活动的依据。
威胁场景评分是数字资源保存风险分析与处置的关键,该评分可用于多威胁场景当前风险程度的比较,以及伴随操作环境变化的跨时间比较。“相对风险指数”是威胁场景评分的具体呈现,也是数字资源保存安全威胁场景的风险程度衡量指标,指数越大表示该场景的潜在风险程度越高、越紧迫。相对风险指数计算过程如下。
(1)采用问卷调查、现场咨询、实际调研等方式,获取威胁场景对每个风险域的威胁程度,完成风险等级赋值。
(2)将风险域(IA)的优先级a(IA)(取值为1到n,n越大优先级越高)与其对应的任一威胁场景(TS)的风险等级(RL)值b(RL)相乘,得到该威胁场景对风险域的影响指数R(IA),再累加单个威胁场景对应的所有风险域的影响指数R(IA),得到该威胁场景的相对风险指数f(TS),计算公式如下:
(3)降序排列风险指数,结合资源价值、安全要求、相关容器、操作环境等因素,确定哪些风险需要处置,进而选择并执行合适的风险控制措施。如,参照《信息安全技术 信息安全风险管理指南》提出的规避、转移、降低、接受4类风险处置建议,或结合数字保存系统风险处置能力和现状进行适当调整。
(4)对处置方式和结果进行周期性检验,验证数字保存安全风险管理效果,优化和完善管理流程。当数字资源保存环境发生改变时,需及时修改并调整风险度量指标,重新进行风险评估,以保证评估结果准确、可靠。
健康医疗数据作为国家战略性资源,是数字资源保存的重点。本研究选取医学数字资源长期保存系统MedPRES[24]及其存档内容为安全风险评估对象,采用问卷调查和定量分析法,评估数字资源保存的潜在安全威胁,识别、控制和消除潜在风险,在保证存档资源机密性、完整性、可用性的同时提高内容的安全性。
(1)创建安全风险域及度量标准。采集并分析系统风险管理数据,将数字资源保存活动重点关注的数字对象、系统性能、用户信任度和运行成本4部分内容定义为安全风险域。创建风险度量指标,完成风险域优先级排序(数字对象>系统性能>用户信任度>运行成本)。
(2)界定保存环境与评估范围。基于管理数据分析结果,标识长期保存的关键数字资源,确认风险评估范围。识别评估范围中与资源保存活动密切相关的设施、服务、程序等主要内容,作为数字资源保存相关的3个容器,分别定义为基础设施、系统服务和应用程序。
(3)安全威胁场景识别。本研究从《空间数据和信息传输系统 可信任数位典藏审核与认证》中选取与3个容器对应的18项评估指标作为威胁场景,分析威胁活动对风险域的影响程度以及可能造成的后果。
(4)相对风险指数分析讨论。通过问卷调查法,收集18个威胁场景对风险域影响程度的调查数据,结合相对风险指数公式,对评估结果进行对比、分析。
4.2.1 问卷设计、发放与回收
采取李克特5分量表形式,根据安全威胁场景对不同风险域的影响程度设计调查问卷,其中,Q1至Q18表示数字资源保存面临的18种威胁场景,C1至C4表示威胁场景对风险域造成的4类影响(见表2),选项“非常不赞同”“不赞同”“一般赞同”“赞同”“非常赞同”分别对应风险等级1-5。为确保问卷调查结果的科学性与严谨性,笔者分别向卫生健康和信息安全领域专家、数字资源管理人员以及数字保存服务用户发放问卷。
表2 数字资源保存威胁场景影响程度分析问卷
本研究通过网络共发放260份问卷(C1-C4问卷各65份),回收问卷248份,经过筛选,得到有效问卷240份。
4.2.2 信效度检验
信度是指问卷所测得结果的稳定性及一致性,在李克特量表中常用的信度检验方法为Cronbach α系数。本研究采用SPSS软件对有效问卷进行信度分析(见表3),发现所有Cronbach α系数均大于0.9,表明数据真实可靠。效度分析用于检验问卷题项信息的有效程度。本研究根据KMO和Bartlett球形检验进行问卷的效度分析(见表3),发现KMO检验系数均大于0.5,Bartlett球体检验的显著性概率均小于0.05,说明各变量之间存在显著相关性,因而问卷设计合理。
表3 信效度检验结果
4.2.3 相对风险指数计算
基于数字资源保存风险域的优先级排序,本研究对数字资源、系统服务、用户信任度、运行成本分别赋值4、3、2、1。对问卷采集的样本进行统计,取众数选项作为问卷每个场景下对应风险域的风险值,根据3.4节风险指数计算公式,计算威胁场景的相对风险指数f(TS)(见图2)。
4.3.1 实验结果与分析
根据图2可知,数字资源保存关联项中,系统服务与基础设施的威胁场景整体风险较高,应用程序的威胁场景相对风险较低,有以下内容需重点关注。①系统服务部分。软件支撑服务的可持续性,即安全可靠的保存管理团队(Q5)是本次评估风险指数(47分)最高的威胁。同时,为系统服务可持续性提供支撑的重要因素——保存服务运行资金(Q7、Q6)也存在较高风险(36分、33分)。②基础设施部分。相关威胁占据风险指数排序第2-4位,即备份载体配置(Q4)、应用系统模块(Q1)和存储设备模块(Q3)均存
图2 不同威胁场景下的相对风险指数
在较高风险(41分、40分、38分)。③应用程序部分。仅有个别场景需要优先处置,如未配置数字资源损坏检测和恢复程序(场景Q14)存在较高风险(38分)。值得注意的是,可信赖系统的建设及认证涉及整个长期保存流程,尤其是对关键软硬件的监控预警(Q9、Q13)是影响数字资源可靠性、可用性的重要因素(风险指数36分和35分)。
4.3.2 研究建议
基于上述试验结果建议从以下四个方面加强数字资源保存的安全风险管理。
(1)注重数据管理人员的专业素养。保存管理团队是数字资源保存需要优先处置的最高风险。数字资源长期保存包含资源采集、接收、摄入、保存、访问等一系列活动,系统管理过程繁杂,存在诸多不确定因素,管理团队成员一旦出现问题(如实施误操作、恶意破坏、非授权访问等),将直接造成数字资源损失。因此,建议注重数字资源保存团队的培养和建设,提升可持续的系统服务保障能力。如:面对不断变化的保存环境,如何制定有效的业务连续性保障计划;面对复杂的数字资源管理流程,如何对团队成员进行合理分配,满足系统运维及管理需求;面对工作人员知识结构存在差异,如何合理规划人员岗位职责,保障其专业性和可靠性等。
(2)保障数字资源保存有持续稳定的资金投入。软硬件等系统运行资金的可持续性是需要重点关注的问题。数字资源保存活动需要长期的资金投入,不仅包括问卷中涉及的软硬件运行费用,还包括日常运维、物理环境、人力资源等相关费用。然而,由于长期保存活动一般难以在短期内取得可见效益,数字资源的战略保存往往缺少持续专用经费的支持,而一旦失去稳定的资金来源支持,将无法保障长期保存活动的持续开展。因此,需制定合理的保存策略,有效规划运行资金,保障数字资源保存有持续稳定的资金投入。
(3)加强数字资源全生命周期的监控管理。数字资源长期保存和管理过程中涉及的仿真、迁移等操作,包括自然灾害等不确定因素,均可能造成数字资源的损坏或丢失。同时,无预警故障也将造成长期保存系统服务异常或中断,直接破坏存档环境,对数字资源保存状态和保存期限造成影响。此外,随着科学技术的发展,软件不断更新升级,相继出现文件格式过时、软件不兼容导致的数字资源不可读等问题,严重威胁数字资源长期的可用性。因此,建议加强存档数字资源及其关联软硬件全生命周期的监控,确保潜在风险能够及时被发现和解决,实现数字资源的安全、高效管理。
(4)建议共同努力推动国家行业标准的制定。长期保存载体对数字资源安全性、完整性具有较大威胁。目前广泛应用的磁性载体寿命普遍较短,但在经历数次变革后,保存介质从容量、寿命、稳定性与安全性方面都得到了较大改善,最新的微缩胶片技术、磁光电混合技术能进一步延长存储载体寿命,但是否可以大量应用于长期保存活动仍需验证,永久保存更是尚未解决的技术难题。备份载体主要用于保存数字资源副本,当系统软硬件故障造成资源损坏时,能够及时对受影响资源进行恢复,保障资源完整性。当前,环境和资金仍是影响备份载体的主要原因,不适宜的温度、湿度可能造成载体损坏,导致资源丢失。载体数量及空间不足也将无法满足所有存档数字资源的备份需求,一旦出现问题,将无法利用备份完成恢复。因此,应尽快形成保存载体选择及使用标准,确保数字资源长期安全可用。
本研究构建了一种数字资源保存风险评估体系,该体系可用于对数字资源保存潜在风险的防范,以及对现有保存策略的可信度验证。结合医学数字资源保存开展实证研究,为可信赖系统建设和数字资源安全风险管理提供了有效支撑。因此,本研究的成果可用于辅助数字资源保存机构和保存服务对象制定保存规划和保存策略。对保存机构而言,有效的风险评估和管理方法能够提升保存服务能力,保障数字资源完整性和可用性;对保存服务对象而言,拥有较强风险评估和管理能力的保存环境具有更高的可信度,数字资源保存在这样的环境中会具有更高的安全性和可靠性。
本研究也存在一定的局限性:实证部分侧重对可信赖的数字资源保存环境中的技术风险评估,对于数字资源保存过程中面临的台风等自然灾害、战争等灾难事件以及法律政策因素等外部风险评估尚未涉及,后续研究将考虑扩大风险评估范围,持续优化和完善真实场景下的数字资源保存风险管理体系。