张贵兰,王 健,潘云涛,杨代庆
1.中国科学技术信息研究所,北京 100038;2.中国农业科学院农业信息研究所,北京 100083)
当前,我国已经形成以20个国家科学数据共享平台和1个科技资源共享网为数据汇聚和服务主体,以国家科技基础条件平台中心为居中协调的科学数据共享运行体系,相关制度规范体系不断健全,数据治理能力和共享服务水平持续提升,成为我国科技创新的有力支撑。在我国科学数据共享快速发展的同时,科学数据安全正面临着严峻挑战。挑战既来自科学数据共享系统外部,包括全球范围社会经济数字化发展推动的数据安全相关立法进程显著提速和监管力度不断加强,以及科技竞争大环境下优质科学数据资源争夺的日趋激烈,也来自系统内部,包括科学数据汇交工作持续带来的数据规模增长和安全保护压力的相应增加,以及 “科技自立自强”要求下高质量科学数据共享发展对更高水平数据安全保障的需求。
目前我国数据安全管理的护航保障能力仍然不足,在数据共享中还不同程度地存在着 “风险规避”和 “风险漠视”等极端现象。随着 《科学数据管理办法》的进一步落实以及 《数据安全法》 《个人隐私保护法》的贯彻实施,社会范围的数据安全意识与素养将不断提升,叠加可共享科学总量和汇聚程度快速提升的中短期趋势,科学数据共享必将迎来风险水平整体升高和部分科学数据共享平台风险水平急剧抬升的整体状况,成为科学数据共享持续健康发展的重大隐患。
科学数据安全正日益引起学术界和科学数据共享管理领域的共同关注。检索国内 “科学数据安全”主题相关的论文发表情况发现,自2001年开始,围绕该主题的年均发文量从不足3篇快速增加至近20篇,近3年来更进一步上升到22篇,论文关注的主题也逐渐扩展至科学数据安全管理和技术的各主要方面。学者以科学数据的机密性、完整性、可用性为基础,从不同的角度研究了科学数据安全问题。宋筱璇等[1]系统梳理比较了国内外科研数据安全管理政策,并提出相关政策。罗娇等[2]以知识产权作为切入点,分析了科学数据的产权、主权和共享问题,为维护科学数据主权和规范科学数据共享提供指导。李善青等[3]从技术角度提出加强科学数据安全管理的技术举措。盛小平等[4]从数据安全治理的视角提出加强立法、完善数据标准、制定相应政策等系列举措。陈越等[5]认为,从科学数据安全的角度签署数据使用协议可以同时保障科学数据提供方和使用方的权益。与此同时,围绕近年来产生的数据泄露危机问题,已经有学者开始关注并提出相应策略,希望能够引起公众对数据安全问题的足够重视。数据安全策略是为了防止数据泄露等不安全现象发生而提出的手段和方式,前提建立在对某一领域的数据保护问题有足够的危机意识,并且愿意发挥主观能动性解决问题。赵培云[6]基于大数据环境下的数据共享过程中的安全隐患,反思大数据应用存在的潜在安全风险,并寻求相应的安全策略。宋理国[7]立足于数据在医院信息管理中的应用,认为要增强数据安全意识,对医院数据进行综合性管理,从而形成较为健全的体制化管理。李瑞轩等[8]分析了移动云服务,认为在互联便捷、终端灵活的同时也需要注意安全与隐私泄露问题,并围绕这一问题提出保护体系结构、安全协议认证、访问控制和完整性检验的保护措施。Luis[9]提出一种面向云计算服务的数据安全框架,包括数据安全需求识别、数据安全风险管理和CCS数据安全性能评估。
通过前人研究可以发现,我国的科学数据安全规章制度和管理机制在完备性、可操作性、透明性等方面较之国外同行存在很大差距。在我国科学数据共享平台数据安全普遍存在起步晚、管理和技术水平相对不足的情况下,如何应对数据安全挑战,充分发挥数据安全管理对科学数据共享的保驾护航作用,不仅是中短期落实 《科学数据管理办法》的紧迫要求,同时也是实现更大规模、更高质量、更高效率和更富成效的高质量科学数据共享发展的必答题。
在数字化浪潮和开放科学持续发展的大背景下,科学数据的规模总量与综合价值将长期处于增长通道,数据安全的监管力度也将持续提升,这些因素在客观上决定了科学数据安全工作的重要性和紧迫性。近年来,个人隐私数据泄露事件频发,新兴技术、颠覆性技术异化应用带来多维风险与挑战,科学数据安全问题日益凸显[10]。在这种情况下,全面调查国内外科学数据安全管理实践,客观分析判断我国科学数据安全管理工作在制度、机制、技术等方面存在的优势和不足,有针对性地提出符合我国特色的科学数据安全能力提升建议,既是进一步贯彻落实 《科学数据管理办法》的内在需要,也是科学数据共享进一步发展的必然要求。
科学数据安全管理贯穿科学数据管理的各个阶段,包括数据收集阶段、数据治理阶段,数据存储阶段、数据访问阶段和数据分发阶段。只有从全链条管理科学数据安全,才能将安全风险降到最低。在数据收集阶段,需要对科学数据本身或研究内容的机密性进行审查,同时分析现有数据纳入数据库后可能带来的融合风险;在数据治理阶段,要进行科学数据的评估,对其进行分级分类,根据其类型制定有针对性的访问方式;在数据存储阶段,要应对存储技术风险以及数据流失可能造成的数据主权与安全风险;在数据访问阶段,根据数据的敏感性,通过自主访问控制、强制访问控制、基于角色访问控制、加密数据传输等,保证科学数据可以合法安全地被访问使用[11];在数据分发阶段,要注意数据的知识产权以及衍生数据的再分发等安全风险。
本文围绕如何有效提升我国科学数据安全管理能力的必然需求,并围绕科学数据安全管理各个阶段展开调查研究,通过梳理国内外代表性科学数据共享平台的相关经验和典型做法,初步勾勒科学数据安全管理的整体样貌,重点描述科学数据共享平台数据安全管理策略的细节,总结科学数据安全管理的举措,为我国科学数据安全管理提供经验借鉴。
本研究的目的是全面了解国内外科学数据共享平台和相关科学研究机构的数据安全管理情况及相关举措,为我国科学数据安全管理能力提供政策与管理建议。围绕科学数据管理周期,主要调研各个科学数据共享平台采取的安全管理政策、制定的相应措施及其运行机制。通过调研,试图回答以下问题:①典型科学数据共享平台的科学数据安全管理水平;②典型科学数据共享平台的安全管理策略;③当前我国科学数据共享平台与国外平台在安全管理方面的差距。
调查以国内外各类科学数据共享参与机构为主体,重点集中于科学数据共享平台 (或类似机构)。在全面调查的基础上,选择其中的先进、典型或有特色的单位进行案例分析 (见表1)。遴选原则包括:①相关机构在国家科技管理体制和科学数据安全职能与角色两个方面具有代表性;②相关机构具有必要的体量和影响力;③相关机构在数据安全管理方面具有特色或较高的认可度。同时,出于对比分析目的,本研究扩展调查了具有代表性的若干高校和学术期刊等共享参与机构。
表1 科学数据安全管理重点调研对象
科学数据共享平台在科学数据共享生态链中具有枢纽地位,其往往承担着科学数据汇聚、持久存储、传播和有效利用等关键的共享职能,既是科学数据的汇集地,也是数据安全风险的高发点。伴随着科学数据共享事业的发展,科学数据共享平台在职能、定位和形态方面也不断演化,产生了更多管理类型,也由此发展了多种不同的数据安全管理策略。
本研究系统调研了不同科学数据共享平台围绕科学数据不同管理阶段采取的安全管理措施,结果如表2所示。调查发现,尽管很多科学数据共享平台都参考诸如OAIS (Open Archival Information System)等流程模型开展其流程设计与管理,但是在具体实施过程中,由于管理理念、目标定位和资源投入的限制,很多科学数据共享平台都在流程实现上采取了有取有舍的做法。
表2 科学数据共享平台围绕科学数据不同管理阶段采取的管理措施
整体而言,美国[12]、英国[13]、中国[14]等国家的公共部门将数据根据风险等级大致分为3类,即开放数据、敏感数据和涉密数据。开放数据是指无任何风险隐含的可以开放共享的数据;敏感数据是指数据中可能包含涉及个人隐私[15]、未授权的商业信息[16]、人类福祉、濒危动物、可持续发展、公共或国家安全等信息;涉密数据是指涉及国家安全、数据主权、个人隐私的保密数据,这是由国家或地区的法律法规明确界定的。欧盟 《一般数据保护条例》明确指出,应禁止处理揭示种族或民族背景、政治观念等的个人数据、基因数据、以唯一识别自然人为目的的生物特征数据等[17]。在国内外科学数据共享平台的管理实践中,均不收集涉密数据,如ICPSR规定不收录高度隐私与涉密数据。同时,科学数据安全管理的主要对象是敏感数据,关键安全风险是隐私泄露导致的数据主体受损以及给数据生产和共享者带来的违法违规责任。因此,科学数据共享平台安全管理的重心是防止敏感信息泄露,从而避免数据生产者、数据保存与管理者以及数据使用者承担声誉损失甚或违规、违法责任。
数据安全管理策略是管理理念、管理目标、管理定位和主要管理举措的综合,是特定科学数据共享平台数据安全管理的原点与内核。调查发现,不同类型的科学数据共享平台在其数据安全管理实践中形成了三种管理策略 (见表3)。
表3 三种数据安全管理策略
(1)全保护策略,指科学数据共享平台以科学数据价值最大化发挥为安全管理理念,综合运用各种高效可靠的手段支持对敏感数据的最大化利用。在具体内容上,该策略提供对科学数据保密性、完整性、有效性和真实性的全方位保护。在数据安全的管理定位上,科学数据共享平台是数据安全主体责任的重要分担者,因此承担数据安全把关人、数据安全水平提升者、数据安全存储者与数据安全共享服务的责任。科学数据共享平台通常采取制定完善的数据安全管理政策体系、建立数据管理流程、成立专业化的数据安全管理机构、配置和培训高素质业务人员、高投入打造数据安全共享环境等多方面的举措。
(2)技术保障策略,指科学数据共享平台力图以相对较小的投入尽量实现科学数据价值。具体到数据安全管理内容,该策略往往以数据的完整性、有效性和真实性为管理重点,达到一定程度的保密性管理。这种保密性的部分保护往往是考虑到相关的管理、运行以及技术资源综合权衡的结果。在这一意义上,此类科学数据共享平台仅仅是数据安全责任主体的轻微分担者。实施技术保障策略的科学数据共享平台也可能具有数据安全管理政策、流程组织、人员培训和技术环境,但一般会因投入、建设和运营的难度与成本等问题无法建设完整的数据安全访问系统,往往以低效率的审批和线下数据传递的低成本方法替代。
(3)安全免除策略,指科学数据共享平台在理念上追求最大化的数据发现与数据扩散。在数据安全管理上,此类机构采取安全回避态度,要求提交数据者以签署协议的形式申明自负全部安全责任,机构不负担任何数据安全责任。此类科学数据共享平台也通过必要的技术投入对数据的完整性和有效性提供高水平的保护,但是科学数据共享平台无法保证这种保护的可靠性。
数据安全不仅是宏观意义上科学数据全生命周期的固有维度,同时也是贯穿各科学数据共享平台具体管理流程的内嵌主线。根据上述数据安全管理策略,本研究从管理模式、突出特点、安全保护要素等维度,将科学数据共享平台划分为深度安全管理、中度安全管理和浅度安全管理三种类型,不同类型对应不同的安全管理能力和效能。图2所示为部分调研对象的安全管理类型。
图2 科学数据共享平台的安全管理程度
深度安全管理科学数据共享平台完整地实现了OAIS流程,同时对数据评审、数据安全访问等专业性较强的关键环节进行了较大幅度的细化和增强。OAIS管理流程增强背后的驱动主要是安全管理理念和较为充分的投入。以ICPSR为例,其管理理念是遴选高价值科学数据并进行持久存储与共享,从而实现科学数据价值最大化的目的。ICPSR的两大管理目标一是数据具有较高的质量,二是敏感数据都能得到有效利用。这两大管理目标为流程增强提供了必要性。同时,ICPSR基于联盟会费、政府资助和收费服务等多渠道收入形成了较好的经费条件,保障了管理和技术系统的高强度投入。
深度安全管理科学数据共享平台一般都具有较强的公益色彩,同时也承担着国家层面的综合或学科领域高质量科学数据持久存储和有效共享的义务,事实上发挥着科学数据共享把关人的作用,是国家科学数据共享体系中的核心节点。具体到数据安全,此类数据中心普遍遵循下述两条原则:①确保敏感科学数据能够得到有效的安全化处理,包括排除本数据中心无法处理的敏感或涉密数据有效脱敏等;②在有限资源投入的情况下,支持多种形式的安全数据访问与使用,最大程度发挥数据的价值。
为了实现上述理念和原则,科学数据共享平台主要以 “合规性”和 “合理性”作为数据安全管理的出发点。例如,ICPSR设置了明确的安全审核环节和审核标准以确保只收录自己能够处理的数据。在合规方面,ICPSR安全审核委员会在数据提交者声明的基础上进一步核查数据本身以及数据生产行为是否符合联邦政府及其所属各部门、各州政府颁布的法律、法令、规范或其他强制性要求,审查重点是个体隐私的有效保护。在合理方面,委员会审查数据提交者的声明、提交者所在机构伦理委员会的批准、 (部分研究的)研究参与者知情同意书等资料,参照 《赫尔辛基宣言》 《纽伦堡法则》等确定所提交数据是否合乎科学伦理。此类科学数据共享平台同时非常关注所收录数据的完整性与有效性,并认为二者是科学数据有效共享的基础。例如,UKDA设立了清晰的数据收录、审核、治理、存档以及访问流程,以一种类似期刊论文评审的流程化形式确保所处理的数据不会出现非授权篡改和损坏。UKDA同时还采用数据持久存储策略、多数据备份和多系统备份等技术手段,确保数据本身及其相关服务、系统和硬件设施不会损坏或失效。特别重要的是,UKDA和ICPSR等深度安全管理机构基于数据安全访问控制的五要素框架,提供安全下载、远程安全访问、到馆安全访问等多种形式的数据安全访问环境,充分体现了以高投入实现科学数据价值最大化的理念。
从整体上看,深度治理科学数据共享平台完整地实现了科学数据共享中 “安全把关人”的安全评审、安全处理与安全访问的全部职能。
中度安全管理科学数据共享平台一般是规模相对较小的科学数据共享平台。在资源相对有限的情况下,此类机构往往以数据存档和数据共享为主要职能,数据安全管理为辅助职能。在具体实践中,数据安全管理往往集中在智力和管理资源投入水平相对较低的技术性质量控制 (例如,科学数据集技术格式和元数据描述的完整性和准确性等)和安全控制 (例如,检查数据集中的敏感信息但主要依靠作者进行脱敏和多版本制作等工作)方面。此类机构的典型示例是DRYAD,该平台在使用说明中明确要求数据提交者对其数据安全负责,DRYAD只进行最低水平的数据安全审查和最低成本的安全访问服务,如通过线下申请数据、控制访问人员和借助物理介质传递数据等。
浅度安全管理科学数据共享平台一般是各类在线且主要针对开放科学数据集提供共享或传播的科学数据共享服务机构。在我国科学数据开放共享以及欧美类似政策的推动下,从2010年之后陆续涌现了很多专门从事科学数据共享的科学数据共享机构,一些诸如ICPSR和UKDA在内的传统数据共享平台也先后开通了开放科学数据共享系统或平台,如openICPSR和Reshare。此类机构的初衷是仅为非敏感科学数据 (或开放科学数据)提供在线存储和开放共享服务。在数据安全方面,机构会要求数据提交者仅提供开放数据,换言之,数据提交者明确声明对其所提交数据的安全性 (主要是数据的保密性)负全责,平台既不对数据进行安全性审核与处理,也不负担任何隐私泄露等安全责任。同时,这类科学数据共享平台对用户提交数据的存储安全与访问可靠性承担有限责任,如CERN提出尽可能而不是确保所收储数据的持久存储与可靠访问。
(1)良好的数据安全管理是科学数据共享的保障,这种保障一方面体现为安全科学数据共享行为的可持续发展,同时也使得科学数据共享平台及相关的数据提交者免于法律诉讼、国家安全等重大风险的影响。调查研究与案例分析表明,深度安全管理科学数据共享平台设计了严密的安全管理制度和业务流程,同时在人员培训、技术保障和岗位设置方面也更加注重数据安全管理。
(2)良好的科学数据共享平台制度体系具有层次清晰、安全管理业务覆盖完整、业务流程简洁严密、岗位设置合理等特点。这类制度体系向上衔接了国家法律/法令/法规、科学伦理、标准规范体系等不同层次的外部约束,向下指向到操作性强的管理政策、业务操作规程规范等,为安全的科学数据行为提供了完整、清晰和具有高度逻辑性的标准规范环境。安全管理业务覆盖了科学数据生产、汇交、治理、共享/传播、使用等主要环节,并且在安全管理执行过程中平台设置了合理的岗位,使得科学数据安全的 “把关人”机制以一种清晰、简洁因而易于理解和执行的方式呈现。
(3)针对敏感数据占比较小但风险较大的数据安全 “关键少数”特性,大部分科学数据共享平台不同程度开展了数据的分级分类管理,包括制定分级分类标准、设置分级分类流程和相关岗位,以及为不同类型和级别的数据配置不同的治理流程/访问策略和技术措施。调查研究发现,在分级分类的基础上对所汇集数据进行分流,使得科学数据共享平台可以准确地将高昂的安全管理成本投放到极少数需要安全保护的数据上,从而可以有效适应 “关键少数”的数据安全特性,实现数据安全投入和成效的良好平衡。
(4)科学数据安全管理的成效在很大程度上依靠具体执行数据安全评估和分级分类的人员的专业素养和能力。在某种程度上,数据安全管理的制度和技术确定了安全能力的上限,具体的执行人员的素养和能力决定了安全能力的下限。部分管理水平较高的数据中心在其管理制度中明确设置了数据安全评估、数据分级分类、数据安全治理和数据安全访问控制等多个安全专项岗位,同时对这些岗位的任职资格提出要求,对相关人员的入职培训和在岗培训也提出了明确的措施,这些措施有力地提升了相关业务人员的素养和能力,抬升了安全管理能力的下限。
(5)数据安全能力取决于源自制度规范体系的管理能力和支撑管理的技术能力。大部分科学数据共享平台不同程度地实施了多种形式的技术措施,主要包括基于多物理备份的数据长期安全存档措施、数据访问服务或系统的高可靠运行保障措施,以及确保数据保密性的安全访问控制措施等。基本上技术投入与数据中心的规模和资金实力成正比,因此一般只有部分规模较大、运行水平较高的科学数据共享平台同时开展了上述三类技术保障措施,部分科学数据共享平台没有开展数据安全访问控制措施,大部分科学数据共享平台仅在较低程度上开展前两项技术保障措施。
一是从科技自立自强和数字经济发展的高度开展科学数据安全的顶层设计。 “十四五”规划纲要明确提出以科技自立自强作为国家发展战略支撑的总原则,并提出集约化建设科学大数据中心的目标;同时也提出统筹数据利用、隐私保护和公共安全,充分发挥数据要素潜能,推动数字经济发展的要求。为此,必须充分考虑科学数据安全管理的复杂性和系统性,在全球科技创新激烈竞争的格局下,以准确把握我国科技创新整体发展态势及其对科学数据共享要求为基本出发点,统筹考虑组织形式和运行机制,形成一个从顶层设计到发展规划,然后在规划统领下组织实施的体系化保障机制,以此保证科学数据安全管理发展的正确方向和资源投入效率。
二是以数据安全管理能力评价激励机制为切入点,引导推动国家科学数据共享平台快速提升数据安全管理能力。欧美等国家科学数据安全管理的成功经验表明,学科领域科学数据中心 “安全把关人”作用的有效发挥是成功实现科学数据安全管理的关键。考虑到我国科学数据共享体系的组织结构和运行机制,建议在现有国家科学数据中心定期绩效考核中增加数据安全评价内容,并建立 “红黄牌”和 “一票否决”等奖惩机制,辅之以科学数据安全培训等支持性措施,引导推动科学数据共享平台快速提升数据安全意识和管理能力,在较短的时间内尽量补足数据安全管理短板,最大可能消除安全管理隐患。
三是充分利用技术上的 “弯道超车”契机,建设自主可控的科学数据安全共享基础设施。充分利用区块链等新一代信息安全技术,研究与开发敏感科学数据智能化识别与脱敏技术、低成本永久存储技术、去中心化的数据确权与唯一标识技术、智能化用户身份认证技术、科学数据隐私计算等 “在线化”数据安全管理技术,并集成为自主可控的下一代科学数据安全共享基础设施,为高质量的科学数据共享提供技术基础。