刘桂锋 阮冰颖 包 翔
(江苏大学科技信息研究所 镇江 212013)
随着我国科研能力日益增强,科学数据呈现出数量大、更新快的局面。进入第四范式的科学研究时代,科研离不开数据的支撑,科学数据作为科研的地基正发挥着战略资源的基础性作用[1],与此同时,科学数据将面临新挑战与新风险。学者此前研究的数据安全以大数据[2-4]、政府数据[5-6]、个人数据[7-8]、科学数据[9-10]为主。为了确保科学数据安全,多国在推进科学数据开放共享的进程中非常重视数据保护措施的实施与落实,尤其在政策层面形成了比较完善的体系。在2018年我国发布的《科学数据管理办法》[11]中专门说明了各责任主体有着安全与保密的职责。美国1966年颁布的《信息自由法》(FOIA)[12]规定了9类数据不可公开。澳大利亚政府于2013年发布的《公共服务大数据战略》[13]中规定数据属于国家财产,数据隐私保护要从顶层设计着手。2017年英国发布的《新的数据保护法案:我们计划的改革》[14]中指出科学家有权安全处理数据,旨在保障未来英国迈入数字化世界后的数据安全。从具体条文来看,2018年法国颁布的《第2018-493号法律》[15]与欧盟《通用数据保护条例》[16]部分类似,明确引用了部分定义和条款,从而在数据管理方面与欧盟相协调。2017年日本生效的《个人信息保护法》(PIPA)[17]增加了数据跨境流动条款,区分了个人信息与个人数据。同时部分高校制定了科学数据管理政策,比如约翰·霍普金斯大学[18]按照科学数据生命周期规定了科学数据责任主体的职责,相较于政府层面的科学数据管理政策来说,高校层面的更为详细。科学数据安全贯穿于整个科学数据生命周期[19],但是没有明确科学数据周期不同阶段的高校科学数据安全内容,因此本文构建了适合我国高校的科学数据安全内容框架,为提高科学数据管理政策中科学数据安全内容的实操性提供参考。
以科学数据安全为出发点,选取U.S.News[20]世界排名前50的高校图书馆网站作为调研对象,全面梳理了科学数据管理相关的网站内容和政策内容。在此基础上,结合我国高校科学数据管理的发展现状、政策办法等实际情况,使用文本分析法构建高校科学数据安全内容框架。
1.1高校科学数据安全内容框架的来源与方法U.S.News排名是国际上认可度较高的大学排名,因此选取2020年U.S.News世界综合排名前50的高校科学数据管理作为原始资料,其中伦敦大学[21]、清华大学[22]尚未涉及科学数据安全的内容,索邦大校[23]网址无法查找,因此以上3所高校未列为本文的调研范围,最终实际调研了47所高校,提取这些高校科学数据管理政策中关于科学数据安全的内容,在此过程中发现科学数据安全内容围绕责任主体展开,因此结合我国高校部门设置现状,确定科学数据安全内容框架中的责任主体。高校关于科学数据安全相关责任主体的职责大致按照科学数据生命周期划分,所以本文综合了学界认可度较高的科学数据生命周期,确定了本文科学数据安全内容框架中科学数据生命周期的阶段。最后研读以上高校科学数据安全管理内容,通过语义层面的归纳总结生成科学数据安全内容框架。
1.2高校科学数据安全政策现状经过对以上47所高校科学数据管理文本分析,梳理出高校科学数据安全涉及的主体、保护方式,根据原文语义辨别出位于科学数据生命周期的相应阶段,将数据汇总后绘制出图1。就涉及的主体来看,科研人员、科学数据存储库是高校科学数据安全相关的主要主体;为校内人员提供科学数据存储的选择、科学数据风险评估、科学数据脱敏是保护科学数据安全的主要途径;科学数据生命周期的每个阶段都与数据安全有关,着重在数据描述阶段、数据存储阶段、数据开放阶段。悉尼大学[24]、约翰·霍普金斯大学[25]、剑桥大学[26]制定的科学数据安全内容最多,分别有157条、114条、89条,这3所高校分别来自澳大利亚、美国、英国,以上3个国家的高校重视科学数据安全的程度较高,紧随其后的国家分别是加拿大、新加坡、荷兰。
图1 国外高校科学数据安全管理内容及其数量
1.3高校科学数据安全的管理部门设置调研国外高校科学数据安全管理内容后发现,高校将科研人员、科学数据存储库作为负责科学数据安全的主要对象,其中约翰·霍普金斯大学[25]、哈佛大学[27]、伦敦帝国理工学院[28]、悉尼大学[24]、南洋理工大学[29]设置了较多的科学数据安全责任主体,他们将科研人员划分为研究生、研究人员、主要研究人员3个层次,同时给予相应的义务,由此可以看出科研人员是高校科学数据安全政策的主要执行者与落实者,高校制定的科学数据管理政策涵盖了校内多个部门,包括教务处、学院、研究单位、科学数据存储库。
国内高校的组织架构决定了校内科学数据管理政策中的部门设置方式,因此本文调研了国内科研实力较强的几所高校组织架构,以此构建出适合我国高校制定科学数据安全管理的内容框架。结合国内数据法律法规调研情况,绘制出了我国负责科学数据安全的主体逻辑关系图,如图2所示。所有主体均围绕保护科学数据实现运转,主管部门独立于其他主体之外,主要从宏观角度把握科学数据,为保护科学数据安全制定政策,监督高校、科学数据存储库管理科学数据安全情况。高校属于中观层面的主体,起到承上启下的作用,乘上意味着高校受主管部门监督,执行主管部门制定的政策,启下意味着根据此类政策内容制定适用于本校的细则和规范,以此管理科学数据、科研人员与科学数据存储库。科学数据存储库与科研人员是执行者,是微观层面的主体。科研人员主要执行高校的相关政策,为科学数据存储库提供科学数据,同时,管理保存科学数据。科学数据存储库将在主管部门的指导之下根据上级数据相关的政策制定出适合管理科学数据的政策,接收并处理科研人员提交的科学数据,使数据脱离敏感,降低科学数据受到损失、泄露等安全风险。
图2 多主体安全防御体系
1.4高校科学数据安全保护方式
1.4.1 评估数据风险 哈佛大学认为研究监督机构联合教务处负责科学数据安全风险评估,并且需要区分科学数据安全级别。这些学校没有具体规定采用何种方式对科学数据进行评估,但是他们认识到了评估数据安全风险的实际意义,在数据生命周期的每个阶段对数据进行风险评估,保护每个阶段的科学数据安全,在此过程中提高了挖掘隐藏的数据价值的几率[30],分析数据安全风险并且提出最佳的安全控制措施是保护数据安全的挑战之一。
1.4.2 数据脱敏 数据脱敏是指通过技术处理,使得数据中的个人信息无法识别到特定个人且数据无法复原。数据开放和共享是大数据时代的必然趋势[31],为了支持科学研究欣欣向荣地发展,我国鼓励政府部门、科研院所公开政务数据、科学数据等,但是鉴于有些学科的特殊性,科学数据有时包含着敏感数据、个人信息,如果公开数据时不加以处理,可能导致隐私泄露等不良后果,比如影响相关人员的正常生活,所以有必要在公开数据时对个人信息与敏感数据进行匿名处理,意味着数据使用者无法挖掘公开数据的深层次信息,既保护敏感数据,又保证了数据可用性[32]。14所高校比较认同对敏感数据、个人信息等可能对他人造成不利影响的数据进行匿名化、假名化处理,借以代替的方式,包括:从数据中删除直接标识符(即参与者姓名、地址、电话号码),并在适当时用代码替换此类数据(使用参与者编号或化名代替姓名),提供存储敏感数据的存储库等方式。目前,基于自适应算法[33]、基于分布式挖掘算法[34]、基于k-匿名算法[35]、基于区块链[36]的隐私保护方法是国内外认可度较高的数据脱敏技术。
1.4.3 数据协议 本文的数据协议是指数据提供方与数据使用方签订的一种数据提供方要求数据使用方遵守使用数据时的规则的承诺书。将数据安全协议列入科学数据安全政策的只有4所高校,相比于另外4种保护方式来说,重视签订数据协议安全的高校较少。哈佛大学要求科学数据提供者与科学数据使用者签订数据使用协议,内容涉及数据访问、数据传输、数据使用,数据协议的类型包括但不限于许可协议、保密协议、转让协议以及其他名称的协议。约翰·霍普金斯大学的数据协议主要为了保护本校的科学数据知识产权,当属于学校的技术的权利转让给商业企业时,双方需要签订数据协议。爱丁堡大学要求数据协议的内容需要明确数据收集、管理的完整性与机密性,明确保留、共享和发布过程中的细节问题。哥本哈根大学要求科研人员在制定科学数据管理计划时必须制定资料转让协议,该项协议需要揭示不同的科研人员在科研过程中的权利。
1.4.4 科学数据存储 科学数据存储作为高校科学数据管理服务的内容之一,超过半数的高校为本校人员提供了科学数据存储的选择,科研人员若要使用科学数据存储库,则必须规范科学数据文件格式、数据格式,符合高校要求的元数据标准,从而提高科学数据质量与可利用性,比如DREAD风险评估模型,它提供了5个评估指标:损害(反映攻击的严重程度);重现性(反映了重现攻击的难易程度);可利用性(反映尝试发起攻击的数量);受影响的用户(反映受影响的人数);可发现性(反映发现该漏洞有多容易)运用5个指标评估一个数据集,以此判别该数据集的安全风险。科学数据存储库作为数据共享的前提[37],也是数据安全的保障,该服务履行了开放数据的同时又保护数据安全的职能。
1.4.5 应急保护措施 有3所高校要求科研人员制定数据应急管理计划。哥伦比亚大学要求科研人员响应科学数据管理政策,及时提供电子数据安全报告,报告敏感数据可能遭到破坏或泄露的情况、受影响的系统,确定遭到破坏的数据类型。多伦多大学认为立即向信息化部门报告隐私问题(如可能的数据丢失)是突发事件响应的解决方式之一。俄亥俄州立大学哥伦布分校要求主要科研人员立即报告存储在校内、并且由校内人员保存的数据泄露情况,同时提供可疑或可证明的泄露或暴露的个人信息或敏感数据的证据。
1.5科学数据生命周期数据生命周期厘清了创建数据、编辑处理数据、传输数据、存储数据、开放数据、销毁数据的整个数据活动流程以及逻辑顺序。大多数高校的科学数据安全管理均涉及了整个科学数据生命周期,表明了科学数据生命周期的每个阶段存在着数据安全风险。即使一些高校的科学数据安全管理内容只提及了个别科学数据生命周期阶段,但这些高校不约而同地认为数据描述、数据存储、数据开放是保护数据安全的重要阶段。
调研高校科学数据安全的管理部门设置后构建出多主体安全防御体系,进一步梳理原始资料后,本文选择了出现次数为两次以上的内容作为影响科学数据安全的主要因素。
2.1主管部门政府层面、各地方政府层面面临数据开放安全政策的问题亟待解决[38],主管部门在U.S.NEWS世界排名前50的高校科学数据安全内容中提及的很少,但是由于它处于从外部保护科学数据安全的位置,作为公正的第三方监督机构,它的存在对科学数据安全起着积极影响,从47所高校的科学数据安全内容中发现主管部门从宏观上把控科学数据安全的影响力较大,就国外高校科学数据安全管理内容看,虽然包含主管部门职能的条文少之又少,但是有要求校内主体遵守法律、法规、政策等具有约束力的办法,出现此种现象的原因在于,主管部门属于宏观主体,高校是中观主体,高校被要求执行主管部门的相关政策,并受主管部门监督和管理,主管部门存在的意义之一是建立健全科学数据治理体系。
2.2高校高校开展数据治理工作需要以组织、制度和流程三方面为前提[39]。国外高校开展科学数据安全实践的相关部门及其职责构成了校内科学数据安全组织,包括教务处、学院、研究单位、科研人员、科学数据存储库。本文所指的高校是管理校内科学数据安全的决策者,各部门的领导层。在科学数据生命周期视角下,高校在科学数据生命周期不同阶段有着不同的职责(表1)。科学数据生命周期的不同阶段,高校管理科学数据安全的侧重点有所不同。科学数据产生阶段的职责是评估数据安全风险并按照风险程度分级分类。调研的高校科学数据安全管理内容中关于数据描述、数据处理阶段的条款难以分辨。在数据存储阶段高校有义务提供纸质数据安全存储,科学数据的载体可能是电子的也可能是纸质的,因此学校保护的科学数据不能局限于电子形式,提供纸质科学数据的存储是有必要的。数据开放的主要内容包括制定数据使用协议,访问科学数据的规定。数据使用协议是数据提供方与数据使用方共同达成使用数据的规定,是一种约定与承诺,数据使用协议规定使用数据的类型、用途、期限、方式等,对于保护数据的隐秘性、价值有着一定作用。制定访问科学数据的规定,适用于管理学校下属的科学数据安全存储库,为科学数据存储库制定数据访问细则提供参考。高校在数据销毁阶段的职责是制定研究资料销毁政策,批准数据销毁,为科研人员和科学数据存储库销毁数据提供政策性指导与建议。
表1 高校在科学数据生命周期各阶段职责
高校管理科学数据安全的内容大多数涵盖了科学数据生命周期的每个阶段。第一,从制度上规范校内科学数据相关人员的行为,通过确保首席科研人员遵守科学数据管理政策中的义务,制裁违法行为等方式从制度上保护科学数据安全。第二,从资金上为科研人员提供保护科学数据安全的资助,鼓励科研人员将科学数据存储在安全的地方,购买先进的软件传输科学数据。第三,从数据素养上为校内人员提供科学数据培训服务,支持科学数据管理的软件工具,每个学院、图书馆、档案馆设置数据管理员,联络科研人员与科学数据存储库,为各学院提供应急保障,及时处理电子数据安全漏洞。
2.3科研人员科研人员在科学数据生命周期各阶段的职责概括为表2。数据产生阶段科研人员需要确定科学数据的安全级别;数据描述阶段区分研究期间收集的个人数据和一般的数据;数据处理阶段控制文件版本,使用文件的开源格式和能够长期保存的文件类型;数据存储阶段加密敏感数据,规定科学数据最低存储期限;数据开放阶段对敏感数据进行匿名处理或重新编辑,对数据文件进行受控访问,个人数据通过安全的渠道(例如电子邮件)进行传输,延迟共享商业机密相关数据;数据销毁阶段经指定人员的事先批准销毁科学数据,规定科学数据销毁时间,安全销毁所有可识别的个人身份或机密信息,提前制定数据销毁计划。
表2 科研人员在科学数据生命周期各阶段职责
科研人员也有贯穿整个科学数据生命周期的职责。第一,规范行为包括遵守法规要求、制定并遵循科学数据管理计划两方面,成功完成一个科研项目是建立在遵守法规要求基础之上的,比如需要遵守科学数据管理相关的当地法规、出资者和政府要求,熟悉科研项目管理要求和合同内容等;制定并遵守科学数据管理计划有利于科研项目过程中以及完成后高效地管理科学数据,降低因科学数据泄露、丢失等风险。第二,突发事件响应,比如及时向高校等上级领导报告隐私问题(如数据丢失),就如何处理突发事件快速做出反应。高校科学数据管理政策中规定的科研人员保护科学数据的内容能够清楚地表现在科学数据生命周期的不同阶段。
2.4科学数据存储库科学数据存储库管理科学数据安全的内容(表3)集中在数据处理、数据存储、数据开放3个阶段。数据处理阶段评估科学数据的风险,并采取脱敏技术措施保护敏感信息。数据存储阶段制定科学数据保存级别,按照数据保存等级择级存储数据,规定科学数据在数据存储库中存储的期限。在数据开放阶段限制敏感数据共享范围,延迟共享商业机密相关数据,开放的敏感数据脱敏,制定数据访问协议。
表3 科学数据存储库在科学数据生命周期各阶段职责
科学数据存储库对科学数据安全相关的突发事件响应贯穿科学数据全生命周期。选择安全的传输协议,便于保护数据提供者与数据使用者在数据传输过程中的数据安全。除此之外,管理受限访问系统的人员必须经过专业培训才有上岗资格。
调研U.S.News世界综合排名前50所高校的科学数据安全管理政策后发现,管理科学数据安全的人员及其职责是政策的主题,结合我国高校组织结构特征与部门职能后,从数据收集、数据描述、数据处理、数据存储、数据开放、数据销毁6个科学数据生命周期阶段,制度层、基础设施层、数据素养层、执行层4个角度,构建出适用于我国高校保护科学数据安全的内容框架(图3)。
图3 高校科学数据安全内容框架
3.1部门设置首先划清科学数据相关部门的领导机构,国外制定科学数据管理政策的部门是校内的信息化中心,国内高校制定政策、规定的部门以规划部为主。校内数据维护由信息化中心负责。考虑到大部分科研人员就任于学院,因此学院是科学数据安全管理的群体之一。科研人员是科学数据产生的强大队伍。科研单位是科学数据产生的主要单位。科学数据平台承担了保护科学数据存储安全、科学数据开放安全的义务。图书馆作为提供科学数据管理服务的部门,保护科学数据在传输过程中的安全,通过培训等途径提高科研人员的数据素养。因此将以上七类群体作为科学数据安全管理的组织层,从不同角度保护科学数据各个阶段的安全。
规划处、信息化中心、学院的主要职能是建立健全科学数据安全相关制度。制度是建立健全数据安全治理体系的第一步,每一项制度的产生都意味着对数据安全的保护更进一步。高校科学数据安全的管理通常关注知识产权,既要尊重他人知识产权,也要保护自身知识产权,知识产权属于谁意味着谁对数据拥有控制权与决定权,因此保护科学数据知识产权不容忽视,防止出现不正当利用科学数据的情况出现。科学数据应急响应相关制度的制定可第一时间减轻发生科学数据安全风险带来的危害,最大程度上避免科学数据受到威胁。科学数据平台为科学数据存储安全提供了最基本的保障。图书馆为校内人员提供科学数据管理服务,随之产生了科学数据平台,图书馆作为管理科学数据平台的一员,在其中发挥着不可忽视的作用,即为科学数据管理提供软性支持,所谓软性支持就是图书馆依托自身雄厚的知识资源实力,为科学数据相关主体增强保护科学数据的意识以及提高数据素养提供知识服务的过程。科学数据相关者除了主动寻求图书馆工作人员辅助管理科学数据,使用图书馆资源加强自身科学数据保护实力之外,图书馆有着培养科学数据相关主体数据素养的能力,图书馆主动为这些群体开展科学数据管理相关课程、讲座、培训等,进而使得科学数据相关主体有来源渠道获得并提高科学数据管理技能。执行层的代表主体是科研单位与科研人员,调研以上47所高校后发现科研人员属于微观主体,总体上来看,科研人员接受宏观主体与中观主体的管理与指导,同时,需要根据科学数据实践情况定期向中观主体汇报实施情况,与科学数据存储库往来密切,执行层的这一主体主要起着接受作用,并且必须履行上级发布的政策文件,是最后一个执行政策文件的主体,政策文件中很多细节内容需要该主体落实。
3.2科学数据生命周期阶段
3.2.1 数据产生 在科学数据产生阶段,制度层为科学数据制定分级分类标准,以便数据收集者在数据收集过程中就将科学数据的等级与类别分清楚,为数据处理阶段的风险评估、数据加密、数据脱敏提供前提。划分科学数据类型,方便微观主体及时准确地区分科学数据对应的数据类型,在科学数据生命周期的各阶段精准高效的处理科学数据,比如在数据销毁阶段可以将使用率较低的数据销毁,提高管理科学数据的效率。根据科学数据的可获得性、自身价值、类型等因素,将科学数据的风险进行分级,帮助微观主体认清科学数据存在的安全隐患程度。制度层适当地给予数据素养层资金,支持开展行之有效的数据获取以及该过程潜在的风险防控培训,知识产权重要性的普及也是有必要的,数据收集者可能因缺乏知识产权知识,而导致侵犯他人或被他人侵犯知识产权的情况出现。执行层是微观主体,但又是科学数据的第一接触者,作为微观主体要落实上级制定的相关政策、接受并执行培训内容,用科学的方法管理科学数据安全。
3.2.2 数据描述 制度层在数据描述阶段的主要目标是统一元数据格式,数据描述是数据开放的前提,它是数据利益相关者共同认可的标准,促进科学数据顺利开放与交互。
基础设施层主要执行制度层制定的元数据标准,规定科学数据上传至该中心时填写元数据的规范格式,统一元数据格式。数据素养层在充分了解各个学科领域的元数据标准后为校内人员提供数据规范格式咨询服务,开展元数据教育活动。执行层以执行标准,接受培训为主。
3.2.3 数据处理 制度层在科学数据处理阶段需要评估数据安全风险,根据事先分级分类后的科学数据进行风险评估,为下一阶段的数据存储做准备,将评估为高风险的科学数据相应的存入加密措施、容灾备份更为严格的存储库中,并且定期采取措施检查、更新系统。同时需要制定数据格式标准,在这一阶段基础设施层必须参照数据格式标准处理数据,使其格式统一化。基础设施层参照数据格式标准,遵循上级已经评估的数据安全风险,按照不同风险级别的科学数据采取相应的加密手段,对于其中包含的个人信息进行脱敏。数据素养层为基础设施层提供相关技术知识支持,为数据处理人员提供数据处理有关的软件与工具。
3.2.4 数据存储 制度层将数据分级分类标准制定完毕后,根据该标准规定相应级别、类别的数据存储年限,使得基础设施层按照规定年限存储科学数据。数据存储阶段是数据安全风险的高发阶段,不仅涉及的安全风险类型多,而且严重程度高,因此应急计划是必不可少的,应急计划中包括潜在的科学数据安全风险,针对每一项风险提前制定紧急预案。制度层之所以为基础设施层、数据素养层资助资金是因为数据存储需要花费大量资金,对于基础设施层而言数据存储表现为存储成本、设备维护成本、数据备份成本、人才培训成本等,对数据素养层而言体现在购置数据存储软件成本上。该阶段潜在安全风险较多,通常由系统漏洞问题引起,基础设施层在其中扮演着技术人员的角色,因此必须精通数据加密技术,与此同时,不可忽视突发事件响应能力,因为基础设施层往往是第一个发现数据出现问题的主体,必须率先做出预警与控制。如此,数据素养层承担起了突发事件响应培训的职能,为基础设施层、执行层做好相关知识支持工作。执行层在该阶段主要是保证数据传输至基础设施层时的安全,按照上级指示执行相关规定,接受数据素养层培训,对于自己存储的科学数据,要确保设备与软件安全,定期做好数据备份工作。
3.2.5 数据开放 数据开放标准的发布是为了激励数据提供者公开科学数据,注重科学数据数量与质量,保证开放科学数据的可用性,确定开放的数据领域、开放程度、使用方式、开放数据技术,推动科学数据开放的落实、开放期限。数据开放阶段也是极易出现科学数据安全风险的,因此需要制定该阶段的应急计划,并且为保障数据安全提供资金资助。基础设施层与数据使用者之间必须签订数据使用协议,避免科学数据被不正当使用的情况发生。针对机密数据采取安全访问机制,使用适合的访问控制技术、数据加密技术、数据脱敏技术来限制未授权用户对科学数据的访问。采用安全的数据安全传输协议,以保证数据在传输过程中不被损坏或窃取。版本控制是对文档、计算机程序、大型网站和其他信息集合更改的管理,此处是对科学数据集更改的管理。
3.2.6 数据销毁 制度层在科学数据生命周期的每个阶段均起着指导作用,制定数据销毁标准是规范基础设施层、执行层主体销毁数据的前提与保障。销毁数据的过程有潜在的数据泄露、销毁不当等风险存在,因此制度层在数据销毁阶段有必要制定应急计划。若数据存储在基础设施层,基础设施层需要提供硬件与软件设备,经过科学数据提供者同意,并且确认该科学数据不存在知识产权争议的情况下,借助设备,参考数据销毁表来销毁数据。数据素养层在此阶段的主要任务是普及销毁数据的主要手段,使培训对象掌握数据销毁的方法与工具。若科学数据存储在执行层主体中,此时执行层需要遵循数据销毁标准将数据销毁。
目前,国内科学数据涉及学科多,数量大,增长快,科学数据安全将是亟待解决的课题。根据调研情况可知,国外已有部分高校为研究人员提供科学数据管理服务,并且制定了相关管理办法,我国政府先后出台了《个人信息和重要数据出境安全评估办法(征求意见修改稿)》《科学数据管理办法》《数据安全管理办法(征求意见稿)》《数据安全法(草案)》,但是国内具有科学数据服务以及相关管理办法的高校仍然凤毛麟角。本文基于科学数据安全相关主体、科学数据生命周期视角构建了高校科学数据安全内容框架,希望为高校制定科学数据安全相关办法提供参考。