美国高等教育数据系统中的信息安全和隐私(二)

2016-02-05 02:32陈强
中国教育网络 2016年12期
关键词:数据项数据系统敏感性

美国高等教育数据系统中的信息安全和隐私(二)

编者按

2015年8月,美国高等教育政策研究所(Institute for Higher Education Policy,IHEP)率先召集了一个由全国高等教育数据专家组成的工作组,来讨论推动一系列改进数据基础设施质量的新兴方案,为州和联邦的政策对话提供信息。《美国高等教育数据系统中的信息安全和隐私》是该成果的系列论文集——《展望21世纪的高等教育数据基础设施》中的一篇。上期文章使读者了解信息安全和隐私的概念以及国家高等教育数据基础设施中的技术,本期主要阐述高等教育数据集合的信息安全和隐私的关注点及保护等方面的内容。

无论采用何种基础设施的架构,任何一个国家高等教育数据系统都含有一个大型数据集合。该集合的设计目的是提供有用和可靠的信息来反映高等教育中的学生成就和教育成效。“大数据”通常定义为:来自于多个来源的、大型的、复杂的电子数据集,以及这些数据集的事务数据(或元数据),因而相应地必须是“集成的、关联的或者共同分析的”。

数据集的安全和隐私关注点

由于数据的规模和复杂度,为了解决如何在这些数据集和支撑大数据集合的IT系统之间和之内维护信息安全和隐私的问题,必须要进行协同的探究。鉴于在全国范围内对学生平等和教育成效的疑问日益紧迫,而为了回应这些疑问又需要大量的数据,任何一个国家高等教育数据体系方案都受到了安全和隐私方面的关注。

对大数据的安全和隐私的高度关注点包括:数据量(采集到的数据的规模)、敏感性(采集到的数据的敏感性以及在不同系统之间潜在的敏感性差异)、访问权(为达到在更大数据集合中查询的目的而拥有多个大数据集合访问权的个人或实体)。

经过慎重的考量,利益相关者们可以在国家高等教育数据技术设施中实施全面的信息安全和隐私措施,以回应这些关注。

数据量

数据量涉及两个方面问题:第一个是大数据集合中的记录数量,无论是来源于学校、机构或者其他组织。第二个是采集到的关于每个人的数据项目数量。在大型数据集上实施的复杂分析,以及研究者从这些分析中分辨出的个人或群体的动向,其范围可能是非常广泛的。这种大型的数据集合,以及从中揭示出的洞察成果,经常会受到充满怀疑的目光的审视,尤其是当这些采集到的数据中含有可以识别出个人身份的信息时。对不同来源的数据匹配可以创造出新的数据集,其中包含可以识别出对应个人身份的充足信息;这种情况下,为了保护个人隐私,就要采取额外的保护措施。

在国家高等教育数据体系中,数据量两方面的问题都会涉及。数据可能取自于从体系中的多个实体(如学校、州和联邦机构)。另外,不同的实体(以及对应的IT系统)可能持有不同的个人数据项目。当合并这些数据项用于分析时,可能导致产生关于某个个人的详细描述,比任何单独一个实体本身能描述的都更加详细。

敏感性

数据的敏感性也是对大数据集合的一项关注,有两种互相区别但又密切相关的敏感性问题。

第一种问题是大数据集中可能含有不同类别数据的多种组合。普遍的数据分类包括可识别身份的数据、擦除身份的数据、匿名的数据和汇总的数据。因为数据的敏感性不同,不同类型的数据要有不同的安全和隐私保护措施。例如,可识别身份的数据要比匿名数据更加敏感。

第二种问题和第一种关系很近,不过仍然有细微差别,主要是在大数据集合中可识别身份的数据的使用方面。各种类型的可识别身份的数据并不是都有相同的敏感性。理解数据集中不同数据项的敏感性是至关重要的。某些数据项属于最高敏感性的数据类别,例如姓名和社会安全号(Social Security Number,SSN)。因为它们仅凭单独一项数据就可以独立唯一识别某个人,或者它们被社会观念认为是高度敏感的。州和联邦法律,如《1974年家庭教育权利和隐私法案(FERPA)》或《1995年健康保险转移和问责法(HIPAA)》等,通常会要求对这些最敏感的数据项目进行保护。

另外一些数据项也可能被认为是敏感的,因为当它们组合在一起后很可能可以识别出唯一的个人。虽然其他的一些数据项仍然会被认为是可识别身份的数据,但是它们不太可能会被用来识别出唯一的个人。表1标出了不同类型的可识别个人身份的数据以及它们的敏感性。

在大数据集合中,不同类别的数据和不同的可识别身份的数据项进行组合,对数据的查询所返回的结果中包含的数据项也具有不同的敏感度。此时,对这些查询的结果必须要进行安全保护,而且保护的方式应当与其中含有的最高敏感度的数据的保护方式相一致。这样的要求对于单点数据系统和多点数据系统都是一项挑战。

在国家高等教育数据体系中,IT从业者要采取两种方式来应对敏感性挑战。首先,参与体系的实体必须在其所控制的IT系统中实施适当的安全和隐私保护。这表明,要确保那些系统对其所采集到的数据的保护级别符合系统保存的最敏感的数据项的要求。这就意味着,即便是同一个实体的不同系统也可能有不同的保护级别。其次,除了单个IT系统级别的保护以外,在国家体系中的所有实体要联合协作,以确保在实体之间和体系之内共享的数据受到妥善的保护,即任何分析在向最终用户报告数据的终端点上,数据的保护水平达到其中所包含的最敏感的数据项目的要求。

访问权

采集和存储的个人信息的访问范围十分广泛,尤其是通过互联网和个人移动设备时,访问范围几乎是全球的。几乎所有的大数据集合都设计成为供多个实体、从多个地点、为了多种目的而进行访问。对访问权的关切一般分为两类:一是针对无合法访问权的外部角色,对数据进行保护;二是针对有合法访问权的人员等内部角色,在出现故意超出事先批准的授权范围、通过未批准的设备、或偶然错误地披露数据的情况时,对数据进行保护。国家高等教育数据基础设施中,多个IT系统可以互相链接,来自多个所有者的数据集在共享系统中组合,而且有访问数据的人数众多。因此,信息安全控制不仅有必要防护数据免于外部侵入,而且有必要实施控制合法人员的访问政策。

表1 可识别个人身份的数据项

基础设施的数据安全保护

对于一个高等教育数据系统和构成整个体系的底层IT系统而言,不存在信息安全和隐私保护一刀切的设计公式,可以用来确保在其中流动的所有数据的安全和隐私。在《展望21世纪的高等教育数据基础设施》中所提出的所有方案中,每一个都提出了信息安全和隐私方面的、自身特有的一组技术挑战,这需要根据解决方案中所采用的底层技术和流程逐一加以应对。因此,采用全面的解决途径是必不可少的,即乐于采用最佳实践、降低整体风险降低、实施数据保护,以及实现整个体系的透明、问责和信任。

对任何一个改善国家高等教育数据基础设施的可选方案而言,建立一系列共同的隐私原则都有助于保护学生隐私。

信息安全保护

一些信息安全标准和最佳实践的资源是现成的。几乎所有的标准都是基于同一个概念,即良好的信息安全实践是在试图降低风险和保护数据。此处的风险指的是某个威胁利用某个漏洞产生损害的可能性。例如,某个恶意的黑客(威胁)猜出了某个用户的IT系统弱密码(漏洞),然后从数据库中盗窃出了数据并随后利用数据伤害了某人(身份窃取)。风险实现的可能性以及风险实现的损害影响因环境不同而不同。并不是所有的风险或者漏洞都需要同样级别的关注,而且大多数机构并不拥有尝试消除所有安全信息风险的资源。通过风险并评估其相对严重性,是国家高等教育数据基础设施中必不可少的组成部分。

大多数风险评估方法包括了四个基本的风险评估步骤:一是对评估了解范围内的数据资产和数据开列清单;二是确定这些资产和数据所面临的威胁和漏洞(统称风险);三是对特定风险发生的可能性和潜在损失进行分类;四是记录下为应对所确定出的风险所需的控制点。

风险评估的主要成果是,根据可能性和影响程度(如低、中、高)矩阵识别出IT资产和数据的风险,并且制订计划方案,用对底层组织而言切实可行的方式应对风险。组织根据其风险容忍度,可以选择应对不同类型的风险:(1)最有可能发生的风险;(2)一旦发生将可能造成最严重损失的风险;(3)从资源角度来看最容易应对的风险;(4)同时满足上述某些条件的风险。

IT从业者在识别出风险并进行评估后,可以采取信息安全控制措施加以解决。评估风险和实施信息安全控制措施的最终目的是保护组织的IT资源和其中的数据。为了恰当地应对风险,可以采用信息安全领域中的以下通用措施:

(1)资产管理的关注焦点是如何从创建或获得到销毁的全生命周期中,管理IT系统及其中的数据。

(2)身份认证、鉴权和访问控制涉及如何识别授权用户的身份、鉴权(证明其身份)以及被授予IT系统及其中数据的访问权。

(3)运行安全指的是IT系统及其中的数据是如何操作,如何防范威胁,以及如何测试漏洞的。恶意软件保护、系统日志和监控、数据备份以及漏洞管理都包含在这个大类中。

(4)通信安全指的是当数据在网络或者IT系统中移动,包括在一个组织内部或多个组织之间移动的情况下,IT系统及其中的数据是如何受到保护的。

(5)物理环境安全涉及IT系统及其中的数据如何防范物理丢失、机械故障和环境破坏。包括如何通过防范如下风险来保护IT系统:盗窃或丢失;自然灾害,例如火灾、洪水、台风;蓄意破坏;电源中断或其他机械故障。

(6)事件响应、业务持续和灾难恢复指的是当出现涉及IT系统及其中数据的事件时组织如何响应,以及如何从这些事件中恢复。组织必须为一些不同类型的事件(如恶意攻击、自然灾害、断续的网络连接等)建立响应和恢复规程。

(7)培训和意识涉及组织如何培训雇员和其他IT用户,并且传播关于如何推动良好信息安全实践的意识。培训和意识非常重要,因为即使有最好的意愿,雇员和其他可信个人也有可能会无意中损害IT系统及其中数据的安全。

隐私保护

作为一个领域主题,过去十年中隐私在高等教育中的重要性不断在提高。包括FERPA在内的法律以及教育技术市场的增长在教育体系中甚至将隐私概念变得更加重要。与信息安全概念非常类似的是,也没有一个单一的全面控制措施,能够确保数据在任何情形下都能保持足够隐私,并且每种可能的数据方案都有其特有的隐私挑战,要求有专门的隐私响应方式来应对。

尽管如此,对任何一个改善国家高等教育数据基础设施的可选方案而言,建立一系列共同的隐私原则都有助于保护学生隐私。坚持这些原则可以提高国家体系中的透明、问责和信任。《公平信息实践原则(FIPPs)》是《1974年联邦隐私法案》的一部分,对美国的隐私法律有重要影响。这些原则的设计目的是为了要应对大型的个人数据集合所带来的隐私关切,因此,对于国家高等教育数据基础设施中应当采用的隐私原则,它们可以作为很好的范本。FIPPs包含了八项隐私原则。

(1) 目的规范:组织应当在采集数据之前,告知个人为什么要采集数据,以及用于何种用途。

(2)采集限制:组织应当只采集他们所需要的数据(称为数据最小化),而且获取数据的方式是经法律途径批准的,或者是告知了相关个人并得到知情同意的。

(3)数据质量:组织应当只采集准确的数据,并且当因某种原因使关于某人的数据不正确时,此人可以遵循现成的适当程序加以解决。

(4)使用限制:组织应当只将数据用于最初采集数据时指明的用途,或者是其他法律许可的用途。

(5)安全防护:组织应当保护所采集的数据免于未授权的访问(即机密性)、破坏(即可用性)和篡改(即完整性)。

(6)公开透明:组织应当保持透明,将采集个人数据的活动情况提供给涉及的个人。

(7)个人参与:个人应当能够知道自己的数据是否被某个组织所采集,并且应该能够获得被采集到的数据。

(8)可问责性:采集数据的组织应当对上述的隐私原则承担责任。

隐私原则不是凭空实现的。全体高等教育数据社群必须在全面应用于整个体系的原则上保持一致。为实现这一点,利益相关者们应该考虑随着体系的演进而建立协作的数据治理程序。数据治理程序中要部署相关的政策和流程,以满足在国家高等教育数据基础设施中管理所采集、使用和共享的数据的需要。这样的程序将能够提供指导,说明可利用的数据、数据的敏感性、数据的责任方、数据的存储位置、数据的访问权,以及与数据有关的风险和法律制度规定。

对政策制定者的建议

向学生、家长、管理人员、教师、政策制定者和其他对学生教育成效有兴趣的利益相关者提供可靠的数据,和确保那些数据的安全和隐私,这两件事情并不互相排斥。为了在国家高等教育数据基础设施体系内确保有效的信息安全和隐私保护,下列的四项建议共同构成了一个框架。

1. 采用基于风险的方法来理解信息安全和隐私的威胁及漏洞。无论国家高等教育数据基础设施的解决方案或架构如何,利益相关者都必须要理解信息安全和隐私风险。对于任何一个系统,这类风险都会影响到系统向利益相关者提供关于提升学生教育成效的信息的能力。IT从业者评估风险后,可以采取信息安全和隐私控制措施来应对风险,以及对国家高等教育数据系统的组成部分——IT系统及这些系统中的数据加强保护。

2. 建立和坚持一组信息安全保护的基本措施。在国家高等教育数据基础设施中,这些保护措施是对采集、处理、存储、传输的数据进行安全防护所必需的。如果这样的一组标准并不是州和联邦法律(例如为保护联邦IT系统而采用美国国家标准与技术研究所NIST特别出版物800-53所实施的控制措施)要求的话,那么最低水平下也要基于体系中的不同系统的内在风险来实施控制措施。相关控制集见表2。

3. 建立和坚持一组基本的隐私标准。为了在国家高等教育数据基础设施中保护学生隐私,需要实施一组指导性的隐私原则。国家层面的努力尚未出现时,实施这些原则将提供学生隐私保护的最佳方案。最基本的也是必须要实现的原则是:采集数据之前,相关个人收到通知并确认知情同意;学校和其他组织只采集满足回答学生教育成效测试中关键问题所需的、最小范围的数据;并且学校和其他组织所采集的数据只用于采集时的原始用途或者法律许可的其他用途。

4. 建立协作的治理体系。在国家高等教育数据基础设施中,为了确保所采集的数据对必要的测量和指标提供支持并回应利益相关者的疑问,治理体系是必要的。这个治理体系也可以审核数据体系中数据可用性和确保对数据的保护。除了定义数据所有权和管理措施、为信息安全和隐私的最佳实践以及基本要求提供咨询以外,治理实体还可以考虑培训系统用户的最佳方式,并就协调数据分享和分析的收益进行交流。

表2 美国国家标准与技术研究所NIST 800-53和ISO/IEC 27002:2013标准中的控制集

学生、学校和政策制定者需要关于高等教育的更高质量的信息,利益相关者们最需要的是关于学生教育成效的有意义的信息,而获得这些信息要求在现有方案和考虑之中的方案中取得更高质量的数据。当利益相关者们考虑满足数据需要的最佳方式时,势必要在讨论中加入如何能最恰当地保护学生隐私和确保国家高等教育数据系统中的数据安全方面的内容。通过谨慎细致的规划,国家高等教育数据基础设施中可以以适当的方式实施全面的信息安全和隐私保护,从而做到降低风险,保护数据,确保透明、可问责和信任。

(翻译:陈强)

猜你喜欢
数据项数据系统敏感性
基于相似度的蚁群聚类算法∗
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
基于Spark的高速收费站大数据系统的设计与实现
基于计算机软件开发技术的物联网数据系统
丹参叶片在快速生长期对短期UV-B辐射的敏感性
钇对Mg-Zn-Y-Zr合金热裂敏感性影响
非均匀采样数据系统的新型模型描述方法
受害者敏感性与报复、宽恕的关系:沉思的中介作用
微小RNA与食管癌放射敏感性的相关研究