杨隆志,李 洁,诺伊莉莎,汤姆·皮克特
(诺森比亚大学 工程与环境学院 计算机与信息科学系,英国)
互联网络和设备数量的增长导致了组织中数据的爆炸性增长。这些数据越来越多地被用来通过分析提供见解,从而为关键业务决策提供信息。商业和非商业组织正在进行的数字化促进了这一增长,物联网(IoT)的日益广泛使用也是如此。物联网设备收集来自各个领域的信息,如健康、能源、天气、商业、交通、教育和制造业,并打算对社会和环境产生积极的影响。大量的信息通常被称为“大数据”,即收集、挖掘、分析和可视化,以发现行为趋势和模式,为决策提供信息。
与大数据相关的常见挑战是存储和分析收集的数据集,及时提供见解,从而加快和改进决策过程,支持实现组织目标。作为一种常见的副作用,安全性和隐私性已经成为组织内部与数据存储和使用相关的关键问题之一。这是由于道德背景、法律背景的变化、网络犯罪的扩散、恶意内部人员的增加以及近年来导致大规模安全漏洞传播的新攻击技术。由于意外信息泄露和对电网、卫生、教育等各种自动化系统的有组织黑客攻击,这种机器和互联的增加将导致银行、政府和其他私人及公共系统的网络安全问题大幅增加。
当在利用大数据集进行决策的组织中不应用数据治理时,上述挑战就变得至关重要。这些挑战共同推动了开发大数据治理框架的需求,以指导大数据在当前决策中的使用,并确保大数据的质量和可用性可供未来使用。大数据治理涉及人员、政策、流程、战略、标准和技术的协调,使组织能够利用数据作为其关键业务资产之一,同时确保一致性、可用性、完整性、可靠性和安全性,以及大数据整个生命周期的可审计性。
本文提出了一个大数据治理的框架,以便对大数据进行适当的收集、管理、存储、传输和利用。简单地说,该框架以治理目标为指导,并使用Evaluate Direct Monitor(EDM)循环模型作为治理原则来增强和支持数据体系结构。因此,该框架不仅可以指导组织做出更好的数据驱动决策,而且可以支持组织在大数据的指导下有效地实现其组织成果。该框架使组织能够正确管理数据资产,并最大限度地实现大数据的价值,从而支持和鼓励有关数据的良好实践。
本文还提出了一个在网络安全领域实施大数据治理框架的实例。采用大数据和相应技术的数据分析工具越来越多地被用于支持网络安全。鉴于这类数据在网络空间的广泛可用性,开发和使用这类工具的机会很多。网络安全涉及数据和网络的方方面面,网络入侵检测是确保网络安全的常用方法之一。因此,本文探讨了如何将所提出的大数据治理框架集成到保护数据存储、流和处理的网络入侵检测系统中。
论文的其余部分组织如下。“研究背景”部分简要回顾了大数据、网络安全和数据治理作为这项工作的基础。“大数据治理”部分介绍并讨论了提出的大数据治理框架。“网络安全中的大数据治理”部分以网络入侵检测的一个特殊案例为例,介绍了所提出的网络安全领域大数据治理框架的实现。“结语”部分总结了这项研究,并探讨了未来可能的研究方向。
该部分回顾了大数据的特点、现有的相关网络安全方法、通用数据治理框架、原则,并为提出的大数据治理框架奠定了基础。
大数据是一个与大数据集相关的术语,大数据集具有更大、更多样和更复杂的结构,难以使用传统的数据处理技术进行存储、分析和可视化。大数据不仅是指数据量,还包括与大数据量的收集和利用相关的其他方面。大数据通常用3V来描述,如图1所示。
图1 大数据的3V:海量、多样性和速度
(1)海量:大数据最明显的特点是生成和存储的数据量大,这通常被称为数据的纵向可伸缩性。目前,估计全世界每天会产生25亿字节的数据,这一数据量比2005年增加了300倍,通常远远超过传统列和行合理数据库的限制,因此需要新的存储技术来适应大数据。
(2)多样性:多样性表示数据可以来自多个领域,有三种典型类型:结构化、半结构化和非结构化。这种多样性增加了数据的横向可伸缩性。与结构化数据相比,非结构化数据通常已经被标记,并且可以很容易地映射到预先设计的字段(例如电子表格或数据库中的表),它显得更随机,更难排序和分析。非结构化数据的典型示例包括电子邮件、视频、照片和音频文件。半结构化数据集通常不驻留在关系数据库或表中,但它们确实包含用于分隔数据元素的标记。JSON和XML文档通常属于这种数据类型。
(3)速度:表示数据生成和需要处理以满足应用需求的速度。速度本质上是衡量数据创建、存储、分析和可视化的速度。人们期望大数据技术能够实时或近似实时地生成和处理数据,而传统的数据处理方法只能使用数据快照批量处理数据。因此,大数据需要更强大的数据处理机制来实时处理数据流。
3V被广泛用于描述大数据,即大数据集具有高容量、高变化、高速度的特点。此外,最近还提出了大数据的第四个V,即真实性。真实性是指数据的可信程度,表明数据在多大程度上可以被组织确信地用于做出关键决策。大数据仍然是一个快速发展的领域,涉及非常活跃的研究和越来越多的应用。因此,毫不奇怪,大数据的定义也在不断演变。尽管如此,大多数定义都类似于“大数据代表的信息资产具有如此高的数量、速度、多样性和真实性,需要特定的技术和分析方法才能将其转化为价值”。在此基础上,大数据的广义定义被扩展到包括实现或提取大数据价值的大数据处理技术。
随着互联网的迅速发展,越来越多的设备被网络化,形成物联网。从本质上讲,大量用于捕获广泛数据的设备利用各种网络和云提供的无处不在的连接性在互联网上共享数据。如果适当地加以利用,这种共享数据可能对组织很有价值。为了保护网络空间中的数据共享,网络安全已成为影响企业、政府、其他组织和个人家庭设备的最紧迫问题之一。
数据治理在这些解决方案中扮演着重要的角色,它不仅帮助组织了解需要保护哪些数据,而且引导组织实现目标,具体表现在以下两个方面:
(1)识别数据风险:个人识别信息和个人健康信息构成敏感数据,可能给组织带来声誉和财务风险。数据治理工具支持识别敏感数据。
(2)控制更安全的访问:数据用户并不总是需要查看或访问日常使用的敏感数据。重要的是要控制这些敏感数据只有在需要和必要时才能访问。通过正确应用数据治理工具,可以有效控制权限数据访问。
传统上,数据驱动的网络安全解决方案,如网络入侵检测系统(IDS)和安全信息与事件管理(SIEM),通过分析事务日志和网络流量数据来识别异常和可疑活动,从而保护组织免受网络威胁。然而,基于以下两个原因,此类工具越来越难以处理与使用物联网进行大数据收集相关的越来越大的流量数据集:
(1)传统技术并不是用来处理和管理任何半结构化或非结构化数据的,但这在大数据中非常常见。将非结构化数据转换为结构化表示是可能的,以满足传统工具的需求。但是,这是一个额外且耗时的过程,成本非常高昂。
(2)传统技术在存储、保留、检索、访问和处理大数据隐含的大量信息方面效率相对较低。这些工具没有与大数据技术集成。
应用大数据技术可以很容易地解决传统工具的问题。例如,大数据工具(如Piglatin脚本和正则表达式)可以以灵活的格式查询数据,包括结构化数据和非结构化数据。此外,大数据及其分布式系统提供了高性能的计算模型,使得存储和分析大型异构数据集的规模和速度前所未有。因此,与大数据相关的网络安全问题可以通过以下方法解决:①收集大规模的流量数据;②对数据进行更深入的分析;③生成并提供网络安全相关模型;④基于该模型实现大规模流媒体流量数据的实时数据分析。
数字时代为公共和私营部门以及组织提供了前所未有的机会来收集、存储、处理和交换大量数据;因此,它们在数据安全、数据结构管理、数据隐私保护和数据质量管理等方面面临着越来越大的挑战。数据治理是一个概念或框架,组织可以使用它来解决管理数字资产处理过程中的此类挑战。
数据治理包括使组织能够将数据作为数字资产加以利用的人员、流程、过程和技术。它提供了管理和维护数据质量、安全性、可用性、相关性和完整性的通用框架。它还确保真实的数据被适当地用于设定业务目标、维护业务流程和做出关键决策。数据治理通常需要一个连续的过程来强制清理和存储由组织生成或来自第三方的大量数据。应用数据治理的动机是确保有一种可持续的方法利用数据来实现组织的业务目标和目的。信息技术(IT)和其他业务部门必须共同定义管理数据的规则和策略,并定义从获取、管理和存储到利用和可视化的数据元素。
数据治理策略确定了数据使用的角色和职责,建立了数据保护计划的最佳实践,并确保数据在组织内得到适当的记录。与组织的任何其他资产一样,数据需要一个适当的管理策略。数据治理定义了数据的访问、数据的安全级别、数据的质量以及组织对数据使用的目标。数据治理策略可以由组织内的团队或组织外的专家编写。
数据治理策略是另一个关键因素,它定义了如何共享从数据中提取的信息,加强了使用数据的文化,并揭示了数据治理可能面临的缺点和所需的预算。更具体地说,它阐明了谁对数据负责和知情,以及如何从数据中做出决策。它为整个组织遵循的数据管理过程提供了基础。它也是克服数据治理限制的一个组成部分,有助于实现预期的业务目标和价值。
数据治理实践通常由用于数据收集、管理、存储和利用的框架指导。该框架旨在确保数据的机密性、可用性、可访问性、质量和完整性。它必须支持组织内的数据流和业务流程以及组织的文化和结构。它有助于指导员工在数据管理中发挥作用。一个完善的数据治理框架通常包括数据管理策略、公司驱动因素、数据管理结构、技术和方法。
本部分讨论数据治理挑战,以及为应对这些挑战而提出的大数据治理框架。
传统的数据治理框架在“数据治理”部分中通常只考虑数据结构、数据质量和元数据管理,而不是高容量、高变化、高速度的实时数据。在大数据环境中,组织内部或外部处理的大量数据需要对数据质量、安全性和道德规范进行额外的管理。此外,大数据和业务任务的结合可能会导致数据泄露的风险更加频繁和更高。此外,大数据与业务任务的结合可能会导致数据泄露的频率更高、风险级别更高。表1总结了现有数据治理框架在大数据方面面临的主要挑战。
表1 现有数据治理的挑战
大数据环境下的数据治理主要集中在以下三个方面:
(1)数据体系结构:大数据是从各种各样的数据源中获取的,这些数据源可以是结构化的、半结构化的或非结构化的。非结构化和半结构化数据通常是随机的,难以处理。这种数据结构的多样性增加了数据管理的难度。另外,不同的组织保持着各自的数据结构标准化,阻碍了不同组织之间跨系统的信息共享,从而大大降低了信息开发利用的效率。
(2)数据质量:数据质量可能是大数据管理的一个问题,因为大多数现有措施不能直接应用于大数据。例如,大数据的实时性要求组织提高数据访问效率,从而减少数据传输的延迟。此外,有时可能需要组织将相同或具有冲突的数据存储在不同的系统中,这往往会导致同步或冲突解决问题,从而相应地降低数据质量。
(3)数据安全、隐私和道德考虑:数据共享和分析过程可以有效地提高数据的价值,使组织具有更好的数据透明度,但同时也可能不适当地暴露敏感数据,或让黑客进行未经授权的数据操纵。实际上,大数据安全和隐私是大数据时代数据治理面临的最大挑战之一。除此之外,随着数据提供者的日益关注和数据捐赠的更广泛参与,数据处理的道德方面已成为一个越来越重要的问题。
在数据结构标准化、数据质量管理、数据安全和隐私方面存在的问题是设计和开发有效的大数据治理框架的主要挑战。本文从大数据应用和创新的角度,通过考虑目标、数据保护赋能因素、治理领域和原则,提出了一个大数据治理框架,如图2所示。该框架以治理目标为指导,根据组织的战略数据相关目标,采用实体数据模型(EDM)循环模型作为治理原则,有效地增强数据架构、数据质量、数据安全和隐私。
图2 大数据治理框架
2.2.1 目标
拟议的大数据治理框架允许组织保护大数据,同时从大数据中获取最大价值,从而支持和鼓励有关数据利用的良好做法。换言之,该框架的目标不仅是指导组织根据其关键绩效指标围绕数据使用做出更好的决策,而且还帮助组织有效地实现数据创新利用的成果,这往往导致组织的文化变革,以实现深层次的数据驱动过程。这些目标通常是组织战略目标的核心,可以通过利用现代信息和通信技术开发大数据来实现。
2.2.2 促成因素
赋能者通过管理来定义程序、规则以及这些程序和规则的相关实施,共同建立基础实践标准,以限制风险并最大化大数据及其利用的价值。这些程序和规则涵盖了数据处理的所有关键方面和领域,从数据收集到存储和传输、利用和最终归档。例如,数据可能会泄漏或通过各种方式被非正式访问和操纵,从意外丢失的设备或释放的密码到专门的有组织的网络攻击。在大数据环境中,数据源的多样性和数据的存储位置使得这种情况更具挑战性。在这个例子中,需要根据此类潜在风险制定风险预防和缓解程序及规则,以尽量减少风险。
为了确保所定义的规则和程序适用于组织的数据处理实践,通常由数据管理员在执行框架内进行管理。数据管理员是对数据处理有顾虑的其他人的组织代表。数据管理者可以是数据管理委员会或独立个人的形式,具体取决于组织。管理委员会还与程序和规则制定者密切合作,就程序和规则的有效性和效率提供反馈和见解。这些输入,除了来自数据提供者、保管者和操纵者的输入,在对数据处理程序和规则进行定期审查和修订时,都要加以考虑。
2.2.3 指导原则
大数据治理原则支持组织管理和处理大数据,为上一小节中讨论的数据处理程序和规则中未提及的任何方面提供补充指导,这些程序和规则定义了数据处理关键方面的实用标准。这些程序和规则是强制性的,由管理工作组监督。本小节中讨论的原则仅提出了良好做法,根据情况可能不会在实践中采用。这项工作的指导原则集中在图2所示的数据责任、完整性、可审计性和透明度上。为了使其有效,指导原则应保持简单易懂。
组织应持续评估数据在一段时间内可能发生的任何更改,以确保数据完整性,这对于有效使用数据来说至关重要。数据完整性将通过确保数据在组织内得到明确定义、适当控制和适当访问来实现。由于遵循了这些原则,数据可以更好地与组织策略以及跨业务需求保持一致。数据处理程序需要透明,以保护组织免受潜在的数据泄露事件的影响,同时允许战略性地使用数据。透明度有助于揭示评估过程中如何处理敏感数据,以便内部或第三方审计师或任何其他数据利益相关者能够理解与数据相关的程序。
此外,与数据相关的决策、流程和行动应是可审计的,这些决策、流程和行动应得到基于合规性和运营审计要求的适当文档的支持。问责通常定义了数据的可访问性和数据操作员的可信性。为了促进对数据的访问控制,一个组织的所有部门需要合作来增强数据所有权和问责制。如果所有部门都对数据负责,那么在一个组织内,数据泄露就不那么令人担心了。
2.2.4 治理域
治理域描述了组织在进行数据治理活动时应关注的数据治理目标,主要包括五个组成部分,如图2所示。在这五个组成部分中,数据质量管理、数据安全和隐私贯穿于所有治理域,保证了大数据的有用性和有效性,以及大数据在使用过程中的适当保护和隐私保护。
(1)数据质量管理:大数据的使用会产生与动态数据和静态数据相关的数据质量问题,因为通常不可避免地会生成和收集质量较差的数据,这可能会增加对组织运营和决策的负面影响。数据质量管理旨在测量、改进和认证生产、测试和存档数据的质量和完整性。可以使用各种方法进行大数据质量管理,以解决冲突的数据实例、处理不平衡的大数据集以及消除噪声等。
(2)数据安全、隐私和道德:在收集、传输、存储和利用大数据时,数据安全、隐私和其他道德含义是首要考虑的问题。大数据通常从各种来源收集,并且通常包含敏感信息。例如,推断出的行为数据,如工作地点、好友列表等,可能被归类为私有数据;在一些更敏感的人口统计数据分析过程中,用户名、电话号码和信用卡信息是非常典型的。最近出台的《欧盟通用数据保护条例》(GDPR)是近20年来数据隐私保护条例中最重要的变化,它为数据处理的组织提供了详细的指导方针。在这个重要的领域中,所有的数据处理机制都是基于GDPR和其他政策、程序、规则和原则来设计的,以减轻风险和保护数据资产。
(3)集成和元数据管理:这个域位于治理域的底部,可以被认为是一个数据登录区,链接数据连接器和治理域。在这个域中,经常集成多种方法和工具来帮助理解数据上下文和内容。一旦确定了数据的上下文和内容,它们就被传递到上层进行存储。因此,大数据治理使用集成和元数据管理来对数据的收集和控制施加管理规则。
(4)分布式数据存储管理:在传统方法中,高性能计算组件(如专用服务器)用于数据存储和数据复制。由于大数据环境中通常会产生和收集大量的数据,这些高性能的专用服务器往往无法满足大数据带来的性能要求。因此,该域旨在提供允许通过通常分布式架构(例如动态可伸缩存储管理DSSM)来存储和传输大量数据的方法。
(5)分布式数据处理管理:随着社交媒体和基于传感器的网络应用等新兴应用的快速增长,需要对各种数据进行持续处理。显然,传统的独立解决方案不再适用于这些有时间限制的实时流程。分布式数据处理管理域则为大数据处理提供了一个高效的框架,允许以合理且通常可接受的时间线分析大量数据。此类任务的典型平台包括Spark、MapReduce和Hadoop等。
2.2.5 应对新挑战
由于各种支持数字技术的格局发生了快速变化,大数据的定义也在不断发展。越来越多的大数据模型被引入,例如数量、多样性、速度、真实性、有效性、价值、可变性、地点、词汇和模糊性。大数据的这些新挑战通常要求提议的框架具有可扩展性以应对这些挑战。一般来说,新的挑战通常可以分为三个方面,即数据挑战、流程挑战和管理挑战。尤其是数据挑战与数据本身的特性有关;流程挑战通常与一组大数据处理技术相关;管理挑战涵盖所有隐私和安全问题。这三个组件相互关联,形成一个数据生命周期,如图3所示。
图3 面临新挑战
大数据通常是通过不同的数据捕获设备从多个来源收集,如物联网和其他专业设备。其结果是围绕数据安全和隐私的关键问题,因为此类设备的设计通常没有充分考虑数据安全。因此,随着大数据应用的日益广泛,网络安全已成为填补此类安全空白的一个越来越重要和不可忽视的研究领域。本节讨论上一节介绍的大数据治理框架的实施,以支持在该领域安全和合乎道德地使用大数据。
网络安全是指保护计算机和网络基础设施、运行在基础设施上的操作系统、软件程序以及通过基础设施存储或传输的所有数据免受数字攻击和任何其他滥用的做法,如“网络安全”一节所述。因此,网络安全涉及数字信息处理的硬件和软件系统的范围非常广泛,其中网络安全是最常见的方面。此外,网络入侵检测是实现网络安全最常用的手段。因此,在不失一般性的前提下,本文以网络安全为例,讨论了所提出的大数据治理框架的实现,如图4所示。
图4 网络安全大数据治理框架
网络安全数据治理框架的实施需要仔细规划,以满足组织中与数据相关的战略目标。在这种情况下,系统需要通过实施大数据网络安全项目来实现,以实现项目和治理目标,这是通过评估系统的当前环境和组织的关键绩效指标来确定的。如前所述,本文使用入侵检测系统作为运行实例来讨论所提出的方法。基于这个确定的目标,可以确定数据治理过程中可能存在的数据风险;因此,可以制定相应的程序、规则和原则,例如数据存储程序、数据使用原则、健康和安全规则等,以应对已识别的风险。同时,还确定和制定了实施网络安全项目的策略、工具和机制。
所有的程序、规则和原则都应该在这个阶段执行。对于提议的框架,来自所有部门的代表将建立一个数据治理委员会,负责程序、规则和原则的制定以及监控。本小节以数据访问规则为例。数据访问规则定义了授予内部和外部用户访问权限的标准和机制。数据治理委员会有责任根据不同用户的需求创建和授予数据的各种访问级别。数据委员会团队还必须与业务合作伙伴和数据提供商合作,以确保相关数据的处理符合合作伙伴预定义的规则和规定。一旦制定了规则和原则,组织内的每一位工作人员都必须了解数据的价值,并遵守有关适当使用数据的条例。
数据治理框架的实现与网络入侵检测本身的实现同时进行。以下各小节将共同讨论这些问题。
(1)数据收集:数据收集是实现网络入侵检测目标的第一步。采集数据的质量直接影响整个系统的性能。网络入侵检测可以采集的数据主要有三种:①网络数据包,可以通过应用网络数据包捕获工具以完整数据包捕获(FPC)、数据包捕获(PCAP)格式收集,如Wireshark、TCPdump、TShark;②网络设备的日志,如防火墙日志、VPN日志、服务器日志等;③事件警报信息,是防火墙和防病毒系统生成的数据,用于在检测到潜在威胁时向网络管理员发出警报。
(2)元数据管理:一旦离线或及时收集了原始数据,它将被传递到元数据管理块进行预处理、解释和标记。这通常需要巨大的存储空间。例如,使用PCAP格式捕获1GB数据流24小时需要10TB的存储空间。这相当于900TB的存储空间,用于90天的数据收集。事实上,对网络安全分析最感兴趣和最有用的信息是在包协议头中分配的,它只占PCAP包总大小的4%。与PCAP相比,日志通常需要较少的存储空间,但它需要结构化以进行数据分析。因此,元数据管理需要集成现有的技术,如数据清理和特征提取工具,提取捕获数据的上下文和内容含义,以便进行进一步的数据分析。为了处理大数据,需要分布式数据存储和处理。
(3)分布式数据存储和处理:Hadoop是一个软件框架,通过分布式数据存储和处理来最小化大数据处理时间。Hadoop提供了两个主要组件:Hadoop分布式文件系统(HDFS)和MapReduce。这些组件的工作机制如图5所示。特别是,Hadoop将数据拆分并分发到所有节点,使用MapReduce算法运行应用程序,其中数据是并行处理的,从而能够处理传统上不可能处理的海量数据。通过应用Hadoop,可以有效地提取采集到的原始数据。重新组装的数据集再次保存在Hadoop HDFS中,以供分布式数据利用。
图5 Hadoop框架
(4)数据质量管理:应用数据质量管理,确保大数据具有适当的价值。例如,来自不同资源的数据可能相互冲突,因此,在将数据用于决策之前解决冲突非常重要。文献中提供了各种数据管理方法。本文采用实用的数据采集框架,从表示线程、确定线程权重、分配数据源、过滤不必要的数据四个步骤对大数据的质量和价值进行监控。
(5)数据安全和隐私:本案例中的所有数据,包括原始数据和结构化数据,都需要得到适当的保护,以防止任何数据泄露。由于本研究中数据捕获的主要设备是网络本身,因此在访问级别控制的支持下,捕获的数据可以保存在单独的安全内网中。由于个人和组织敏感数据的存在,网络数据也可能暗示隐私问题。例如,IP地址可用于识别个人用户或组织,这些用户或组织可以共同提供有关敏感用户消费习惯和组织商业信息的见解。因此,除了基于GDPR的数据保护的任何其他方面,还必须应用隐私保护机制。
采集的数据经过预处理后,可以输入人工智能或机器学习方法进行入侵检测。为了减少噪声和提高精度,可以首先应用特征选择方法,例如报告中的工作,具体取决于数据集的性质。已经提出了大量的机器学习方法用于网络入侵检测,例如,其中一种方法可以应用于给定的问题。大数据的速度和容量往往导致数据集的不平衡性、稀疏性和演化性。可以应用各种自适应方法(例如自适应模糊插值)来处理这种情况。由此,可以对结果进行评估,并在需要时对方法本身进行优化,从而最大限度地实现目标。
本文提出了一个大数据治理框架,以支持组织适当地操作结构化和非结构化大数据,从大数据中获取最大价值,并支持和鼓励有关大数据的良好实践。该框架旨在支持组织做出更好的业务决策,同时帮助组织有效地实现数据安全性和可用性。结合一个网络安全案例,给出了该框架的实现。本案例研究说明了在实施网络安全时如何保护数据。
虽然前景看好,但这项工作还可以在多个方面加以改进。首先,通过在现实网络环境中的实现,对所提出的框架进行有效的验证和评估是有价值的。此外,拟议的工作只是基于一个特定的案例,因此,将这项工作扩展到其他基于大数据的网络安全案例将是非常有吸引力的。此外,系统地将所提出的框架与传统数据集的现有数据治理框架进行比较也很有趣。最后,值得考虑的是如何将传统的模型治理方法(例如报告中的方法)扩展到支持基于大数据的模型。