江中祥
(武汉市燃气集团有限公司 湖北 武汉 430030)
在过去的几十年中,企业的信息技术环境经历了从集中式到分布式,再到如今的云计算环境的转变。 这种转变不仅意味着技术的迭代,更意味着企业对于信息系统的需求与期待发生了深刻的变化。 在传统的信息技术(information technology,IT)架构中,企业往往需要投入大量的人力和物力来维护自有的数据中心和硬件设备。 而云计算的出现,为企业提供了一种新的、更为灵活和高效的IT 资源获取和管理方式。
云计算被定义为一种基于互联网的计算方式,其中共享的资源、软件和信息作为实用程序服务被提供给计算机和其他设备。 这种计算模式允许用户无须直接知晓和管理底层的复杂结构就能够方便地存储和处理数据。 云计算具有以下主要特点:动态可扩展性、按需付费、虚拟化技术、高可用性和分布式计算。 其中,动态可扩展性意味着根据用户需求可以实时增加或减少资源;按需付费模式为用户提供了灵活的付费方式,用户仅支付其实际使用的资源;虚拟化技术允许多个用户在同一台物理机器上共享资源,从而提高资源利用率;高可用性确保用户的应用程序和数据始终可用,即使在某些部件出现故障时也不会受到影响;而分布式计算则支持将任务分布到多台计算机上,使其能够处理大量的数据和计算需求。
云计算的服务模型主要分为三个层次:基础设施即服务(infrastructure as a service,IaaS)、平台即服务(platform as a service,PaaS)和软件即服务(software as a service,SaaS)。 在IaaS 模型中,提供商提供虚拟机、存储和网络资源,用户可以根据需求定制并管理操作系统和应用程序。 PaaS 模型为开发者提供了一个环境,使其能够开发、运行和管理应用程序,而无须关心底层的基础设施。 SaaS模型则是用户通过网络访问供应商托管的应用程序,无须在本地安装或维护。
云计算的部署模型可以根据数据中心的所有权、访问方式和运营方式进行分类。 主要有四种部署模型:公有云、私有云、社区云和混合云。
公有云是为广大公众或一个大型工业群体提供的云环境。 在公有云模型中,资源如存储、计算和带宽由第三方提供商管理并向用户提供,通常是基于按需付费的方式。 私有云是仅供某个组织使用的云环境,可以在组织的内部托管,也可以由第三方托管。 社区云是由若干组织共享的云环境,这些组织拥有共同的云计算关注点,如合规性、安全性和审计。 它可以由参与组织共同拥有或由第三方提供商管理。 混合云结合了公有云和私有云的特点,允许数据和应用程序在两种环境之间自由流动和迁移[1]。
基于云计算的企业信息系统集成框架旨在为企业提供一个统一、高效且灵活的信息处理平台。 该框架主要由三个核心组件组成:数据中心、集成服务和应用服务。 数据中心作为框架的基础,提供计算、存储和网络资源,确保系统性能和可靠性。 集成服务则负责协调数据和应用程序,使它们能够在整个框架内无缝地交互。 应用服务涉及各种业务功能模块,如客户关系管理(customer relationship management,CRM)、企业资源计划(enterprise resource planning,ERP)和商业智能(bussiness intelligent,BI)等,它们可以根据业务需求进行定制和扩展。 通过这三个核心组件,框架为企业带来了资源的最大化利用、信息的快速流通和业务流程的优化,从而实现了业务效率和竞争力的提升。
有效的应用集成确保了不同应用程序之间的协同工作,促进了数据一致性和流程自动化。 应用集成通常采用中间件技术,如消息队列(message queue,MQ)和企业服务总线(enterprise service bus,ESB),来确保应用间的数据交换和通信。 消息队列允许应用程序异步地发送和接收消息,从而实现了高效、稳定和可扩展的数据传输[2]。
企业信息日益增长,多样化的数据源如何整合为一个统一、一致的资源,成为技术上的难题。 在众多数据集成工具和技术中,数据仓库、数据湖和数据仓库技术(extract transform load,ETL)(提取、转换、加载)工具显得尤为关键。 数据仓库中的数据经过清洗、转换和加载后存储于一个中心化结构中,能够满足企业的数据分析和报告需求。而数据湖则允许原始数据按照其原始格式存储,根据实际需求再进行处理和分析。 ETL 工具的作用在于从各种源系统中提取数据,进行必要的数据质量处理和转换操作,并加载到目标系统中。
云平台提供开放的应用程序编程接口(application programming interface,API)是系统集成的基础。 通过定义规范的表述性状态传递(representational state transfer,REST)风格接口,采用标准的数据格式,实现企业内外部系统的松耦合集成,降低互操作成本[3]。
3.1.1 传输数据的加密
数据在传输过程中容易受到各种攻击,如中间人攻击、重放攻击等。 为了确保数据在传输过程中的机密性和完整性,采用加密技术是必要的。 传输层安全性协议(transport layer security,TLS)是一种广泛使用的协议,用于在不安全的网络上保护通信信息。 其工作原理是在客户端和服务器之间建立一个加密的通信通道,确保数据在传输过程中的安全性。 TLS 的加密过程可以表示为公式(1):
式(1)中,C:密文,P:明文,E:加密函数,D:解密函数,K:密钥。
公式(1)描述了使用密钥K将明文P加密为密文C的过程,以及使用相同的密钥K将密文C解密回原始的明文P的过程。 当考虑到大型企业和云服务提供商的场景时,可能还需要使用其他更高级的加密技术,如完全同态加密或量子安全加密技术,以确保即使在未来的计算环境中,数据的安全性也能得到保障。
3.1.2 存储数据的加密
数据在存储时的加密是云环境下确保数据安全性的基础。 存储数据的加密不仅可以防止未经授权的访问,还能确保数据在被存储时的完整性和真实性。 对于存储数据的加密,高级加密标准(advanced encryption standard,AES)是一种广泛应用的对称密钥加密算法。
考虑AES 加密的基本模型,其加密和解密过程可以描述为式(2)所示:
式(2)中,C:密文,P:明文,AESE:AES 加密函数,AESD:AES 解密函数,K:密钥。
在此模型中,使用固定长度的密钥K将明文P加密为密文C,并可用同一密钥K将密文C解密为明文P。 另外,针对云环境的特殊性,通常推荐使用分散式密钥管理系统,确保密钥的安全存储和管理,从而增加数据安全性[4]。
3.2.1 基于角色的访问控制
基于角色的访问控制(role based access control,RBAC)将访问权限与角色进行关联,进而将角色与用户进行关联,形成了一种分层的授权机制。 在这种机制下,角色通常被设计为满足组织内部职责划分的需要,而权限则定义了在特定情境下的访问操作。
为了进一步量化RBAC 的模型,可以引入以下公式进行描述:
(1)定义用户集合为U、角色集合为R、和权限集合为P。
(2)用户到角色的映射函数定义为fUR:U→2R,即每个用户可以被分配多个角色。
(3)角色到权限的映射函数定义为fRP:R→2P,即每个角色可以关联多个权限。
从上述描述中,具体用户u获得的所有权限Pu可以表示为公式(3):
公式(3)表示的是用户u所拥有的所有角色的权限的并集即为该用户的所有权限。
在实际应用中,RBAC 模型可以与其他安全策略和技术相结合,如职责分离(separation of duties,SoD)原则、属性基于访问控制(attribute based access control,ABAC)等,为企业信息系统提供了灵活且安全的访问控制策略。
3.2.2 多因子认证技术
多因子认证(multi-factor authentication, MFA)技术强化了对用户身份的验证过程。 传统的单一认证方式,如密码验证,可能容易受到攻击或密码泄露。 为此,MFA 结合了两个或更多的独立的认证因子,确保只有当所有因子都得到验证时,用户才能获得访问权限。
MFA 的核心思想基于以下三类因子:
知识因子:用户知道的信息,如密码或个人身份识别码(personal identification number,PIN)。
拥有因子:用户拥有的物件,如智能卡、通用串行总线(universal serial bus,USB)令牌或动态令牌。
生物特征因子:用户的生理或行为特征,如指纹、面部识别或语音模式。
为了量化MFA 的模型,可以定义以下公式:
(1)令K代表知识因子,H代表拥有因子,而B代表生物特征因子。
(2)MFA 的认证函数可以定义为:fMFA:K×H×B→A,其中A代表认证状态,取值为成功或失败。
对于具体用户u,其认证成功的条件如式(4)所示:
式(4)表明,只有当用户u提供的所有三个因子均被系统验证为有效时,其认证才会成功。
3.3.1 系统日志审计
系统日志审计涉及对由计算机系统生成的活动记录进行详细分析,目的是确定是否存在任何不寻常或未授权的活动。 其中,日志数据量往往庞大,要进行有效审计,必须采用数学和算法模型进行高效筛选。
定义日志中每个条目为L,其中每个条目都包含一系列属性p1,p2,…,pn。 例如,属性可能包括时间、事件类型、用户标识、资源标识等。
考虑一个评分函数f(L)为式(5)所示:
式(5)中,wi是权重,代表属性pi的重要性。 这个函数为每个日志条目L提供一个分数,分数越高,表示该日志条目的异常性或关键性越高。
审计的关键步骤之一是设置一个阈值θ,当f(L)>θ时,日志条目被标记为需要进一步审查的项目。 这样的模型允许日志审计系统自动标记可能的异常活动,而不是依赖人工检查。 这种自动化审计的方法提高了安全性,减少了误报,并帮助专业人员更快地定位潜在的威胁。
3.3.2 网络流量监控
网络流量监控旨在确保网络的健康和安全状态,通过对传输数据的实时监控以确定网络行为是否正常。 深入的网络流量分析涉及流量模式识别,波动分析,以及与已知行为模式的比较。
考虑网络流中的数据包序列为S,其中每个数据包d在时间t有特征向量v(d,t)。 这些特征可能包括数据包的大小、源和目标IP 地址、端口等。
将网络流量在时间窗口T 内的整体特征描述为式(6):
式(6)中,∣S∣为在时间窗口T 内的数据包总数。
接着,引入差异函数Δ(,′)Δ(T,T′)来衡量两个时间窗口内网络流量的差异,如式(7)所示:
式(7)中,‖V(T)-V(T′)‖2为L2 范数。 如果Δ(T,T′)超过某个预定阈值,那么可以认为在时间窗口T内的网络行为可能存在异常。
3.4.1 资产识别和风险评估
在云环境中,资产识别作为风险评估的前提,涉及将企业的资源与关联的潜在威胁进行明确。 风险评估则是基于这些识别的资产和威胁来估计潜在的损失。
为了定量地进行风险评估,定义资产价值为A,威胁频率为T,潜在损失为L。 则风险R可以定义为式(8):
式(8)中,A代表资产的价值,通常基于其在业务中的重要性和替换成本来评估。T表示特定威胁在给定时间段内发生的概率。L是当威胁实际发生时,资产可能遭受的损失。
通过公式(8),企业可以为其各项资产分配相应的风险评级。 评估后的风险值可以用于制定安全策略、优先级和预算分配,从而在实际应用中为云计算环境提供恰当的保护。
3.4.2 安全监测和预警
在云环境下,安全监测依赖于对大量数据流的连续观察与分析,以识别异常模式或潜在威胁。 为确保实时地响应,引入了时间敏感性因子α,与每个数据流的异常指数Ei相关联。
考虑系统内存在n个数据流,每个数据流的异常指数为Ei,其中i的范围是从1 到n。 每一个Ei是从该数据流的异常模式派生出来的值,其取值范围从0(无异常)到1(完全异常)。
总的异常评分T可以用公式(9)描述:
当T超过某一预定的阈值β时,系统会触发预警机制。 通过实时计算并与阈值β进行对比,系统能够在第一时间对潜在威胁作出反应。 为了使预警更为准确,阈值β可以根据历史数据和系统的容错能力进行调整,确保在不同的场景和需求下都能为企业提供适当的保障[5]。
综上所述,云计算为企业信息系统集成提供了强大的支持与可能性。 通过深入探讨其理论基础、服务模型、部署模型以及企业信息系统的集成框架,能够更好地理解其内在的运作机制与挑战。 安全机制的建设,特别是在数据加密、访问控制、审计以及风险评估方面,为企业在云环境下的操作提供了关键保障。