张永彬
(中国电信股份有限公司邢台分公司,河北 邢台 054000)
云计算系统利用互联网实现信息技术(Information Technology,IT)资源的弹性扩展和按需服务,数据通信技术在其中起着十分关键的作用。文章主要研究基于数据通信的云计算系统的设计与优化方法,并通过仿真实验评估系统性能,旨在为构建高效、安全的云计算系统提供理论支撑和技术指导。
云计算系统基于分布式计算架构构建,要求大量服务器之间进行信息交换与协调,因此高速稳定的网络互联成为支撑云计算的关键基础设施[1]。在云计算体系结构中,数据中心网络承载着服务请求与云服务响应之间海量的通信数据。存储区域网络(Storage Area Network,SAN)与服务器集群间的通信和不同数据中心间的广域网通信对云计算系统性能也有着重要影响。
文章设计的基于数据通信的云计算系统采用3层网络架构,即底层、中间层以及顶层[2]。
底层为服务器互联网络,连接数万台服务器,需要提供超高数据速率、低时延、高可扩展性。考虑成本和性能因素,选择基于Fat-Tree 拓扑的2 层数据中心网络,核心交换机采用32×100 GE 端口设备,汇聚交换机采用48×25 GE 端口设备,服务器采用2×25 GE 网络接口卡,理论带宽达100 Tb/s。
中间层为城域网,通过高速光纤或微波链路实现不同数据中心间的连接。网络设备选用带有大容量交换矩阵的路由器,支持Segment Routing 等弹性组网技术。考虑网络可靠性,建立冗余的城域网环,并配套互联网组管理协议(Internet Group Management Protocol,IGMP)双活技术实现快速重路由。
顶层为广域网,主要用于连接用户与云计算系统。采用软件定义广域网(Software-Defined Wide Area Network,SD-WAN)架构,通过云管理平台实现统一控制网络设备,进行业务识别和策略配置,并与底层网络打通控制平面,实现全局路由和负载优化[3]。
基于数据通信的云计算系统网络同时支持多种标准通信协议,如支持远程登录的安全外壳(Secure Shell,SSH)协议、文件传输协议(File Transfer Protocol,FTP)、简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)等。同时,自定义高效的协议连接服务器集群与存储系统,通过远程直接内存访问(Remote Direct Memory Access,RDMA)技术实现低延迟和高带宽的数据交换。
基于数据通信的云计算系统的数据存储和处理系统基于分布式文件系统构建。文件存储系统采用Ceph 集群来提供强大的数据冗余和高可靠性。Ceph集群部署超过1 000 个存储节点,每个节点配备36 块10 TB 串行连接的小型计算机系统接口(Serial Attached Small Computer System Interface,SAS)磁盘,组成RAID-6 的数据保护,单机最大容量超过300 TB。数据切分为众多小对象后,利用CRUSH 算法随机分布于不同的存储节点,实现高度均衡。同时,系统引入Erasure Code 纠删码机制,以兼顾存储效率。元数据管理采用分布式数据库实现,防止成为系统瓶颈。
在存储上搭建云计算框架,可以高效分析海量数据。如构建基于Hadoop/Spark 的分布式计算集群,根据MapReduce 理论部署大量计算节点并行处理数据[4]。主控节点可动态管理数万个计算节点,Server节点采用最新服务器配备高核显卡内存中央处理器(Central Processing Unit,CPU)和超宽内存总线,实现每秒处理TB 级数据。计算框架与存储系统交互的数据传输直接利用RDMA 和数据通信传输(Data Communication Transport,DCT)协议完成,以达到最低延迟和最高吞吐量。
云计算系统处理和存储的数据通常与业务敏感度和隐私相关,因此云计算系统需要具备极高的安全性和隐私保护能力。基于数据通信的云计算系统从数据存储、网络传输及访问控制等多个层面实施安全防护措施。在数据存储层面,除Ceph 分布式存储系统本身的高可靠性和容错性,还额外引入全盘加密机制,对数据块在写盘前进行加密。存储的物理块全部为密文状态。加密算法采用AES-256 算法,密钥长度为256 bits,理论穷举攻击复杂度超过2200。同时,数据采用版本控制和多副本冗余机制,防止误操作和硬件故障导致数据丢失[5]。
在网络传输层面,系统对所有交换网络设备实施流量识别和隔离,服务器集群、存储网络、管理网络等采用虚拟局域网(Virtual Local Area Network,VLAN)逻辑隔离,防止安全域间非法通信。仅通过指定的安全网与外部域间交换控制流量关,并在网关上部署入侵防御系统(Intrusion Prevention System,IPS)或入侵检测系统(Intrusion Detection System,IDS)设备进行深度包检测,屏蔽木马病毒和网络攻击流量。与用户接入网之间实现软件定义边缘安全体系架构,通过云管控系统下发优化网络访问策略。在访问控制层面,本系统提供基于角色的访问控制(Role Based Access Control,RBAC)机制绑定用户身份和数据权限。身份验证模块采用零知识证明协议,证明访问者身份合法性而不泄露真实身份。该协议的安全性公式为
式中:PK(·)表示一个基于指数函数的某种加密或编码方案;x表示待处理的数据;a表示一个固定的基。授权系统与存储系统对接,存储权限标签与加密密钥同步更新。此外,设置系统白名单和异常行为检测,进行实时监控和风险评估。
为保证云计算系统的高可用性,需要实时监控系统运行状态和性能指标,尽早发现潜在故障并快速响应与恢复。本系统构建基础设施层、虚拟化层、应用层3 个层次的监控体系。
在基础设施层面,服务器、网络及存储设备均统一纳入监控范围。采集性能指标包括CPU 和内存利用率、输入输出(Input/Output,I/O)负载、网络流量以及接口状态等。此外,部署各类探针和日志记录,跟踪系统调用过程,形成运行轨迹。基于时间序列预测和关联分析,识别异常特征事件。一旦发现瓶颈指标异常提高或跌落,就会及时上报和生成故障票。
在虚拟化层面,检查云平台和虚拟机运行状况。通过云管理接口采集虚拟机生命周期和资源占用数据,检测虚拟机实例状态、主机负载等。虚拟机内安装监控代理,获取应用程序和操作系统内核信息。同时,结合下层监控数据,隔离硬件故障和软件故障。
在应用层面,对各类云应用和服务设置服务水位线,证明其性能指标符合预期。关键业务还建立冗余机制和容灾备份,在发生异常时自动进行故障转移,保证业务连续性。
多层次监控数据汇总进入集群共享卷(Cluster Shared Volumes,CSF)分布式故障自愈框架,根据状态评估和资源优化模型,做出智能决策和故障响应,尽量实现无人值守自动化运维。该框架运用的模型为
式中:R(t)表示在时间t时的可靠性;λ(x)表示一个与时间x相关的故障率函数。
本实验在计算机集群上模拟构建云平台,主要测量网络通信性能指标,包括吞吐量、延迟、丢包率等。每台服务器上用于生成网络流量的负载机部署4个Docker 容器,代表4 个虚拟机实例。服务器之间使用Arista 7050X 交换机组成二层交互网络,可扩展连接数百台服务器,形成数据中心规模环境。网络测试工具选用专业性能评测平台Spirent TestCenter。测试协议包含传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)、用户数据报协议/网际协议(User Datagram Protocol/Internet Protocol,UDP/IP)、因特网控制消息协议(Internet Control Message Protocol,ICMP)等。
实验包含3 个阶段:第一阶段,测试底层服务器互联网络性能;第二阶段,测试加入应用负载后的系统性能;第三阶段,测试网络功能与安全机制的性能影响。每个阶段均系统性地配置不同参数,如网络带宽、数据包大小、协议类型及端口数量等,测量结果包括总吞吐量、分流量延迟、丢包率等。然后对比不同参数配置下的测试指标,分析系统瓶颈所在。在功能测试方面,模拟增加数据加密传输、身份验证等安全机制,测试其对网络性能的影响。同时,配置不同的负载均衡策略,评估其应对突发流量的效果。收集大量性能数据后,采用回归分析确定各机制对吞吐量和延迟的影响程度,为后续的参数优化提供依据。
文章设计的基于数据通信的云计算系统进行仿真实验。基于数据通信的云计算系统网络性能测试结果如表1 所示,云计算系统应用负载与安全机制性能影响如表2 所示。
表1 云计算系统网络性能测试结果
表2 云计算系统应用负载与安全机制性能影响
由表1 可知,在底层网络测试阶段,系统在不同带宽、数据包大小、协议类型以及端口数量配置下均达到接近线速的吞吐量,如在100 Gb/s 带宽、1 024 Bytes 数据包、ICMP 协议以及500 个端口的测试场景中,系统吞吐量高达98.7 Gb/s,接近理论带宽上限,平均时延为51.8 μs,丢包率仅为0.03%,网络性能表现优异。其原因是Fat-Tree 拓扑结构可以提供大量冗余链路,并应用RDMA 和DCT 等高速传输机制。
由表2 可以看出,在引入安全套接字协议(Secure Sockets Layer,SSL)加密、用户身份验证、完整性校验等安全机制后,系统的吞吐量有所下降,平均时延略有增加,但幅度均在10%以内。同时,采用加权轮询和一致性哈希等智能负载均衡策略,可以在一定程度上缓解安全开销,将丢包率控制在0.1%以下。综合来看,基于数据通信的云计算系统在提供高强度安全保障的同时,仍然兼顾高吞吐低时延的通信需求,实现性能与安全的平衡。
文章主要研究基于数据通信的云计算系统的设计与优化方法。其中网络方面采用高速低延迟的3 层体系结构,存储系统构建分布式文件系统,安全机制融合加密、访问控制及风险评估模块。在仿真测试中,对系统的通信带宽、吞吐延迟、可扩展性及容错性能进行评测,结果表明系统指标突破现有水平,满足大数据处理和高并发服务的需求。