王先强,张 睿,张 华
(国网四川省电力公司南充供电公司,四川 南充 637000)
随着电网业务模式的逐步改革,除传统的县/区调度外,现货交易、检修公司、集控站运维班等调度以外的单位也有着连接访问调度主站系统,并对与之业务相关的电网运行数据、厂站设备信息等进行运行监控和信息查询的需求。
国家电网有限公司在2020年提出建设具有中国特色国际领先的能源互联网企业的宏伟目标,各项工作正在加紧步伐开展建设,各类新型电网业务和工作场景中访问调度主站系统的需求将会更多。
在目前国家电网有限公司“调控一体化”的运行管理模式下,县/区调及检修公司等基层调度单位已无独立的调度主站系统,完全依赖地市调度端主站系统,在此应用背景下调控人机工作站终端成为了基层调度单位工作人员访问主站系统的唯一工具,其重要性不言而喻。
目前各级调度单位所使用的调控人机终端,仍为传统物理图形工作站,以国网四川省电力公司南充供电公司(以下简称南充公司)为例,调度员工作站30台,监控工作站30台,运维工作站18台,培训模拟工作站6台,未来延伸至检修公司及各变电站运维检修工作站需30台,共计114台。
目前,影响调度人机工作站稳定安全运行和无法实现集中统一管控的主要因素有以下4个方面。
1)县供电公司、变电站端与市级调度自动化主站系统之间的调度数据网带宽有限,县供电公司、变电站端工作站与调度自动化主站系统之间发生模型、图形下载、数据更新等批量操作和大数据量更新时,会阻塞站端与主站系统的网络通道,使工作站无法正常操作,影响站端实时数据上传。远端调度终端与主站系统的数据通讯流量峰值超过50 MB,远端查询调度自动化主站系统中历史数据时,从提交查询到出现查询结果超过2 min。
2)现货交易大厅、集控站、第三应急调度大厅等需进行工作站延伸的办公场所,在网络安全防护技术手段、基础设施和运行环境上相较调度中心仍待完善,尚无法达到调度系统安全Ⅰ区的系统运行安全要求,易导致通过非工作站设备的违规接入调度生产大区网络和工作站上的重要数据外露。
3)人机工作站的管理和维护完全依赖地市级调度中心,以四川南充地调与所属阆中县供电公司为例,两地相距近90 km,人机工作站被广泛应用在各区县供电公司、现货交易大厅、集控站、第三应急调度大厅等地后,造成工作站出现故障后无法及时响应且维护成本高、周期长。
4)为满足网络安全要求,需定期对工作站操作系统、应用客户端进行安全漏洞检查、补丁加固、程序版本升级等工作,手工进行此类频繁且琐碎的工作容易出现纰漏,并需占用大量的人力资源。
下面研究了应用于调控人机交互终端安全管控领域的关键技术,提出基于能源互联网的调控终端集中管控系统整体框架,重点研究了调控终端集中管控软件的架构及功能,并在南充公司地、县两级调度中心进行了示范应用,为后期调控终端运行工况及调控人机交互终端安全管控领域的发展提供实时数据。
国家电网有限公司各级调控中心本部或是延伸至县、区供电公司及检修公司、运维班、集控站等地所使用的调控终端主要采用物理工作站结合键盘、显示器、鼠标(keyboard video mouse,KVM)延长器的技术形式进行安全管控。
1)该技术形式需要为每位调度员及相关运维人员均分配1台独立的图形工站,每台工作站的硬件操作系统、应用、补丁均需逐个在现场进行安装、维护和调试。
2)工作站集中部署在调度机房中,工作站1台占用2U机柜位置,大量工作站会占据大量机房空间。
3)使用KVM延长器进行显示画面延伸,实现人员和设备之间进行简单的物理距离、空间隔离。但使用时网络带宽占用高,无法满足目前国家电网公司变电站通道多为2 M的窄带宽通讯现状,且通讯链路无加密等安全防护手段。
4)调度台及各办公工位无工作站主机,通过KVM延长器连接相应人机交互外设。主站系统操作确权所需的安全ukey识别率较低影响工作效率。USB外部设备可随意接入使用,存在数据漏风险。延长器无生物因子安全认证功能,账号密码易泄漏。
5)操作人员使用KVM延长器操作工作站时,对调度控制主站系统的操作过程无法进行审计和记录,无不合规操作进行责任追溯和源头分析能力,无法实现危险指令的阻截。
针对目前调度终端工作站分布广、数量多、维护困难且成本高,新应用安装部署繁琐、周期长,外设无法有效管控,违规操作无法追踪,安全事故无法回溯等问题,将计算虚拟化、网络虚拟化、存储虚拟化、融合运维监控管理、云业务流程交付等软件技术应用于调控终端安全管控,形成基于云计算技术的终端操作系统桌面交付与“云桌面”管理解决方案,并可以根据电网调度自动化的业务场景,定制标准化的调度人机交互终端系统模板。利用调度数据专网聚合多套X86设备,实现资源模块化的横向弹性伸缩,形成统一的计算与存储资源池。
针对人机工作站被广泛应用在各区县供电公司、现货交易大厅、集控站、第三应急调度大厅等不同地理区域的问题,采用云桌面技术将所有工作站都集中虚拟化到终端管控系统上,可集中管理不同场所中的所有调度人机终端。
1)在安全加固、补丁升级等操作过程中,相较传统物理工作站,无需逐台进行安全加固和补丁升级,可通过管理策略统一下发功能,集中对所有虚拟工作站进行安全策略和补丁的分发,进而快速便捷地完成所有虚拟工作站的安全加固和补丁升级,可靠性高,减少了人工加固、升级时误操作可能性,极大缩减了人力投入。
2)通过终端管控系统的虚拟工作站克隆复制功能,可在短时间完成工作站的批量安装和部署。工作站系统出现故障时也可通过此功能进行快速恢复,有效地节约自动化人员的时间和维护工作量。
针对传统图形工作站维护成本高、故障修复周期长问题,将基于云计算的瘦安全终端作为调控终端。该设备使用免维护式设计,设备中内嵌了独立的嵌入式、精简化的国产安全操作系统基础内核,仅保留了网络通讯、屏幕操作等基本功能,即插即用,不存在其他的繁琐配置过程。瘦安全终端是提供给调度员和运维人员使用的前端基本操作设备,通过此设备连接访问地调侧的虚拟调度工作站桌面。
瘦安全终端采用人脸识别和指纹识别的生物多因子认证技术进行登录。终端加电启动时,使用图像识别人脸检测算法完成人脸检测功能,人脸识别库完成人脸特征提取的功能,完成人脸特征识别检测。瘦安全终端配套的指纹识别鼠标,将射频传感器内嵌在鼠标装置内,通过传感器发射微量的射频信号,可以穿透手指的表皮层获取里层的纹路以获取信息。相对于传统光学识别等传统指纹技术,射频传感器对手指的干净程度要求较低,具有更高的识别率和准确度。生物多因子特征识别检测认证成功后方可对瘦安全终端进行操作,可有效避免非授权人员通过终端进行违规操作。
基于目前地调与站端通讯时,调度数据网带宽较窄(≤2 MB)的特点,研究并验证通过新一代虚拟桌面传输协议,通过采用基于图形库的软件处理方式,使用CPU计算资源,提供2D图形数据的渲染处理能力。同时也提供了基于GPU的硬件处理方法。通过分类压缩技术提供3种无损图像压缩算法,分别是Quic、LZ和Glz压缩算法。优化视频数据传输方式,直接把视频数据以流媒体的方式发送到终端设备,避免解码操作,图像渲染性能优化通过图形区域的刷新频率来侦测视频区域,采用MJPEG压缩算法。
通过该协议可以实现瘦安全终端远程访问虚拟调度工作站桌面,并具有文字与图像显示更清晰细腻、视频播放更清晰流畅、声音音质更真实饱满、兼容性更好、带宽低等特点。
通过基于国密算法的可信接入和通道加密技术,再结合在各网络边界国家电网专用纵向加密装置,实现调度人机终端在不同工作场所通过人机交互网或调度数据网与主站系统之间的信息通讯安全可控,且无需对生产控制大区的网络安全架构进行调整。
基于国密的可信接入和通信加密技术隔离了终端与调控主站系统之间的直接通讯。基于国密算法的加解密技术以识别、匹配、认证和授权接入的终端,彻底杜绝使用笔记本等设备的违规、非法接入调度专网。
通过深入研究多屏操作实时安全审计功能,实现人机安全终端开机即可以自动开启运维审计模式,前端操作人员无感知,不需经浏览器等第三方工具跳转,图形化操作等使用习惯和之前一致。对所有图形和字符操作进行审计,支持双屏、四屏扩展显示操作时实时录屏审计,并可对操作指令及输出结果进行搜索、定位和查询,实现对危险指令的阻截。根据工作需要对USB外设进行管控,选择是否启用相应的USB外设。对于U盘等存储设备还可记录数据的上传和下载记录。
进一步加强对维护人员的安全监管,扩大行为审计范围,加强事前授权与事后行为记录的合规性审计能力和评估各类角色人员的专业度能力,全面提升规范化管理水平。
根据电网调度自动化的业务场景,融合计算虚拟化、网络虚拟化、存储虚拟化、运维监控管理、云桌面业务流程交付等软件技术,形成标准化的调控终端安全管控系统架构。实现调控终端从物理工作站转换为虚拟化工作站,并对其进行集中安全管控。一台虚拟工作站对应传统的一台物理调度工作站。
图1 调控终端安全管控系统架构
调度主站系统相关数据、应用均运行在虚拟工作站上。统一部署在调控终端安全管控系统上由省、地市统一管控,调度台、变电运维班、现货交易大厅等办公场景,仅需通过精简的安全终端(瘦客户机)设备,复用现有电力专网通道,连接至地调侧的终端管控系统,终端管控系统对申请接入的调控安全终端进行识别和安全认证,接入成功后将虚拟工作站的操作界面传递给安全终端,调度员即可按传统物理工作站的使用习惯进行日常的监控和调度操作。安全终端与终端管控系统之间通讯带宽要求较低,具有与后端调度自动化主站系统之间数据交互简单的技术特性。
遵循国家电网有限公司要求的“安全分区、网络专用、横向隔离、纵向认证”[1-3]的电力调度数据网络安全规范,在生产控制内部署;终端管控系统通过安全区内核心交换机接入安全Ⅰ区和Ⅱ区,平台内虚拟工作站按使用需求可同时配置Ⅰ区和Ⅱ区IP地址,在防火墙上配置访问策略,并安装相应调度主站系统客户端程序后通过调度主站系统配置连接相应的主站系统。
图2 整体应用架构
4.1.1 网络接入
1)终端管控系统通过多网口冗余绑定方式扩展数据交互带宽。
2)终端管控系统通过虚拟交换机的方式接入生产控制大区内的核心交换机。
4.1.2 数据交互
1)虚拟工作站通过终端管控系统虚拟交换机与安全分区内的调度自动化系统主站系统进行数据交互。
2)虚拟工作站与调度自动化系统主站系统的业务、数据交互模式,维持与物理工作站方式一致。
3)无需对调度自动化系统主站系统进行改造,不影响调度自动化系统主站系统的正常运行。
研究新一代的基于X86架构的分布式存储技术应用技术,采用基于业界标准的X86服务器,彻底抛弃了很多系统仍在使用的存在性能和可靠性问题的集中化元数据处理节点架构,借鉴业界最先进的全分布式、无共享(share nothing)架构设计理念,采用基于策略的分布式哈希表数据路由算法,使得客户端无需查找元数据节点,通过计算就能直接寻址到数据所在的存储节点,大大缩短了数据IO访问路径,提升了系统性能。
同时,整个系统也无集中管理和控制节点,每一个数据节点都有能力承担另一数据节点的功能,节点之间通过内部高效的分布式协议完成相互协作和通信。这种去中心化、无状态的全分布式数据处理架构是系统能实现水平、线性扩展能力的关键,有力地保证了整个系统无单点故障,无性能瓶颈。
图3 全分布式存储
计算机图形处理器(graphic processing unit,GPU),1999年由NVIDIA公司提出。GPU虚拟化即将GPU进行切片,并将这些GPU时间片分配给虚拟机使用的过程。
调控终端集中终端管控系统的桌面虚拟化解决方案中,基于NVIDIA公司提供的GPU虚拟化技术,即vCUDA(virtual CUDA)技术,采用在用户层拦截和重定向CUDA API的方法,在虚拟机中建立物理GPU的逻辑映像——虚拟GPU,实现GPU资源的细粒度划分、重组和再利用,支持多机并发、挂起恢复等虚拟机高级特性[4]。
其vCUDA的实现原理大概包括3个模块:CUDA客户端、CUDA服务端和CUDA管理端。
调控终端集中终端管控系统基础服务器,能够直接控制硬件,系统内安装着原生的CUDA库以及GPU驱动,使得Host OS可以直接访问GPU和使用CUDA。其他的虚拟机属于非特权虚拟机(guest VM),其上运行的操作系统(guest OS)不能直接操纵GPU。CUDA客户端称之为客户端驱动,CUDA服务端称之为宿主机的驱动,CUDA管理端称之为GPU管理器[5-7]。
在调控人机交互终端领域由于调度终端工作站必须采用国产安全操作系统,针对国产操作系统(麒麟、凝思等)在云桌面使用场景中对图形显示和图形运算进行优化,以满足在电力调度控制应用场景下对图形显示和图形运算的高标准、高性能需求。
国产安全操作系统在生产销售之前需要通过公安部计算机信息系统安全产品质量监督检验中心的检测,基本功能需符合GB/T 20272—2006《信息安全技术操作系统安全技术要求》第四级结构化保护级的安全功能的相关要求,因此其内核驱动接口已被重新封装和改造,研究根据国产操作系统的内核驱动接口开发安全规范,根据内核中platform.c 提供的平台总线(platform_bus)以及注册平台设备(platform_device)和平台驱动(platform_driver)的相关接口,对平台设备(platform_device)和平台驱动(platform_driver)进行编码,重新开发vGPU设备驱动,并使其可在国产安全操作系统中得以应用。
为了验证调控终端安全管控系统效果,在南充公司智能电网调度控制系统场景下进行实验。运用所提的基于云计算和生物多因子认证的调控终端安全管控技术,构建调控终端安全管控系统典型应用架构,如图4所示。
图4 调控终端安全管控系统典型应用架构
系统关键指标参数如下:
1)实现基于凝思、麒麟等多个版本国产安全操作系统的GPU虚拟化功能,支持双屏和四屏显示。一块Nvidia M10 32 G显存GPU,虚拟化后可分配给64台虚拟工作站同时使用。
2)一台双路CPU、128 G内存配置的通用X86服务器支持同时运行32台调度虚拟工作站。
3)在阆中(距南充地调80 km)县供电公司,30 MB网络带宽条件下访问调度主站系统并进行数据查询、曲线调阅等日常调度操作时,传统物理工作站模式与瘦安全终端模式的对比数据如表1所示。
表1 实验耗时对比 单位:s
4)在阆中县供电公司,分别进行2 M、4 M、6 M、8 M、10 M带宽限制,通过县调安全终端访问和操作调度主站系统。显示画面分辨率设置为3840×1080的双屏显示。
(1)2 M带宽限制的情况下进行日常操作及维护,告警声音、告警弹窗、告警信息、报表生成、潮流图、接线图等功能正常可用,画面拖动有轻微拖影操作稍有卡顿。
(2)4 M和6 M带宽限制的情况下终端可正常操作使用应用,操作频繁时稍有卡顿,无延迟,告警声音、告警弹窗、告警信息、报表生成、潮流图、接线图等功能正常可用。画面拖动以及操作使用应用正常流畅,画面拖动无拖影。
(3)8 M和10 M以上系统画面流畅,清晰度高,无延迟,无卡顿,告警声音、告警弹窗、告警信息、报表生成、潮流图、接线图等功能正常可用。
5)瘦安全终端开机自启动实时操作安全审计,平均一小时审计视屏占用60 MB磁盘空间,审计视频调阅无延迟,可搜索定位。
从规范权限配置,加强操作过程安全审计,完善管理制度和技术手段,防范安全攻击,应对极端风险防控,加密网络传输,完善对延伸至外部的远程接入安全终端设备进行集中、统一的安全管控和运维管理等多个维度,综合对比传统物理工作站与调控终端安全管控系统两种技术方案,对比数据如表2所示。
表2 方案对比
南充公司于2019年12月开始本系统的试点建设部署和应用,通过多轮的技术交流、现场收资、方案制定,最终完成调控终端集中终端管控系统在智能电网调度控制系统“地县一体化”模式下和基于国产安全操作系统GPU虚拟化、生物多因子特征安全认证等关键技术的适应性定制。经过测试验证,于2020年1月正式投入上线试运行,目前使用场景包括部分地调调度席位、地调自动化值班席位、四川电网备调中心运维席位以及阆中县等6个分公司。该系统示范应用拓朴如图5所示。
图5 示范应用拓扑
在调度坐席、值班席位和运维席位等不同应用场景的实际使用过程中,调度员、运维开发人员通过在桌面放置的小型化、精简的安全终端设备经网络接入终端管控系统,获取相应的虚拟机资源和交互画面并对其进行操作,使用体验与使用物理工作站无差别。
特别是在西充(距地调40 km)和阆中(距地调80 km)两个县供电公司远程部署的场景下,终端管控系统优化了自身传输协议,对于网络带宽的需求降至10 M以下,满足窄带宽工作要求,相较传统物理工作站30 M以上的带宽需求,明显降低了对于网络带宽的消耗。同时对于所穿透的纵向加密设备,也减轻了其加密负载。数据实时刷新、场站图形和模型加载、历史库数据查询速度较传统工作站提升60%以上。
所提出的调控终端安全管控系统极大提高了日常对工作站的管理和维护效率,结合终端管控系统的安全审计、认证管理、授权管理等运维安全管理功能,可对调控终端进行统一管理和集中调配,实现了对调度员和维护人员使用调控终端的安全审计、风险防范,加强了调度工作站使用的机密性和规范性,满足等保要求。
项目试运行以后运行良好、稳定、可靠,达到了项目预期效果,可以推广应用。