邬江兴
工业控制网络是事关国计民生的关键信息基础设施.确保高强度大规模网络对抗条件下的功能安全和防止致瘫致乱是工业控制网络安全防御的基本底线与核心要务.随着信息物理系统(cyber physical system, CPS)理论、方法与技术广泛应用到工业控制等行业领域,传统的功能安全问题和现实的网络安全问题相互交织叠加,成为数字时代挑战人类智慧的广义功能安全问题.理论探索和技术实践表明,2类数学性质迥然不同的功能失效问题无法用“分而治之”的方法有效解决.那么,是否存在一种既能解决基于随机性失效的可靠性问题,又能克服不确定性网络攻击造成的“使命确保”或“弹性/韧性”问题的集约化解决方案,成为CPS领域全球研究的新焦点与热点.本文从网络空间内生安全理论出发,探索出一条针对CPS领域广义功能安全问题的归一化解决途径.
习近平总书记在“4·19”讲话中深刻指出:“金融、能源、电力、通信、交通等领域的关键信息基础设施是经济社会运行的神经中枢,是网络安全的重中之重,也是可能遭到重点攻击的目标…….不出问题则已,一出就可能导致交通中断、金融紊乱、电力瘫痪等问题,具有很大的破坏性和杀伤力.”
随着工业基础设施数字化、网络化、智能化的发展,现代工业控制网络的功能安全内涵与外延早已突破了应对机电或电气化时代物理性随机失效或误操作影响的可靠性范畴.一方面CPS理论方法和实践规范的导入极大降低了传统意义上的失效率;另一方面基于CPS未知软硬件代码漏洞的网络攻击往往使系统可靠性或功能安全设计直接陷入“花瓶式摆设”的窘境,即网络攻击未发生或未起作用时,目标系统功能安全性或许达到设计阈值,通常用“几个9”来表达,一旦蓄意攻击成功,则标称的可靠性立刻变为“非1即0”问题.因此,基于CPS的工业设施功能安全和网络安全问题无可避免地成为相互交织且无法“分而治之”的难题(如图1所示).迄今为止,国际上尚无突破性的理论和方法可供借鉴.
图1 CPS广义功能安全问题
本文对广义功能安全问题定义为:“如果基于CPS的目标系统内部既存在某些传统类型的不确定扰动因素(如随机性错误、失效、故障等可靠性问题)的影响,也存在软硬件漏洞后门、病毒木马等人为的针对目标系统的未知攻击扰动威胁,则把这种状况称为广义功能安全问题(generalized functional safety problem, GFSP)”.
CPS内生或本源性安全问题一般意义上可以概括为以下5点:一是人类科学技术发展和认知水平的阶段性特征导致CPS软硬件漏洞问题不可能彻底避免;二是全球化时代、开放式产业生态环境、开源技术模式和“你中有我、我中有你”的产业链使得CPS软硬件后门问题不可能完全杜绝;三是迄今为止已拥有的科技能力尚不能穷尽或彻查目标系统软硬件代码的漏洞后门问题;四是信息技术或相关产品的网络安全性能难以量化设计和验证度量;五是CPS的功能安全和网络安全问题相互交织叠加,难以“分而治之”.
在上述认知条件下并假定网络攻击行为在技术上不可能彻底排除,现有的网络安全范式存在以下难以逾越的障碍:1)目标系统支撑环境中的软硬件漏洞后门、病毒木马可能导致中间件或应用层安全措施(如加密认证、杀毒灭马、沙箱蜜罐等)旁路短路;2)经典的附加式防护(或外部警卫)不知道也无法管控目标对象内部发生的安全问题;3)“亡羊补牢”式的后天免疫防御模式严重依赖先验知识的完备性和实时性;4)基于动态变化机制的主动防御无法应对内外勾连的网络协同攻击.
总之,缺乏实时有效的感知就无法应对不确定的网络威胁或攻击.
人们对工业控制网络的传统理解一般可概括为自动控制/领域专用、物理隔离防护、提供确定性服务、高可靠、高可用、采用合规性操作规避安全问题等.对互联网的理解普遍概括为开放性/弹性网络、泛在化互连、业务承载多样化、健壮性和尽力而为的服务等.为了支持工业智能化发展,互联网和新一代信息技术与工业系统全方位深度融合,构筑了新的工业控制网络.CPS技术的应用使得工业控制网络的安全问题远远大于传统互联网,基于漏洞后门、病毒木马等的网络攻击严重危害CPS的功能安全和信息安全,主要表现为以下3个方面:
1)传统工业控制网络所依靠的物理隔离的“安全边界”已崩塌,工业控制系统内部从未暴露过的问题开始出现.例如,DCS、SCARD、PLC、上位机等部件或系统中可能存在诸多“骨灰级”漏洞,也包括不知何时隐匿其中的病毒木马等,这些都将成为网络攻击者极易利用的优质资源.
2)在设备互连的工业控制网络中,设备种类多、数量大,软硬件漏洞后门资源多,网络攻击面宽大、可达性强,安全问题泛滥.
3)工业控制系统的信息通信网络是连接数字世界与物理世界的桥梁,一旦发生基于网络攻击的功能安全事件,则可能造成比信息泄露、文件盗取、数据丢失等更加不可接受的后果,如停电/停水/停气、交通混乱、生产瘫痪、基础设施失能等影响社会安全的重大事故.
陈旧的功能安全理念及防护手段、物理与逻辑边界日趋模糊、接入手段与网络体制多样化、联网设备数量急剧膨胀、工业系统固有的维修保护和升级更新制度等因素,都给工业控制网络安全带来严峻挑战.
现有技术能力对于CPS的广义功能安全问题只能采用“分而治之”的技术措施,因而难以有效解决广义功能安全问题,特别是对“未知的未知”网络威胁或攻击基本束手无策.近年来,一些发达国家相继启动了力图“改变游戏规则”的新型防御技术研究计划,代表性的技术方向包括可信计算、定制可信空间、零信任安全、移动目标防御和弹性/韧性网络等.可信计算和定制可信空间以“目标对象所有行为可知”为前提,能够发现任何企图利用目标对象信任链元素漏洞的外部攻击,但如果信任链元素或构件中存在后门或陷门,且认证过程中未发现内外勾连的攻击行为,则基于可信计算的防御在机理上是无效的.零信任安全强调隘口管控与认证服务的可靠性和可信性,但其纵深部署方式不能解决基于相关控制节点未知漏洞后门、病毒木马等的不确定性威胁问题.例如,相关控制认证节点是否具备对抗基于内生安全问题的网络攻击的能力就成为无法回避的关键问题.移动目标防御技术虽然能够在不依赖或较少依赖攻击特征的情况下增加漏洞利用难度或者使攻击效果不确定,但无法给出安全性可量化设计与验证度量的指标,而且对隐匿后门/陷门或恶意代码等内外协同式攻击,理论上就不存在任何安全功效.为了保证网络功能的弹性或韧性,2021年12月以来,美国国家标准技术研究院发布《开发网络弹性系统:一种系统安全工程方法》;英国政府发布的《英国2022年国家网络空间战略》明确要求“建设一个有弹性和繁荣的数字英国”.其指导思想都是围绕大规模高强度网络对抗条件下如何保证数字基础设施功能健壮这个主题.
事实上,未来任何网络、宿主系统或执行环境如果不具备广义功能安全属性,无论应用何种附加的网络安全体制、部署何种方案或加载何种信息安全防御措施,都难以获得期望的安全功效.
作为人类社会民主制度“为什么要尊重多数人意见”的理论基石,有个众所周知的公理:“人人都存在这样或那样的缺点,但极少出现独立完成同样任务时,多数人在同一个地点、同一时间,犯完全一样错误的情形”.该公理是20世纪70年代国际上提出的非相似余度架构(dissimilar redundant structure, DRS)的理论与技术依据.
然而即使按照DRS设计方法,采用昂贵的“背靠背”工程管理措施获得全局性的“静态异构度”,以对抗可能存在的共因或共模扰动影响,但在人为试错攻击条件下,DRS固有的静态性、确定性和相似性仍使其缺乏时间鲁棒性和品质鲁棒性.即网络攻击可达条件下,非相似余度构造难以持续地保证设计给定的广义功能安全性.
根据上述认知并结合网络空间内生安全理论及方法研究,本文提出一种具有广义鲁棒控制机制的动态异构冗余(dynamic heterogeneity redundancy, DHR)架构,其逻辑表达如图2所示.
图2 DHR架构逻辑示意
图2中黑色虚线框内是一个等价功能为P的、具有M个可重构运行场景元素的集合L,其任意一个运行场景元素j(j=1,2,…,M)中允许存在与L的其他元素不同(差模)性质的设计缺陷或漏洞.系统任意输入激励,经输入代理分配到当前运行的n个运行场景元素(n 通过功能等价的差异化场景感知比对,L中只要出现差模输出都会被策略裁决机制屏蔽或迭代纠错,无须实时关注导致差模输出的运行场景的具体原因.基于裁决的动态反馈机制的引入使得只有出现满足迭代裁决策略数量所需的正确输出矢量时才会自动停止迭代操作,在工作机理上能自然地破坏试错性盲攻击造成的“熵减”运动,从而显著增强系统的时间鲁棒性与品质鲁棒性. 理论上,裁决对象不一定是输出矢量,可以是异构运行场景中某些可归一化判决的状态信息、调度信息、告警信息、历史信息、管理信息或运行信息等,此时,输出代理只起到多路选择器的作用. 本文将DHR构造称为广义功能安全构造,定义为:“如果存在一种鲁棒性控制构造,既能在某些传统意义的随机性因素摄动下保持给定构造模型功能在可量化设计的安全性阈值内,也能在基于构造内软硬件漏洞后门等的网络攻击作用下确保构造模型功能的可靠性满足设计指标要求,则称该构造为广义功能安全构造(generalized functional safety structure, GFSS)”. 基于DHR架构的广义功能安全技术能将网络攻击带来的不确定性失效与软硬件随机性失效归一化为可用概率表达的广义鲁棒控制问题,并能使广义功能安全性指标达到可量化设计和可验证度量的程度.通过将工业控制网络设备关键环节从“同构冗余”改造为“异构冗余”,再植入基于智能裁决的反馈控制内生安全机制,就能在很高的性价比条件下为工业控制网络提供功能安全与网络安全双重安全保障能力. 必须强调指出的是,基于DHR架构之上的功能P,当出现口令被破解、证书被窃用或交互协议中存在高危漏洞等攻击表面之外的因素时,功能P的可靠性和可信性不能被确保.换句话说,DHR架构尽管能有效防范基于构造内未知漏洞后门、病毒木马等的“旁门左道式”网络攻击,但对来自“正门”的暴力攻击仍需要数字加密技术的支撑. 广义功能安全性因为源自构造内生的广义鲁棒控制机制,理论上可自然接纳对构造功能透明的任何数字加密技术和各种成熟的附加式网络安全技术等,并能通过给DHR异构冗余执行场景动态配置或嵌入不同安全模块或中间件的方式,使得协同攻击难度呈指数级增加.例如,基于计算复杂度的数字加密技术可以防范来自“正门”的暴力攻击或伪装攻击;不同执行场景中的差异化配置使得即使存在安全缺陷甚至恶意代码的沙箱、蜜罐或防火墙等入侵检测与防护软件,不论它们的实际安全功效如何,其作用都相当于提高了执行场景间的异构度,即增强了结构本身的“拟态防御迷雾”;在多样化编译器中嵌入功能等价的异构冗余函数库,使得源程序中即使存在漏洞,也可能因为不同目标软件执行场景以及函数库间的差异化,将攻击者的共模漏洞利用过程转变为可纠错的差模表达形态等. 总而言之,为CPS提供基于内生安全理论与方法的可量化设计和可验证度量的广义功能安全能力,已被迄今为止的工程应用实践证明可有效保障工业控制网络技术、应用与产业持续健康发展. 尽管如此,仍然相信可能存在更为普适的技术路线,衷心期望业界同仁在网络安全发展范式、方法论与实践规范层面获得更具创新性的研究成果.6 可融合演进的工业控制网络内生安全发展之路