基于知识图谱的工控网络安全构建研究

2023-12-06 11:19向光晖李林蔚王涛毛良
工程建设与设计 2023年22期
关键词:工控漏洞图谱

向光晖,李林蔚,王涛,毛良

(四川东方电气集团东方汽轮机有限公司,四川德阳 618000)

1 引言

基于工控网络的知识图谱(ICSKG)通过构建并利用工控系统中的各类数据与知识元素,形成一个高度可扩展、智能化的知识图谱,为工控网络安全提供了新的解决方案[1-4]。 研究通过对ICSKG 在工业控制网络安全中的应用进行深入的研究和分析, 建立工业控制网络安全的异构知识图谱。 在此基础上, 将利用知识图的填充能力深入挖掘工控网络中易出现的问题及潜在的关联。

2 基于知识图谱的工控网络安全构建

2.1 知识图谱结构定义

ICSKG 的本体结构拥有多种维度,相较于其他知识图谱技术,具有异形的主体结构。研究用G=(V,E)表示ICSKG 的主体结构,结构中具有较多的节点,将这些节点的集合通过V={X|X∈{S,V,A}}表示,节点之间形成边对边的集合记作E={|P(u,v)∧(u,v∈V)}。 其中,S、V 以及A 分别表示场景、漏洞、资产的维度;不同节点之间具有一定的关联属性,研究通过P(u,v)表示其属性。 场景维度的差异性决定了信息的差异性,并且各维度之间具有一定的关联,其结构如图1 所示。

图1 I CSKG结构示意图

图1 中,EPIC 网络中的资产信息、 资产布局情况以及网络通信方式均属于场景维度S; 而漏洞维度V 中包含各种漏洞信息,如CWE、CAPEC 等,同时展示了漏洞信息之间的关联性;企业使用设备的产品型号、厂商信息等均属于资产维度A。 S 中的资产信息、A 中的产品信息以及S 的漏洞编号信息是3 种维度联系的重要信息。 值得强调的是,漏洞标号覆盖了ICSA 和CVE 两大系统。 研究者可以利用这些弱点来分析相应的操作系统和软硬件, 并将它们作为新的设计理念的范例进行补充。 通过对这些数据进行分析,可以获取相关信息和洞察,并对其进行深入研究。 此外,漏洞标号还涵盖其他信息,如漏洞具体信息,名称、表征方式以及链接方式等,这些信息虽然未在研究的实体结构中出现,但同样占有重要的地位。 研究构建的工控网络安全,其中,主体结构的概率以及关系具有重要的作用。 研究用三元组的形式对两个不同概念的关系进行叙述,具体方式为

2.2 实体及属性抽取

每个本体概念都对应了一项安全实体实例以及相关属性信息, 为了获取概念对应信息则需要通过实体抽取与属性抽取完成。 网络安全实体的命名方式需遵循规定的格式要求,其中,漏洞编号、攻击信息以及CPE 信息等均属于网络安全实体的范畴。 研究针对命名方式提出一种基于规则的实体与属性抽取方法, 该方法能帮助主体结构对漏洞库中非结构化字段的实体与属性信息进行提取,方法流程示意图如图2 所示。

图2 实体与属性抽取流程示意图

图2 中能看出, 抽取流程首先对非结构化字段进行解析,解析的字段会产生相应的信息以及对应的实体,研究则制定对应规则,再结合正则匹配的方法,将解析的内容与实体进行对应。 研究从S、A、V 三个维度出发,对获取实体的属性信息进行相关阐述。 将EPIC 网络中资产信息作为实体,那么该网络的对应关系则是。在ICSKG 的场景维度S 中,资源的布局和网络交互被视为通信关系,并构成一个三元事实,在这种情况下,通信(Comm)关系表示从头部到尾部实体的单向通信。 头实体中的CPLC 作为重要PLC 控制器,控制了多个阶段的PLC,并且它们之间存在通信关系。 从上述关系中进行分析,其布局方式均由PLC 控制器对IED 进行控制,模型则可通过控制IED 实现断路器的控制状态, 这样的方式能有效选择电路的电力来源。 从上述控制关系不难看出,电源供应的控制属于一环接一环,当其中某一环被攻击入侵时都会造成电源中断。

半结构化数据的非结构化字段中隐藏了较多的实体与属性信息,尤其对于资产维度或漏洞维度而言。 被隐藏的信息主要包括漏洞描述与CPE 等字段,一般情况下,每个字段的命名方式均是统一的。 因此,利用CPE 的命名方式能直接获取对应的信息,包括操作系统、软硬件等信息。 通过漏洞进行表征的信息中还有多种有效数据,如实例信息、产品基本信息以及攻击行为等。 为使获取的数据能通过自定义匹配规则进行匹配,还需要对获取的数据进行清洗与筛选。

3 关系抽取

3.1 语料库构建

研究为对更多的三元组进行识别, 在实体抽取任务中进行关系抽取任务, 关系抽取能使构建的知识图谱具有更好的完整性。 关系抽取的语料库构建,研究以远程监督的方法为基础,将漏洞库中的漏洞描述信息作为数据来源。 当前存在的知识库三元组,在远程监督方法下,标注句子出现实体对,那么该句的关系将被标注。 例如,三元组的形式为,实体对为,那么r 是句子的关系标注。 根据上述匹配方法,研究将漏洞库的实体进行匹配, 获取了19 949 条安全实体关系实例,并且实例共被标注了7 种关系。研究随机选取16 047 个句子作为模型的训练集, 其中包含实体对3 949 个, 剩余3 901条安全实体关系实例作为测试集,包含实体对887 个。

3.2 参数设置

远程监督关系抽取模型是以ResPCNN-ATT 进行构建的,研究在TensorFlow 框架中进行相应的优化,在模型的卷积层结构中使用Dropout 达到正则化约束的目的, 进而得到ResPCNN-ATT 关系抽取模型。 模型在训练中,其相似度计算由交叉熵损失函数进行计算,并且最小化损失函数通过Adam方法进行优化。 抽取任务中,相关参数设置具体如下:窗口大小设置为3; 神经网络中的隐藏层神经元个数设置为230 个;模型迭代次数设置为60 次; 模型学习率大小设置为0.01;模型随机失活率大小设置为50%; 位置向量与词向量维度分别设置为5、50。

3.3 评价指标

研究对基于知识图谱的工控网络安全的抽取任务进行性能验证, 其性能通过P-R 曲线、AUC 值以及平均准确率指标进行判断。 P-R 曲线是反映精确率与召回率关系的曲线,曲线横坐标为召回率R,曲线纵坐标则是精准率P;平均准确率是反映信息检索结果的评价指标。 精准率与召回率的计算方式具体如式(1)所示。

式(1)中,TP 为真阳率,即测试样本在实际类别与预测类别均为正例的数量;FP 为伪阳率,即测试样本实际为负例而预测为正例的数量;TN 为真阴率,即测试样本实际与预测均为负例的数量;FN 为伪阴率,即测试样本实际为正例而预测为负例的数量。 AUC 值是接受者操作特征(ROC)曲线所围成的面积大小,通常情况其值越大则表明模型性能越好。 ROC 曲线能反映灵敏度与特异度之间的关系,曲线的横坐标为特异度,曲线的纵坐标为灵敏度。

3.4 实验结果分析

实验是经过OpenNRE 框架实现,研究将ResPCNN-ATT应用至OpenNRE 集成关系抽取算法。 此次实验在构建的工控网络安全实体关系语料库中进行性能验证, 因试验中的数据集的局限性,研究将模型结构深度分别设置为3 和5,以两种深度的模型进行对比实验。 研究以不同数量的残差卷积块来决定模型深度,其结果如图3 所示。

图3 Res PCNNN- ATT模型的P- R 曲线结果

图3 中,模型深度为3 时,模型的精准率整体随召回率的增加而减少,其中召回率在0.05~0.10 时,精准率得到小幅度提升。 召回率达到0.20 时,P-R 曲线结果逐渐趋于稳定。 模型深度为5 时,模型的精准率整体变化趋势同样随召回率增加而降低,相较于深度为3 的模型,其精准率整体具有较好的提升。研究利用测试集对训练好的模型进行性能验证,其结果见表1。

表1 模型在测试集中准确率和AUC值结果

表1 表示研究构建的模型在测试集中的性能结果。 其中,模型深度为3 时,模型预测的最高精度为0.634 8,平均精度为0.518 3,AUC 值为0.238 8。 模型深度为5 时,模型预测的最高精度为0.654 6,平均精度为0.559 7,AUC 值为0.245 4。 实验结果表明,研究构建的模型均具有较好的预测结果,能在工控网络安全体系中进行实际应用。

3.5 工控网络安全知识图谱应用

上述方法中构建了一个具有异性结构的工控安全知识图谱,现对其进行应用分析,即基于ICSKG 的控工网络安全查询以及可视化分析, 通过使用知识地图查询和可视化分析工业控制系统的安全状况,可以快速确定故障发生的资源,并更好地了解可能出现的问题资源。 基于这些信息,可以利用资源的知识快速修复失效资源的弱点,并提前警示潜在风险资源。此外,该方法还能直观、清晰地展示资产、漏洞、威胁以及软件与硬件之间的联系,为企业的日常维护与管理提供便利。

4 结论

研究进一步探讨了工业控制网络安全领域中的知识图谱建设问题, 在工控信息系统中进行了本体论的构建, 包括资产、场景和漏洞3 个维度。 其中,从漏洞和场景两个维度中提取知识是建立知识图谱的关键问题之一。 研究首先对半结构化的数据进行了分析,并从中抽取出了实体、属性等信息。 其次,在此基础上,利用ResPCNN-ATT 方法,对具有漏洞特征的半结构数据进行关联提取, 并且通过实验验证该模型在工控网络安全中的预测性能。

猜你喜欢
工控漏洞图谱
漏洞
绘一张成长图谱
补肾强身片UPLC指纹图谱
工控速派 一个工控技术服务的江湖
工控速浱 一个工控技术服务的江湖
三明:“两票制”堵住加价漏洞
漏洞在哪儿
热点追踪 工控安全低调而不失重要
主动对接你思维的知识图谱
基于攻击图的工控系统脆弱性量化方法