基于知识图谱的工业物联网安全本体建模及实现

2022-02-24 13:54张莉王小龙马肇云谭坤
新型工业化 2022年12期
关键词:三元组本体图谱

张莉,王小龙,马肇云,谭坤

山东省信息技术产业发展研究院(中国赛宝(山东)实验室),山东济南,250014

0 引言

工业物联网将传感器技术、现代信息技术、通信技术与智能分析技术深度赋能工业生产,有效提高了制造效率和产品质量[1],降低生产能耗与供应链成本,使得传统工业逐渐向智能制造发展延伸。其技术体系中工业物联网终端负责实现工业设备、生产运营数据信息的提取、感知收集。随着工业物联网的发展,工业物联网终端已经成为工业物联网安全的薄弱环节,例如工业控制系统(ICS,industrial control system),其主要功能为实现设备自动化控制与监控[2],通常在处于封闭式的内网运行,版本更新缓慢、漏洞补丁滞后。随着工业物联网逐渐向开发性网络发展时,ICS与外部网络互联互通,将面临更多安全问题,同时因为安全问题产生的后果也越来越严重,例如2018年CISO交换机漏洞导致俄罗斯和伊朗基础设施遭到攻击,2019年委内瑞拉电力系统因物联设备漏洞导致大面积停电,2020年Ripple20漏洞致使数亿物联网设备存在被攻击风险[3-4]。由此可见,工业物联网作为国家的重要基础设施,其安全问题日益凸显。解决工业物联网安全问题的首要问题是认知工业物联网安全,知识图谱作为图模型将知识或数据加以关联,能够从多源异构数据中实现知识的描述和推理,在工业物联网安全领域得到了大量应用[5-6]。郭军军等[7]基于知识图谱提出了软件安全漏洞构建方法,通过BiLSTM-CRF模型完成了本体实体识别。路松峰[8]基于知识图谱构建了数控装备信息模型,解决了数控装备工业互联数据采集的安全性问题。Jia等人[9]构建了包含多种资产类型的网络安全本体模型,建立了网络安全知识库。本文在分析工业物联网安全风险的技术上,构建工业物联网知识图谱本体架构,并设计工业物联网知识图谱架构过程。选取合适的实体、属性和关系抽取方法,推理本体三元组数据,并将其存储于图数据库,基于图数据库实现工业物联网的安全知识图谱可视化。

1 工业物联网安全风险分析

工业物联网安全风险是指工业物联网系统、网络、设备、终端受到网络攻击发生的可能性与其后果严重性的组合,分为已知风险和未知风险,其中已知安全风险指已经识别的安全漏洞、资产本身的默认口令、端口号、系统版本、协议等造成的风险、与人相关的维护、服务、管理等等相关的风险。未知风险是指当前尚不清楚或无法识别的风险,如系统设计开发技术导致的缺陷、0-dady漏洞、开源导致的未知漏洞、随机性死锁等。针对已知风险,目前软件方面多采用修复系统漏洞和发布补丁的方式,进行系统或者组件升级修复;硬件方面通过加强安全设备,升级固件等方式提高系统安全性。对于未知风险,尚无有效的防范措施。相比于传统的网络,工业物联网安全还面临以下安全风险。

(1)工业物联网终端设备安全风险。工业物联网终端是面向工业环境,以传感采集为目的,以数据处理为核心,以通信模块传输为手段的特殊工业设备,其中包括RTU、PLC、IPC、IDE、工业交换机、工业路由器等。终端存在以下安全风险:第一类为物理因素导致的安全风险,大多数工业物联网终端处于公共领域,不法分子通过电磁干扰设备对终端进行干扰,可使部分终端芯片进入初始化状态,进而控制终端。第二类为无线网络通信风险。工业物联网通信层相比于传统网络,在复杂场景下(网络信号一般,不合适局域网布线等)多采用无线通信手段解决网络问题,其通信协议(RFID、Bluetooth、ZigBee、Wifi等)复杂且兼容性差,不同协议之间的通信有效性、可靠性、安全性都将存在安全风险。

(2)系统与组件集成安全风险。工业互联网是将不用设备、系统数据实现统一集中,实现设备信息互联,为工业互联网提供信息、数据支持。工业物联网终端所采用的运行环境、开发平台通常具有多样性、复杂性、兼容性差等特点。例如在工业物联网终端系统运行多基于Windows和Linux系统,其架构不同,开发方式的差异性导致系统集成存在安全风险。此外,工业物联网终端部分系统采用嵌入式Linux系统设计开发,其开源特性导致其带来的安全威胁可能比较大。

工业物联网环境下,需要将不同工厂环境下的设备(传感器、终端、设备及软件系统)集成互联,实现数据感知,获取更多实时、可靠的数据。数据的集成是关键,但是由于不同的设备的制造商其开发环境及平台的不同,导致上述集成很难实现。为实现设备及企业数据的集成,在系统总体设计构架分析的基础上,采用组件开发技术实现总线传输、传感器数据采集、集成控制、输出接口、上位机通信以及人机交互,进而实现物联网数据采集和信息传输的集成。组件开发技术通过模块化的程序开发技术,提高了应用软件标准性、复用性,缩短了软件开发周期,降低了开发费用。但是组件作为第三方软件架构,获取漏洞和修复补丁存在滞后性,另其开源特性也会使系统成为黑客关注的重点,存在安全高的安全风险。

(3)工业控制系统安全风险。工业控制系统是物联网终端(PLC、工控机、ICS等)实现特定需求的复杂机电控制系统,由数据采集与监视控制系统(SCADA)、分布式控制系统(DCS)和远程测量与控制单元组成,可实现物联网终端的监测和控制。工业控制系统利用不同协议通过通信设备向终端(RTU、PLC、IPC、IDE、工业交换机、工业路由器、传感器等)发送监控和控制命令,实现断路器开关、执行器或逻辑控制器动作、传感器数据上传、传输等功能,由于传统的ICS通常处于局域网内网,其系统软件开发过程缺少用户认证及权限管理、数据加密等安全保障。网络层面终端利用不同的通信协议(Modbus、Profibus、IEC、EtherCAT等)与应用层实现通信,多种工控协议同样存在各种安全漏洞。此外ICS开发因团队、成本、资源的限制,系统开发以实现业务逻辑控制为主,多数系统缺少有效的安全防护手段,导致系统设备和软件更新周期长。工业软件系统、通信协议的多样化及软件开发缺少安全措施都使得工业控制系统面临的安全威胁逐渐上升。

2 基于知识图谱的工业物联网安全本体架构

知识图谱是利用图模型将知识或数据加以关联,旨在从多源异构数据中实现知识的描述和推理,整合孤立的数据信息。知识图谱的基本组成单元为本体三元组,本体通过“实体-关系-实体”三元组或者“实体-属性-属性值”三元组表征了本体知识及其关系。知识图谱通过三元组将知识表达为网状的图结构,便于知识表示、抽取、组织、检索和推理。

知识图谱技术架构方法分为自底向上和自顶向下两种。自底向上的构建方法基于开放的数据源和案例库,先利用实体抽取、关系抽取方法获得本体的实体、关系和属性,在此基础上利用归纳法抽象出本体模型。而自顶向下的构建方法预先通过概念与概念间的关系描述,构建实体的本体模型,再基于本体模型从开放的数据源中利用信息抽取方法获取实体、关系和属性。工业物联网安全涉及特定安全领域,对于知识的广度、深度、粒度和质量有严格要求,需要抽象出完备的本体数据模型,因此,本文采用自顶向下的知识图谱技术架构。

基于知识图谱的工业物联网安全本体架构通过抽取工业物联网安全领域的知识,解决安全风险管理及安全应用问题,其架构主体包括工业物联网安全领域知识抽取、知识融合和知识推理(如图1所示)。工业物联网安全知识图谱本体架构过程:①分析工业物联网安全数据源结构特性基础上,针对工业物联网安全需求,构建工业物联网安全本体模型,并制定规则约束;②从数据源(文献、案例、网络资源及官方信息安全数据库)中的多源异构数据中,选择合适的实体抽取、关系抽取和属性抽取方法,得到实体、属性和关系三元组数据,按照既定的存储规则处理数据,存储到工业物联网安全知识库和案例知识数据库中;③工业物联网安全领域知识融合将工业物联网安全知识库的内容基于融合规则通过融合算法(实体对齐、实体链接、实体推演)评价知识的质量,降低知识理解的不确定性,挖掘领域知识的真值,并将高质量的知识更新到知识库;④工业物联网安全领域知识推理将已知知识库的基础上,利用传统的知识推理、基于人工智能的知识推理机面向知识图谱的知识推理方法,挖掘知识库中隐性知识,扩充已知的工业物联网安全领域知识库。

图1 工业物联网安全知识图谱本体架构

3 工业物联网的安全知识图谱构建

工业物联网的安全知识图谱属于领域知识图谱,本文将按照上节设计的工业物联网安全本体架构过程,构建工业物联网的安全知识图谱。首先基于工业物联网的安全风险分析的基础上,从官方信息安全漏洞网站(CVE、NVD、CNVD、CNNVD等)获取工业物联网安全领域的相关信息,列出本体涉及工控安全领域中的元素、明确分类体系、定义属性及关系、定义约束条件,建立工业物联网的安全知识图谱本体模型。

工业物联网的安全知识图谱可以表示为G=(E,R,S),其中G表示知识库;E={e1,e2,…,e|E|}表示G中的实体集合,实体集合共有|E|种;R={r1,r2,…,r|R|}表示G中的关系集合,关系共有|R|中。知识图谱的构建通过知识抽取方法,获得“实体-关系-实体”三元组或者“实体-属性-属性值”三元组,进而表征本体知识及关联关系。

工业物联网的安全知识图谱本体构建过程如下。

(1)本体分析。通过分析得到工业物联网的安全知识图谱本体有资产(ICS、RTU、PLC、IPC、IDE、工业交换机、工业路由器)、资产布局及网络通信、漏洞、缺陷列表、攻击模式、补丁、工具、攻击者等。

(2)根据本体基本信息确定其属性,例如终端PLC,其属性包括服务商为德国西门子,型号为S7-400,软件版本为SIMATIC WinCC V7.5 SP2;缺陷列表的属性包含缺陷分类编号、缺陷名称、缺陷描述、常见后果、潜在缓解措施、检测方法。

(3)用三元组<Head,Relation,Tail>具体描述已知本体的概念和关系。例如,<服务商,model,产品(终端)>表示产品的生产厂商;<漏洞,Patch,补丁>表示漏洞的补丁信息。

(4)建立工业物联网的安全知识图谱本体模型(如图2所示)。

图2 基于知识图谱的工业物联网安全本体模型

(5)实体及属性抽取。通过网络爬虫从官方信息安全漏洞网站(CVE、NVD、CNVD、CNNVD等)获取工业物联网安全领域的相关信息数据,数据的主体内容包括设备资产,设备属性、漏洞信息、缺陷列表及补丁信息等,是非结构化的多源异构数据,需要通过实体抽取及属性抽取方法将其规范化。实体抽取是从采集的数据中自动识别并命名实体,本文采用经典的深度学习算法长短记忆网络实现实体的抽取。属性从本质上讲依赖于本体,可以将属性认知为实体的一种名词性关系,将属性抽取问题转化为关系抽取。

(6)关系抽取。关系抽取目的是从多源异构数据中挖掘实体与实体之间的语义关系,现有关系抽取方法有监督学习方法、无监督学习方法和远程监督学习方法。本文采用无监督学习算法SVM[10]实现工业物联网安全知识图谱本体关系抽取,该方法通过实体抽取过程获得的实体样本为依据,建立预先的实体对及其关系,通过搜索文本信息上下文,如果比对相似,则识别出实体对的类型,并将其作为潜在语义关系,利用聚类分析评价实体对之间的词汇的相似性,标注实体合适的关系类型。

(7)知识图谱存储及可视化。整合实体、属性及关系抽取方法获得的本体三元组数据,利用图数据库Neo4j存储三元组数据,进而将工业物联网的安全知识图谱可视化(如图3所示),表征本体知识及关联关系,为后续工业物联网的安全应用需求建立基础。

图3 工业物联网的安全知识图谱局部图

4 结论

本文针对工业物联网安全问题,研究了工业物联网的安全知识图谱建模技术。通过分析工业物联网安全风险,基于知识图谱构建了工业物联网安全知识图谱本体架构,其构建主体包括工业物联网安全领域知识抽取、知识融合和知识推理三大模块。通过官方信息安全漏洞网站和工业物联网安全领域案例,建立了工业物联网的安全知识图谱本体模型,确定了物联网安全领域本体,定义了属性及关系及其约束条件。选取了合适的实体、属性和关系抽取方法,推理得到了本体三元组数据并将其存储于图数据库,基于图数据库Neo4j实现了工业物联网的安全知识图谱可视化。

猜你喜欢
三元组本体图谱
特征标三元组的本原诱导子
眼睛是“本体”
绘一张成长图谱
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
三元组辐射场的建模与仿真
专题