卫 婧,向 君,朱广劼,司 群,付晓丹
(1. 中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081;2. 中国国家铁路集团有限公司 科技和信息化部,北京 100844)
复杂多变的网络环境和攻击使网络安全面临更加严峻的挑战。目前,知识图谱在语义搜索、智能问答、个性化推荐、辅助决策、识别反欺诈潜在风险、不一致性验证识别等方面已经得到了广泛应用,也可利用知识图谱将网络空间中零散、杂乱的相关数据组织在一起,挖掘出其中潜在的语义关系,从而在态势感知、风险分析、应急处置等方面发挥作用。所以将知识图谱应用于网络安全领域,可以帮助我们对网络空间实施高效的管理及有效的安全监测和防护,全方位分析面临的威胁信息,判断当前的网络空间安全态势,进而对面临的威胁进行预测和预警,成为网络事件分析、网络安全保障与决策的前提和重要基石[1]。
目前铁路网络安全综合防护能力还存在欠缺,而解决信息资产“查不清”“摸不准”“找不到”“管不了”的问题,是提升铁路网络安全综合防护能力的前提和基础。因此,有必要全面、准确地梳理铁路信息化资产,研究铁路网络安全领域知识图谱的构建技术。
通过知识图谱的数据分析及可视化技术,构建、分析和展示涵盖铁路信息化资产基本信息、资产测绘信息、基于铁路网络安全标准制度测评分析的资产风险信息等网络安全关系的铁路网络安全知识图谱;通过直观、高交互性的铁路网络安全知识图谱,研究资产的风险关联特性等[2],形成可视化展示、时空分析及应用支撑能力,从而实现铁路网络安全领域资产与风险关联关系的可视化。
本文以铁路网络安全资产台账、铁路网络安全指标、铁路网络安全标准及制度、信息化资产测绘数据、资产地理数据等为数据源,针对铁路信息化资产本体模型,分析铁路资产属性、资产类别、配置信息、地理信息、漏洞信息和风险态势等要素,构建铁路网络安全知识图谱。
如图1所示,铁路网络安全领域知识图谱构建基本流程可分为知识的抽取、表示、整合、更新和筛选。采用不同的方法从多样结构的数据源中抽取出该知识图谱的三元组(实体、关系、属性)等,用符号等形式表示,进而对数据进行整合,知识整合包括实体对齐和本体构建,并保持对知识的更新,对知识库进行更新及知识筛选,最终完成知识图谱的构建[3]。
图1 知识图谱构建基本流程
知识抽取过程是从不同的多样数据源中提取出构建知识图谱所需的知识,再通过不同的方式完成数据库存储的过程。铁路网络安全领域的知识图谱数据来源广泛,数据结构各不相同。
铁路网络安全知识图谱的知识抽取主要分为实体识别和关系抽取2个方面[4]。
(1)针对资产台账基本信息、铁路信息化资产测绘数据、铁路网络安全指标和铁路资产风险数据,这些数据多为结构化数据及半结构化数据,可采用传统的规则和模板的方法并借助语义数据映射模型,将不同模式语法向知识图谱表示模型进行映射和实体识别。
(2)针对铁路资产地理数据,多为非结构化的数据,可综合运用传统的规则、传统机器学习、深度学习等实体识别方法,对其实体、实体的属性进行识别。
(3)针对实体间关系较为鲜明、规范的基本信息及标准制度采取枚举的方式对表示关系的词语进行手动输入,基于传统的规则、模板的方法及专家的经验知识对实体关系进行抽取。
(4)针对铁路风险数据、铁路资产地理数据等实体关系相对复杂的可采用基于统计机器学习、基于深度学习等方法对关系进行抽取。
将抽取出的铁路网络安全知识用符号等形式表示出来就是知识表示。可用三元组(资产及风险实体集合、资产及风险关系集合、资产及风险属性值)表示法表示抽取到的铁路网络安全知识,用符号可表示为:G=(E,R,S)。其中,E={E1,E2,E3,···,Ei}表示所有资产及风险实体的集合;R={R1,R2,R3,···,Rj}表示所有资产之间、风险之间、资产与风险之间关系的集合;S={S1,S2,S3,···,Sn}表 示 资 产 及 风 险 所 有 属 性 的集合,每种实体E或关系R都可能拥有不同的n个属性。
使用图数据库对三元组进行表示,如图2所示,图中的节点表示知识图谱中的实体;边表示知识图谱中的关系,每个实体都有多个属性。
图2 三元结构示例
构建铁路网络安全领域知识图谱的数据是多源异构的,不同数据源之间的知识有可能存在重复、缺乏深入关联等问题。知识整合就是将异构、多样化的知识按规则将重复的数据进行消歧,寻找不同数据间的关联特性,建立相关链接,再将数据进行融合的过程。铁路网络安全领域知识的整合包括:实体对齐,用来确定待整合的实体在整个大数据中是否指向同一个数据元;知识库融合,是在解决知识库中对象融合困难的问题时加入的新的考虑。
知识整合时将数据进行语义的映射,分析不同实体之间在语义上的关联关系;在语义模式层进行语义融合,将多样的数据源集合成为统一的知识库;将不同数据源中相关联的实体在实体层面进行融合。
铁路网络安全领域的知识图谱是动态的而不是一成不变的,它是一个可迭代的关系网络,因此,知识图谱除简单的知识存储外还应该实现知识的更新及推理。
知识更新的过程是丰富数据库的过程,通过挖掘已有的铁路网络安全领域知识库中的知识,从而发现新的关系并推断出可能缺失的知识和关系。
整合后的知识存在不准确的情况,通过知识筛选过滤掉质量评估较低的知识,将质量评估高的知识存入知识库。知识筛选可提高铁路网络安全知识图谱的准确度,是确保构建成的知识图谱有较高的效率和精确度的关键。
铁路网络安全领域的知识图谱用图数据库作为存储的引擎,对多源异构数据进行整合处理,形成铁路网络安全领域的知识库。使用Neo4j图数据库建立铁路网络安全领域知识图谱示例,如图3所示。
图3 铁路网络安全领域知识图谱示例
其中,实体包括铁路信息系统、交换机、路由器、服务器、防火墙、终端、权属部门、负责人、机房、地理位置、数据库漏洞、风险端口和弱口令风险等;实体间关系包括配备、位于、拥有、负责和属于等。通过知识图谱可直观地展示资产的位置、风险等信息,并可分析出不同资产之间、不同风险之间及资产与风险之间的相互关系。
网络安全知识图谱既能够宏观、整体地呈现网络空间的安全态势,通过知识图谱的知识推理[5]能够为网络安全分析提供有力的支撑。在网络空间态势感知、网络安全分析等方面,知识图谱都发挥着重要作用[6-8]。
通过对某铁路局集团公司互联网网站群平台承载的几个信息系统进行基本情况调研、资产测绘、地理位置信息建模,采用知识图谱构建技术建立的某铁路局集团公司互联网安全知识图谱,如图4所示。
图4 某铁路局集团公司互联网安全知识图谱
通过互联网安全知识图谱,可将该铁路局集团公司的资产属性、资产类别、配置信息、地理信息、漏洞信息和风险态势等要素组织在一起,分析资产的关联特性、分布特点、行为特征和变化趋势,全方位掌握威胁信息,对当前的网络安全态势做出判断,实现对该铁路局集团公司互联网安全态势的动态监测与响应。构建形成的“IP+设备+位置+人”全量的铁路网络安全地理知识图谱,还可作为该铁路局集团公司网络安全资产的核心知识库纵向对接其他各类平台,提供网络安全资产及风险信息的基础数据。
通过铁路网络安全知识图谱可以建立的企业基础、动态、全量、关键的数字化全量资产库,如图5所示。
图5 数字化全量资产库框架
(1)基础数据平台。通过知识图谱收集存储散落在网络空间各处的有效存活资产,识别资产相关属性及风险信息,这些信息包含在线主机的系统、开放的端口、运行的服务及相关联风险等。
(2)资产底账管理。通过知识图谱存储的资产信息进行全量、动态的数字化资产底账管理,包括资产出入库、资产动态监控和底账报告等。
(3)资产多维画像。通过知识图谱中资产的基本信息、权属信息、开放端口、组件服务等属性进行单个资产的多维画像。
(4)资产分层画像。通过知识图谱中各个资产及属性之间的关系进行所有资产硬件层、服务层、应用层的分层画像。
(5)资产关联分析。通过资产关联分析、可视化,实现资产与数据、业务等的关联分析及资产动态全景可视。
(6)可视化服务场景。全量资产库还可为日常巡检、安全运营维护和攻防演练提供保障,并为业务梳理和运营决策提供依据。
将铁路网络安全知识图谱与建模可视化技术相结合,形成涵盖网络关系在内的设备信息、位置信息等图形化展示界面,可进一步提高资产安全风险可视化的能力。通过全量资产库和知识图谱的漏洞精准匹配,可快速确认漏洞影响范围,并可通过可视化红色高亮展示。通过知识图谱将漏洞关联资产定位至责任人、业务系统、管理单元和机房信息等,相关人员可及时获取风险相关信息,实现漏洞精准匹配及高效处置。当出现零日漏洞时,还能通过威胁情报,根据漏洞关联的操作系统、端口等属性信息快速定位出可能涉及的相关资产,准确地启动响应措施,从而实现零日漏洞威胁预防。资产漏洞可视化界面,如图6所示。
图6 资产漏洞分析可视化界面
通过铁路网络安全知识图谱可全面描述和展示铁路网络信息化资产的相关信息。从网络资产管理的角度看,可通过资产硬件版本、操作系统等属性信息关联出相应资产,进行资产的统一的软硬件版本更新和升级管理;通过知识图谱的推理,还可以发现非法资产,利用知识图谱的关系分析非法资产的责任关系,进而在发生安全威胁时可及时处理,降低相应的损失。根据知识图谱中所有网络资产的属性信息,可以优化网络安全设备的规则库,过滤不相关的规则,提高匹配规则效率,更快发现安全威胁。
构建铁路网络安全领域知识图谱,结合知识图谱技术对筛选整合出的铁路信息资产进行资产全量信息的图谱描绘与定责,通过对铁路资产安全风险的可视化,增强铁路网络安全主动防御能力。本文针对铁路信息化资产研究了构建铁路网络安全领域知识图谱的数据源、构建流程及构建技术,应用该技术构建了某铁路局集团公司互联网安全知识图谱,在铁路网络安全领域取得了良好的应用效果。下一
步可将网络威胁情报融合技术、人工智能技术、大数据特征分析挖掘技术与铁路网络安全领域知识图谱相结合,用于网络资产刻画、网络性能评价、网络攻击预警与溯源、态势推演等,建立铁路网络安全的高效检索机制,进而高效管理铁路的网络空间,快速应对突发的网络安全事件。