国家开发银行河北省分行 董 杭
本文简述了知识图谱的概念及其在银行业中的应用,并从方案设计和实现方法两方面着手,对银行网络安全中知识图谱技术的应用进行分析,旨在为相关研究人员提供参考,更好地应用于银行网络安全的维护中。
目前,信息服务应用朝着智能化的方向发展,在个性化推荐、智能问答以及智能检索等多个领域中都实现了知识图谱技术的广泛应用。对于智能检索应用来说,系统将会突破以往关键词匹配的局限,从用户检索的目的和实际环境出发展开推理,这样检索的结果便可以展现出更加结构化以及层次化的特征。另外,知识图谱技术的应用,能够使计算机更好地实现对于人类语言模式的理解,进而更加智能化地对用户所需要的各类信息进行反馈。
(1)总体架构
在构建网络安全知识图谱的过程中,最为关键的内容便是合理识别网络安全实体以及对于实体关系的抽取,其具体的识别包括黑客信息、漏洞信息、恶意程序信息以及用户信息等。结合当前的实际情况来分析,在深度学习基础上所形成的网络识别在效果上相对较好,其主要由循环神经网络和卷积神经网络组成。之所以要对实体关系进行抽取,是因为要确定各个网络安全实体之间所具有的关系,具体可以强化对于半监督学习方法的应用,进而提升实体关系抽取的实效性。
从实际情况来看,网络安全结构相对复杂且有着广泛的数据来源,其中所涉及到的数据类型包括结构化、半结构化以及非结构化等。基于此,笔者在本文中基于传统模型对于数据分类的管理提出了根据知识图谱技术所形成的网络安全数据组织方法。从网络安全数据特征出发,立足于相关接入规则的要求,从不同的层面着手,对相应的网络安全数据进行采纳和收集工作;接下来要采取数据清洗的方式,针对原始数据的标准方式和格式规整等相关内容展开相应的预处理工作,对其中的各类有效信息进行保留,与此同时将数据的复杂程度降低。充分运用专家经验,完成对于网络安全知识库和相应本体关系的构建;运用双向长短时记忆网络-条件随机场模型,在参数共享的基础上高质量实现实体识别、关系抽取,这样便能解决其普遍存在的因为多标注所造成的模型准确性降低的问题;然后便可对完成合并后的知识进行组织,继而构建起更加完整和全面的知识图谱。
(2)网络安全知识图谱设计
网络安全知识图谱主要涉及到两方面内容。一方面为通用知识图谱,其中包含安全公告、攻击威胁、已知漏洞等信息,这些信息能够在各个漏洞网站中获得,本质上属于已有的安全知识;另一方面,能够实现对于网络结构覆盖的扩展知识图谱,其中主要包含网络运维、网络拓扑、网络资产等信息,是一种具体网络的特有知识,需要对其展开具体的学习。
知识图谱在深度学习能力的应用下能为银行动态、海量的大数据表达、管理和应用带来一种更加高效的手段,提升银行知识处理的智能化水平,使其能够无限同人类本身的认知思维相适应。知识图谱的应用场景具体包括三方面内容,分别为智慧平台级、业务领域级和通用应用级,具体如图1所示。
图1 知识图谱的应用场景
笔者主要针对业务领域级和通用应用级展开分析。
从银行金融业务分类的实际情况进行分析,能够将业务领域级的知识图谱划分为对公知识图谱、零售知识图谱等类型,其中最关键的应用便在于风险时间传导、客户识别、智能风险报告、风险前置等。在通用应用级方面,结合当前市场各行业的应用状况来看,知识图谱所具有的通用场景涉及到问答、地图、协作、搜索等。在知识图谱技术基础上所进行的智能搜索主要是基于长尾的搜索,搜索引擎将会采用知识卡片的形式展现出相应的搜索结果。用户的查询请求将会经历查询式语义理解和知识检索两个阶段,智能搜索引擎的具体展现形式包括集成数据、查询答案、查询答案推荐列表等。对于信息检索系统来说,问答系统是其高级形式,可以针对用户所提出的问题用更加简洁精炼的自然语言予以解答。传统问答系统的应用更侧重于关键字在搜索知识库,而利用知识图谱技术所建立的问答系统则是依靠领域知识,充分运用自然语言理解和相应的对话管理平台,通过采用规则+模型的方法,构建起能够为二次开发提供支持的实体识别模型,进而提升拟人交互过程的智能性、可感知性。此外,推演、图析地图均需要在领域知识图谱的基础上实现,进而向用户展现出相应的特征、布局以及关系等信息,具体涉及到风险推演、资金关系圈、客户画像以及风险地图等。
(1)数据处理
在正式对原始数据进行获取之前,应先针对原始数据采取清洗措施,具体指的是格式规整、标注方式方面的处理。数据清洗和过滤工作应按照以下步骤:首先为初步过滤,在该阶段需通过对于合规数据的应用,制定出更加规范的正则表达式,实现对于数据的科学筛查。其次便是去除冗余,在该阶段需加强Bloom-Filter算法的应用对重复数据进行过滤。最后则在于补足残缺,通过均值插补方式的应用达到良好的残缺处理效果,定类数据、定量数据所使用的分别为众数插补和均值插补。因为其数据结构和类型存在一定的差异性,所以应当针对数据展开精加工工作。其中,所涉及的半结构化和结构化数据都属于百科类数据,一般情况下都拥有固定的标签类格式,并侧重于专家知识库,所以通常有着相对较高的可信度,在对实体进行获取的过程中可以从该类数据中进行相关信息的直接抽取,并在队列中对相关实体进行存储,为后续的调用提供方便。在面临非结构化数据的时候,在其加工过程中应事先剔除无用标签,接下来再采用相关工具针对文本数据展开分词处理,这样便能够形成相应的语料库。知识图谱技术本身有着数据可视化、图模型计算、图挖掘等多方面优势,能够为银行工作者在各种业务场景下进行科学分析和决策创造良好的条件,有助于形成客户画像,此基础上提升客户服务的精准性,对银行业务场景的交易全貌进行更好的表达。
(2)网络安全知识图谱构建
知识库是网络安全知识图谱构建的重要组成部分,网络安全知识库模型中涉及到五方面元素,分别为定义、实例、关系、属性、规则。在本文的设计模型体系中包括五个本体,具体为物理安全、主机安全、网络结构安全、应用安全以及数据安全。其中,物理安全主要指的是系统网络所处的环境以及各种设备的安全;主机安全是指服务器和终端等设备所具有的操作系统以及文件安全;网络结构安全在于设备防护措施、入侵防护措施的完备,同时与访问控制设置与网络拓扑安全有着密切的联系;应用安全主要指的是其所使用的网络应用软件以及系统的安全性;数据安全具体在于数据所具有的保密性以及完整性。
在实体识别方面,笔者采用了一种在特征模板和BiLSTM—CRF基础上所形成的一种命名实体识别训练方法。首先,需要充分结合专家经验事先对本体关系进行构造,完成初步筛选工作后便可以产生相应的特征模板,接下来便要对局部上下文特征进行提取。其次,则应当利用Bert模型,预先训练的字向量文件对输入语句进行转化,使其以字向量序列的形式呈现出来,并对局部上下文特征、字符特征向量进行组合。最后,需要使用条件随机场算法开展对于语义特征的实体标准工作,这样便可最终得到相应的标记序列。网络数据可划分为结构化数据、非结构数据、图数据以及流数据等几种形式。从实际情况来看,图所对应的是拥有复杂联系的实体或者是拓扑信息,而流则是网络流的缓存实体。结构化数据主要指的是数据库记录实体,非结构化数据则同网络日志等实体相对应。因为OrientDB图形数据库的应用能实现类结构化查询语言,可以对知识图谱各个节点及相应关系信息实现全面获取,其本身作为图像数据库在当前有着较高的成熟度以及良好的性能优势,所以笔者在本文中主要使用OrientDB图形数据库对网络安全知识图谱展开组织和构建工作。
结论:优化采用知识图谱技术能提升银行网络安全,对于银行未来的持续平稳发展有着促进作用。因此,相关工作人员应重视知识图谱技术,增强银行网络的安全性。