罗锦光,苏 锦
(广西电力职业技术学院 人工智能与信息工程学院,广西 南宁 530001)
关键字:可信网络;终端行为;区块链;神经网络
可信网络连接(Trusted Network Connecting,TNC)[1-2]架构解决网络环境下的终端安全问题,即对终端中的平台认证、完整性认证、访问策略以及设备信息进行评估度量。可信计算组织(Trusted Computing Group,TCG)提出的TNC 是通过终端行为进行完整性度量,去评估相应终端对于将要访问网络的合法性,以保证只有合法且本身安全的终端方能够接入到网络当中。此处的合法即是可信,是终端行为可以预期的[3],因此判断整个网络是否可信的关键因素是终端行为是否可信。研究终端用户行为且对其进行安全评级,避免与恶意用户进行交往或屏蔽恶意用户的入侵,可以大大提高可信终端与服务提供方的信任评价,进一步利于两者的业务合作,降低不信任带来的防范等其他开销[2,4-5]。
目前的理论成果[6]虽然做了一些用户行为可信的相关研究工作,但仍然存在一些需要改进的地方:用户行为评估方法达不到可持续的可信判定,在具有不确定性、复杂的特性用户终端数据面前,会导致收敛速度低且评估结果不可靠,再现偏差;缺乏防止对恶意用户篡改某一用户行为数据的机制,使得无法通过评估结果来辨识服务的可信度。
本文将GEP-CPN 模型[6]应用到网络终端用户行为属性的网间用户行为分类研究中,引入区块链的数据溯源机制,从数据采集上进行改进,构建智能化的可信预测分类,确保对网络终端用户行为进行可评估可预测,最终达到对用户行为进行安全管理。
GEP-CPN 模型算法利用基因编程表达式(Gene Expression Programming,GEP)改进神经网络技术中的对偶传播网(Counter Propagation Networks,CPN)中的缺点:一是CPN 网络中Kohonen 层连接权向量与输入向量不一致时,网络将会陷入局部最优,而其他的神经元无法被激活使用从而导致该神经元被浪费;二是CPN 网络中输入向量的复杂性会影响到网络连接权,干扰到整个网络进入到“抖动”。该模型算法主要运用在聚类分析,如文本聚类,但随着输入数据的不确定性增加,模型网络的收敛速度就会差,这对本文需要研究的预测终端行为有很大缺陷,体现在终端行为数据维度大,复杂性强且不确定性高,影响收敛速度,增加预测成本,当网络数据经过一定的伪装,结果会出现偏差。
区块链是一种分布式共享数据账本技术[7],具有去中心化、不可篡改性、时序性等特点。区块链是由区块构成的一种有序的、单向链型数据结构,其记录数据库可以像一根链条一样构建起来,即区块链把具有连续性的数据分成了N 个区块,而区块就是链式存储结构中的数据元素。链式结构具有明显的优点:区块与区块之间形成紧扣关系的单向式链接结构,很难从某一节点破坏整个结构。区块链中每一个区块的区块头都记录上一区块的Hash地址,所以地址可以在链条中的任意区块追溯到其前面的区块,一层一层往上追溯,只要不打乱整个链条的衔接,是无法将之篡改或打断的。假设一个链条结构由足够多的区块组成,对其中某一区块进行篡改,需要消耗巨大的成本,因此区块链技术可以保证采集的数据链上的信息不可更改,保证数据链条上的安全与真实。此外,区块链还拥有共识机制[8]的相关优点:一是无需可信第三方参与,二是其共识机制运行效率极高。
随着网络的普及,网络终端行为数据的产生和快速流转,会在不同应用系统中产生大量融合共享的终端行为数据,使得数据呈现不确定性等复杂的特点。按照GEP-CPN 模型[6]下的终端行为系统分析,达到某一次行为可信时,通过GEP-CPN 模型对会话收集的行为数据进行分析预测,过程是与用户行为信任数据库中的行为数据进行比较,以某一可信阈值作为判断,在可信阈值范围则返回该行为为可信,反之则不可信任。此时会出现一种情况,当收集到数据时,该数据行为经过了一定的伪装或篡改,即在采集到证据链的某一个节点不是最好或最坏的,使其经过模型预测时在可信阈值范围内,最终该行为被判定为可信,此处就导致产生评估误差。
为了保证采集行为数据链上不出现安全问题,引入区块链的溯源机制,在用户向服务提供者发出请求时,在判断信任行为前同时建立一个区块链数据库存储采集到的数据,进入预测架构时形成可以溯源的数据,防止被非法修改或伪装数据,使其进行预测架构时是安全的。通过引入区块链的溯源机制和去中心化性能,改进了GEP-CPN 模型中由于大量复杂与不确定性的输入数据引起的预测结果偏差及缺乏防篡改机制导致无法辨识可信度。改进的架构如图1 所示,其应用架构的具体动作步骤如下。
(1)用户向服务提供者请求服务的同时建立一个区块链数据库存储用户数据,图1 中的区块链数据库的工作机制为:利用网络流量检测与分析工具,如Bandwidth 等工具采集信息,辅以Web 和商业日志等手段来抓取网络用户行为证据信息;对采集到的数据进行处理,与区块链数据库节点连接,实现网络终端行为数据的上传;将数据存储在区块链数据库中,为行为判断服务器提供可靠的数据来源,加快数据分析,其工作机制如图2 所示。
图1 改进的GEP-CPN 的预测终端行为架构
图2 可溯源的终端网络行为数据采集机制
(2)根据行为信任判断服务器收到服务提供者及区块链数据库两方的数据信息,与用户行为信息数据库提供的历史记录行为数据,用GEP-CPN模型算法进行本次用户会话预测,得到本次行为的信任等级并进行识别决策,把预测决策结果返回给服务提供者进行判别本次用户是否可信。
可信网络终端行为证据属性包含四个方面,即安全性属性、性能属性、可靠性属性以及商业利益属性。安全性属性的证据链包含用户非法连接次数、感染实体病毒数、扫描重要端口数以及尝试非法越权数等。性能属性[6]的证据链包含IP 包的平均延迟时间、平均响应时间、网络带宽占有率、用户平均CPU 利用率、IP 包的平均延迟抖动时间、吞吐量的平均数、用户所占线程数的平均量以及用户占有存储资源率的平均值等。可靠性属性[6]的证据链包含用户的误码率均值、用户无故障服务次数、IP 包丢包率以及连接建立成功率的均值等。商业利益属性[6]证据链包含用户状态号、用户状态描述、用户时间(近期时间)以及用户被评价信息等。根据以上证据属性产生的信任值评估改进的模型架构的可行性,本文使用文献[9]的方法计算信任值。
通过图1 的架构进行实例的聚类预测过程检验,采用的样本数据用户数1 000 个,每个用户的证据行为数量20 个,共20 000 个数据。观察区间分为10 个阶段:T(N),其中N表示周数,取值范围为[0,10]。通过区间分析得出利用区块链优势改进的GEP-CPN 模型对相关网络终端用户行为判断的输入数据进行的预测终端行为的结果,随着时间的推移,改进的GEP-CPN 模型架构较改进前的信任值越来越稳定,使得整个网络的可信判断体系有一个良性的发展,如图3 所示。
图3 改进的GEP-CPN 模型与改进前的性能对比分析图
从图3 可以看出,改进的GEP-CPN 模型随着观察时间的增加,即交互次数的增加,信任值越来越高并趋于稳定区间。但改进前的GEP-CPN 模型产生的信任值则出现较大波动,原因是没有可以溯源的输入数据信息,某些数据在经过一定的伪装或随着时间的增加使得交互次数增加,导致信任行为证据权重具有较高的主观性而产生误判,则各观察区间内产生的信任值各有不同,波动较为明显。而本文提出的改进的GEP-CPN 模型架构引入了区块链溯源机制对采集的数据进行存储,使其具有可溯源、不可更改和去中心化的特性,进一步保证在任一时刻输入数据不能被篡改,也不会因数据的复杂性而降低数据分析的收敛速度。
本文通过引入区块链数据可溯源机制改变GEP-CPN 模型构建的预测终端行为架构,建立一个区块链数据库对采集网络终端行为数据进行存储,使得采集到的数据具有可溯源、不可更改等特点,保证了可信任行为分析系统的安全性、可管理性,进一步提升了可信网络终端行为评估的准确性,为服务提供商提供一种可靠度较强的解决方案,使其能够对用户的未来行为采取更安全可靠的控制措施。