汤宇为
(北京市地铁运营有限公司,北京 100035)
所谓零信任是指在假定互联网环境已被外部数据攻陷的情况下,当客户端向服务主机发出访问请求时,服务主机可以自动降低决策指令的不确定性,从而使数据样本的隐私性得到保障[1]。以零信任理念作为数据隐私保护的基础,可以在确保数据身份认证可信度的同时,建立完善的链路终端体系,最大程度上保证数据安全性。与其他类型的信任模型相比,零信任安全模型不完全利用物理防火墙构建防御边界,仅需在“内网”体系中设置多个独立节点,一方面为数据样本提供稳定的传输环境,另一方面也可以保证数据库主机对传输数据样本进行快速存储,从而避免网络终端设备出现过负载运行的状态。
轨道交通[2]是指运营车辆必须在既定轨道上行驶的交通运输系统。随着车辆技术的多元化发展,轨道交通类型也不断丰富[3]。在轨道交通网络中,乱序数据传输速率过快不但会造成数据样本传输杂乱的问题,还会对数据安全性造成不利影响。常规k匿名隐私保护方法采用安全多方计算策略,对数据进行分配处理,又通过求解交通状态影响因素关联度值实现对交通数据隐私特征参量的准确辨别,并对这些数据进行加密处理,实现数据隐私保护[4]。
然而上述方法不能在维持数据传输速率的同时,有效控制乱序数据的传输速率,并不能起到保护数据样本隐私性的作用。为解决上述问题,引入零信任安全模型,设计了一种新型轨道交通数据隐私保护方法。
零信任安全模型可以根据轨道交通数据的存储形式提取隐私数据样本,能够按照相关数据访问策略建立完整数据样本集合。在轨道交通网络中,主控制平台由网络搜索引擎、数据管理器组成。前者负责在已存储数据文本中提取隐私数据参量,后者则根据隐私数据样本集合表达式判断当前所运行指令是否满足零信任度求解标准[5-6]。零信任安全模型如图1 所示。
图1 零信任安全模型
设χ为零信任度置信指标,β为轨道交通数据的安全性判别参量,Iˉ为轨道交通数据的输出量均值,α为零信任访问规则,i′为隐私数据样本特征,联立上述物理量,可将零信任安全模型表达式定义为:
构建零信任安全模型时,轨道交通数据隐私数据样本的传输效率并不可能为100%,所以置信指标χ的取值也不可能等于1。
公钥密码是指零信任安全模型对轨道交通数据隐私数据样本实施加密处理时所遵循的执行标准。一般来说,所选取数据样本的隐私特征越突出,与之对应的公钥密码加密原则也就越严谨[7-8]。在零信任安全模型作用下,公钥密码样本的建立应同时考虑轨道交通数据隐私数据定义特征与公钥编码系数。设轨道交通数据隐私数据定义特征为e1,公钥编码系数为r1,联立式(1),可将基于零信任安全模型的公钥密码表达式定义为:
其中,Δt表示单位编码周期,E1表示公钥码源的单位累积量,δ1表示公钥码源转码参量。为实现对轨道交通数据隐私的合理保护,在定义公钥密码表达式时,应控制单位编码周期的取值时间。
私钥密码是指零信任安全模型对轨道交通数据隐私数据样本实施解密处理时所遵循的执行标准。一般来说,每一类公钥密码都只能对应一类私钥密码。在零信任安全模型作用下,私钥密码样本的建立应同时考虑隐私数据传输向量与私钥编码系数[9-10]。设e2为轨道交通数据隐私数据传输向量,r2为私钥编码系数,E2为私钥码源的单位累积量,δ2为私钥码源转码参量,联立上述物理量,可将基于零信任安全模型的私钥密码表达式定义为:
零信任安全模型的构建需要参考轨道交通数据隐私链路标签中公钥密码与私钥密码的定义形式。
数据验证机制决定了零信任安全模型是否能够有效保护当前数据传输模式下的轨道交通隐私数据样本。在信息集合空间内,正序数据参量、乱序数据参量总是混合在一起,所以为实现对隐私数据样本的准确辨别,根据数据验证机制表达式实现对数据传输速率的调节[11-12]。设为轨道交通数据隐私数据的验证指标,γ为基于零信任安全模型的数据取值权限,联立式(2)、(3),可将基础验证向量表示为:
在式(4)的基础上,假设ε表示验证信息标记系数的最小取值,表示轨道交通数据隐私数据的标准度量值。
轨道交通数据隐私数据的验证机制表达式为:
为使所设计算法能够适应轨道交通数据的编码需求,在辨别隐私数据参量时,要求e1≠e2的不等式条件恒成立。
交互认证系数也叫互序交换认证系数,在轨道交通网络中,该指标的取值决定了正序隐私参量、乱序隐私参量之间的混合程度。在不考虑其他干扰条件的情况下,交互认证系数取值越大,表示正序轨道交通数据隐私参量的占比越高[13-14]。由于正序隐私数据参量、乱序隐私数据参量配比关系不平衡是导致轨道交通网络中数据杂乱传输问题的主要原因,故而为使所选数据样本的传输隐私性得到保护,在求解交互认证系数时,还要求正序隐私数据参量链路标签定义值必须大于乱序隐私数据参量。设A1为轨道交通数据正序隐私参量链路标签定义值,A2为乱序隐私参量链路标签定义值,κ1为与系数A1匹配的标签取值指征,κ2为与系数A2匹配的标签取值指征,ϕ为交互辨别向量,联立式(5),可将交互认证系数求解结果表示为:
在数据验证机制的基础上,求解交互认证系数表达式,可以确保零信任安全模型能够对轨道交通数据隐私数据样本进行准确辨别与提取。
敏感度指标影响零信任安全模型对轨道交通数据隐私数据的保护与处理能力。在轨道交通网络中,数据样本的累积量越大,乱序隐私数据参量的传输速率也就越快,当前情况下,敏感度指标的取值也就相对较大[15-16]。设f为轨道交通数据的隐私置信度权衡系数,λ为乱序隐私参量提取系数,g为敏感性向量的初始取值,kmax为隐私数据样本辨别指标最大值,kg为系数g下的隐私数据样本辨别指标。在上述物理量的支持下,联立式(6),可将基于零信任安全模型的敏感度指标求解结果表示为:
至此,完成对各项指标参量的计算与处理,完成了基于零信任安全模型的轨道交通数据隐私保护方法的设计。
在轨道交通网络中,随着数据样本传输量的增大,一部分信息参量会出现杂乱传输的情况,这不但会使整个交通网络陷入异常运行状态,还会使个别数据样本的安全性受到影响。正序数据、乱序数据是两种同时存在的轨道交通数据隐私样本,在网络存储总量足够大的情况下,两类数据样本同时影响轨道交通网络的安全运行能力,具体作用的表达式如下:
式中,v1表示正序数据传输速率,v2表示乱序数据传输速率,ρ表示轨道交通数据样本的输出密度,l表示轨道交通网络中数据样本的横向覆盖宽度,j表示数据样本的纵向覆盖深度。
实验过程中,规定轨道交通数据隐私数据样本的输出密度恒为1.0 bit/Mb,网络横向覆盖宽度恒为10.0G,网络纵向覆盖深度恒为10.0G。轨道交通数据来自某市2020 年8 月31 日的共计一万条地铁出行数据。由于其他指标参量的取值保持不变,故正序数据传输速率v1及乱序数据传输速率v2是影响轨道交通网络对于数据样本隐私保护能力的关键物理量。在不考虑其他干扰条件的情况下,可认为正序数据传输速率越快、乱序数据传输速率越慢,轨道交通网络对于数据样本隐私性的保护能力越强。
实验的具体实施流程如下:
步骤一:以基于零信任安全模型的轨道交通数据隐私保护算法作为实验组,以k 匿名隐私保护方法作为对照组;
步骤二:分别记录实验组、对照组保护方法作用下,轨道交通网络数据隐私数据正序传输速率v1及乱序传输速率v2的数值变化情况;
步骤三:对比实验组、对照组变量指标,总结实验规律。
图2 反映了实验组、对照组v1、v2指标的具体实验数值。
图2 正序数据传输速率v1
分析图2 可知,当轨道交通数据输出量达到9 Mb 之前,对照组正序数据传输速率数值略高于实验组,但二者差值相对较小;当轨道交通数据输出量处于12~30 Mb 之间时,实验组正序数据传输速率数值始终高于对照组,且二者差值相对较大。整个实验过程中,实验组正序数据传输速率均值远大于对照组。
分析图3 可知,实验过程中,对照组乱序数据传输速率数值始终大于实验组。当轨道交通数据输出量等于18 Mb 时,对照组乱序数据传输速率取得最大值9.9 Mb/ms;当轨道交通数据输出量等于12 Mb时,实验组乱序数据传输速率取得最大值4.0 Mb/ms,远低于实验组极大值。
图3 乱序数据传输速率v2
综上可知,随着基于零信任安全模型的保护算法的应用,轨道交通数据隐私数据中的乱序数据传输速率得到了较好地控制,而正序数据传输速率却依然保持较高的数值水平。这对于解决数据的杂乱传输问题,保护数据样本的安全性能够起到一定的促进作用。
与k 匿名隐私保护方法相比,新型轨道交通数据隐私保护方法在零信任安全模型的基础上,重新定义公钥密码与私钥密码,又通过完善数据验证机制的方式,求解交互认证系数、敏感度指标的实际取值范围,以此实现数据隐私保护。在实用性方面,这种新型方法能够在维持正序数据传输速率的同时,避免乱序数据传输速率过高的情况,能够较好地解决轨道交通网络中数据的杂乱传输问题,符合保护数据样本隐私性的设计初衷。