何英杰,李启伟,孙涵,郜迪,董剑峰,杨书华
(中国电子科技集团公司第二十二研究所,河南 新乡 453000)
物联网各种各样的应用将各个终端设备数据聚合到数据中心,通过对设备数据的统计分析来为消费者提供优质的服务[1],例如智慧家居[2]、智慧交通[3]、智慧医疗[4]等,这些应用提高了人们的生活质量并产生了巨大的社会经济效益[5]。
物联网应用利用聚合数据产生价值,物联网数据质量越高,数据价值也就越大。但是,不同的物联网设备采集的数据质量具有差异性[6]。首先,引起物联网数据质量差异性的主要原因是数据的不确定性,例如,数据聚合的环境动态变化可使数据产生不定因素(错误、噪声、分布状态等)[7],从而影响原始数据质量;其次,物联网系统可能存在恶意节点,恶意节点产生异常数据,若这些质量较低的异常信息聚合到数据中心,则会影响应用的实际效果;此外,物联网系统中存在大量收集用户敏感数据的设备,这些设备常常成为恶意攻击者的目标,例如,物联网中的共谋攻击[8]、扰动攻击[9]或者选择明文攻击(chosen-plaintext attack,CPA)[8]等都会引起数据隐私的泄露问题。因此,提高聚合数据的质量以及保护数据隐私对物联网应用而言极其重要。
为了应对提高聚合质量的挑战,真相发现最近已得到广泛研究[10],旨在从不可靠的数据中发现真值。真相发现方法的基本原则是:若感知的数据更接近汇总结果,则将为其分配较高的权重;而若数据具有较高的权重,则将在聚合过程中,其数据获得更多统计。
尽管真相发现方法已极大地改善系统中聚合的准确性,但仍无法解决参与设备的隐私问题。在IoT应用中,参与者通常不愿提供其真实的感知数据,这些感知数据中推断得到参与者的隐私信息。例如众智感知系统[10]中能够通过汇总从大量设备那里收集的数据来解决一些难题,但是,平台系统能够从设备的收集的回答中推断得到每个参与设备所属人员的隐私信息;此外,聚合健康数据[11](例如治疗结果)能够更好地评估新药或医疗设备的效果,但可能会泄露参与患者的隐私;地理标记[12]能够通过汇总参与者的报告来提供对特定对象(例如垃圾、坑洼、自动外部去纤颤器等)的准确、及时的定位,但存在泄露参与者敏感位置信息的风险。
目前,已有研究方法关注解决聚合数据的质量和隐私泄露问题。Xu等人[13]提出了一种面向移动群智感知系统的高效保护隐私的真值发现(efficient and privacy-preserving truth discovery,EPTD)方法,但用户组之间生成大量共享密钥而导致其能耗成本开销较大;Tang等人[14]提出了一种面向群智感知系统的非交互隐私保护真值发现(privacy-preserving truth discovery,PPDT)算法,但算法的加速器只针对特定问题场景;Zhang等人[15]提出了一种面向移动群智感知系统的可靠隐私保护真值发现算法,但算法的计算成本较高;Mao等人[16]提出了基于两个非协同的云服务器的轻量级真值发现框架分别为L-PPDT(lightweight privacy preserving truth discovery framework)及L2-PPDT(more lightweight privacy preserving truth discovery framework)。该方案中,用户能够选择不同的隐私加密级别,但是,可信度高的用户的数据通常具有更高价值,其方案并不能实现差异化的隐私保护级别。
针对上述问题,本文提出了一种面向物联网的轻量级真值发现(lightweight privacy-preserving truth discovery for IoT,IoT-LPTD)机制,该机制提高了聚合数据质量和保护了数据隐私,主要贡献如下。
(1)物联网的云服务器基于洗牌算法和流式加密实现了匿名计算真值。在云服务器计算真值的过程中,即使恶意终端设备和云服务器发起共谋攻击,诚实的终端设备的隐私也不会被泄露。
(2)雾服务器和可信服务器基于密文协同计算设备的可信权重,防止了雾服务器泄露设备隐私。同时,雾服务器采取了Softmax函数计算设备的权重,减少了计算真值的误差率。
(3)理论分析证明了该机制具有保护设备隐私的特点。实验结果表明,该机制误差率低,并在时间开销上优于已有方法。
设q是一个大素数,1G和2G分别为两个q阶的循环乘法群。1G到2G的双线性映射为,其满足下列性质[12]。
(2)非退化性:如果P是1G的生成元,那么e(P,P)就是2G的生成元。
(3)可计算性:对于任意的P、Q,在有效的时间内能够计算得到e(P,Q)。
真值发现算法[13]主要分为两个步骤:权重更新和真值更新。
(1)权重更新:由于每个设备感知数据x和真值tx存在差别,根据感知数据的差异,对每个设备定义一个可信的权重,其中,f(·)是一个单调递减函数,d(x,xt)用来测量感知数据和预测真值之间的差异。
(2)真值更新:根据每个设备权重值计算得到当前的真值tx:
其中,M是设备的数量,xm是第m设备感知数据值。
IoT-LPDT模型示意图如图1所示,IoT-LPTD由可信服务器(trust authority server,TA)、云服务器(cloud server,CS)、雾服务器(fog server,FS)、设备节点(device node,DN)组成,其建模为四元组(TA,FS,CS,DN)。在IoT-LPTD模型中,首先,TA为CS、FS、DN分发签名密钥对<sk,pk>和传输密钥(K),并维护一个节点权重列表(LT),同时CS在执行真值算法之前,TA将发送给CS一个扰动的权重列表(Wt);其次,CS在t时刻请求DN中的设备节点(di)采集不同对象的属性(xoi),当di采集到数据集合XO之后,执行加密数据算法和签名算法,并将密文传送到FS中的雾服务器(fi),fi执行密文聚合算法并把聚合密文传送至云服务器(ci),ci匿名地计算真值并加密得到真值集合,FS接收加密的真值集合后,执行计算可信权重算法并把新的可信权重列表(Wt+1)传送给TA;最后,TA更新TL,其中,IoT-LPTD模型中所用的数学符号见表1。
图1 IoT-LPDT模型示意图
表1 符号说明
假设物联网系统模型是半诚实的,即在威胁模型中的参与者将会严格遵守设计的IoT-LPTD机制;但是,云服务器或雾服务器能够通过收集感知数据去推断每个设备的敏感信息。每个设备能够尝试获取其他设备的敏感数据,进行推断或学习其他设备隐私。
IoT-LPTD主要由4个阶段组成:系统建立、感知数据加密、真值匿名计算以及权重匿名更新。
4.1.1 系统初始化
TA设置一个初始化的安全参数κ,由安全参数和大素数生成算法生成一个较大的素数q。TA构建两个循环群G1、G2,两个循环群的阶数为最大素数q。设g1、g2分别为G1、G2的生成元,其双线性映射为e:G1×G2→GT。系统构造全域且单向的哈希函数H:{1,0}*→G1和以密钥k为种子的伪随机函数fk(x)。
其中,l、N、lt分别表示密文长度、明文允许的最大长度以及时间戳长度。故TA生成公共的系统参数为{k,q,G1,G2,GT,g1,g2,e,H,fk(x)}。
4.1.2 密钥生成
TA根据公共参数为DN、FS、CS 生成签名密钥对<sk,pk>,传输密钥(K),解密密钥MASK。
(1)DN:TA为di从Zp群中选择一个随机数s,令其作为di的签名私钥,即skdi=s,与此同时计算与之对应的签名公钥:pkdi=gs,然后TA根据di的真实IDdi生成一个伪身份
(2) FS、CS:TA使用与设备节点相同的原理TA为fi生成签名密钥对和伪身份,同时为ic生成签名密钥对和伪身份。
(3)FS、CS的K构建:TA为di从Zp中挑选两个随机数αdi、βdi作为数据加密的密钥分别存储到TA的密钥列表中。
(4)解密密钥生成:TA在时刻t根据及式(2)分别为fi、ci计算聚合密钥MASKfi、MASKic:
4.1.3 可信权重列表构建
可信权重列表LT见表2,TA构建一个可信权重列表以追踪LT恶意节点和匿名实现设备的数据可信权重的更新,其中,设备的初始化权重为
TA通过洗牌算法构建一个可逆函数I(x),利用I(x)的性质为di的随机生成一个数据加密的位置j。其中,I(x)函数满足在不同周期内,相同的i输出的位置j不同:
表2 可信权重列表LT
当di采集到数据Xo后,设备di通过加密算法和签名算法保护敏感数据的隐私。具体过程如下。
(1)在t时刻下,di向TA请求一个数据有效索引位置I(i),并对感知数据明文加密:
(2)令j=1,…,nfi且j≠I(i),计算第j处的密文:
(4) 密文签名:
当di完成上述步骤之后,把发给所连接的雾节点fi。
fi收集所连接设备的数据datai后,向可信服务器请求t时刻的MASKfi,并执行已经初始化的验证聚合签名算法和聚合算法。fi把聚合密文上传到云服务器,云服务器得到聚合密文进行解密,然后计算真值。此时,云服务器即使得到设备的原始数据,也无法推断具体设备上传的原始数据,算法详细步骤如下。
(1)聚合签名验证。
令i=1,…,nfi,计算:
雾节点fi发送至ic,当ic接收fi的数据datafi后,首先向可信服务器请求t时刻的MASKic,然后执行数字签名的验证算法验证数据合法性,如果合法进行解密数据并计算真值。算法详细步骤如下。
(1) 数字签名验证:
(3)根据云服务器在有效时间段内收到可信服务器下发的一次性权重列表tW和式(1)计算Xt:
(4)加密Xt及签名:
ci把数据发送至对应的fi。
fi接收云服务器数据dataci后,验证数据合法性并在密文上计算设备权重。算法详细步骤如下。
(1)验证签名:
(2) 若签名合法,则fi计算感知数据与真值的差异度:
(3)基于Softmax函数计算设备的权重Wt+1:
fi计算得到的发送给TA。TA执行更新可信权重列表操作,具体操作如下。
在第3.2节所述的威胁模型下,从设备、雾服务器、服务器的匿名计算以及加密模式的安全性两个方面对IoT-LPDT进行安全分析。
5.1.1 匿名计算安全分析
定义设备感知数据其中M∈{0,1}l,每个设备di执行感知数据加密算法加密mi生成密文cti,FS收集CT:{ct1,…,cti}并执行数据验证和聚合算法生成,CS最后从FS收集
对于DN,由于每个设备不能获取FS和CS的私钥,设备不能获得其他设备的原始数据。所以设备不能破坏整个协议匿名计算真值的特性。
对于FS,虽然能从所有设备收集CT:{ct1,…,cti},但是由于它缺少CS的解密密钥,没有能力恢复DN的任何设备的感知数据。其次,雾服务器使用设备收集的密文{ct1,…,ctn}和基于云服务器密钥加密后的真值密文进行异或运算,然后根据式(18)计算得到各个设备的权重,并且根据假名机制记录在可信服务器TA。值得注意的是,设备的权重是基于密文计算的。因为FS也无法获取CS的私密钥和时间戳等加密参数,FS根据异或之差反推得到设备的原始数据,所以FS不能够破坏整个协议匿名计算真值的特性。
对于CS,虽然能够恢复所有设备的感知数据,但是,CS无法区分具体某一个设备的隐私数据,即:如果一个攻击者仅知道数据来源于k个设备数据源,但是在多项式时间内,无法区分数据来源于具体某一个设备,则说明该协议具有匿名性[16]。因此,如果IoT-LPDT在同一周期下,某两个设备的密文发生位置交换,CS无法区分交换前后密文的差异性,则证明IoT-LPDT协议具有匿名性。然而,CS仅能够获取的CS密文为:
假设设备da和db的交换的数据为ma、mb,其中1≤a<b≤n,那么所有设备数据为则密文变为
因此证明协议具有匿名性,必须证明对于任意的a、b,V1≡V2。假设存在一个模拟设备ds执行该协议,首先生成一个{1,…,n}的随机排列组合{I-1(1),…,I-1(n)},然后ds得到M′′为:
最后ds输出的密文为:
因为在多项式时间内,M和M′不能被区分,所以,V1和V3也不能区分。因此,VV′≡,同理,在多项式内,M′和M′不能被区分。因此,
因为V1≡V2,所以IoT-LPTD协议满足K匿名性。
最后,IoT-LPTD即使根据式(14)计算得到真值Xt,但是整个计算过程,CS无法区分设备敏感数据。
综上所述:IoT-LPTD具有匿名计算真值的性质。
5.1.2 加密模式安全分析
在云服务器计算真值过程中,设备端通过异或操作把数据密文聚合到云服务器。参考文献[17]的对称加密模式是满足CPA安全要求的,其中,r是随机数,而IoT-LPTD 协议的加密模式也是满足CPA安全要求的。
证明参考文献[17]已经证明c=<r,满足CPA安全要求。令k1≠k2,则满足CPA安全要求。因此,也满足CPA安全要求。
综上所述:IoT-LPTD 也满足CPA安全要求。
仿真实验分析了IoT-LPTD的性能。其实验设置如下。
多个设备在t时刻多次采集不同数量的数据,其中,数据的取值服从于置信区间为0.95、均值为0、方差为10.5的正态分布,若数据取值不在置信区间内,则认为该数据为异常值。
5.2.1 时间开销分析
系统时间开销见表3,其表明在时间开销方面,IoT-LPTD优于已有方法。
与已有方法相比,IoT-LPTD 的时间开销最低。主要原因分析如下:在加解密方面只有异或操作运算,减少了加解密的时间消耗成本。相比上述4种方案,它采取云端计算真值更新和权重更新两个步骤,而IoT-LPTD则在云端只计算真值,而雾节点协助云端计算真值,从而减少了云端的计算成本。
表3 系统时间开销
5.2.2 误差率分析
为评估IoT-LPTD可用性,采用参考文献[15]中的平均误差率作为评价指标,平均误差率如式(21)所示:
其中,云服务器计算出的真值,为真实值,n表示采集的设备。
采集不同数据对象数目的误差示意图如图2所示,实验结果表明,IoT-LPTD具有高可用性。分析原因如下:与传统的方法采取式(14)作为计算权重的方法相比,IoT-LPTD采取式(18)计算权重,其目的是使越靠近真值的感知数据的比重越大,从而使计算得到的真值误差率越来越小。
图2 采集不同数据对象数目的误差示意图
本文针对物联网中终端设备采集感知数据质量参差不齐、聚合过程中泄露隐私数据等问题提出一种面向物联网轻量级隐私保护的真值发现机制。该机制实现了匿名计算真值和基于密文计算权重的功能,抵御了推断或泄露设备隐私的恶意攻击。最后,分析了该机制的安全性。实验表明该机制具有时间开销低、可用性高的特点,是一种适应于规模化物联网高效的真值发现机制。