边缘计算下指纹室内定位差分私有联邦学习模型

2022-12-16 02:41张学军何福存盖继扬鲍俊达黄海燕杜晓刚
计算机研究与发展 2022年12期
关键词:差分指纹边缘

张学军 何福存 盖继扬 鲍俊达 黄海燕 杜晓刚

(兰州交通大学电子与信息工程学院 兰州 730070)(xuejunzhang@lzjtu.edu.cn)

近年来,随着物联网技术的快速发展和物联网智能终端设备数量的爆炸式增长,室内定位技术作为室外定位的技术延伸,已被广泛应用在智慧工业(工厂人员和物资精确定位、危险源监测等)、智慧养老(老人定位监护、健康管理等)、智慧司法(监狱人员定位、司法矫正等)、智慧医疗(院区就诊导航、人员定位等)、智慧工地(隧道/地铁/管廊人员的定位、环境数据采集等)、智慧文博(游客导航、文物防盗等)、智慧仓储(物资定位、可疑物品追踪等)等各个领域.随着城市智能化的发展,室内定位的重要性和价值日益显现,越来越受到社会的广泛关注[1-3].对于室外定位技术,其应用场景大多是开放环境,即使定位误差大到几十米也不太会影响用户的体验.但是,室内定位技术则要求亚米级的定位精度来满足用户需求.为了实现室内环境中的高精度定位,研究者开展了一系列室内定位技术的研究,相继提出了基于WiFi[4-5]、蓝牙[6]、RFID[7]、UWB[8]、红外线[9]、超声波[10]、电磁[11]等的室内定位技术和系统.其中,基于接收信号强度(received signal strength, RSS)的指纹定位方法(如使用WiFi、蓝牙等),因其低成本、低功耗、测量范围长、具有成熟的基础设施和易于实现等优势而逐渐成为室内定位技术的主流趋势[12],并已培育了众多的商业应用[13],如Skyhook,Google,Indoo.rs,Wifarer等.

基于指纹的室内定位技术通常利用来自多个无线信标和接入点(access points, APs)的RSS指纹来估计室内环境中用户或设备的位置[14],它主要依托包含用户终端和云定位服务器的云架构实现定位[13],其核心是能够发现指纹和位置之间映射关系的定位算法[14].近年来,机器学习已经被证明是构建映射关系函数的一种有效手段,并在指纹室内定位技术中得到了广泛应用[2,12].指纹室内定位技术包括离线训练和在线定位2个阶段,离线训练阶段通过从室内场景中预先定义的各个参考点(reference point, RP)收集RSS指纹构建位置指纹数据库,在线定位阶段将实时获取的RSS指纹与位置指纹数据库中存储的指纹进行比较,得到相似度最高的指纹数据所对应的位置来确定目标位置.虽然该方法的定位效果较好,但构建指纹数据库需要耗费大量的物力、人力.此外,RSS是一种不稳定的信号,易受室内复杂多变环境的影响,致使离线阶段采集的信号指纹与在线阶段获取的RSS指纹可能存在偏差,导致这类方法存在较大的定位误差.为进一步提高室内定位精度、减少指纹数据库构建难度和应对室内复杂环境变化带来的不利影响,许多学者结合深度学习(deep learning, DL)和众包技术开展室内定位方法的研究[1-2,15-17].但是,基于DL的室内定位方法需要大量的带标签数据对定位模型进行长时间的训练.众所周知,训练数据量越大、数据类型越多样化,DL所训练的定位模型鲁棒性会越好.然而,大量RSS指纹的收集耗时且费力,而且来自用户终端设备的指纹数据包含了许多与个人相关的敏感信息(如位置信息等),如果将这些信息直接发送给不可信的云定位服务器进行模型训练,可能会引发严重的隐私泄露问题[13,18].2017年6月1日开始实施的《中华人民共和国网络安全法》、2021年11月1日实施的《中华人民共和国个人信息保护法》和2018年5月25日欧盟开始实施的《通用数据保护条例》都对网络数据安全和个人隐私保护做出了明确的规定和要求,进一步完善了对个人隐私信息的保护.因此,如何在保护用户个人隐私的同时更好地训练定位模型是基于DL的室内定位技术面临的一个重要挑战.

另一方面,随着各种室内位置服务的应用和大量智能终端设备的广泛使用,室内定位服务用户请求更加频繁、室内定位环境部署更加快速、定位服务响应需要更加可靠及时、物联网环境下联合定位的数据融合更加复杂以及为提高定位精度所带来的大量数据传输和计算,都给使用云架构的基于DL的室内定位技术提出了一些新的挑战[12,14,19]:1)室内环境中大量物联网智能终端设备的部署与互联互通,产生的海量RSS指纹数据被集中传输到云服务器上进行定位模型训练会显著增加网络负载,造成数据传输拥塞和网络延迟[20].2)大部分用户终端设备电池续航能力有限,将大量RSS指纹数据传输到云定位服务器,需要消耗大量的电能;同时,由于云定位服务器的集中式处理方式,其运行和维护也需要消耗大量的电能.3)基于云的定位系统无法满足系统边缘区域对快速实时定位任务处理的需求.

为了解决上述3个挑战,一种可行的方法是将基于DL的室内定位系统部署到边缘计算模式中[19].边缘计算(edge computing, EC)[21]具有的低延迟、位置感知、分布式且异构、可编程和数据本地化的特点,正好能满足基于DL的定位系统所带来的大数据处理、定位延迟、精度提高和隐私保护的需求[22].但是,在边缘计算场景下,由于资源受限的边缘计算基础设施缺乏有效的隐私保护机制,隐私泄露问题仍然很严重[18,23-24].在离线训练和在线定位阶段,不可信的云服务器和边缘服务器仍有可能通过分析来自边缘设备的RSS指纹数据来获得用户的精确位置,从而在WiFi路由器附近很小的范围定位和跟踪用户[24].位置隐私的侵犯可能会造成用户社会声誉受损、经济损失,甚至是身体遭受暴力等[25-26].

目前,大多数室内定位隐私保护的最新方法主要关注在线定位阶段的隐私泄露问题,例如基于k匿名的方法[13]、基于加密的方法[25,27]和基于差分隐私的方法[23,28-29].但是,这些隐私保护机制不能完全适用于基于边缘计算架构的室内定位技术,特别是离线训练阶段,因为它们都需要消耗大量的资源.作为移动EC中的DL模型,联邦学习(federated learning, FL)[30]已经引起了学术界和工业界的广泛关注,其主要目的是在保护用户隐私的同时基于本地数据集构建一个联合DL模型.联邦学习模型可以在边缘节点(如智能手机)上实现,各个边缘节点在不共享数据的情况下,可以利用本地数据集独立地进行DL模型训练,并通过云服务器(如参数服务器)对全局模型进行优化聚合,能有效解决基于DL室内定位系统的数据安全与隐私保护问题.文献[15]利用联邦学习构建隐私保护室内定位服务,该方法虽然能够保证用户的数据隐私,但是在资源有限的终端设备上执行本地子模型的训练将会使得终端设备面临巨大的资源开销问题.此外,在模型参数聚合时,该方法还会面临差分攻击、模型反演攻击、梯度反向推理攻击,存在隐私泄露风险[31].

针对以上挑战,本文提出了一种边缘计算下指纹室内定位差分私有联邦学习模型(differentially private federated learning model for fingerprinting indoor localization in edge computing, DP-FLocEC),可以实现在保护原始训练数据和模型参数隐私的前提下对多方数据进行学习,确保了较高的定位精度和性能.DP-FLocEC基于边云协作计算模式,利用差分隐私机制结合联邦学习协议在对用户RSS指纹数据和模型参数提供ε-差分隐私保护的同时,实现了高精度、低延迟的定位性能.为了解决在资源受限的边缘服务器上执行DL模型带来的繁重计算开销问题,DP-FLocEC构建了基于卷积神经网络(convolutional neural network, CNN)的轻量级室内定位模型.本文工作的主要贡献包括3个方面:

1) 提出了基于边缘计算和联邦学习的隐私保护室内定位模型训练及应用架构,全面考虑了边缘计算环境下室内定位模型训练及应用过程中的安全问题.在离线训练阶段,考虑到攻击者具有一定的背景知识,利用差分隐私技术对用户数据及模型参数进行隐私保护处理,实现多层面可证明的ε-差分隐私保护,使多个参与用户在不共享私有数据实现定位子模型训练的同时,抵御模型参数聚合过程当中遭受的差分攻击、模型反演攻击、梯度反向推理攻击等;在线定位阶段,利用差分隐私技术将数据进行差分扰动后上传到边缘服务器,经边缘服务器处理后为用户提供安全、可靠的室内定位服务.

2) 为了提供高精度、低延迟、高可靠的室内定位服务,本文基于CNN构建了一个轻量级的室内定位模型,并在多个数据集上验证与评估了所提模型的有效性.

3) 在3个真实室内RSS指纹数据集上进行了大量的实验对比,以评估所提模型的有效性和性能.安全性分析与实验结果表明,相比已有的集中式和分布式的学习模型,本文提出的联邦学习模型在提供更全面隐私保护的同时获得了高可靠的定位服务;相比于已有的MLP,FLoc室内定位模型,本文设计的CNN室内定位模型取得了更好的定位性能.

1 相关工作

1.1 室内定位

近年来,人们相继提出了许多室内定位技术,包括基于红外线、超声波、RFID、无线局域网、蓝牙、传感网络、超宽带、电磁信号、视觉和声音等[32],以及由这些技术组合成的混合系统[13].虽然这些技术中大多数都提供了很高的定位精度,但其应用都有严重的局限性,难以达到室内定位和导航的要求[5].目前,大型公共场所几乎已经全面覆盖WiFi、蓝牙网络,这使得基于RSS指纹的室内定位研究广受欢迎.一个典型的指纹定位系统是Horus[33],它使用基于统计的方法和来自APs的RSS直方图进行位置聚类,从而在指纹数据库中建立指纹的高斯分布.在定位阶段,通过与指纹数据库中指纹的匹配概率来计算定位结果.另一个是基于k近邻(knearest neighbors,kNN)的指纹定位方法[34].在离线阶段,kNN利用从APs收集的RSS指纹来构建指纹数据库.在实时定位阶段,计算和选择具有最小斯皮尔曼距离的所有目标位置点,并通过kNN算法获得最终的位置估计.

随着物联网技术的快速发展,众多物联网智能终端设备在室内环境中的部署与使用[20],产生了海量可用的RSS指纹数据,为了利用这些RSS数据提高室内定位精度和应对室内环境复杂多变、无线信号阴影衰落、多径效应等因素的不利影响,一些最新的研究提出利用多传感器数据[5]、信道状态信息(channel state information, CSI)数据并结合DL算法[1,16-17,35-37]辅助WiFi或蓝牙指纹进行室内定位,获得了比传统定位方法和系统更高的定位精度和鲁棒性.文献[5]利用智能手机上内置的多种传感器来估测用户的轨迹信息,并将其与WiFi指纹信息结合起来建立综合概率模型,进行用户位置匹配,确定最近参考点.文献[1]利用注意力机制并结合CNN和双向长短时记忆网络获取参考点位置区域内的时空纬度上的粗细粒度特征来实现室内定位.文献[16]利用抽取的磁场强度中心点作为地理标签特征辅助WiFi指纹进行室内定位,获得了比较满意的定位性能.文献[17]利用CNN提高室内定位性能,将收集到的蓝牙RSS信号转化为指纹图像并将其输入到CNN模型中进行分类训练,同时结合磁场数据来匹配用户的位置.文献[35-37]利用细粒度CSI的相位信息结合DL算法进行室内定位,获得了更高的鲁棒性.文献[11]指出已有的这些室内定位技术都基于预先部署的基础设施,会带来很大的设备和管理成本,因此在某些应用场景和条件下是有限的.为此,文献[11]的作者提出一种新的无需基础设施的轻量级基于地磁信号的经过门事件探测方法LMDD来帮助提高基于航位推算的室内定位和导航系统的定位精度.然而,所有这些方法都采用基于云架构的集中式学习框架,需要将大量包含用户敏感信息的RSS数据传输到云服务器上进行模型集中训练,这将会严重侵犯用户的隐私[13,18-19].随着人们对个人隐私的重视,各个国家都制定了网络数据安全和隐私保护的相关法律法规来约束和限定这些敏感数据的使用.在这种情况下,数据的安全和隐私泄露严重阻碍了机器学习技术在室内定位场景中的应用,成为定位服务健康发展的瓶颈之一.另外,大量的RSS数据集中传输到云服务器进行处理也会增加网络负载、计算资源开销等问题,造成数据传输延迟和网络拥塞,严重影响定位服务的性能和效果.

1.2 边缘计算和联邦学习

边缘计算[21]作为一种新型的分布式计算架构,它能在网络的边缘提供强大的实时数据存储和计算能力,从而降低网络负载、减少数据处理延迟、提高电池续航能力、减轻云服务器压力,在解决终端设备资源受限问题的同时保证数据的安全性和私密性[22].将室内定位DL模型部署到边缘计算框架中是解决传统基于云架构的室内定位系统存在响应不及时、网络延迟高、隐私泄露严重问题的一种有效策略.文献[38]提出在互联网的边缘使用cloudlet技术部署移动云服务,但是由于WiFi覆盖范围有限,使用cloudlet技术是不够的.文献[21]指出边缘能够使网络具有低延迟和高带宽,因为其具有很好的任务卸载技术.文献[39]指出边缘计算能够极大地减少网络延迟,因此能够在WiFi网络中实现计算密集型的应用.但是,在边缘计算场景下,由于资源受限的边缘计算基础设施缺乏有效的隐私保护机制,隐私泄露问题仍然很严重[18,23-24,40-42].联邦学习[18,20-21,30]作为边缘计算中的DL模型,考虑了去中心化学习方式的数据隐私保护问题,已被广泛应用在众多新兴的场景,比如众包系统[15]、室内定位系统[15,43-44]、移动群体感知[45]等.联邦学习的主要目标是在本地数据集上构建联合机器学习模型,同时能提供隐私保证[18,46].尽管联邦学习有一些优势,比如隐私保护和在终端设备上实现DL,但是当其面对一些新兴的应用时(如室内定位服务),容易遭受差分攻击、模型反演攻击等,其隐私问题仍然是致命的[18,44-45].幸运的是差分隐私技术[47-48]能有效解决这一问题,它允许分析人员在保证个人隐私得到有效保护的同时执行可信聚合分析[44].在本文中,我们研究如何利用差分隐私技术向室内定位联邦学习协议的各个操作阶段添加合适的噪声来保护用户隐私.

1.3 室内定位隐私保护

目前,只有少量工作用于解决室内定位隐私保护问题,这些工作可总结为基于k匿名的方法[13]、基于加密的方法[25,27]和基于差分隐私的方法[23,28-29].文献[13]提出了一种基于k匿名的隐私保护定位方法,该方法能够将用户的真正位置轨迹隐藏于k-1个假轨迹中,这样攻击者不能以高于1/k的概率识别出用户的位置.然而,攻击者可以利用一些背景信息区分出用户的真实位置.为此,文献[25]提出了一种基于Paillier的WiFi指纹定位隐私保护方法PriWFL,能够同时保护用户的位置隐私和位置服务提供商(location service provider, LSP)的数据隐私,但处理过程资源消耗较高.文献[27]基于PriWFL提出了2种改进策略,在获得和PriWFL相同精度的情况下,避免了其弱点及相关的隐私泄露风险.但是,这2类基于加密的方法计算和通信开销大,其有效性有待进一步提升.文献[23]提出了一种在基于噪声添加的用户位置指纹隐私保护方法LoPEC,该方法将AP之间的信号覆盖关系简化为无向图进行位置估计,为了提高定位精度,通常需要3个以上的AP参与计算,由于对其添加噪声的不确定性过大,合理噪声的添加是一个挑战性问题.文献[28]提出了一种基于差分隐私的隐私保护室内定位方法DP3,它既能保证用户的位置隐私,又能保护定位服务器的数据隐私.文献[29]提出了一种用于室内定位的隐私保护范式驱动框架P3-LOC,以解决用户位置隐私和 LSP数据隐私的问题.P3-LOC使用k匿名和差分隐私技术来为2阶段定位范例提供可证明的隐私保护.虽然这些研究工作对室内定位中的隐私保护问题做出了一定的贡献,但是这些方法主要针对在线定位阶段的用户位置隐私保护,不能保护离线训练阶段的用户数据隐私.而且,这些方法在面对室内复杂多变环境、阴影衰落、多径效应等诸多因素的不利影响时,其性能会急剧下降.虽然已有一些定位方法[1,16-17,35-37]使用DL模型来提高定位精度和鲁棒性,但是这些方法采用基于云架构的集中式学习框架,存在隐私泄露、高延迟等问题.文献[49]针对集中式学习模型的隐私泄露问题,提出了基于差分隐私的集中式学习框架Central-DP,各参与者在本地进行子模型训练,然后将训练得到的模型参数上传到云服务器(参数服务器),云服务器利用差分隐私保护技术对模型参数进行扰动来混淆参与者的贡献.边缘计算网络[21]和联邦学习架构[30]的出现吸引了许多学者的关注.边缘计算是一种新型的分布式计算架构,能将云计算的部分计算开销迁移到边缘节点,并在网络边缘提供IT服务环境,其目标是减少延迟、确保高效的网络运行与服务传递.在边缘计算场景中,虽然不再将用户数据传输到云服务器上,但是边缘节点计算能力有限且缺乏有效的安全保证机制,仍然存在严重的隐私泄露问题,特别是用户的RSS指纹信息不能得到很好的保护[23].文献[40-41]对边缘计算下的隐私保护问题和挑战进行了详细的总结,介绍了近年来提出的适用于边缘计算领域的隐私保护最新研究成果,并就方案的可行性和扩展性进行了深入讨论,为边缘计算下隐私保护提供了有效指导.作为边缘计算中的DL模型,联邦学习[30]是一种新兴的隐私保护分布式学习解决方案,它解决了传统机器学习算法的一些问题.文献[15]提出了利用多层感知机(muti-layer perceptron, MLP)基于联邦学习框架来构建室内定位模型,使得各用户的数据在不出本地设备的情况下进行室内定位子模型的训练,实现数据隐私的保护.文献[46]提出了本地化的差分隐私联邦学习模型Local-DP,每个参与者利用差分隐私技术对各自的数据集进行差分扰动,然后进行本地子模型训练并将得到的模型参数上传到云服务器,云服务器对这些参数进行聚合后下发给各个参与者,使其进行下一阶段的训练,如此协同训练与迭代更新,直到得到最优的模型.然而文献[50]由于没有考虑到模型参数的隐私,使其容易遭受差分攻击、模型反演攻击、梯度反向推理攻击[31,51]等,而且仍然存在隐私泄露的风险.随着物联网技术的长足发展,边缘设备的计算能力和存储能力得到很大的提升,这使得边缘设备和机器学习的结合成为可能.文献[42]提出了边缘计算下,机器学习算法ELM结合差分隐私的室内定位隐私保护方法,在保护用户RSS数据隐私的同时确保了较高的定位精度.文献[18]提出了一个基于边缘计算的联邦学习框架FedMEC,利用移动边缘计算来提高差分私有联邦学习的有效性.但是FedMEC仅考虑了用户数据的隐私保护,依然没有解决模型参数的隐私保护问题,难以抵御来自攻击者实施的差分攻击等.

针对以上挑战,本文提出一种边缘计算下指纹室内定位差分私有联邦学习模型DP-FLocEC,能在保护原始训练数据和模型参数隐私的前提下对多方数据进行学习,确保较高的定位精度和性能.DP-FLocEC基于边缘计算架构,利用差分隐私机制结合联邦学习协议在对用户RSS指纹数据和模型参数提供ε-差分隐私保护的同时,实现了高精度、低延迟的定位性能.为解决在资源受限的边缘节点上执行DL定位模型所造成的繁重计算开销问题,DP-FLocEC构建了基于CNN的轻量级室内定位模型.

2 研究基础

2.1 联邦学习

联邦学习主要包括云端模型学习和用户本地子模型学习2个关键部分.云端将预训练好的全局模型分发给各参与用户,以帮助用户训练微调自己的本地子模型.对于每个用户,他们在预先训练好的全局模型帮助下微调自己的本地子模型,使其模型更适合用户本地数据的一些特性,当所有用户本地子模型都微调训练结束之后,模型参数会被上传到云端进行模型参数融合.随后,通过不断迭代训练,实现模型的深度聚合与优化.云端全局模型的更新可以形式化为

(1)

其中,w代表云端模型参数,K为参与本地子模型训练的多个用户.经过若干训练周期后,更新的云端模型fs(·)可以涵盖几乎所有参与者的本地模型,达到了更好的泛化能力.

2.2 差分隐私

Dwork[47]于2006年针对统计数据库的隐私泄露问题提出了差分隐私技术,作为一种数学意义上严格定义的隐私保护框架,它在统计学、数据挖掘、社交网络、机器学习和物联网等领域得到了广泛的应用,已经成为当前隐私保护领域最受欢迎的隐私保护方法之一,也是实施边缘计算环境下数据隐私保护方案的关键技术之一.

定义1.ε-差分隐私.设有一个随机算法M,R是所有可能的输出构成的集合,D和D′为任意2个相邻数据集合且|D⊕D′|=|(D∪D′)-(D∩D′)|=1.其中,S⊂R,如果随机算法M满足

Pr[M(D)∈S]≤eε×|D⊕D′|×Pr[M(D′)∈S],

(2)

则称算法M提供ε-差分隐私保护,其中⊕表示两集合的对称差集,ε为隐私预算,Pr[·]表示算法M对数据集D和D′计算结果概率.此定义确保单个记录的存在或不存在不会显著影响算法M的输出.

定义2.全局敏感度.设有函数Q:D→d,Q的全局敏感度Δf定义为

(3)

其中D和D′是2个邻近的数据集,‖Q(D)-Q(D′)‖1是Q(D)和Q(D′)之间的1-阶范数距离,敏感度用来表征删除数据集中任何记录引起的最大变化,是确定添加的噪声量的关键参数.

定义3.Laplace机制.对查询函数f:D→d,其敏感度为Δf,式(4)提供了ε-差分隐私保护.

f′(D)=f(D) +gLaplace(Δf/ε),

(4)

其中gLaplace(Δf/ε)是一个服从Laplace分布的随机噪声,b=Δf/ε为尺度参数.Laplace分布的概率密度函数如式(5):

(5)

Laplace机制是实现差分隐私保护的基本机制之一[52].

在实际应用中,ε通常取很小的值,例如0.1,ln2,ln3[48]等.ε越小,添加的噪声越多,隐私保护强度越高;反之,隐私保护强度越低.理想情况下,当ε=0,此时隐私保护强度达到了最高水平,且对于任意2个邻近数据集,算法输出结果的概率分布完全相同,攻击者无法通过观察结果的差异性获得任何关于数据集的有用信息.因此,ε的取值需根据用户实际隐私需求来调整,以同时满足输出结果的可用性与数据的隐私性.

为了方便参考,表1给出了本文主要使用的符号及其描述.

Table 1 Notations and Descriptions

3 差分私有指纹室内定位联邦学习模型

3.1 系统架构及攻击模型

为了解决传统基于云架构的RSS指纹室内定位方法面临的挑战,本文综合考虑定位性能、隐私保护和资源开销,提出了一种边缘计算下指纹室内定位差分私有联邦学习模型DP-FLocEC,其系统架构如图1所示.该系统架构是一个3层的边缘计算框架,它将整个室内定位联邦学习协议划分为跨云服务器层、边缘服务器层和终端设备层,能很好地支持具有多个参与者的联邦学习协议.假定拥有终端设备的用户群A,B,C已经分别收集到了大量的室内定位RSS数据,为了能够享受部署在边缘服务器上的室内定位服务,他们都自愿参与室内定位联邦学习协议.同时,他们都尽力防止在整个联邦学习过程中,将自己的RSS数据泄露给系统中的不可信实体(如边缘服务器、云服务器等);边缘服务器在接收到终端设备已经扰动过的RSS数据后进行聚合和本地子模型训练,并将训练好的子模型参数共享给云服务器以便获得最优的全局定位模型;云服务器接收边缘服务器发送的子模型参数,执行全局模型聚合与协同更新,并将更新后的模型参数下发给各边缘服务器.室内定位联邦学习模型分为离线训练和在线定位2个阶段.整个系统框架的具体描述如下:

1) 终端设备.是指联邦学习参与者拥有的一套智能终端设备(如智能手机、平板电脑、智能监控设备等),具有计算、存储和通信能力.离线训练阶段,终端设备可用于从室内区域(如大型购中心、地下停车场、展览厅等)的多个无线传感器信标(如WiFi、蓝牙等)获取、存储本地RSS指纹数据集,并独立地对收集到的RSS数据集进行数据预处理和噪声添加,然后将扰动后的RSS数据发送给附近的边缘服务器.同时,在在线定位阶段,终端设备度量实时指纹数据并经加噪声扰动给发送给边缘服务器来获得定位服务.

2) 边缘服务器.是边缘计算架构的核心实体,通常在用户场所(如公园、商场、购物中心等)实现,并且可能部署在固定的位置(如基站).它们具有比终端设备更强大的存储和计算资源,并作为云服务器和终端设备之间的计算单元.边缘服务器主要执行可信的数据聚合、本地子模型训练和服务反馈.在离线训练阶段,边缘服务器先接收由附近终端设备上传的经过扰动处理后的RSS指纹数据,并将这些指纹数据聚合成包含多个用户信息的RSS指纹数据.同时,它利用这些聚合数据进行本地定位子模型的可信训练,并将训练好的本地子模型参数上传给云服务器,如此重复迭代,直至模型收敛.在线定位阶段,边缘服务器根据用户提交的经过加噪声处理后的实时RSS指纹数据,利用训练好的定位模型为用户提供高可信、高精度的室内定位服务.

Fig. 1 Differential privacy federated learning architecture图1 差分私有联邦学习架构

3) 云服务器.作为数据中心,具有比边缘服务器更强大的存储和计算能力.它接收各边缘服务器共享的子模型参数,利用联邦平均优化算法[50]更新全局共享模型参数,并将更新后的模型参数下发给各边缘服务器进行下一轮迭代训练,直至获得最优的训练模型.为了防止不可信的云服务器通过模型反演攻击[37]或梯度反向推理攻击[31,51]推断出各参与用户的隐私训练数据,在聚合、更新全局参数时需要进行隐私保护处理,本文利用差分隐私技术向联邦学习协议各参与方的模型参数添加合适的Laplace噪声后再进行全局参数汇总更新来实现隐私保护.

Fig. 2 The structure of indoor localization model图2 室内定位模型结构图

在这些实体当中,假定终端设备是可信的,它正确的处理收集到RSS数据并且不会泄露这些RSS数据给其他参与者.另外,本文假定边缘服务器和云服务器是诚实且好奇的[53],即他们能忠实地执行联邦学习协议过程并正确计算和发送真实的计算结果.然而,他们对包含在RSS指纹数据中的隐私很好奇并且会尽力去分析并挖掘用户的隐私.在整个离线训练过程中,边缘服务器只与云服务器通信,除了共同维护的全局参数外,它无法获取其他边缘服务器的任何信息,保障用户RSS指纹数据的机密性.除隐私问题外,边缘计算框架中的联邦学习协议也会面临终端设备资源受限的问题.因为执行复杂的DL模型需要巨大的计算开销,而资源受限的终端设备难以承担复杂DL模型的训练过程.因此,如何设计一个不需要太大计算开销而又不违反联邦学习机制,同时又能够保护用户RSS指纹数据隐私的有效定位模型是DP-FLocEC面临的一个重要挑战.

3.2 室内定位模型结构

为了确保高的定位精度又能在资源受限的边缘服务器上实现DL定位模型训练过程,本文借鉴文献[17,37],设计并实现了一个轻量级室内定位CNN网络模型.具体如图2所示.该模型包含2个卷积层、1个池化层和2个全连接层.其中卷积层对原始RSS指纹数据进行特征提取,池化层对卷积层提取的特征进行压缩,全连接层用于将压缩后的特征映射到目标结果.

本文使用TensorFlow来模拟指纹室内定位联邦学习协议,并选择Adadelta优化器作为模型的优化方法.因为Adadelta优化器只利用一阶信息来动态适应时间的变化,除了普通的随机梯度下降法之外,它的计算开销最小,而且该方法不需要手动调整学习率,对噪声梯度信息、不同的模型结构选择以及不同的数据模式和超参数选择都具有很好的鲁棒性.虽然联邦学习因其本地训练的特性为每个参与者的原始RSS指纹数据提供基本的隐私保护,但是在边缘环境下,参与者的原始RSS指纹数据,部分本地子模型参数仍然会暴露给不可信的边缘服务器和云服务器,导致用户隐私泄露.例如,联邦学习中的云服务器能够很容易执行模型反演攻击来获得部分参与者隐私训练数据的分布[37]或通过共享梯度执行梯度反向推理攻击,在不需要训练数据集的任何额外信息的情况下完全获得参与者的隐私训练数据[31,51].因此,需要设计一个切实可信的隐私保护机制来防止联邦学习中每个参与者的RSS指纹数据直接暴露给不可信边缘服务器和云服务器.

差分隐私[47]是一种有效且应用非常广泛的隐私保护方案,它能够通过向敏感数据集添加合适的随机噪声来提供严格的隐私保证.在DP-FLocEC中,我们在将参与者RSS指纹数据发送给不可信边缘服务器进行本地子模型训练之前先使用差分隐私技术对其进行差分私有数据扰动以保护用户的隐私.同时,为了防止不可信云服务器通过共享的模型参数推断出用户原始RSS指纹数据,我们在云服务器进行全局参数汇总与更新之前先对共享的本地子模型参数添加合适的Laplace噪声进行扰动.

3.3 DP-FLocEC算法

DP-FLocEC算法包含3个操作阶段:1)差分私有训练数据特征扰动;2)可信定位模型训练;3)差分私有全局模型参数优化.设总体隐私预算为ε,由于阶段1)和阶段3)是差分私有的,我们将ε划分为2个子隐私预算εs和εc,这样ε=εc+εs.下面讨论离线训练和在线定位2个阶段的隐私保护方法.

3.3.1 离线训练阶段

(6)

算法1.差分私有数据扰动算法.

(7)

算法2.可信定位子模型训练算法.

③ forepoch=1 toEpochdo

④ forstep=1 toStepdo

⑨ end for

3) 差分私有全局参数优化.该操作阶段在云服务器层上进行,云服务器接收边缘服务器发送过来的各子模型参数,进行全局参数聚合和更新.由于云服务器不可信,在全局参数聚合与更新过程可能会利用模型参数通过模型反演攻击或梯度反向推理攻击推断出用户的训练数据[31],为此我们利用差分隐私技术在模型参数聚合和更新前向其添加合适的Laplace噪声进行扰动,然后再进行全局参数聚合和更新以联合优化当前的全局模型,并将优化好的模型参数下发给各边缘服务器,使其进行下一次迭代训练,直到全局模型趋于收敛.云端差分私有全局参数的更新优化可以形式化为

(8)

算法3.模型参数可信聚合算法.

输出:聚合后的全局模型参数wglobal.

① 初始化全局模型参数wglobal;

② fori=1 toNdo

⑤ end for

⑥ 将聚合后的全局参数wglobal发送到各个边缘服务器.

依据定义3,该操作阶段满足εs-差分隐私.εs的大小决定了该操作阶段噪声添加的量,如果εs增大,则添加到该操作阶段的噪声量会减少,模型的精度会增加;而在整体隐私预算ε不变的情况下,分配给差分私有数据扰动阶段的隐私预算εc就会降低,从而会增大该阶段添加噪声的量.因此,差分数据扰动和差分私有全局参数优化2个阶段联合决定了隐私预算的分配,一个关键原则是适当给对模型精度影响更大的阶段分配更多的子隐私预算.然而,为某个阶段分配不必要的高隐私预算将会对模型性能产生负面影响,因为它会窃取那个需要高隐私预算阶段的效用来保证模型性能.

3.3.2 在线定位阶段

在线定位阶段,参与用户i实时收集他感兴趣区域内的RSS特征值,并将其发送给已部署在边缘服务器上优化好的模型获取定位服务.由于边缘服务器不可信,用户在发送RSS度量值时仍需要利用差分隐私技术添加合适的噪声进行数据扰动.

算法4.客户端请求定位服务算法.

gLaplace(Δf/εc);

算法5.边缘服务器服务反馈算法.

输出:返回给用户的服务Stype.

③ 将预测结果Stype发送给用户i.

3.4 安全性分析

在本节中,使用差分隐私中序列组合性质和并行组合性质[54]对DP-FLocEC进行安全性分析.

定理1.DP-FLocEC能够提供ε-差分隐私保护.

证明. 根据算法1~3,DP-FLocEC提供的隐私保护处理主要包括以下3个操作阶段:

1) 为了防止用户数据直接暴露在不可信的边缘服务器,用户通过对其终端设备上RSS指纹数据进行扰动,以达到保护用户数据隐私的目的;

2) 边缘服务器利用扰动后的数据进行模型训练,然后将得到的模型参数上传到云服务器;

3) 云服务器对各边缘服务器上传的模型参数进行汇聚,并在参数汇聚时进行差分扰动,从而防止攻击者针对云服务器实施差分攻击[55]、模型反演攻击、梯度反向推理攻击,实现模型参数的保护.

设算法总的隐私预算为ε,将其划分为2个子隐私预算εc,εs分别分配给阶段1)和阶段3),因此ε=εc+εs.阶段1)和阶段3)在数据集Dc,Ds上的随机算法为Mc:Dc→R,Ms:Ds→R,且Mc,Ms的随机过程相对独立.根据定义1,有

因此DP-FLocEC在阶段1)和阶段3)分别满足εc-差分隐私和εs-差分隐私,在阶段2)中边缘服务器接收到的数据是经过阶段1)处理后的.因此,在这些数据上进行聚合和计算操作同样满足εc-差分隐私.

在阶段1)中,∀i∈{1,2,…,N},N为参与者个数,设参与者Pi在数据集Di上的随机算法Mci:Di→R满足εi-差分隐私,且任意2个随机算法Mci的随机过程相互独立.

由|R⊕S|∈可知,在所有的{1,2,…,N},有且仅有1个其他的相邻数据集所以,∀O⊂R,使得

eεi×Pr[Mc(D′)=O],

当且仅当εc≥εi时,有

Pr[Mc(D)=O]=eεc×Pr[Mc(D′)=O],

对于算法的整体而言,设随机算法M:Dc×Ds→R,有M={Mc,Ms},记算法M的输出为O={rc,rs}.由于算法Mc和Ms的随机过程相互独立.因此,对于∀O⊂R,有

Pr[M(D)=O]=Pr[Mc(Dc)=rc]×

Pr[M(D′)=O].

Pr[M(D)=O]=eεc+εs×Pr[M(D′)=O]=

eε×Pr[M(D′)=O].

因此,DP-FLocEC满足ε-差分隐私,即攻击者无法通过观察算法输出结果的差异性,来实施差分攻击,也无法利用模型反演攻击来准确获取训练样本及用户隐私信息.同时,由于多个边缘服务器在假定条件下不具有通信能力,即边缘服务器间相互独立,数据无法共享,那么攻击者也无法通过关联多个边缘服务器的数据实施链接攻击.因此,在边缘服务器端,用户数据和本地子模型参数的数据隐私得以保证.

4 实验结果与分析

4.1 实验配置

为了模拟边缘计算环境下的室内定位联邦学习协议,本文利用TensorFlow构建室内定位模型,模拟了2个具有相同数据量的边缘服务器.利用Socket协议实现边缘服务器与参数服务器间的通信,优化器采用Adadelta,Adadelta不是累积所有过去的梯度,而是根据渐变更新移动窗口调整学习速率,无需设置初始学习率,迭代次数为1 000,批次大小为32.硬件环境为:Inter®CoreTMi7-8750H CPU@2.20 GHz,NVIDIA GeForce GTX1060显卡,24 GB RAM,6 GB显存.具体的网络模型参数如表2所示:

Table 2 The Parameters of Network

续表2

4.2 实验数据集

实验采用Mall[2],Mall-WiFi[2],UJIIndoorLoc[56]3个RSS指纹数据集来评价DP-FLocEC的有效性和性能.其中Mall,Mall-WiFi数据集是在真实环境中,利用智能手机收集,实验场地的平面布置和蓝牙信标部署位置如图3所示,UJIIndoorLoc为公开数据集.

Fig. 3 The floorplan of experimental sites for collecting data图3 实验数据采集环境平面图

1) Mall数据集和Mall-WiFi数据集.均采自一个31.8 m×14.95 m的购物中心区域,整个区域被划分为10个子区域.在所有采集位置点附近总共布设了22个BLE信标,可以稳定检测到来自35个WiFi AP的信号.Mall数据集包含7 000个有效样本,每个样本都包含一个区域ID和57维RSS特征(22维蓝牙特征和35维WiFi特征).Mall-WiFi数据集同样包含7 000个有效样本,但每个样本只包含一个区域ID和35维WiFi特征.

2) UJIIndoorLoc数据集.采自Universitat Jaume I的一个390m×270m区域的4层建筑,该数据集包含19 937个训练样本和1 111个测试样本,每个样本包含一个楼层ID和520维的WiFi RSS特征.

通常情况下,RSS在-45~-100 dBm之间,如果AP靠近用户的终端设备位置,则其信号较强.相反,如果AP远离终端设备位置,则其信号较弱甚至不可用[57].实验中将信号强度较弱的RSS设置为-200 dBm,3个数据集在使用前都使用z-score方法进行了归一化处理.

4.3 实验结果与分析

实验模拟了2个拥有相同数据量的客户端,并将数据集按照90%,10%的比例划分为训练集与测试集,分别在3个数据集上进行了实验验证与分析.

4.3.1 Mall-WiFi数据集上的实验结果与分析

1) 隐私预算分配对模型性能的影响

为了防止不可信边缘服务器和云服务器获取到参与用户的私有训练数据,DP-FLocEC分别向用户RSS数据和模型参数添加了合适的Laplace噪声对数据进行扰动,但是添加噪声量的多少势必会对模型的性能产生影响.由差分隐私的定义知,向模型中添加的噪声越多,隐私保护的效果就越好,但对模型性能的影响也越大,添加的噪声越少,对模型性能的影响越小,但是用户的隐私不能得到很好地保护.因此,隐私预算分配策略对定位模型的性能至关重要.下面通过实验研究不同隐私预算分配对模型性能的影响.在下面的实验中,设置模型迭代训练次数为1 000次,批次大小为32,总隐私预算εtotal=1、将其分配给子隐私预算εs,εc,即εtotal=εs+εc.本组实验的主要目的就是评估不同的隐私预算分配εs,εc值对模型定位性能的影响.为了简便,设(εs,εc)={(x,y)|x=j,y=1-j,0.1≤j≤0.9},不同隐私预算分配εs,εc值对模型性能影响如图4~7所示.

Fig. 4 The training accuracy of different privacy budgets allocation图4 不同隐私预算分配的模型训练精度

从图4~7可以看出,不同的隐私预算分配(εs,εc)值会得到不同的模型定位性能.由差分隐私定义知,隐私预算越小,添加的噪声越多,对数据的扰动越大,隐私保护效果就越好.反之,隐私预算值越大,添加的噪声的量越小,对数据的扰动就越小,隐私保护效果就会越差.从图4~7中也可以看出,随着训练迭代次数的增大,定位模型的训练精度、测试精度在增大,而训练损失和测试损失在减小.当迭代轮次大于700时,模型的训练精度(图4所示)提升比较缓慢,几乎处于稳定状态,这说明模型经过700轮次的迭代训练后提取的信号特征已经能很好地描述整个训练数据集的整体特征.反观模型的测试精度(图6所示)和测试损失(图7所示)则表现没有训练精度(图4所示)和训练损失(图5所示)稳定.这是因为虽然模型经过700轮的迭代训练,提取的信号特征能代表整个训练数据集的特征,但其不能代表整个数据集(训练集和测试集)的特征,测试集仅用来测试训练后的模型性能,并不会参与到模型训练的特征学习任务当中,由此测试数据集的特征可能会和训练好的模型有一定的不匹配性,从而导致模型的测试精度和测试损失出现一定幅度的摆动.另外,从图4~7中也可以看出,在总隐私预算εtotal=1不变的情况下,随着εs的增大、εc的减小,对训练数据的扰动增加、对模型参数的扰动减小,模型的训练和测试精度在下降、训练和测试损失在增加,这说明给数据扰动分配过小的隐私预算εc值会对模型学习产生显著的负面影响.例如,当[εs,εc]=[0.1,0.9]时,表示对模型参数的扰动较大、对数据的扰动较小,此时的训练精度达到了92.33%、测试精度达到了94.15%训练损失为0.226 0、测试损失为0.271 9.当[εs,εc]=[0.5,0.5]时,对训练数据模型参数的扰动程度相同,模型训练精度达到了90.19%、测试精度达到了91.00%、训练损失为0.286 9、测试损失为0.351 2.当[εs,εc]=[0.9,0.1]时,表示对数据的扰动很大,而对模型参数的扰动很小,模型训练精度达到了72.38%、测试精度为52.00%、训练损失为0.774 6、测试损失为1.318 9.非常有趣的是,图6和图7中,当[εs,εc]=[0.9,0.1]时,随着学习迭代次数的增加,DP-FLocEC模型的测试精度从65.36%快速下降到50%以下、测试损失也由1.1快速上升到1.4,导致模型几乎不可用.这是因为DP-FLocEC模型训练时,在数据集上添加了太多的噪声,使训练数据与测试数据的分布差别变大,由此模型的训练精度随着迭代次数增加而增大,而测试精度由于产生过拟合而下降.为了在隐私保护和模型性能之间取得较好的权衡,后续实验选取[εs,εc]=[0.5,0.5].

Fig. 5 The training loss of different privacy budgets allocation图5 不同隐私预算分配的模型训练损失

Fig. 6 The testing accuracy of different privacy budgets allocation图6 不同隐私预算分配的模型测试精度

Fig. 7 The testing loss of different privacy budgets allocation图7 不同隐私预算分配的模型测试损失

虽然上面的隐私预算分配策略从模型效用最大化的角度来看是有益的,但我们也有必要讨论它对隐私的影响.由DP-FLocEC算法可知,它的2个私有操作阶段差分私有数据扰动和差分私有全局参数分别满足εs-差分隐私和εc-差分隐私,越高的隐私预算分配将会使该阶段RSS数据的特征保持更准确,而越低的隐私预算分配将会使该阶段的RSS数据特征得到更多的扰动.正如前面讨论的,这2个阶段联合决定了隐私预算分配,一种灵活的分配策略是可以让用户根据自己对哪个阶段有更敏感的认识来分配隐私预算,用户认为哪个阶段更敏感,则分配更小的隐私,从而产生更大的扰动来保护他的隐私.例如,如果用户感觉他的RSS数据本身更敏感,那么就给数据扰动阶段分配一个小的εc.如果用户认为全局模型参数更敏感,则分配一个小的εs对其产生更多的扰动.

2) 不同模型的性能比较

为了进一步说明DP-FLocEC的有效性,将之和Central[58],Central-DP[49],Fed[50],Fed-DP[46],FedMEC[18],OPP[44],OJP[44]模型在2种场景下做对比实验,各方法采用相同的优化函数、迭代次数、批次大小及总的隐私预算.Central,Central-DP,OPP,OJP采用了集中式的学习框架,其中Central方法没有进行隐私保护处理,而Central-DP,OPP,OJP采用了差分隐私保护策略,Fed,Fed-DP,FedMEC,DP-FLocEC采用了联邦学习框架,其中Fed没有采用隐私保护策略,其他3种方法均采用差分隐私保护策略.

场景1:Central-DP在模型参数上的隐私预算εs=1,Fed-DP在数据上的隐私预算εc=1,OPP ,OJP在损失函数和模型输出上的隐私预算εs=1,DP-FLocEC在训练数据和模型参数的隐私预算εc=εs=0.5,FedMEC空操作比例μ=5%,噪声尺度参数b=2.图8~11给出了不同方法的对比结果.

Fig. 8 The comparison of training accuracy of different models with εtotal=1图8 εtotal=1时不同模型的训练精度对比

Fig. 9 The comparison of training loss of different models with εtotal=1图9 εtotal=1时不同模型的训练损失对比

Fig. 10 The comparison of testing accuracy of different models with εtotal=1图10 εtotal=1时不同模型的测试精度对比

Fig. 11 The comparison of testing loss of different models with εtotal=1图11 εtotal=1时不同模型的测试损失对比

场景2:Central-DP在模型参数上的隐私预算εs=0.5,Fed-DP在训练数据上的隐私预算εc=0.5,DP-FLocEC在训练数据和模型参数的隐私预算εc=εs=0.5,OPP ,OJP在模型输出和损失函数上的隐私预算εs=0.5,FedMEC空操作比例μ=5%,噪声尺度参数b=2.图12~13给出不同方法的模型训练精度与测试精度对比结果.

Fig. 12 The comparison of training accuracy of different models with εc=εs=0.5图12 εc=εs=0.5时不同模型的训练精度对比

Fig. 13 The comparison of testing accuracy of different models with εc=εs=0.5图13 εc=εs=0.5时不同模型的测试精度对比

这种场景下,DP-FLocEC在模型参数和训练数据上添加噪声的量和分别在Central-DP,Fed-DP,FedMEC方法对应的模型和训练数据上添加的噪声以及OPP,OJP方法在模型输出和损失函数上添加的噪声量相同.从图12、图13可以看出,DP-FLocEC的训练精度和测试精度基本与Central-DP和Fed-DP方法的相同,相比于OPP,OJP方法,模型的训练与测试精度分别下降了5.49%,2.43%,7.73%,4.86%,相比于FedMEC方法,DP-FLocEC则有较大的优势.由此可见,DP-FLocEC即使在边缘服务器和云服务器都不可信的情况下,仍能在提供用户训练数据隐私保护的同时抵御差分攻击、模型反演攻击和梯度反向推理攻击,并获得了精确的定位精度.

3) 不同模型的时间性能对比

表3给出DP-FLocEC和其他7种模型的时间性能对比,其中D_PreP表示数据预处理时间、Time_Tr为模型训练时间、Time_Te为样本测试时间、Time_Com为通信时间.

Table 3 The Time Comparison of Different Models

从表3可以看出,DP-FLocEC在数据预处理上的时间和Fed-DP相近,高于Central,Fed,OPP,OJP方法,低于Central-DP和FedMEC.由于Central,Fed,OPP,OJP方法没有考虑到数据的隐私,因此在数据预处理时间低于其他方法.Fed,Fed-DP,FedMEC,DP-FLocEC基于联邦学习架构,其训练模型所需的时间比其他2种集中式的学习方法都少.由于各个模型采用的网络架构相同,因此每个方法的测试时间差别不大.此外,FedMEC方法对模型进行分割,使得可训练的模型参数减少,极大地降低了时间复杂度与通信复杂度.但是,该方法过于考虑用户的数据隐私保护,严重破坏了数据的原始分布,导致数据的可用性降低.

4.3.2 Mall和UJIIndoorLoc数据集上的实验结果与分析

为了验证DP-FLocEC在不同大小数据集上的有效性,分别在包含有520维RSS特征的UJIIndoorLoc数据集和57维RSS特征的Mall数据集上进行了与在Mall-WiFi数据集上相同的实验.采用模型的训练精度Acc_Tr、测试精度Acc_Te、训练损失Loss_Tr、测试损失Loss_Te、数据预处理时间D_PreP、模型训练时间Time_Tr、样本测试时间Time_Te及通信时间Time_Com作为评价指标,具体结果如表4所示.

从表4可以看出,DP-FLocEC的模型训练精度与测试精度在UJIIndoorLoc,Mall数据集上分别达到了95.93%,96.57%,93.53%,94.86%.比FedMEC在UJIIdoorLoc,Mall数据集上的模型训练精度与测试精度分别高出了0.68%,7.97%,10.97%,10.71%.虽然FedMEC方法对数据提供了更加严格的隐私保护,但是却严重破坏了数据的原始分布,使得模型的性能不高.与Central-DP,Fed-DP,OPP,OJP方法相比,DP-FLocEC模型训练精度与测试精度虽然在UJIIndoorLoc,Mall数据集上分别下降了[0.01%,1.25%],[-0.04%,0.72%],[-0.46%,1.91%],[-0.57%,3.28%],[3.34%,3.74%],[0.87%,1.37%],[3.91%,4.58%],[0.97%,3%],但是DP-FLocEC能够在保证服务质量略微下降的情况下,同时保证数据及模型参数的隐私.由于没有对数据进行隐私保护处理,Central,Fed,OPP,OJP方法在UJIIndoorLoc和Mall数据集上的数据预处理上花费的时间最少.此外,由于Fed,Fed-DP,DP-FLocEC基于联邦学习架构且网络模型相同,所以模型的训练与测试时间差别不大.值得注意的是,FedMEC方法在UJIIndoorLoc和Mall数据上的数据处理时间与其他方法相比是最大的、模型训练花费时间是最小的,虽然FedMEC也是基于联邦学习架构,但该方法对模型进行了切分,使得可训练的模型参数变小,模型训练的速度变快.此外,将特征提取与隐私保护任务分配给资源有限的终端设备,给终端设备计算资源造成了巨大的负担.另外,在Mall,Mall-WiFi,UJIIndoorLoc数据集上的实验也说明训练数据的特征越丰富,DP-FLocEC模型的定位精度越高;而且,在Mall,Mall-WiFi,UJIIndoorLoc数据集上分别取得了91%,94.86%,96.57%的测试精度.这也说明了DP-FLocEC具有很好的实用性和鲁棒性.综上,DP-FLocEC方法能够在提供高可靠室内定位服务的同时,保护数据及模型参数的隐私,使得室内定位服务应用更加安全、可靠.

Table 4 Comparison of Accuracy, Loss, and Time with Different Models

续表4

4.3.3 不同定位模型的性能比较

为了验证DP-FLocEC的性能,与Ciftler等人[15]所用的MLP框架以及Liu等人[43]提出的FLoc框架在UJIIndoorLoc数据集上进行比较实验,由于文献[15]利用MLP进行室内定位是一个回归问题,不能与本文的分类任务直接比较.因此,将其转换成一个分类任务.其中迭代次数为50,批次大小为256,实验结果如表5所示:

Table 5 Performance Comparison of Different Indoor Localization Models

从表5中可以看出,由于MLP网络结构比较简单、FLoc使用了自动编码器降低RSS数据的维度,使得模型的训练、测试时间都要优于DP-FLocEC.但是,由于DP-FLocEC使用了CNN来细粒度地提取RSS数据特征,训练得到的模型能够充分刻画数据整体特征,使得DP-FLocEC在模型的测试精度与测试损失方面的性能都要高于MLP和FLoc框架,对测试数据集的分类更准确,但是也造成DP-FLocEC的模型训练时间远高于MLP和FLoc框架.总之,基于CNN的DP-FLocEC模型在较快的响应时间内,能够为用户提供更加精确、可靠、实时的定位服务.

4.3.4 隐私泄露分析

(9)

本文分别在Mall-WiFi,Mall,UJIIndoorLoc这3个数据集上利用式(9)对DP-FLocEC模型的隐私泄露进行了实验,结果如图14所示:

Fig. 14 The analysis of privacy leakage图14 隐私泄露分析

从图14中可以看出,在总隐私预算不变的情况下,随着子隐私预算εs的增大,εc的减小,3个数据集上模型的隐私泄露逐渐上升,当[εs,εc]=[0.9, 0.1]时,在Mall-WiFi数据集上隐私泄露达到最大0.24,而在Mall数据集和UJIIndoorLoc上的隐私泄露值分别为0.0991和0.0083.由于Mall-WiFi数据集仅包含35维的特征,用于模型训练时易产生过拟合,攻击者更容易区分出训练数据,所以隐私泄露会比其他2个数据集高很多.而Mall数据集和UJIIndoorLoc数据集分别包含57维和520维特征,其隐私泄露非常低.这说明随着数据特征及数量的增大,隐私泄露风险会逐渐降低,这可能是因为数据量及数据特征越大,模型不易过拟合,攻击者很难区分训练数据和其余数据.因此,差分隐私机制能很好地保护用户的RSS数据隐私.从图14中也可以看出,当[εs,εc]=[0.5,0.5]时,本文方法在Mall-WiFi,Mall,UJIIndoorLoc这3个数据集上的隐私泄露分别为0.0333,0.019,0.0021,考虑到前面讨论的隐私预算分配对模型性能的影响,这种分配策略能在隐私保护和模型性能之间取得更好的权衡.

5 结 论

本文提出了DP-FLocEC模型,该模型构建了边缘计算框架下的联邦学习协议,降低了云服务器的计算开销、通信开销及数据传输延迟,同时利用差分隐私技术实现了可证明的隐私保护算法,解决了边缘服务器和云服务器上定位模型训练及应用过程中的用户数据及模型参数隐私泄露问题.为了解决终端设备资源受限问题,DP-FLocEC构建了一个基于CNN的轻量级室内定位模型,在Mall,Mall-WiFi,UJIIndoorLoc数据集上分别取得了91%,94.86%,96.57%的测试精度.实验结果和安全性分析表明,与基于云架构的集中式模型相比,该机制在提供可证明的隐私保护情况下取得了较高的定位精度、减少了通信开销;与基于联邦学习架构的分布式模型相比,该机制在取得几乎相同定位精度和资源开销的情况下,提供了更加全面的隐私保护.在未来的工作中,拟构建真实的室内定位及边缘计算环境,深入研究DL模型隐私保护中的动态隐私分配机制,优化室内定位模型网络架构,使得DP-FLocEC在提供更加细粒度隐私保护的同时,提高模型的精度,降低模型的训练、测试时间及通信开销.

作者贡献声明:张学军是论文核心思想和关键算法的提出者,主要负责论文撰写、修改,指导论文实验的设计、实现以及结果分析;何福存负责论文撰写、修改,以及实验设计、实现与结果统计分析;盖继扬、鲍俊达参与论文修改与部分实验结果分析;黄海燕、杜晓刚参与论文修改与结构设计.

猜你喜欢
差分指纹边缘
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
数列与差分
像侦探一样提取指纹
为什么每个人的指纹都不一样
一张图看懂边缘计算
基于自适应稀疏变换的指纹图像压缩
可疑的指纹
相对差分单项测距△DOR
在边缘寻找自我