智能电网中隐私保护状态估计的数据混淆算法

2018-11-10 01:55高钰莹

电子科技 2018年10期

陈倩，高钰莹，易松

(昆明理工大学信息工程与自动化学院，云南昆明 650500)

随着社会的发展，智能电网(Smart Grid，SG)已成为电网未来发展的趋势。通过电网的智能化，不仅可以更有效地使用电力，减少能源生产对环境的影响，还能够整合个人生成的再生能源，建立电动汽车等[1-2]。目前正在实施的SG计划为先进的计量基础设施(Advanced Metering Infrastructure，AMI)，它提供公用事业公司与消费者智能电表(Smart Meter，SM)之间的双向通信。公用事业公司可以使用这种基础设施短期监控电力需求，提供更准确的计费，并利用动态定价促使峰值需求降低[3-4]。一般情况下，可利用基于IEEE 802.15.4或IEEE 802.11s标准的无线网状网络(Wireless Mesh Network，WMN)来确保双向AMI通信。

对细粒度仪表数据进行收集处理时，存在用户敏感信息泄露问题。为了有效保护用户隐私，常使用以下3种方式：(1)使细粒度仪表数据匿名化；(2)掩盖或模糊个人消费；(3)仅关注保护与威胁通信网络中的仪表数据[5]。但是以上几种方式的使用，虽然有效的保护了隐私信息，但也大幅减小了公用事业公司执行电网的分布状态估计、计费和动态定价的能力。

为了有效实现电网的隐私保护和状态估计，本文提出一种仪表数据混淆方法来保护具有执行分布状态估计能力的消费者隐私，即在基于802.11s的WMN中，由网关负责创建混淆向量，然后通过引入多个网关安全而有效的方式将混淆值进行分配，最后对混淆测量值进行计算和传输，所得混淆值使仪表读数模糊化。该方法在有效保护了消费者隐私免受窃听者和公用事业公司的影响的同时，也保持了公用事业公司使用数据进行状态估计的能力。对比基线，基准符号，基准秒和反应性混淆，仿真结果表明，数据混淆法在数据包传输率，数据吞吐量和延迟方面都有性能提升。

1 系统建模

1.1 基础AMI网络

假设一个AMI通信网络由许多的SMs组成，且在SMs之间通过WMN对作为中继的网关服务器进行连接，除了电源质量和连接点的电压、电流等瞬时值外，SM测量主要衡量客户的实时电能消耗。在目前的AMI系统中，这些测量数据由公共事业公司控制中心或TTP(Time Triggered Protocol)进行收集。在本文中，因为中央控制中心的每种类型的处理都不是可扩展的选项，所以假设存在TTP，则所考虑的AMI网络的典型基础设施如图1所示。

图1 AMI基础设施

在图1中，无线网状网络WMN采用新的IEEE 802.11s标准进行创建，该标准允许通过802.11 MAC(Media Access Control)、PHY(Physical Layer)层标准在SM间进行网状网络的连接[6]。在802.11s的WMN中，所有节点被看作是网格点(Mesh Points，MPs)，且能为其它MPs之间的数据链路层提供连接，若MP还提供与因特网的连接，则称该节点为网格门户点(Mesh Portal Point，MPP)。在网格网络中，网关为MPP，它通过多跳路由收集在MPs(即SMs)上混淆的仪表读数。另外，IEEE 802.11s标准提供混合无线路由协议(Hybrid Wireless Routing Protocol，HWMP)作为默认的路由协议，以找到朝向目的地的多跳路径。TTP主要负责从网关收集数据，并将收集的数据进行存储以供将来访问，或以数据向量(例如阵列)的形式转发到公共事业公司。而公共事业公司主要负责创建和传输用于隐私保护的混淆基础信息到网关，网关收到混淆信息后，将创建各个混淆值并分发给SMs。为了有效的保护用户隐私，假设每个SM都采用基于椭圆曲线加密(Elliptic Curve Cryptography，ECC)的公钥、私钥进行初始化。ECC的开销与其他公共加密方案相比是最小的[7]；ECC使用与当前对称加密算法相当的密钥大小，避免了由于密钥大小较大而导致的其他公钥算法的高计算。本方法还假设网关知道其网状网络中每个SM的公钥，每个SM都知道网关的公钥。

1.2 WLSs状态估计

已知电力系统由总线收集、输电线路和电力仪表组成。状态估计用于监视电力系统的状态，即每个总线的电压幅度和相位角，以便保持可靠的供电。除了从配电系统变电站收集测量值外，通过使用仪表及其瞬时测量(如有功功率、无功功率和电压幅度)的低压配电网进行状态估计也是至关重要的。在状态估计过程中最常用的一种技术为WLSs(Weighted Least Squares)状态估计[8-9]。

在WLSs状态估计中，将网络的状态估计为变量x=(x1,…,xn)T的矢量，并使用由功率计测量组成的z=(z1,…,zm)T，其中n,m是正整数，且m>n，x∈Rn，z∈Rm。因此，系统的状态表示如下

z=h(x)+e

(1)

(2)

其中，W-1是e的协方差矩阵。

1.3 隐私保护状态估计

在分布式网络的状态估计中，存在严重的数据隐私泄露问题，而解决该问题的方法之一是扰乱收集的SM数据。为此，需要从核心表示为ker((H-1WH)-1HTW)的基础集合O={o1,…,om-n}的跨度中创建一个无失真的混淆空间，每个oi∈O是一个向量，其中有m个元素用于中断SM值，有m-n个矢量用于扰动[10]。另外，还创建了一个混淆的测量向量zobf，其中zobf=z+o,o∈O，表明可以通过使用zobf而不是z来计算相同的估计状态x。O主要来源于电网分布的状态，如变压器的升压或降压、总线配置分支成多个配线。O只能由公司在发生任何动态更改时发送，它可以重复使用多个读数，直到提供新的读数为止。

完成上述计算后，向量o中的元素将被发送到相应的SM，且每个SM将此元素添加到其实际功率测量中以隐藏的方式对数据隐私进行保护。

1.4 威胁模式和安全目标

已知对AMI收集的细粒度仪表数据的隐私和安全性攻击如下，并确定了相关的安全目标。攻击对象主要为：(1)消费者的隐私；(2)公用事业公司的隐私。

第一组为消费者的细粒度仪表数据的隐私：

攻击1公用事业公司滥用所获得的细粒度仪表数据来分析消费者的行为或与第三方共享数据。

安全目标1混淆收集的细粒度仪表数据，防止公用事业公司或相关第三方误用。

攻击2窃听者监视通信通道以捕获目标SM和网关之间的消息中的电表数据，以确定其消费者的行为。

安全目标2保护包含SM读数的通信。

攻击3窃听者损害网关收集存储的重现基准的混淆基础，以重新生成实际的仪表读数。

安全目标3限制网关入侵时可能获得的混淆数据量。

第二组为准确的状态估计和计费：

攻击4攻击者模拟网关，并向SM发送制造的混淆值，以改变电网的状态。

安全目标4提供发件人身份验证以验证邮件的发件人和内容。

攻击5攻击者捕获模糊值并重播它们以更改状态或计费。

安全目标5识别和丢弃重播的消息。

2 WMN上的数据混淆算法

2.1 概述

在本节中，将详细描述一个现实架构的设计，以及收集和混淆SM数据的过程。该算法主要有两个阶段：(1)混淆值由网关创建并分发给SMs；(2)每个SM创建其模糊功率读数并将其发送到网关，该方法避免了每个SM与TTP通信链路的假设。网关将所有数据传输到负责创建数据向量的TTP，并发送到公用事业控制中心(Utility Control Center，UCC)进行状态估计，TTP在每个计费周期结束时执行计费计算，并存储所有模糊的客户数据。

2.2 数据混淆过程

(1)创建混淆向量。

首先，由网关负责模糊向量的创建，即公用事业公司将混淆空间O的基础信息直接发送到网关，网关随机选择O中每个向量的权重值η，并构建一个模糊向量。当在接收到O时，网关随机选择O中每个向量vi的权重，并构建实际的模糊向量o。若假设有单个网关，则每个SM将从该向量o分配一个元素。然而，鉴于AMI网络的大型化，且网络需要被划分成由不同网关引导的多个SMs集群，该假设方案可行性较低。对于该情况，每个网关将获得相同的O，并将为所有SMs创建一个模糊向量，且每个网关仅服务于所有SMs的子集。在分发混淆值时，只需联系该网关集群内的SMs。

(2)安全分配的混淆值。

一旦在网关上创建了模糊向量o，将以安全有效的方式将这些值发送给SMs。为了减少交通流量，可以在网络内广播整个向量，并让每个SM选择其相应的模糊值。但是，该方法存在一些问题，首先，使用的TCP(Transmission Control Protocol)不支持广播，即使在没有确认的情况下使用UDP(User Data Protocol)，也会在网络中引起不必要的洪泛，即部分SM会从邻居多次接收相同的向量。另外，整个向量的大小随着SM计数的增加而增长，在IEEE 802.11标准中因超过最大传输单位(Maximum Transfer Unit，MTU)，需要额外的广播。为此，SMs需要定期发送读数，并在一定间隔时间内使用IEEE 802.11s标准的单播能力通过其路由协议HWMP分发混淆值，网关为每个SM准备一个数据包，并分别传输到每个SM。

另外，网关通常采用128位的AES块密码来加密向量中的元素。首先，为每个SM创建一个唯一的密钥，并通过使用其对应的的公钥将其与相应的SM进行交换。然后网关通过采用共享密钥(Shared Key，SK)加密混淆向量o[i]的每个SM发送对应的元素，并用自己的专用密钥PRG进行签名，其时间戳(TS，Time Stamp)添加如下

Gateway→SMi:
{}SK,SigPRG({}SK)

(3)

(3)计算和传输混淆测量。

当SMi接收到其元素o[i]时，通过将其当前功率读数pi和o[i]相加来计算其混淆功率测量opi：opi=pi+o[i]。然后，SMi时间戳总和，网关使用私钥PRi对总和进行数字签名，SMi再次使用HWMP将其发送到网关

SMi→Gateway:
,SigPRi()

(4)

从每个SM中接收模糊测量时，网关对数字签名和TSs进行验证，并将它们发送到TTP，假设网关可以等待所有的SM读数，并将其作为单个数据包发送。TTP为公共事业公司准备了模糊的测量向量，且当计费周期结束时，对所有测量进行总和操作，以获取每个SM在计费周期内对用户收费的总使用量，而公共事业公司将接收来自TTP的模糊测量向量并使用它进行状态估计。

2.3 采用多种网关的情况

假设AMI网络分为多个集群，每个集群由不同的网关引导，每个网关节点分别具有用于802.11和用于LTE(Long Term Evolution)的无线电，且每个网关提前知道其集群内的SM的ID和其他网关的公钥，网关需要彼此进行通信，以便使用装置到设备(D2D)通信架构来交换混淆元件[11]。然而，在这种情况下，该混淆向量的形成是不同的，即公用事业公司导出的混淆基础O需要分解为g个组件，其中g表示网关数量，其中每个组件都使用每个网关的公钥加密，并通过LTE网络发送到该网关。

对于有g个网关的情况，公用事业公司需要发送g个消息以发送部分混淆基础，参与模糊向量生成的每个网关都需要联系g-1个网关来发送自己的模糊向量，其余步骤与单网关方法类似，最后将有g个从网关发送的消息 TTP。由于互联网间通信将使用LTE直接，因此该方式不会对网关造成任何负担。

3 仿真分析

3.1 实验设置

为了验证数据混淆法在数据包传输率，数据吞吐量和延迟方面的性能提升，首先进行实验设置，如下：采用网络仿真器ns-3来实现算法仿真，该仿真器具有IEEE 802.11s的实现，可以真实地模拟SM中的物理层和任何随机的干扰[12]。创建随机连接的AMI网络拓扑，在大小为1200 m×1200 m的区域中布置25、36、49、64、81和100个节点。在该区域中，将模拟使用单个网关与公共邻域的大小公司进行通信，且每个SM的传输范围设置为100 m。底层MAC协议是IEEE 802.11g，TCP协议用于确保可靠性，SM的数据频率设置为10 s，模拟运行1 000 s，通过测试20次不同拓扑的每次运行，报告拓扑的平均值。

另外，将采用crypto ++库[13]来进行加密操作，椭圆曲线数字签名算法(ECDSA)是美国政府使用的批准签名算法，椭圆曲线综合加密方案(ECIES)是具有多项标准的知名方案[14-15]。仅当需要签名时使用ECDSA，在同时需要加密和签名时使用ECIES，在这两种情况下，使用带有SHA1的ASN.1 secp128r1标准曲线，密钥长度为256位。

3.2 基准和性能指标

为了与其它算法进行仿真比较，考虑了3个基准，如下所述：

(1)基线:即表示为以清晰的方式发送仪表读数，不提供隐私；

(2)基准符号:即提供验证，但不会在传输中提供任何机密性，并且公用事业提供商具有访问权限到细粒度的仪表数据；

(3)基准秒:即提供了身份验证和机密性，但是公共事业公司的程序提供商仍然可以访问细粒度的仪表数据。

此外，将对不同设置进行分析，如将仪表读数频率设置为10和20 s，以观察其特别是端到端(End To End，ETE)延迟的影响，并将基于不同数据传输策略实现的三种模糊机制描述如下：

(1)数据混淆：即在计费器接收到的情况下，SM每隔10 s向网关发送模糊读取值的调度传输混淆值较早，网关将模糊值同时发送到下一个报告时间的SM；

(2)反应性混淆：收到模糊值后，仪表将模糊读取值，并即时发送到网关；

(3)轻松混淆：类似于数据混淆，但网关不会同时发送混淆值，相反，在混淆值分布和抄表报告过程之间有10 s或20 s。

在进行仿真比较时，考虑了3个性能指标如下：

(1)吞吐量：即每秒由网关在应用层接收的数据量；

(2)数据延迟：即读取到达网关所需的总时间；

(3)数据包传送率(Packet Delivery Ratio， PDR)：即与SM发送的数据包数量相比传送到网关的数据包的比率。

3.3 安全分析

对本文所提的安全目标进行评估，评估如下：

(1)安全目标1：由于细粒度仪表数据被模糊化，因此无法随时确定实际读数，即无法对消费者的任何活动或行为进行分析；

(2)安全目标2：SM发送给网关的模糊读数并不反映实际的读数，即使窃听者捕捉到这种读数，它对用户活动的推断也是错误的。此外，由于网关在每个读数收集期间传播不同的混淆值，窃听者不能提取消费者的功耗模式；

(3)安全目标3：如果网关受到威胁，可以获得有关该集群的混淆信息，然而，由于还有来自其他网关的其他混淆值，攻击者也需要访问所有其他网关。因此，在单个网关被破坏的情况下，无法获得实际的仪表读数；

(4)安全目标4：由于所有的SM都使用包含混淆信息和测量的消息的数字签名，因此可以验证数字签名以确认消息发送者的身份。由于所有消息都是时间戳和数字签名的，因此可以检查TS以验证接收的消息是否用于当前读取；

(5)安全目标5：由于所有消息都是时间戳和数字签名的，所以可以检查TS以验证接收的消息是否用于当前读取。

3.4 仿真结果

为了验证所提数据混淆算法性能最优化，将对基线、基准符号、基准秒、反应性混淆法与数据混淆在PDR、实际吞吐量、ETE延迟方面进行仿真分析，其实验结果如图2～图7所示。

(1)PDR包传送率。

图2 PDR随节点数量的变化示意图

如图2所示，随着SM数量的增加，基线、基准符号、基准秒和数据混淆法的PDR逐渐减少，PDR减小由传输数据包数量增加引起的冲突所造成。从图中可以看出，基线的PDR达到最高，而数据混淆法的PDR达到最低，基线符号和基线秒的PDR几乎相同。当节点数为100时，基线、基准符号、基准秒和数据混淆法的PDR分别为：86%、86%、86%和80%。对比基线、基准符号和基准秒，数据混淆法的PDR达到最优。

(2)实际吞吐量。

图3 吞吐量随节点数量的变化示意图

如图3所示，随着节点数量的增加，基线、基准符号、基准秒和数据混淆法的吞吐量逐渐增加。从图中可以看出，基线的增幅最小。由于从网关向SM发送混淆值时，通过相同路径会引起干扰和网络繁忙，最终导致吞吐率的增加率略有降低。相比基线、基线符号、基线秒，数据混淆法具有更高的有效性，这由发送的数据包的大小决定，即使基线具有最高的PDR，但其他3种方法产生的数据包的大小补偿了这种差异并导致较高的吞吐量。

(3)ETE延迟。

图4 延迟随节点数量的变化示意图

如图4所示，显示了基线，基准符号，基准秒和数据混淆法的延迟随节点数量的变化示意图。从图中可以看出，节点数多达49个节点时，所有算法的延迟都是相似的，而随着网络规模的增长，拥塞程度也逐渐增加，导致延迟增大。当节点数超过49时，相比基线，基准符号和基准秒，数据混淆法的延迟最低。这是由于SM正在等待来自网关的混淆值，所以不能在同一时间发送读数，而混淆值则由于网络的拓扑结构在不同时间到达目的地。在其他方法中，更多节点同时参与消息发送，因此由于重争用和干扰，信道接入延迟显着增加。

(4)数据混淆与反应性混淆。

图5 PDR随节点数量的变化示意图

如图5所示，显示了基线，数据混淆法和反应性混淆的PDR随节点数的变化示意图。所谓反应性混淆，即SM在收到模糊值时会将其模糊读数发送到网关而不是等待下一个报告时间。由于对于混淆值分配，没有来自网关的流量导致拥塞和干扰，反应性混淆的PDR几乎与数据的模糊化相同，而基线的PDR却最高。在这里，可以使用TCP确保即使SM之间存在竞争，访问信道也可以传送分组。

图6 吞吐量随节点数量的变化示意图

如图6所示，显示了基线，数据混淆法和反应性混淆的实际吞吐量随节点数的变化示意图。从图中可以看出，反应混淆和数据混淆的吞吐量几乎一致，当节点数量接近100时，数据混淆法吞吐量大于反应性混淆，而基线的吞吐量较低。相比反应性混淆和基线，数据混淆法的吞吐量最高。

图7 延迟随节点数量的变化示意图

如图7所示，对反应混淆的ETE延迟性能进行测试，并将其与数据混淆法和基线进行比较。从图中可以看出，在95%的置信区间中，结果保持在样本平均值的1%～13%之内。虽然反应性混淆在PDR和吞吐量两方面都与数据混淆法相似，但在ETE延迟方面却显着降低了。这是因为当混淆值在不同时间到达SM时，来自SM的读数的传输时间在反应性混淆中是不同的。由于MAC层上的WiFi信道的不可用性，许多SM重复地经历退避，将显着增加延迟，但在反应性混淆中却并非如此。

4 结束语

在智能电网中，通过收集和使用细粒度的电表数据，可以有效推断用户的活动和行为模式。针对存在敏感数据泄露的严重问题，虽然可以通过数据隐藏实现用户隐私的保护，却降低了分布状态估计能力。为此，本文提出一种仪表数据混淆算法来保护具有执行分布状态估计能力的消费者隐私，即在基于802.11s的无线网状网络中，由网关负责创建混淆向量，然后通过引入多个网关安全有效的将混淆值进行分配，最后对混淆测量值进行计算和传输，所得混淆值使仪表读数模糊化。该方法既有效保护了消费者隐私免受窃听者和公用事业公司的影响，同时又保持公用事业公司使用数据进行状态估计的能力。对比基线、基准符号、基准秒和反应性混淆，仿真结果表明，数据混淆法在数据包传输率、数据吞吐量和延迟方面都有性能提升。