王艳明 刘凯 安玉良 任建吉
摘 要:目前,各类地理数据标准不统一、安全密度低、多以孤島形式存在等问题日益突出,使得各数据节点无法汇聚,严重影响地理信息数据集的模型训练和分析。联邦学习作为一种新兴技术,对地理信息数据产业做出卓越贡献。文章从地理信息数据集孤岛问题出发,使用基于梯度上升树SecureBoost模型的联邦学习框架,从而实现数据汇聚和共享。实验结果表明:联邦共享技术使用去中心化架构会增加模型的训练时间,但在地理信息数据集方面可以大幅度解决数据孤岛问题,实现数据的共享交换。
关键词:地理信息数据;联邦学习;数据孤岛;共享交换
如今,大数据盛行的时代背景下,测绘产业的发展为海量的商业地理信息数据集提供了重要支撑,地理信息数据产业在数量和品质上也都取得了飞跃式进展。然而,现存的地理信息数据集却难以进行高精度模型训练。一方面,数据之间没有统一的标准且安全性较低,严重制约了数据的分析和模型训练。另一方面,不同区域之间的数据信息在很多情况下无法做到共享和交换。
针对上述问题,联邦学习作为一种客观的解决方式应运而生。其核心在于将多方面的数据信息进行跨区域、跨部门的汇聚,在不影响地理信息数据的情况下高效解决数据分散和孤岛问题,挖掘各地域信息数据集背后的价值。此外,利用联邦框架去中心化的特性,对数据进行处理和挖掘时为获得更高强度的隐私安全和信息保护[12]。
早在2016年,Google公司就已经提出了联邦学习的算法框架,起初应用于数据隐私保护。后来随着科技的发展,共享技术也应用于解决孤岛难题,逐渐被用以地理信息数据集的模型训练,进一步挖掘数据背后的价值。
本文以地理信息数据集分析算法发展面临的数据隐私保护和孤岛两大问题为出发点,研究基于联邦学习框架的共享交换和数据加密技术。两大技术均基于联邦学习的思想设计,通过引入去中心化联邦架构实现数据的统一和隐私保护。通过利用对等系统架构实现数据的共享交换。实验结果显示联邦共享技术虽无法100%满足数据汇集的精度,但远比单一孤岛模型精度更好。
1 联邦学习技术框架
1.1 中心化联邦架构
此架构在很多跨部门、跨区域的场景下也逐渐被接受,广泛应用于通信较稳定的联合多方用户学习场景[34]。主要采用中心化的联邦学习架构,上级部门位于架构顶端,作为服务器使用,整个架构中起着协调全局模型的作用。采用分布并行的方式完成数据训练,允许多节点参与且每个节点同时进行模型更新和结果汇聚,此框架各节点有较强的一致性,在服务器的中心协调下保证各模型和训练的正常进行,减少通信过程的阻碍。
在地理信息数据中应用此架构需要各参与方须与中央服务器合作完成联合训练。服务器在模型训练之前,将初始化的模型分发到各区域的参与方,之后参与方根据本地的地理信息数据集进行模型训练。将训练后的数据进行加密上传至中央服务器,此时中央服务器需要对各模型的结果进行汇聚,经聚合后的全局模型经加密技术再返回至各参与方,如图1所示。此框架严格维护各地理信息数据集的隐私,确保各区域数据标准化处理。
为保证地理信息数据集的安全隐私保护,整个训练过程的所有模型参数均属加密保护。这里主要使用以Elgamal方案为基础的同态加密技术,此方式颠覆了传统的加密方式,不同于之前,此方式允许密文进行任何形式的计算,也允许第三方对密文进行特定的密文运算,而且在加密过程中也对数据安全加以更高强度的维护。其密文形式如下:
CT=(C1,C2)=(gr,hr,m)(1)
其中r是加密过程中选的一个随机数,g是一个生成元,h是公钥。这里假设有两个地理信息数据密文:
CT1=(gr1,hr1,m1),CT2=(gr2,hr2,m2)(2)
根据Elgamal方案对密文进行乘法的同态加密。上述两个密文相乘可得:
CT=(gr1,hr1,m1,hr2,m2)=(gr1+r2,hr1+r2,m1m2)(3)
整个运算过程只涉及密文和公钥,并不知m1,m2的确切值。因此,高效保证了数据处理和密文计算的安全。处理密文中也不会泄露原始的数据内容,更高性能地维护了各区域间地理信息数据。
1.2 地理数据共享交换
以地理信息数据集共享交换为研究点,分析基于联邦学习架构的共享技术。地理信息数据集包含不同区域和地理环境等因素,其类型复杂、数据繁多。根据各数据信息基本无重叠、交叉且特征空间类似的特点,这里使用横向联邦学习实现模型训练和跨系统的数据共享交换[5]。各参与节点之间直接交互联结,当原始模型训练完成后对本地模型参数进行加密传输,分发给其余参与模型训练的各节点。
跨网、跨域的数据分布和孤岛问题,可通过设计联邦对等架构进行解决,此架构不存在中央服务器,各参与方之间直接通信。当参与方之间数据需要杂乱时,可以通过样本对齐等加以方案纠正。采用对等架构能够确保数据共生、共融和共享[6],从而形成完整、系统的地理信息数据管理体系。
对每一个地理区域数据进行整合,保证其在模型训练过程中的可用性,确保各客户端节点之间数据的共识、共享和可靠。在横向联邦学习架构中,模型训练和评估均采用分布式方式执行,任何节点都不能获取除本身之外的数据,只能在自己本地模型进行训练和评估,通过自身的数据来测试本地模型的性能。这里将客户端1临时充当为协调方进行模型的汇聚和结果更新,更加有效降低系统的通信开销,提高地理各数据间的安全和共享。
2 实验与结果分析
2.1 数据描述
实验数据为公开的OpenStreetMap地理信息资源的遥感影像飞机数据集,具体信息如表1所示。
实验数据集在样本上具有较强的多样性,数据类型丰富且具备较好的模型训练实验价值。在影像上面,具备各种经纬度、空间分辨率及天气分布。在样本多样性上,遥感技术涉及范围较广,具有较强的类别多样性。不同的实验数据和信息单独存放,训练时直接根据其不同的数据类型加以模型的选取和分配,保证其能够准确识别、训练和测试各区域数据,从而验证联邦学习架构在地理数据集中的共享和安全性能。
实验方面,数据集被平均分为五份,其中三份被用作实验的孤岛训练,其余两份作为测试集加以验证模型训练的准确性。为保证实验准确性,要求完成各部分孤岛之间的相应硬、软件配置,保证各孤岛之间的网络结构和初始模型相统一,确保所有模型训练在同一环境下,实现数据孤岛的测试和结果的汇聚更新。
2.2 模型及评价指标
在框架上为保证数据隐私安全和孤岛问题,采用横向的联邦学习架构,借用其中心化和对等特性保证地理数据集的隐私安全和共享交换。算法上,为保证特征分桶聚合的准确性,避免陷入局部精度的可能,主要采用梯度上升树SecureBoost模型加以孤岛、共享数据训练。特征提取方面,由于地理数据集的多样和长序列特性,这里主要通过使用长短期记忆模型(Long shortterm memory,LSTM)实现数据的无缝存储和长期保存,进一步解决模型训练中的梯度消失和梯度爆炸问题,相较于传统的循环神经网络(Recurrent Neural Network,RNN),LSTM具有更高的性能和处理速度。
对算法进行评测主要利用二元混淆矩阵,如图3所示。此混淆矩阵作为评判模型结果的最佳指标,主要包括:准确性(accuracy)、精确率(precision)和召回率(recall)[7]。根据各区域数据模型训练的结果加以精确计算,从而验证所提模型在解决孤岛问题上面的最佳优势。其中TP为真正例,FP为假正例,FN为假负例,TN为真负例。
2.3 训练参数设计
在模型训练参数设计阶段,所有的数据均采用统一标准,在同一运行环境下设置相同的训练参数和激活函数。本文采用Sigmoid函数作为激活函数,神经网络层数设置为4,最大学习率为10-3,最小学习率为10-5,学习衰减为0.001,样本遍历次数为50次。通过对各部分数据的模型训练以判定联邦架构在孤岛问题中的高效应用。
2.4 实验结果
为验证所提模型的有效性,本实验构建四个数据孤岛。在实验过程中,分为五组实验,首先,对选取的孤岛单独测试。其次,根据实验方案依次加入孤岛个数。最后,使用本文所设计的横向联邦架构实现对各区域模型数据的汇聚。从而,通过对比其各方案的精度来验证联邦共享技术性能。测试精度结果如表2所示。
从实验结果精度可以看出随着孤岛数量的增多其精度也在不断提升。孤岛数量愈多其结果愈加精确。但当使用联邦学习进行各区域数据汇聚时,其精度明显高于孤岛联合的各部分精度。由此,验证了联邦共享技术可以高效解决跨区域的数据孤岛问题。
结语
本文针对南极洲地理信息遥感数据无法实现数据共享且存在孤岛问题展开研究,基于联邦学习设计了基于同态加密的去中心架构和对等架构,通过梯度上升树SecureBoost模型对数据加以训练、测试。从实验结果可以看出,随着参与孤岛数量的增多其测试精度也在不断提升,且优于单一孤岛模式,从而验证了联邦共享方案的有效性。目前,基于加密技术进行模型训练的时间相对较长,且由于数据繁多导致传输速度较为缓慢。在今后的研究中仍然需要在其加密技术上进行优化和改进,提高训练时间和速度。
参考文献:
[1]胡健龙.联邦学习在车联网数据共享与保护技术中的研究[D].电子科技大学,2022.
[2]陈财森,纪伯公,黄辰,等.基于联邦学习的作战数据共享与隐私保护[J].装甲兵学报,2022,1(01):98103.
[3]夏家骏,鲁颖,张子扬,等.基于秘密共享与同态加密的纵向联邦学习方案研究[J].信息通信技术与政策,2021,47(06):1926.
[4]王亚珅.面向数据共享交换的联邦学习技术发展综述[J].无人系统技术,2019,2(06):5862.
[5]郑继龙,李维,刘勋,等.遥感影像人工智能數据集联邦共享技术研究[J].航天返回与遥感,2022,43(04):1224.
[6]陈律君,肖迪,余柱阳,等.基于秘密共享和压缩感知的通信高效联邦学习[J/OL].计算机研究与发展:113[20220925].
[7]谢世茂,毛航,陈思成.基于纵向联邦学习的快速提升树算法[J].信息技术与标准化,2022(06):5561.
*通讯作者:任建吉(1982— ),男,汉族,河南焦作人,博士,副教授,研究方向:工业大数据,人工智能。