杨再骥 付春海 张宇浩 唐敏 李亚楠
(1.桂林电子科技大学数学与计算科学学院 广西桂林 541004;2.桂林旅游学院 广西桂林 541006)
随着大数据和人工智能的发展,机器学习广泛应用于人脸识别[1]、图像分类[2]、自动驾驶[3]等。人工神经网络是统计机器学习中最优秀算法之一。目前,许多落地的实际应用都是基于神经网络,但人工神经网络是基于数据的学习,大量的训练样本是保证模型精度的必要条件[4]。对于很多应用,数据往往分散在不同的用户、存储在不同的地点,而很多数据都是具有隐私性的[5],如构建垃圾邮件分类器时用户邮件具有隐私性而无法直接共享[6],因此需要研究具有隐私保护的神经网络训练模型,实现在保证用户隐私的前提下完成模型构建。
目前隐私保护机器学习模型的主要技术有联邦学习、同态、安全多方计算、秘密共享等。JIANG Z L 等人[7]提出的基于联邦学习的神经网络训练方案,需要用户与服务器进行多次交互,导致用户的计算量和通信量较高;LI P等人[8]提出的基于全同态的深度学习方案,巨大的计算量导致实用性较差;MA X等人[9]提出的安全多方计算方案,通过云服务器进行全局聚合,实现隐私保护的深度学习方案。然而,频繁交互使通信成本增加;MA X等人[10]提出的秘密共享的神经网络预测方案,需要使用分段函数进行非线性函数的近似,从而导致模型精度下降。
为了达到用户与服务器之间的非交互性以及实现较低的计算量和通信量,本文提出一个基于秘密共享的隐私保护神经网络训练方案。利用秘密共享技术,实现安全计算模型参数和样本的内积。此外,该方案可以避免使用多项式近似等策略处理非线性函数,从而训练出的模型与原始的集中式模型一致,实现无损的模型训练。
隐藏层权重的梯度计算公式为
秘密共享包含两个算法,共享算法将一个消息m拆分成两部分m1和m2,满足m=m1+m2,将m1和m2分别发送给两台不共谋的服务器,消息在两台服务器共享,而任何一台服务器都不能获得m的真实信息;重构算法可将分属于两台服务器的信息发送给可信第三方,从而重建原始信息。利用秘密共享乘法和秘密共享内积,可以完成秘密共享下的两个数的乘法和两个向量的内积操作。
系统模型主要由两种实体构成,即用户和云服务器,如图1所示。
图1 系统模型
用户将自己的数据以水平方向的秘密共享和垂直方向的秘密共享的形式发送给两台辅助云服务器随即离线。
一台训练服务器CSNN,拥有模型参数、标签yi,并负责训练任务;两台辅助服务器,用户隐私保护神经网络中间结果的计算。
系统的安全性要求为保护用户数据隐私和模型参数隐私:(1)用户隐私不泄漏给云服务器;(2)模型隐私不泄漏给除训练服务器外的其他人。
为了评价基于秘密共享的隐私保护神经网络训练模型的精度和效率,使用Python 语言在数据集上进行了数值实验。数据集采用MNIST 和Fashion-MNIST,特征数28×28,样本数为70 000,训练集数量为60 000,测试集数量为10 000。
实验基于Colad,利用两个标准数据集对方案进行了性能评估,实验中的硬件平台配置为如下。Mem-Total:13 297 200 kB。GPU:Tesla T4。CPU:Intel(R)Xeon(R) CPU @ 2.30GHz。CUDA:11.2。
本节进行精度测试并与明文做对比,使用在测试集上的精度作为评估指标,根据表1给出的实验结果,可见由于本方案本质上等价于明文下全局数据训练,因此在精度上与明文相比几乎没有损失,证明了方案的可行性较强。
表1 精度对比
本节对方案进行效率测试并与明文下训练效果做对比,使用在训练集上单轮训练所需时间作为评估指标,根据图2 给出的实验结果,在Fashion-MNIST 以及MNIST 数据集上,本文方案比明文下全局数据训练单轮训练时间平均多1.013 s,证明了方案具有高效性。
图2 单轮训练时间对比图
本文提出一个基于秘密共享的神经网络训练方案。利用秘密共享技术,实现了内积函数的安全计算,避免采用同态,函数加密等复杂度较高的密码技术。而且方案实现了用户一次上传无须与服务器交互的效果,降低了用户的计算量和通信开销。数值实验证明了该方案是无损的且具有高效性。