穆雪莲 咸鹤群
摘要:数据去重的过程中,云存储系统会产生大量的计算机调度冲突。针对去重操作调度冲突问题,提出一种基于长短期记忆网络(LSTM)机器学习方法的预测模型,可根据历史操作预测服务器负载情况,由此给出操作序列建议,对服务器进程进行合理调度并实施去重操作。并与基于随机模拟仿真数据的操作调度进行了对比,实验结果表明,本方案在提高服务器去重操作执行效率方面具有优势,能够降低服务器的性能开销。
关键词:云存储;数据去重;调度优化 ;LSTM;预测模型
中图分类号:TP391
文献标志码:A
文章编号:1006-1037(2021)01-0025-04
基金项目:山东省自然科学基金(批准号:ZR2019MF058)资助。
通信作者:咸鹤群,男,博士,副教授,主要研究方向为密码学、网络与信息系统安全、云计算安全等。E-mail:xianhq@126.com
随着云存储服务的广泛推广和大规模应用,云端存储的数据庞大,研究发现,基于虚拟机主存储系统中有80%的数据冗余,存储系统中高达60%的数据是冗余的[1],越来越多的冗余数据被存储在云服务器中,数据去重技术得到广泛应用。在数据去重的过程中,云存储系统会产生大量的计算机调度冲突。如何在保护用户数据隐私的同时解决调度冲突,提高去重操作的效率,是数据去重方案面临的新问题。相同的数据在不同的加密密钥和加密方式的作用下,所得的密文也不一致[2-3],云服务器难以直接根据密文判断该数据是否来自于同一明文数据,这也严重制约了跨用户重复数据删除系统的执行效率[4]。Liu等[5-6]提出了服务器端数据去重方案,拥有相同数据拷贝的用户,调用Password Authenticated Key Exchange(PAKE)协议进行密钥交换。付印金等[7]重点分析和总结数据去重各项关键技术的研究现状,包括数据划分方法、I/O优化技术、高可靠数据配置策略以及系统可扩展性,有效提高了数据去重的效率。咸鹤群等[8]提出了一种可验证的数据去重方法,无需可信第三方在线参与有效提高了数据去重的效率。为提高数据去重效率,Stanek等[9]提出将数据分为流行数据和非流行数据,并采取不同的加密策略。现有的商用云存储系统普遍采用了数据去重技术,如Dropbox,Wuala,Mozy,Geogle Drive等[10]。但该技术的提出也引来了数据安全、用户隐私、去重操作效率低下等一系列相关问题。终端设备产生数据量的激增,使得终端数据不得不外包到专门的数据中心,为了降低资源消耗,减少系统开销,引入了一种新型的计算范式,称为fog计算[11],数据所有者可以更新或者删除存储在远程存储中的外包数据。刘红燕等[12]提出了一种采用文件级和块级相结合的重复数据删除方法,在实现高效重复数据删除的同时,更好地保护了用户数据隐私。通过对数据去重技术当前研究现状的分析,恰当的机制打破数据去重技术的可靠性局限并减少数据去重技术带来的额外系统开销也是一个重要的方面[13]。为提高数据去重的效率,程思嘉等[14-15]提出了一种基于密文策略属性的数据删重方案。该方案采用混合云结构,公有云负责数据的存储,私有云负责数据重复检测。上述方案都是对用户的隐私数据进行分类、加工操作,去重效率并没有得到大幅度的提升。针对此类问题,本文提出了一种基于机器学习的去重操作调度方法,通过解决去重过程中的冲突,提升调度效率。
1 方案
本方案基于长短期记忆网络(LSTM,Long Short-Term Memory)构造机器学习模型。解决数据安全去重方案中去重操作与服务器其他数据操作的调度冲突问题。在一般的基于数据加密的数据去重系统中,删除冗余数据之前需要预先对密文数据进行处理[16]。这些操作与服务器正常的数据操作之间的调度优化,能够显著提升数据去重的执行效率。
本方案的系统模型包含3类实体:用户(U)、预测器(P)和云服务器(CS),云服器为用户提供数据存储和数据共享服务。为训练出一个效果突出且可以提供性能调度优化策略的预测器P,引入了LSTM神经网络模型,将该网络的神经元个数设置为26 240,时间步为1,输入数据个数为1,输出维度为80,迭代次数为1 000次,利用该预测器得出的结论指导序列生成器生成操作序列建议,云服务器可依据此建议进行去重操作的调度,用户可以将自己的数据上传至云服务器。若云端检测到该数据为冗余数据,则做冗余数据删除准备,向预测器发送进程调度请求,预测器可以根据云服务器当前操作的反馈数据预测出在未来一段时间服务器调度的高峰低谷即空档期,并将此预测数据交给序列生成器加工生成操作序列建议,云服务器可以依据此建议进行去重操作调度。本方案的综合流程图如图1所示。
預测模型包含四个算法:文件生成算法Encryption,数据判断算法JudgeGen,预测生成函数 PredictGen,序列生成策略ArrayGen。
(1)Encryption(F)→C:文件生成算法,由用户U执行。输入数据所有者的上传数据F,输出文件C,然后将C上传至云服务器CS。
(2)Judge-Gen(C)→R<Amo,D(OS)>:数据判断算法,由云服务器执行。输入文件C,产生文件规模标识Amo和云服务器当前操作调度D(OS),并将二元组R<Amo,D(OS)>请求发送给预测器P。
(3)Predict-Gen(R,TW)→T<S,Ra,Res>:预测生成函数,由预测器执行。输入云服务器相关数据R和训练生成网络TW,输出预测器生成的调度策略S(即预测器生成的曲线图表)、当前服务器繁忙等级Ra和理想操作状态Res(True或False)。并将此性能调度优化策略T<S,Ra,Res>交予序列生成器生成操作序列建议。
具体步骤为:①将训练好的神经网络输入到预测器中,对未来一段时间云服务器的操作调度情况进行预测;②预测器根据输入的(R,TW),生成调度策略S,当前服务器繁忙等级Ra和理想操作状态Res。当前服务器的繁忙等级输出为High或者Low,理想操作状态Res分为True和False;③将输出的值T<S,Ra,Res>发送给序列生成器
(4)Array-Gen(T)->Suggest:序列生成策略,根据预测结果生成操作序列建议,即0-1字符串。
具体步骤为:①根据数据T,提取出操作序列,并将操作次数的平均值作为区分高峰低谷的标准,低于平均值的时刻进行输出,并生成操作序列建议(即0-1字符串);②将序列建议发送给云服务器。操作序列建议中0表示此时可以进行去重调度,1表示此时服务器被占用无法进行去重操作的调度。
2 仿真与实验分析
本方案采用Python语言,利用Skerlearn、Pandas、Random等函数库进行方案的实现。运行平台是具有4GB运行内存、4核CPU,运行的操作系统是Windows。实验基于Keras高级神经库中的LSTM神经网络,该神经网络的神经元个数为26 240,设置该LSTM的时间步为1,输入数据个数为1,输出维度为80,迭代次数为1 000次。实验将以一分钟作为时间跨度的数据上传给预测器,根据实验结果的输出,提取出预测数据中的高峰低谷,与真实数据的高峰低谷进行对比分析,结果输出如图2所示。
图2中0~160 min的部分(虚线左侧)是训练数据集作为网络输入得到的预测结果和实际数据的比较。虚线右侧(161~240 min的部分)是测试数据集作为网络输入得到的预测结果和实际数据的比较。根据预测器所得出的未来一段时间内服务器的调度预测情况,对应生成操作建议序列。方案定义高于所有预测结果平均值的时刻为服务器繁忙期,低于平均值的时刻为空闲期,从而指导服务器进行去重操作的调度。首先求得所有预测数据的平均值,高于该平均值的时刻输出1,低于该平均值的输出0,最终得到操作序列建议0-1序列,序列建议为0的时刻进行去重操作调度,为1 的时刻不进行任何调度。最后进行了普通的随机碰撞模拟实验,数据显示该实验碰撞概率在20%以上。通过对两种预测结果的对比分析,根据预测器给出的性能调度优化策略,可以最大幅度的提升调度的效率,从而使得去重能够更快更有效的进行。对比结果如图3所示,Predictor数据为预测器的结果得出的调度冲突概率,Random数据为普通模拟得出的冲突概率。
3 结论
本文设计了基于机器学习的云存储数据安全去重调度方案,基于LSTM神经网络,训练出一种可以根据历史操作来预测未来一段时间内服务器调度情况的预测器,根据预测器给出合理的操作序列建议,依据此序列对服务器进程进行调度并指导去重操作。首次对加密数据去重方案中关于去重操作执行效率进行讨论,提出了首个基于LSTM模型对去重操作进行调度的方案。文中给出了依据性能调度优化策略进行服务器调度产生的碰撞率与随机模拟碰撞实验的对比情况,表明此方案是方便高效的,提高了去重操作的效率,降低了服务器的性能开销。
参考文献
[1]CLEMENTS A, AHMAD I, Vilayannur M, et al. Decentralized deduplication in SAN cluster file systems[C]//Proc of the USENIX ATC′09. Berkeley, CA: USENIX, 2009:101-114.
[2]DOUCEUR J R, ADYA A, BOLOSKY W J, et al. Reclaiming space from duplicate files in a serverless distributed file system[C]//Proceeding of the 22nd International Conference on Distributed Computing Systems. Piscataway, NJ: IEEE, 2002:617-624.
[3]LIU J F, WANG J F, TAO X L, et al. Secure similarity-based cloud data deduplication in Ubiquitous city[J]. Pervasive and Mobile Computing, 2017,41:231-242.
[4]ZHANG P F, HUANG P, HE X B, et al. Resemblance and mergence based indexing for high performance data deduplication[J]. Journal of Systems and Software,2017,128:11-24.
[5]LIU J,ASOKAN N,PINKAS B. Secure deduplication of encrypted data without additional independent servers[C]//Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2015: 874-885.
[6]胡学先,张振峰,刘文芬.标准模型下通用可组合的口令认证密钥交换协议[J].软件学报,2011,22(11):2820-2832.
[7]付印金,肖儂,刘芳. 数据去重关键技术研究进展[J]. 计算机研究与发展,2012,49(1):12-20.
[8]咸鹤群,刘红燕,张曙光,等.可验证的云存储安全数据删重方法[J].软件学报,2020,31(2):455-470.
[9]STANEK J,SORNIOTTI A,ANDROULAKI E,et al. A secure data deduplication scheme for cloud storage[C]// Proceedings of the 18th International Conference on Financial Cryptography and Data Security. Berlin: Springer,2014: 99-118.
[10] 张曙光,咸鹤群,王雅哲,等.基于离线密钥分发的加密数据重复删除方法[J].软件学报,2018,29(7):66-72.
[11] KOO D,HUR J. Privacy-preserving deduplication of encrypted data with dynamic ownership management in fog computing[J]. Future Generation Computer Systems, 2018,78: 739-752.
[12] 刘红燕,咸鹤群,鲁秀青,等. 基于用户定义安全条件的可验证重复数据删除方法[J]. 计算机研究与发展, 2018, 55(10): 2134-2148.
[13] 敖莉,舒继武,李明强,等. 数据去重技术[J]. 软件学报,2010,21(5):916-929.
[14] 程思嘉,张昌宏,潘帅卿.基于 CP-ABE 算法的云存储数据访问控制方案设计[J].信息网络安全, 2016(2):1-6.
[15] CUI H,DENG R H,LI Y,et al. Attribute-based storage supporting secure deduplication of encrypted data in cloud[J]. IEEE Transactions on Big Data,2017,5(3):330-342.
[16] 高原,咸鹤群,穆雪莲,等. 基于阈值自适应调整的重复数据删除方案[J]. 青岛大学学报(自然科學版),2019,32(4):36-39.